Apa Itu Regresi Linear Berganda (Multiple Linear Regression)?

Tulisan diadaptasi dari Scribbr.com

Seperti yang kalian tahu, regresi memungkinkan kita untuk mengestimasikan bagaimana nilai dari sebuah dependent variable (variabel terikat) berubah saat terdapat perubahan terhadap independent variable (variabel bebas) nya. Regresi linear berganda digunakan untuk mengestimasikan hubungan antara dua atau lebih independent variables dan satu dependent variable.

Kamu dapat menggunakan regresi linear berganda saat kamu ingin mengetahui:

  1. Seberapa kuat hubungan antara dua atau lebih independent variables dan satu dependent variable (misalkan bagaimana tingkat curah hujan, suhu, dan jumlah pupuk yang ditambahkan memengaruhi pertubuhan tanaman).
  2. Memprediksi nilai dari dependent variable saat independent variables mempunyai nilai yang diketahui (misalkan untuk memprediksi hasil tanaman dengan tingkat curah hujan, suhu dan penambahan pupuk dalam jumlah tertentu).

Contoh
Kamu adalah seorang peneliti kesehatan masyarakat yang tertarik untuk mengetahui faktor-faktor gaya hidup yang memengaruhi penyakit jantung. Kamu menyurvei 500 kota dan mengumpulkan data persentase dari masyarakat yang merokok di tiap kota, persentase dari masyarakat yang bersepeda menuju kantor di setiap kota, dan persentase masyarakat yang memiliki penyakit jantung di setiap kota.
 
Karena kamu memiliki dua independent variables dan satu dependent variable dalam kasus ini, serta semua variabel mu bersifat kuantitatif, kamu dapat menggunakan regresi linear berganda untuk menganalisa hubungan antar variabel-variabel tersebut.

Asumsi-Asumsi atas Regresi Linear Berganda

Asumsi-asumsi yang digunakan pada regresi linear berganda tak berbeda dengan asumsi yang digunakan pada regresi linear sederhana:

  • Uji homogenitas (homogeneity of variance / homoscedasticity): besarnya eror atas prediksi yang kita buat tak berubah secara signifikan dengan nilai independent variable yang berbeda-beda.
  • Independence of observations: observasi-observasi dalam dataset (himpunan data) dikumpulkan dengan menggunakan metode yang valid secara statistik, dan tak ada hubungan yang tersembunyi antar variabel. Dalam regresi linear berganda, sangat mungkin bahwa beberapa dari independent variable nya saling berkorelasi antara satu sama lain. Karenanya, penting untuk memeriksa hal ini sebelum model regresi dikembangkan. Jika terdapat dua independent variable yang tingkat korelasinya tinggi (r2 > ~0.6), maka hanya salah satu dari mereka yang sebaiknya digunakan dalam model regresi.
  • Normality (Normalitas): Data mengikuti pola distribusi normal.
  • Linearity: Garis yang paling sesuai (best-fit line) untuk menggambarkan data points yang berbeda adalah sebuah garis lurus, bukan sebuah garis lengkung (curve).

Bagaimana caranya melakukan regresi linear berganda

Formula dari regresi linear berganda adalah:

y = β0 + β1X1 + … + βnXn + ɛ 

  • y = nilai prediksi dari dependent variable
  • β0 = the y-intercept (nilai dari y saat parameter / independent variable yang lain bernilai 0)
  • β1X1 = koefisien regresi (β1) dari independent variable yang pertama (X1) (besarnya efek yang ditimbulkan terhadap prediksi nilai y saat nilai dari independent variable yang pertama berubah)
  • βnXn = koefisien regresi dari independent variable yang terakhir
  • ɛ = eror dalam model (besarnya variasi dalam estimasi model terhadap nilai y)

Untuk menemukan garis yang paling cocok (the best-fit line) untuk setiap independent variable, regresi linear berganda harus mengalkulasi tiga hal:

  • Koefisien regresi yang menghasilkan nilai eror yang paling rendah terhadap model
  • t-statistic dari model secara keseluruhan
  • p-value dari model secara keseluruhan

Kemudian regresi linear berganda menghitung juga t-statistic dan p-value untuk setiap koefisien regresi dalam model. Untuk penjelasan terkait t-statistic dan p-value, bisa ditemukan di bawah.

Menerjemahkan hasil regresi linear berganda

Walaupun sangat mungkin untuk melakukan regresi linear berganda secara manual, saat ini regresi lebih sering dilakukan menggunakan software statistic seperti R dan SPSS. Kali ini kita akan melihat hasil regresi dari pengaruh independent variables yang terdiri dari biking (bersepeda) dan smoking (merokok) terhadap dependent variable yang berupa penyakit jantung (heart disease). Untuk melihat secara detil langkah-langkah untuk melakukan regresi dengan software R, bisa klik tautan ini kawan.

Tabel di bawah ini merupakan hasil regresi linear berganda menggunakan sofrware R.

Sumber Gambar: Scribbr – Multiple Linear Regression | A Quick and Simple Guide

Tabel hasil regresi pertama-tama memperlihatkan formula regresi dalam bagian (‘Call’), kemudian tabel juga menunjukkan residuals dari model. Jika median dari residuals mendekati nol dan memiliki sebaran yang mirip pada kedua sisi, seperti yang dimiliki oleh regresi dari data ini (dengan median 0.03, min nya mendekati -2, dan max nya mendekati 2), maka model ini kemungkinan besar memenuhi asumsi heteroscedasticity. Heteroscedasticity terjadi ketika standard errors dari sebuah variabel yang dimonitor dalam jangka waktu tertentu tidaklah konstan.

Selanjutnya adalah koefisien-koefisien regresi dari model yang dikelompokkan dalam tabel dengan judul ‘Coefficients’. Baris pertama dari tabel coefficient ini berlabel-kan ‘intercept’ yang merupakan y-intercept0) dari persamaan regresi. Mengetahui estimasi nilai dari intercept sangat membantu untuk membuat persamaan regresi dan memprediksi nilai dari dependent variable nya.

Kemudian masih dalam tabel ‘Coefficients’ terdapat kolom ‘Estimate’ yang berisi nilai dari koefisien regresin) atau r2 value. Nilai pada kolom estimate di atas menunjukkan bahwa peningkatan sebesar 1% terhadap angka bersepeda menuju kantor diasosiasikan dengan penurunan penyakit jantung sebesar 0.2%. Sementara meningkatnya intensitas merokok sebesar 1% diasosiasikan dengan 0.178% peningkatan penyakit jantung.

Berdasarkan pada nilai intercept dan koefisien regresidi atas, maka dalam kasus ini, persamaan regresi yang mampu mengestimasikan terjadinya penyakit jantung adalah:

Heart disease = 14.98 + (-0.2 x biking) + (0.178 x smoking) ± e

Lalu kolom ‘std.error’ pada tabel ‘Coefficients’ menunjukkan standard error (kesalahan baku) dari estimasi model regresi. Angka ini menunjukkan seberapa besar variasi yang ada pada estimasi dari koefisien regresi. Semakin kecil standard error, maka sampel data yang digunakan semakin dapat mewakili populasi secara keseluruhan.

Kolom t-value dalam tabel ‘Coefficients’ membantu mengukur signifikansi statistic dari independent variable dalam menjelaskan dependent variable. Dalam software R, nilai t-value didapatkan dengan cara membagi nilai koefisien regresi dengan nilai standard error nya. Dari kolom di atas, kita tahu bahwa koefisien regresi dari biking adalah -0.200133, sementara nilai standard error dari koefisien regresi sebesar 0.001366. Maka dari itu t-value dari biking adalah 146.5 (yang didapat dari -0.200133/0.001366). Karenanya, semakin besar t-value maka semakin besar kepercayaan kita terhadap nilai dari koefisien regresi sebagai prediktor.

Kolom Pr(>|t|) dalam tabel menunjukkan hasil kalkulasi p-value. Analisis p-value sendiri berfungsi untuk melihat apakah memang benar bahwa independent variable yang digunakan dalam model memiliki pengaruh terhadap dependent variable yang diteliti. Maka dari itu, kita perlu menggunakan hipotesis dalam analisa ini. Null hypothesis dalam analisis menyatakan bahwa tidak ada hubungan antara kedua variabel yang sedang diteliti. Jika pun terkesan kedua variabel memiliki hubungan, ini karena kebetulan saja, dan tak signifikan dalam menjelaskan ide yang sedang diinvestigasi secara statistik. Sebaliknya, alternative hypothesis menyatakan bahwa independent variable benar memengaruhi dependent variable, dan hasil dari p-value menyatakan bahwa hubungan ini siginfikan secara statistik.

Tingkat signifikansi statistik dari p-value diekspresikan dalam nilai antara 0 dan 1. Semakin mendekati 0 p-value nya, maka semakin kuat buktinya bahwa kamu harus menolak null hypothesis. Nilai p-value yang lebih kecil dari 0.05 itu signifikan secara statistik. Ini mengindikasikan adanya bukti kuat untuk melawan null hypothesis, mengingat kemungkinan bahwa null hypothesis itu benar lebih kecil dari 5%. Karenanya saat p-value yang kita dapatkan lebih kecil dari pada 0.05, maka kita menolak null hypothesis nya dan menerima alternative hypothesis.

Dari tabel ringkasan di atas, kita tahu bahwa kedua independent variable memiliki p-value lebih kecil dari 0.001 (yang diwakili dengan simbol *** / <2e-16). Karenanya kita bisa menolak null hypothesis, dan menyimpulkan bahwa bersepeda menuju ke kantor dan merokok berpengaruh terhadap tingkat terjadinya penyakit jantung.

Mempresentasikan Hasil Regresi Linear Berganda

Ketika melaporkan hasil regresimu, kamu harus menuliskan estimated effect (koefisien regresi), standard error dari setimasi, dan juga p-value nya. Kamu juga perlu menginterpretasikan maksud dari angka-angka tersebut agar para pembaca dapat memahami arti dari koefisien regresi dengan jelas.

Menggunakan tabel hasil regresi di atas, berikut adalah interpretasi yang bisa dituliskan:
Dalam survey kami terhadap 500 kota, kami menemukan adanya hubungan yang signifikan antara frekuensi bersepeda menuju ke kantor dengan frekuensi penyakit jantung dan juga antara frekuensi merokok dengan frekuensi penyakit jantung (yang ditunjukkan dengan nilai p < 0.0001 untuk setiap independent variable). Lebih detilnya, kami menemukan penurunan sebesar 0.2% terhadap penyakit jantung (dengan standard error ± 0.001366) untuk setiap peningkatan frekuensi bersepeda sebanyak 1%, dan peningkatan sebesar 0.178% terhadap frekuensi penyakit jantung (dengan standard error ± 0.0035) untuk setiap peningkatan frekuensi merokok sebanyak 1%.

Memvisualisasikan Hasil dalam Grafik

Akan sangat membantu juga jika kamu dapat menggunakan grafik untuk menjelaskan hasil regresi. Regresi linear berganda memang lebih rumit untuk diterjemahkan dalam grafik karena terdapat banyak parameter yang harus kita libatkan dalam plot grafik dua dimensi.

Akan tetapi, ada beberapa cara untuk memperlihatkan hasil regresi dengan tetap memperhatikan efek dari beberapa independent variables terhadap dependent variable, walaupun hanya ada satu independent varible yang sebenarnya bisa disisipkan pada sumbu x.

Sumber Gambar: Scribbr – Multiple Linear Regression | A Quick and Simple Guide

Pada grafik di atas, kita telah mengalkulasi nilai-nilai hasil prediksi dari penyakit jantung (dependent variable) dengan menggunakan seluruh angka-angka yang terobservasi atas persentase masyarakat menggunakan sepeda untuk bekerja. Untuk melibatkan efek dari merokok terhadap dependent variable, kami coba mengalkulasinya dengan memasukkan nilai persentase bersepeda menuju ke kantor dengan angka konstan di setiap tingkatan, dan mengubah nilai persentase merokok dari populasi menggunakan angka min, mean serta max pada setiap tingkatannya.

Comments

  • No comments yet.
  • Add a comment