Tulisan diadaptasi dari Scribbr.com
Seperti yang kalian tahu, regresi memungkinkan kita untuk mengestimasikan bagaimana nilai dari sebuah dependent variable (variabel terikat) berubah saat terdapat perubahan terhadap independent variable (variabel bebas) nya. Regresi linear berganda digunakan untuk mengestimasikan hubungan antara dua atau lebih independent variables dan satu dependent variable.
Kamu dapat menggunakan regresi linear berganda saat kamu ingin mengetahui:
Contoh
Kamu adalah seorang peneliti kesehatan masyarakat yang tertarik untuk mengetahui faktor-faktor gaya hidup yang memengaruhi penyakit jantung. Kamu menyurvei 500 kota dan mengumpulkan data persentase dari masyarakat yang merokok di tiap kota, persentase dari masyarakat yang bersepeda menuju kantor di setiap kota, dan persentase masyarakat yang memiliki penyakit jantung di setiap kota.
Karena kamu memiliki dua independent variables dan satu dependent variable dalam kasus ini, serta semua variabel mu bersifat kuantitatif, kamu dapat menggunakan regresi linear berganda untuk menganalisa hubungan antar variabel-variabel tersebut.
Asumsi-Asumsi atas Regresi Linear Berganda
Asumsi-asumsi yang digunakan pada regresi linear berganda tak berbeda dengan asumsi yang digunakan pada regresi linear sederhana:
Bagaimana caranya melakukan regresi linear berganda
Formula dari regresi linear berganda adalah:
y = β0 + β1X1 + … + βnXn + ɛ
Untuk menemukan garis yang paling cocok (the best-fit line) untuk setiap independent variable, regresi linear berganda harus mengalkulasi tiga hal:
Kemudian regresi linear berganda menghitung juga t-statistic dan p-value untuk setiap koefisien regresi dalam model. Untuk penjelasan terkait t-statistic dan p-value, bisa ditemukan di bawah.
Menerjemahkan hasil regresi linear berganda
Walaupun sangat mungkin untuk melakukan regresi linear berganda secara manual, saat ini regresi lebih sering dilakukan menggunakan software statistic seperti R dan SPSS. Kali ini kita akan melihat hasil regresi dari pengaruh independent variables yang terdiri dari biking (bersepeda) dan smoking (merokok) terhadap dependent variable yang berupa penyakit jantung (heart disease). Untuk melihat secara detil langkah-langkah untuk melakukan regresi dengan software R, bisa klik tautan ini kawan.
Tabel di bawah ini merupakan hasil regresi linear berganda menggunakan sofrware R.
Tabel hasil regresi pertama-tama memperlihatkan formula regresi dalam bagian (‘Call’), kemudian tabel juga menunjukkan residuals dari model. Jika median dari residuals mendekati nol dan memiliki sebaran yang mirip pada kedua sisi, seperti yang dimiliki oleh regresi dari data ini (dengan median 0.03, min nya mendekati -2, dan max nya mendekati 2), maka model ini kemungkinan besar memenuhi asumsi heteroscedasticity. Heteroscedasticity terjadi ketika standard errors dari sebuah variabel yang dimonitor dalam jangka waktu tertentu tidaklah konstan.
Selanjutnya adalah koefisien-koefisien regresi dari model yang dikelompokkan dalam tabel dengan judul ‘Coefficients’. Baris pertama dari tabel coefficient ini berlabel-kan ‘intercept’ yang merupakan y-intercept (β0) dari persamaan regresi. Mengetahui estimasi nilai dari intercept sangat membantu untuk membuat persamaan regresi dan memprediksi nilai dari dependent variable nya.
Kemudian masih dalam tabel ‘Coefficients’ terdapat kolom ‘Estimate’ yang berisi nilai dari koefisien regresi (βn) atau r2 value. Nilai pada kolom estimate di atas menunjukkan bahwa peningkatan sebesar 1% terhadap angka bersepeda menuju kantor diasosiasikan dengan penurunan penyakit jantung sebesar 0.2%. Sementara meningkatnya intensitas merokok sebesar 1% diasosiasikan dengan 0.178% peningkatan penyakit jantung.
Berdasarkan pada nilai intercept dan koefisien regresidi atas, maka dalam kasus ini, persamaan regresi yang mampu mengestimasikan terjadinya penyakit jantung adalah:
Heart disease = 14.98 + (-0.2 x biking) + (0.178 x smoking) ± e
Lalu kolom ‘std.error’ pada tabel ‘Coefficients’ menunjukkan standard error (kesalahan baku) dari estimasi model regresi. Angka ini menunjukkan seberapa besar variasi yang ada pada estimasi dari koefisien regresi. Semakin kecil standard error, maka sampel data yang digunakan semakin dapat mewakili populasi secara keseluruhan.
Kolom t-value dalam tabel ‘Coefficients’ membantu mengukur signifikansi statistic dari independent variable dalam menjelaskan dependent variable. Dalam software R, nilai t-value didapatkan dengan cara membagi nilai koefisien regresi dengan nilai standard error nya. Dari kolom di atas, kita tahu bahwa koefisien regresi dari biking adalah -0.200133, sementara nilai standard error dari koefisien regresi sebesar 0.001366. Maka dari itu t-value dari biking adalah 146.5 (yang didapat dari -0.200133/0.001366). Karenanya, semakin besar t-value maka semakin besar kepercayaan kita terhadap nilai dari koefisien regresi sebagai prediktor.
Kolom Pr(>|t|) dalam tabel menunjukkan hasil kalkulasi p-value. Analisis p-value sendiri berfungsi untuk melihat apakah memang benar bahwa independent variable yang digunakan dalam model memiliki pengaruh terhadap dependent variable yang diteliti. Maka dari itu, kita perlu menggunakan hipotesis dalam analisa ini. Null hypothesis dalam analisis menyatakan bahwa tidak ada hubungan antara kedua variabel yang sedang diteliti. Jika pun terkesan kedua variabel memiliki hubungan, ini karena kebetulan saja, dan tak signifikan dalam menjelaskan ide yang sedang diinvestigasi secara statistik. Sebaliknya, alternative hypothesis menyatakan bahwa independent variable benar memengaruhi dependent variable, dan hasil dari p-value menyatakan bahwa hubungan ini siginfikan secara statistik.
Tingkat signifikansi statistik dari p-value diekspresikan dalam nilai antara 0 dan 1. Semakin mendekati 0 p-value nya, maka semakin kuat buktinya bahwa kamu harus menolak null hypothesis. Nilai p-value yang lebih kecil dari 0.05 itu signifikan secara statistik. Ini mengindikasikan adanya bukti kuat untuk melawan null hypothesis, mengingat kemungkinan bahwa null hypothesis itu benar lebih kecil dari 5%. Karenanya saat p-value yang kita dapatkan lebih kecil dari pada 0.05, maka kita menolak null hypothesis nya dan menerima alternative hypothesis.
Dari tabel ringkasan di atas, kita tahu bahwa kedua independent variable memiliki p-value lebih kecil dari 0.001 (yang diwakili dengan simbol *** / <2e-16). Karenanya kita bisa menolak null hypothesis, dan menyimpulkan bahwa bersepeda menuju ke kantor dan merokok berpengaruh terhadap tingkat terjadinya penyakit jantung.
Mempresentasikan Hasil Regresi Linear Berganda
Ketika melaporkan hasil regresimu, kamu harus menuliskan estimated effect (koefisien regresi), standard error dari setimasi, dan juga p-value nya. Kamu juga perlu menginterpretasikan maksud dari angka-angka tersebut agar para pembaca dapat memahami arti dari koefisien regresi dengan jelas.
Menggunakan tabel hasil regresi di atas, berikut adalah interpretasi yang bisa dituliskan:
Dalam survey kami terhadap 500 kota, kami menemukan adanya hubungan yang signifikan antara frekuensi bersepeda menuju ke kantor dengan frekuensi penyakit jantung dan juga antara frekuensi merokok dengan frekuensi penyakit jantung (yang ditunjukkan dengan nilai p < 0.0001 untuk setiap independent variable). Lebih detilnya, kami menemukan penurunan sebesar 0.2% terhadap penyakit jantung (dengan standard error ± 0.001366) untuk setiap peningkatan frekuensi bersepeda sebanyak 1%, dan peningkatan sebesar 0.178% terhadap frekuensi penyakit jantung (dengan standard error ± 0.0035) untuk setiap peningkatan frekuensi merokok sebanyak 1%.
Memvisualisasikan Hasil dalam Grafik
Akan sangat membantu juga jika kamu dapat menggunakan grafik untuk menjelaskan hasil regresi. Regresi linear berganda memang lebih rumit untuk diterjemahkan dalam grafik karena terdapat banyak parameter yang harus kita libatkan dalam plot grafik dua dimensi.
Akan tetapi, ada beberapa cara untuk memperlihatkan hasil regresi dengan tetap memperhatikan efek dari beberapa independent variables terhadap dependent variable, walaupun hanya ada satu independent varible yang sebenarnya bisa disisipkan pada sumbu x.
Pada grafik di atas, kita telah mengalkulasi nilai-nilai hasil prediksi dari penyakit jantung (dependent variable) dengan menggunakan seluruh angka-angka yang terobservasi atas persentase masyarakat menggunakan sepeda untuk bekerja. Untuk melibatkan efek dari merokok terhadap dependent variable, kami coba mengalkulasinya dengan memasukkan nilai persentase bersepeda menuju ke kantor dengan angka konstan di setiap tingkatan, dan mengubah nilai persentase merokok dari populasi menggunakan angka min, mean serta max pada setiap tingkatannya.