Apa Itu Statistik Inferensial (Inferential Statistics)?

Tulisan bersumber dan diadaptasi dari: An introduction to inferential statistics (Scribbr)

Kita sudah tahu dari artikel sebelumnya bahwa dengan Statistik Deskrptif, kita dapat mengetahui gambaran singkat terkait dengan karakteristik dari sebuah data set (kumpulan data berupa repons yang didapatkan setelah survey atau observasi dilaksanakan). Sebagai pelengkap, statistik inferensial dapat membantumu untuk menemukan kesimpulan dari sebuah penelitian serta membuat prediksi berdasarkan data yang ada.

Ketika kamu telah mengumpulkan data dari sebuah sampel, kamu dapat menggunakan statistik inferensial untuk memahami populasi yang lebih besar, yang merupakan asal dari pengambilan sampel.

Statistik inferensial mempunyai dua kegunaan utama, yakni:

  • Membuat estimasi terkait dengan populasi (contohnya, estimasi angka rata-rata (mean) skor SAT dari seluruh siswa kelas 11 di Amerika Serikat).
  • Menguji hipotesis atau membuat kesimpulan mengenai populasi (contohnya, apa hubungan antara skor SAT dengan pendapatan keluarga).

Sering kali, kita hanya dapat mengumpulkan data dari sebuah sampel, karena cukup sulit untuk mengumpulkan data dari seluruh objek penelitian yang ada di sebuah populasi mengingat keterbatasan waktu dan dana.

Penting untuk diingat bahwa saat menerapkan statistik inferensial, peneliti harus menerapkan metode pengambilan sampel (sampling method) yang acak (random) dan tak bias (unbiased). Jika sampel yang kamu ambil tidak dapat merepresentasikan populasi yang diteliti, maka kamu tak akan bisa mendapatkan kesimpulan statistik yang valid.

Contoh dari Statistik Inferensial:

Kamu memilih sampel secara acak dari siswa kelas 11 di provinsi mu. Dari mereka, kamu mengumpulkan data skor SAT dan karakteristik lain yang dimiliki tiap-tiap siswa. Berdasarkan data sampel itu, kamu dapat menggunakan statistik inferensial untuk membuat estimasi dan menguji hipotesis dari seluruh populasi siswa kelas 11 di provinsi tersebut.

Sampling Error dalam Statistik Inferensial

Karena ukuran sampel penelitian akan selalu lebih kecil dari pada ukuran populasi, beberapa hal atau karakteristik penting yang dimiliki oleh populasi tak akan bisa ditangkap oleh data sampel. Ini lah yang menyebabkan terjadinya sampling error: perbedaan atau selisih antara nilai sebenarnya dari populasi (atau disebut juga parameter) dengan nilai yang diukur dari sampel (yang disebut dengan statistics).

Sampling error akan selalu muncul ketika kamu hanya menggunakan sampel untuk mengumpulkan data, bahkan jika sampel mu sudah tergolong acak dan tak bias (unbiased) sekali pun. Maka dari itu, akan ada beberapa ketidakpastian yang terjadi dalam statistik inferensial. Tetapi, dengan digunakannya probability sampling methods dapat membantu untuk mengurangi terjadinya ketidakpastian.

Mengestimasikan Parameter Populasi Berdasarkan Statistik Sampel

Karakteristik-karakteristik dari sampel dan populasi dideskripsikan oleh angka-angka yang disebut dengan statistik dan parameter:

  • Sebuah statistik adalah sebuah pengukuran yang mendeskripsikan sampel
  • Sebuah parameter adalah sebuah pengukuran yang mendeskripsikan sebuah populasi secara keseluruhan

Sampling error adalah perbedaan nilai antara sebuah parameter dengan statistik terkait. Karena pada sebagian besar kasus kita tak mengetahui parameter sebenarnya dari sebuah populasi, kita dapat menggunakan statistik inferensial untuk mengestimasikan nilai parameter dengan tetap mempertimbangkan adanya sampling error.

Ada dua jenis estimasi penting yang dapat kamu hitung dari sebuah populasi, yakni: point estimates dan interval estimates.

  • Point estimate adalah estimasi nilai tunggal dari sebuah parameter. Contohnya, sebuah rata-rata dari sampel adalah sebuah point estimate dari sebuah rata-rata populasi.
  • Interval estimate adalah sebuah estimasi rentang nilai dari sebuah parameter. Confidence interval adalah jenis interval estimate yang paling umum.

Dua jenis estimasi ini sangat penting untuk memberikan gambaran yang jelas terkait dengan di mana letak dari parameter.

Confidence Intervals

Confidence interval membantu untuk mengestimasikan parameter karena metode ini juga memperhitungkan sampling error. Saat sebuah point estimate memberikan mu nilai tunggal dari sebuah parameter yang diamati, confidence interval menginformasikan tentang tingkat ketidakpastian dari point estimate tersebut. Dua jenis estimasi ini memberikanmu gambaran secara utuh saat digunakan secara bersama-sama.

Perlu diketahui bahwa setiap confidence interval sangat ditentukan oleh confidence level yang ditetapkan oleh peneliti. Confidence level mengindikasikan seberapa besar kemungkinan (dalam bentuk persentase) dari sebuah interval untuk mengandung estimasi nilai dari parameter (jika kamu mengulangi kembali studi yang sama).

Confidence interval sebesar 95% mengindikasikan bahwa jika kamu mengulangi studimu dengan menggunakan sampel baru dan cara yang sama sebanyak 100 kali, maka kamu dapat memprediksikan bahwa estimasimu akan jatuh pada rentang nilai yang tepat sebanyak 95 kali.

Walaupun kamu dapat berkata bahwa estimasi mu akan jatuh pada rentang nilai (interval) tertentu dengan tingkat kepastian sekian persen, kamu tak bisa memastikan bahwa nilai parameter yang sebenarnya dari sebuah populasi akan mendapatkan hasil yang sama. Ini karena nilai sebenarnya dari sebuah populasi tak akan bisa diketahui tanpa mengumpulkan data secara keseluruhan dari sebuah populasi.

Namun, dengan menerapkan random sampling dan memiliki ukuran sampel yang memadai, kamu dapat mempertanggung jawabkan bahwa confidence interval yang dihasilkan dapat memprediksikan nilai dari parameter dengan tingkat kepastian sekian persen dalam satu waktu.

Contoh: Point estimate dan confidence interval

Kamu ingin mengetahui angka rata-rata dari hari libur berbayar (paid vacation days) yang diterima oleh para karyawan di perusahaan internasional. Setelah mengumpulkan respons survei dari sampel secara acak, kamu coba untuk menghitung point estimate dan confidence interval nya.

Kamu dapatkan bahwa angka rata-rata hari libur berbayar yang didapatkan dari sampel adalah 19 hari, maka dari itu point estimate untuk paid vacation days dari populasi juga 19 hari.

Dengan metode random sampling dan confidence interval sebesar 95%, kamu bisa dengan cukup percaya diri menyatakan bahwa angka rata-rata hari libur berbayar jatuh pada rentang nilai 16 dan 22.

Hypothesis Testing

Tujuan dari hypothesis testing atau uji hipotesis adalah untuk membandingkan populasi atau menilai hubungan antar variabel dengan menggunakan sampel. Hipotesis, atau prediksi, diuji menggunakan tes-tes statistik (statistical tests) yang juga memperhitungkan sampling error sehingga kesimpulan yang valid dapat dihasilkan.

Statistical test dapat berupa parametric atau non-parametric. Tes-tes parametric dianggap lebih dapat diandalkan secara statistik karena kecenderungannya yang lebih sensitif untuk mendeteksi efek-efek tertentu jika memang ada.

Asumsi yang harus dipenuhi dalam parametric test di antaranya adalah:

  • Populasi, yang merupakan asal dari pengambilan sampel, mengikuti skor distribusi normal (normal distribution)
  • Ukuran sampel cukup besar untuk mewakili populasi
  • Varians, pengukuran persebaran, dari tiap kelompok yang dibandingkan tidak jauh berbeda

Ketika data yang kamu miliki tak mampu memenuhi 3 asumsi di atas, maka tes non-parametric akan lebih cocok untuk digunakan. Non-parametric tests juga disebut dengan “distribution-free tests” (Uji Bebas Distribusi) karena tes-tes tersebut tak memiliki asumsi apapun terkait dengan distribusi dari data populasi.

Perlu diketahui bahwa terdapat 3 jenis statistical tests, di antaranya: comparison tests, correlation, dan regression.

Comparison tests

Comparison test mengukur apakah terdapat perbedaan pada means (rata-rata), median (nilai tengah) atau pemeringkatan skor dari dua kelompok atau lebih. Untuk memutuskan tes mana yang sesuai dengan tujuanmu, pertimbangkan apakah data mu dapat memenuhi kondisi yang wajib dipenuhi untuk uji parametric.

Means hanya dapat ditemukan pada data yang berjenis rasio (skala kuantitatif yang mempunyai nilai 0 yang sebenarnya dan mempunyai interval yang sama antar tiap titik yang berbeda, contoh: panjang & luas) atau interval (berbeda dengan rasio, interval tak memiliki batasan nilai 0 yang sebenarnya, contoh: skor SAT, IQ, atau suhu dalam celsius).

Sementara medians dan rankings (pemeringkatan) lebih cocok untuk data ordinal (data yang dikategorikan dalam sebuah variable yang mepunyai urutan peringkat secara alami, contoh: intensitas dalam melakukan olah raga: tidak pernah, jarang, kadang-kadang, sering, selalu).

Correlation Tests

Correlation test membantu untuk melihat seberapa jauh dua variabel saling terkait/terasosiasi antara satu dengan yang lain. Walaupun Pearson’s r adalah jenis metode correlation test yang paling ampuh dari segi statistik, Spareman’s r lebih cocok digunakan untuk variabel jenis rasio dan interval ketika data tersebut tak mengikuti distribusi normal. Namun saat kita sedang berhadapan dengan variabel nominal (variabel yang tidak bisa diurutkan dengan cara tertentu karena data tersebut dikelompokkan dalam kategori, contoh: jenis kelamin), maka satu-satunya cara untuk menguji correlation test adalah dengan chi square test of independence.

Regression Tests

Regression test digunakan untuk mengetahui apakah perubahan pada variabel prediktor dapat mengakibatkan perubahan terhadap variabel keluaran (outcome variable). Kamu dapat memutuskan penggunaan uji regresi yang tepat berdasarkan pada jumlah dan jenis variabel yang kamu gunakan sebagai prediktor maupun outcome. Jenis uji regresi yang paling sering digunakan adalah parametric.

Jika datamu tak terdistribusi secara normal, maka kamu dapat melakukan tranformasi data terlebih dahulu. Transformasi data dapat membantumu untuk terdistribusi secara normal dengan menggunakan operasi matematika seperti menerapkan akar kuadrat terhadap tiap nilai.

Comments

  • No comments yet.
  • Add a comment