Document

advertisement
PENDAHULUAN
APA ITU STATISTIK?
Kata statistik sering diartikan hanya sebagai tampilan dari data dan grafik yang berkaitan dengan
situasi ekonomi, demografi, dan politik yang berlaku di suatu negara. Bahkan saat ini, pemikiran
masyarakat umum tentang statistik identik dengan rangkaian angka yang mengerikan dan segudang
grafik. Gambaran ini didukung dengan berbagai laporan pemerintah yang berisi kumpulan angka
yang sangat banyak dan membawa kata statistik dalam judul mereka: "Statistik Produksi Pertanian,"
"Statistik Perdagangan dan Pengiriman," "Statistik Tenaga Kerja". Namun, kemajuan besar selama
abad kedua puluh telah memungkinkan statistik untuk tumbuh dan kehadirannya yang penting
sebagai disiplin ilmu berbasis data.
Kemudian, apa peran dan tujuan utama statistika sebagai disiplin ilmu? Statistika berhubungan
dengan pengumpulan data yang informatif, menginterpretasikan data tersebut, dan menarik
kesimpulan tentang fenomena yang diteliti. Ruang lingkup dari subjek ini meluas ke semua proses
dari ilmu pengetahuan yang melibatkan pencarian fakta melalui pengumpulan dan pengujian data.
Jajak pendapat (survei untuk mempelajari isu-isu sosiologis, ekonomi, atau yang berhubungan
dengan kesehatan), percobaan dalam pertanian (dengan bibit baru, pestisida, atau peralatan
pertanian), studi klinis vaksin, dan penyemaian awan untuk produksi hujan buatan hanya beberapa
contoh. Prinsip-prinsip dan metodologi statistika berguna dalam menjawab pertanyaan-pertanyaan
seperti, apa dan berapa banyak data perlu dikumpulkan? Bagaimana seharusnya kita mengatur dan
menafsirkan data? Bagaimana kita dapat menganalisis data dan menarik kesimpulan? Bagaimana
kita menilai kekuatan kesimpulan dan mengukur ketidakpastian mereka?
Statistika sebagai sebuah subjek menyediakan pokok dari prinsip dan metodologi untuk
merancang proses pengumpulan data, meringkas dan menginterpretasikan data, dan penarikan
kesimpulan atau generalisasi.
STATISTIKA DALAM KEHIDUPAN SEHARI-HARI
Pengumpulan dan interpretasi data tidak terbatas pada peneliti profesional saja. Dalam upaya kita
seperti untuk memahami isu-isu perlindungan lingkungan, pengangguran, atau klasemen sepak bola,
fakta numerik dan angka perlu ditinjau dan diinterpretasikan.
Sebenarnya, banyak sekali peran statistika dalam kehidupan sehari-hari. Misalnya dalam survei
penduduk, Biro Sensus mengumpulkan informasi tentang status pekerjaan dari sampel dari sekitar
65.000 rumah tangga. Rumah tangga dihubungi secara bergilir dengan tiga perempat dari sampel
tetap sama untuk setiap dua bulan berturut-turut. Data survei dianalisis oleh Biro Statistik Tenaga
Kerja, yang melaporkan tingkat pengangguran bulanan.
Kemudian, dalam pemilihan umum. Ini yang paling dikenal dari jajak pendapat nasional,
menghasilkan perkiraan persentase suara rakyat untuk setiap calon berdasarkan wawancara dengan
minimal 1.500 orang dewasa. Dimulai beberapa bulan sebelum pemilihan, hasilnya secara teratur
diterbitkan. Laporan-laporan ini membantu memprediksi pemenang dan melacak perubahan dalam
preferensi pemilih.
Sumber dari informasi faktual banyak sekali dalam kehidupan kita, mulai dari pengalaman individu
sampai laporan di media berita, catatan pemerintah, dan artikel di jurnal profesional. Sebagai
konsumen dari laporan tersebut, masyarakat perlu beberapa pengetahuan statistik untuk
menafsirkan data dan mengambil kesimpulan. Pengetahuan statistik memberikan kriteria untuk
menentukan kesimpulan mana yang didukung oleh data dan mana yang tidak. Kredibilitas
kesimpulan juga sangat tergantung pada penggunaan metode statistik pada tahap pengumpulan
data.
STATISTIKA DALAM MEMBANTU PENELITIAN ILMIAH
Dalam penelitian ilmiah pun, statistika memiliki banyak peranan.
Misalnya, dalam suatu program pelatihan, untuk mempelajari tentang perbandingan efektivitas dari
program yang berbeda, penting untuk mengumpulkan data tentang prestasi atau pertumbuhan
keterampilan peserta pelatihan pada akhir setiap program.
Lalu, dalam pembiakkan tanaman. Untuk meningkatkan produksi pangan, ilmuwan pertanian
mengembangkan hibrida baru dengan fertilisasi silang dari spesies tanaman yang berbeda.
Keturunan baru tersebut perlu dibandingkan dengan yang terbaik saat ini. Produktivitas relatif
mereka dinilai dengan menanam beberapa dari masing-masing varietas di sejumlah tempat. Hasil
dicatat dan kemudian dianalisis untuk perbedaan jelas. Keturunan ini juga dapat dibandingkan atas
dasar ketahanan terhadap penyakit atau kebutuhan pupuk.
Informasi faktual sangat penting untuk penelitian apa pun. Cabang dari statistika yang disebut desain
eksperimen dapat membantu peneliti dalam perencanaan cara dan jangkauan pengumpulan data.
Setelah data dikumpulkan, metode statistika yang ada dapat meringkas dan menggambarkan fitur
yang menonjol dari data. Ini umumnya dikenal sebagai statistika deskriptif. Lalu, untuk mengevaluasi
informasi yang terdapat dalam data dan penilaian pembelajaran baru yang diperoleh dari informasi
merupakan area dari statistika inferensial, dan ini terkait dengan metode yang dikenal sebagai
metode statistika inferensi.
Harus disadari bahwa penelitian ilmiah biasanya adalah proses dari trial and error. Jarang sekali
sebuah kejadian dapat dipahami dengan cara tunggal, atau hanya 1 kali percobaan. Yang sering kita
dengar adalah kisah Thomas Edison. Bahkan setelah kesuksesan pertamanya dengan bola lampu
listrik, Thomas Edison harus terus bereksperimen dengan berbagai bahan untuk filamen sebelum
disempurnakan. Data yang diperoleh dari eksperimen memberikan pengetahuan baru. Pengetahuan
ini sering menunjukkan revisi dari teori yang ada, dan itu sendiri ini mungkin memerlukan
penyelidikan lebih lanjut melalui eksperimen dan analisis data.
DUA KONSEP DASAR: POPULASI DAN SAMPEL
Pada bagian sebelumnya, kita membahas beberapa contoh situasi dimana evaluasi dari informasi
faktual sangat penting untuk memperoleh pengetahuan baru. Meskipun contoh-contoh ini diambil
dari bidang yang berbeda-beda dan hanya penjelasan singkat dari ruang lingkup dan tujuan dari
studi yang disediakan, beberapa karakteristik umum dengan mudah dapat dilihat.
Pertama, dalam rangka memperoleh pengetahuan baru, data yang relevan harus dikumpulkan.
Kedua, beberapa jumlah dari variabilitas dalam data tidak dapat dihindari meskipun pengamatan
dibuat di bawah kondisi yang sama atau hampir mirip. Misalnya, pengobatan untuk alergi dapat
memberikan keringanan jangka panjang untuk beberapa orang sedangkan mungkin hanya
membawa keringanan sementara atau bahkan tidak sama sekali kepada orang lain.
Ketiga, kita tidak bisa memperoleh data yang benar-benar lengkap. Ketika data telah diperoleh dari
percobaan laboratorium atau uji coba lapangan, tidak peduli berapa banyak eksperimen telah
dilakukan, sebenarnya kita dapat melakukan lebih banyak lagi. Dalam opini publik atau studi
pengeluaran konsumen, informasi yang lengkap akan muncul hanya jika data dikumpulkan dari
setiap individu di negara. Lalu, jika kita ingin mengumpulkan set data yang lengkap terkait dengan
kerusakan yang dialami mobil jika terjadi tabrakan pada suatu kecepatan tertentu, apakah itu berarti
setiap mobil harus ditabrakkan? Tentu saja tidak mungkin.
Dengan demikian, karena keterbatasan waktu, sumber daya, fasilitas, dan kadang-kadang sifat
destruktif pengujian, maka kita harus bekerja dengan informasi yang tidak lengkap.
Maka, muncullah istilah populasi dan sampel. Populasi adalah himpunan yang berisi tentang seluruh
informasi yang akan kita cari. Populasi merupakan target penyelidikan. Kita mempelajari tentang
populasi dengan cara mengambil sampel dari populasi. Sebuah sampel yang ditetapkan terdiri dari
pengukuran yang dicatat untuk unit-unit yang benar-benar diamati. Sebuah sampel dari populasi
statistik adalah bagian dari pengukuran yang sebenarnya dikumpulkan dalam proses penyelidikan.
MENGGUNAKAN TABEL ANGKA RANDOM UNTUK MEMILIH SAMPEL
Pilihan untuk unit populasi mana yang akan disertakan dalam sampel harus berimbang dan objektif.
Lalu, bagaimana cara untuk memilihnya? Ketika jumlah unit tidak terlalu banyak, kita dapat
menggunakan secarik kertas dan menuliskan nama-nama dari setiap unit dalam populasi. Lalu
kertas-kertas itu ditempatkan dalam sebuah kotak. Kertas-kertas tersebut dapat diambil satu per
satu tanpa pengembalian dan unit terkait dipilih sebagai sampel. Sayangnya, prosedur sederhana
dan intuitif ini rumit untuk diterapkan. Sulit untuk mencampur kertas-kertas dengan baik untuk
memastikan ketidakberpihakan.
Ada juga metode yang lebih baik, yaitu dengan mengambil 10 kelereng identik, lalu kelerengkelereng itu diberi nomor 0 sampai 9, dan menempatkan mereka dalam sebuah wadah. Setelah
mengacak kelereng-kelereng tersebut, ambil 1 kelereng. Setelah mengambil 1 kelereng, acak dan
ambil lagi. Dengan cara ini, kita telah membuat urutan angka acak. Setiap angka memiliki
kesempatan yang sama untuk muncul di posisi apapun, semua pasangan memiliki kesempatan yang
sama untuk muncul di dua posisi apapun, dan seterusnya. Untuk kenyamanan penggunaan, angka ini
dapat ditempatkan di sebuah tabel yang disebut tabel angka random/acak.
Untuk mendapatkan sampel acak dari unit dari populasi berukuran N, pertama kita beri nomor unit
dari 1 sampai N. Kemudian nomor dibaca dari tabel angka random sampai nomor yang berbeda
dalam kisaran yang tepat dipilih.
TUJUAN STATISTIKA
Subjek dari statistika memberikan metodologi untuk membuat dugaan tentang populasi dari
pengumpulan dan analisis data sampel. Metode ini memungkinkan seseorang untuk memperoleh
generalisasi yang masuk akal dan kemudian menilai sejauh mana ketidakpastian yang mendasari
generalisasi tersebut. Konsep statistika juga penting selama tahap perencanaan dari penyelidikan.
Tujuan utama dari statistika adalah:
1. Untuk membuat dugaan tentang populasi dari analisis informasi yang terkandung dalam data
sampel. Ini termasuk penilaian dari tingkat ketidakpastian yang terlibat dalam dugaan tersebut.
2. Untuk mendesain proses dan banyaknya sampel sehingga pengamatan membentuk sebuah dasar
untuk menarik kesimpulan yang valid.
Rancangan dari proses pengambilan sampel merupakan langkah penting. Sebuah rancangan yang
baik untuk proses pengumpulan data memungkinkan dugaan yang efisien yang akan dibuat, dengan
analisis sederhana.
Penggunaan awal dari statistika dalam kompilasi dan presentasi pasif dari data sebagian besar telah
digantikan oleh peran modern yang menyediakan alat-alat analisis dengan data yang dapat secara
efisien dikumpulkan, dipahami, dan diinterpretasikan. Konsep dan metode statistika memungkinkan
untuk menarik kesimpulan yang valid tentang populasi berdasarkan sampel. Subjek statistik telah
merambah semua bidang usaha manusia di mana evaluasi informasi harus didasarkan pada bukti
berbasis data.
ORGANISASI DAN DESKRIPSI DATA
Pada pembahasan sebelumnya, kita mengutip beberapa contoh dari situasi-situasi di mana
kumpulan data dengan proses eksperimen atau observasi yang tepat, sangat diperlukan untuk
memperoleh pengetahuan baru. Suatu kumpulan data, dapat berkisar dalam kompleksitas dari
beberapa hingga ratusan bahkan ribuan entri. Setiap entri berhubungan dengan observasi
karakteristik yang ditentukan dari sampling unit. Sebagai contoh, seorang ahli ilmu gizi dapat
memberikan menu makanan percobaan kepada 30 orang anak yang kurang gizi dan mencatat
peningkatan berat badan mereka setelah 2 bulan. Dalam hal ini, anak-anak kurang gizi adalah
sampling unit dan akan terdapat 30 data hasil pengukuran peningkatan berat badan. Setelah data
dikumpulkan, langkah utama selanjutnya adalah mengelola informasi dan mengekstrak ringkasan
deskriptif yang menyoroti karakteristik-karakteristiknya yang penting. Sekarang, kita akan
mempelajari cara untuk mengelola dan mendeskripsikan suatu kumpulan data dengan
menggunakan tabel, grafik, dan perhitungan ringkasan numerik.
TIPE-TIPE DATA
Dalam membahas metode-metode untuk menghasilkan ringkasan deskripsi data, dibedakan antara 2
(dua) tipe data, yaitu:


Data kualitatif atau kategorik
Data numerik atau pengukuran
Ketika karakteristik yang diteliti berupa sifat kualitatif yang hanya diklasifikasikan dalam kategorikategori dan bukan pengukuran secara numerik, hasil tersebut dinamakan data kategori. Contohnya
adalah warna rambut (pirang, coklat, merah, hitam), status pekerjaan (bekerja, tidak bekerja), dan
golongan darah (O, A, B, AB). Sedangkan, jika karakteristik yang diteliti merupakan hasil pengukuran
dalam skala numerik, hasil data tersebut akan terdiri dari kumpulan angka-angka dan dinamakan
data pengukuran. Kita akan menggunakan istilah numerik bernilai variabel atau cukup menyebut
variabel untuk menjelaskan karakteristik yang diukur dengan skala numerik. Kata “variabel”
menandakan bahwa pengukuran bervariasi atas sampling unit yang berbeda. Dalam terminologi ini,
observasi-observasi dari numerik bernilai variabel menghasilkan data pengukuran. Beberapa contoh
dari numerik-numerik bernilai variabel adalah ukuran sepatu, jumlah korban kecelakaan lalulintas
dalam suatu negara per hari, intensitas gempa bumi, tinggi pohon pinus berumur 1 tahun, lama
waktu dalam antrian teller bank, dan jumlah anak binatang.
Banyaknya korban kecelakaan lalu lintas hanya dapat dinyatakan dengan bilangan bulat dan sama
halnya dengan jumlah keturunan seekor binatang. Contoh-contoh tersebut merupakan variabelvariabel diskrit. Di samping itu, beberapa variabel, seperti tinggi badan, berat badan, dan waktu
kelangsungan hidup secara ideal dapat mengambil nilai dalam sebuah interval. Variabel-variabel
tersebut dinamakan kontinu.
MENDESKRIPSIKAN DATA DENGAN TABEL DAN GRAFIK
Data Kategorik
Ketika sifat kualitatif diteliti untuk sampel unit, setiap observasi dicatat sebagai bagian dari salah
satu beberapa kategori. Data tersebut dapat segera diolah dalam bentuk tabel frekuensi yang
menunjukkan jumlah-jumlah (frekuensi) dari kategori-kategori individual. Pemahaman kita
mengenai data dapat lebih jauh ditingkatkan dengan perhitungan proporsi (dapat disebut juga
frekuensi relatif) dari observasi-observasi dalam setiap kategori.
Data kategorik sering disajikan secara grafis dengan diagram lingkaran (pie chart) di mana segmen
dalam lingkaran menunjukkan frekuensi relatif dari kategori. Untuk mendapatkan sudut untuk
kategori manapun, kita mengalikan frekuensi relatif dengan 360 derajat yang merupakan derajat
lingkaran utuh.
Contoh diagram lingkaran tentang pendapat mahasiswa tentang perubahan aturan di asrama:
Diagram Pareto adalah teknik grafis yang powerful untuk menunjukkan kejadian-kejadian
berdasarkan frekuensinya. Berdasarkan Hukum Empiris Pareto, kumpulan kejadian apapun terdiri
dari hanya beberapa hal utama yang terjadi dalam sebagian besar waktu.
Contoh diagram Pareto mengenai Tipe Kerusakan yang Ditemukan dalam Produksi Tisu Wajah:
Data Diskrit
Sama dengan deskripsi kita tentang data kategorik, informasi dalam set data diskrit dapat diringkas
dalam tabel frekuensi, atau distribusi frekuensi yang meliputi perhitungan frekuensi relatif. Dalam
kategori kualititatif, kini kita mendaftarkan perbedaan pengukuran numerik yang muncul dalam set
data dan kemudian menghitung frekuensinya.
Data Variabel Kontinu
Kini kita mempertimbangkan penyajian data secara grafis yang meliputi pengukuran numerik pada
skala kontinu. Tentu saja, catatan hasil pengukuran selalu dibulatkan. Berbeda dengan kasus data
diskrit, data hasil pengukuran pada variabel kontinu dapat terdiri dari banyak nilai yang berbedabeda. Maka, tabel atau plot dari seluruh nilai yang berbeda-beda tersebut dan frekuensinya tidak
akan memberikan ringkasan data yang informatif.
Dua metode grafis yang utama digunakan untuk memperlihatkan set data pengukuran adalah
diagram dot (titik) dan histogram. Diagram dot digunakan ketika beberapa observasi yang relatif
sedikit (sekitar 20 atau 25 observasi), sedangkan histogram digunakan untuk observasi dengan
jumlah yang lebih besar.
Ketika data terdiri dari angka-angka dalam set yang kecil, data tersebut dapat disajikan secara grafis
dengan menggambarkan garis dengan skala meliputi kisaran nilai pengukuran. Pengukuran
individual diplotkan atas garis tersebut sebagai titik-titik yang penting. Hasil dari diagram tersebut
dinamakan diagram dot.
Contoh diagram dot jumlah hari dari 6 (enam) pasien pertama transplantasi jantung di Stanford
untuk bertahan hidup setelah operasi mereka adalah selama 15, 3, 46, 623, 126, 64.
Ketika data terdiri dari hasil pengukuran dalam jumlah yang besar, diagram dot mungkin sedikit sulit
untuk dibuat. Kepadatan yang berlebih dari titik-titik (dot) akan menyebabkan titik-titik tersebut
mengotori dan merusak kejelasan dari diagram. Dalam kasus seperti itu, akan sangat baik untuk
meringkaskan data dengan mengelompokkan observasi-observasi berdasarkan interval dan
mencatat frekuensi dari interval-interval tersebut. Tidak seperti distribusi frekuensi pada diskrit, di
mana pengelompokkan secara natural dilakukan secara langsung. Untuk hal ini kita menggunakan
interval dari nilai-nilai. Langkah utama dalam proses ini dijelaskan sebagai berikut:
1. Cari nilai minimum dan maksimum dalam set data
2. Pilih interval atau sel sama rentang yang mencakup rentang antara nilai minimum dan maksimum
tanpa tumpang tindih. Ini disebut dengan kelas interval, dan titik akhirnya disebut batas kelas.
3. Hitung jumlah observasi dalam data yang termasuk di setiap kelas interval. Hitungan tiap kelas
disebut dengan frekuensi kelas atau frekuensi sel.
4. Hitunglah frekuensi relatif untuk setiap kelas dengan membagi frekuensi kelas terhadap total
banyaknya observasi dalam data.
Sebuah distribusi frekuensi dapat disajikan secara grafis melalui histogram. Untuk menggambar
histogram, mula-mula kita menandai kelas interval di bagian sumbu horizontal. Di setiap interval kita
menggambarkan kotak vertical yang di areanya mewakili frekuensi relatif, yaitu proporsi dari
observasi yang ada di kelas interval tersebut. Untuk membuat kotak-kotak tersebut yang areanya
sama dengan frekuensi relatif, gunakan aturan:
Area total dari seluruh kotak adalah sebesar 1, jumlah dari frekuensi relatif.
Tampilan diagram batang dan daun memberikan jenis histogram yang lebih efisien untuk visualisasi
data, khususnya ketika observasi-observasi berupa angka dengan 2 (dua) digit. Plot ini diperoleh dari
mengurutkan observasi-observasi pada baris-baris berdasarkan digit utamanya. Untuk membuat
tampilan diagram batang dan daun adalah sebagai berikut :
1. Tuliskan digit 0 sampai dengan 9 dalam sebuah kolom dan gambarkan garis vertikal. Ini
disesuaikan dengan digit utama.
2. Untuk setiap observasi, tuliskan digit kedua di sebelah kanan dari garis vertical dalam baris di
mana digit pertama muncul.
3. Terakhir, susun digit kedua di setiap baris sehingga digit-digit tersebut berada dalam urutan yang
terus meningkat.
Contoh:
75
86
68
49
93
84
98
78
57
92
85
64
Nilai Ujian dari 50 orang Siswa.
42 75 84 87 65
37 99 66 90 79
95 55 79 88 76
83 71 78 53 81
70 62 80 74 69
73 48 72
59
80
60
77
90
63
89
77
58
62
Tampilan Diagram Batang dan Daun untuk Nilai Ujian
0
1
2
3
4
5
6
7
8
9
7
289
35789
022345689
01234556778899
00134456789
0023589
Dalam diagram batang dan daun, kolom untuk digit pertama di sebelah kirim dari garis vertikal
disebut sebagai batang., dan kolom kedua yang berisi digit kedua disebut sebagai daun.
UKURAN-UKURAN PUSAT
Langkah-langkah grafis yang digambarkan sebelumnya membantu kita untuk memvisualisasikan pola
dari set data pengukuran. Untuk mendapatkan ringkasan deskripsi yang objektif dan perbandingan
dari set-set data, kita harus melangkah lebih jauh dan mendapatkan nilai numerik untuk lokasi atau
pusat data dan jumlah dari variabilitas yang ada.
Untuk menyajikan ide secara efektif dan perhitungan terkait, ukuran pusat sesuai untuk mewakili set
data dengan menggunakan simbol. Set data terdiri dari banyaknya pengukuran yang disajikan secara
simbolis dengan x1,x2,…,xn. Indeks n menunjukkan banyaknya pengukuran dalam data, dan x1,x2,…,
menunjukkan observasi pertama, observasi kedua, dan seterusnya. Sebagai contoh, sebuah set data
terdiri dari 5 (lima) buah hasil pengukuran, yaitu 2.1, 3.2, 4.1, 5.6, dan 3.7 disajikan dalam symbol x1,
x2, x3, x4, x5, di mana x1 = 2.1, x2 = 3.2, x3 = 4.1, x4 = 5.6, dan x5 = 3.7.
Aspek yang paling penting dari mempelajari distribusi sampel pengukuran adalah dengan
menempatkan posisi nilai pusat tentang pengukuran yang telah terdistribusi. Terdapat 2 (dua)
indikator yang paling sering digunakan sebagai ukuran pusat, yaitu mean (rata-rata) dan median.
Mean atau rata-rata dari set data pengukuran merupakan jumlah dari hasil pengukuran dibagi
dengan banyaknya pengukuran tersebut. Sebagai contoh, rata-rata dari 5 (lima) pengukuran : 2.1,
3.2, 4.1, 5.6, dan 3.7 adalah
Untuk menyatakan maksud dalam kondisi yang umum, kita menggunakan simbol. Jika sampel terdiri
dari pengukuran x1,x2,…,xn, rata-rata dari sampel adalah sebagai berikut:
Notasi
akan digunakan untuk mewakili rata-rata sampel. Untuk penyederhanaan penulisan jumlah
yang lebih jauh, huruf capital Yunani ∑ (sigma) digunakan sebagai tulisan singkat (steno) secara
statistik. Dengan simbol berikut:
Jumlah dari
ditulis
.
Cara membacanya adalah “jumlah dari seluruh
Sebagai contoh,
dengan i dari 1 sampai n.”
merupakan jumlah dari
.
Mean sampel dari set pengukuran sejumlah n, yaitu x1,x2,…,xn adalah jumlah dari hasi pengukuran
tersebut dibagi dengan n. Mean sampel dinotasikan dengan .
atau
Berdasarkan konsep dari rata-rata, mean merepresentasikan suatu ukuran pusat dari set data. Jika
kita menggambarkan diagram dot dari set data sebagai batang horizontal tanpa bobot di mana
bulatan-bulatan memiliki ukuran yang sama dan bobot ditempatkan pada posisi titik data, kemudian
mean mewakili titik di mana batang (bar) akan seimbang.
Ukuran pusat lainnya adalah nilai tengah.
Median sampel dari set pengukuran x1,x2,…,xn adalah nilai tengah dari pengukuran yang disusun dari
nilai terkecil hingga terbesar.
Secara kasar, median adalah nilai yang membagi data ke dalam 2 (dua) bagian yang sama. Dengan
kata lain, 50% data terletak di bawah median dan 50% lainnya berada di atas median. Jika n adalah
angka yang ganjil, terdapat sebuah nilai tengah yang unik dan nilai tengah tersebut dinamakan
median. Jika n adalah angka genap, terdapat 2 (dua) nilai tengah dan median didapatkan dari ratarata keduanya. Sebagai contoh, terdapat urutan data 3, 5, 7, 8 memiliki nilai tengah sebesar 5 dan 7.
Sehingga median = (5+7)/2 = 6.
Median tidak dipengaruhi oleh beberapa observasi yang sangat kecil atau sangat besar, sebaliknya
adanya nilai ekstrim dapat mempengaruhi mean. Untuk distribusi asimetris yang ekstrim, median itu
lebih peka untuk mengukur nilai pusat dibandingkan mean. Itulah mengapa pemerintah melaporkan
distribusi pendapatan menggunakan median pendapatan sebagai ringkasan, dibandingkan
menggunakan mean. Banyaknya orang dengan bayaran/gaji tinggi yang relatif sedikit dapat memiliki
efek yang besar terhadap rata-rata bayaran/gaji.
Jika jumlah observasi cukup besar (kira-kira lebih besar dari 25 atau 30), hal tersebut terkadang
berguna untuk memperluas dugaan nilai median dan membagi data yang telah diurutkan ke dalam
quarter (perempat). Seperti titik untuk membagi kedua bagian, titik tersebut dinamakan median,
titik untuk membagi menjadi empat bagian dinamakan kuartil, titik untuk membagi ke dalam fraksi
yang lebih banyak dinamakan persentil.
Persentil ke-p untuk 100 sampel adalah nilai yang setelah data diurutkan dari nilai terkecil ke
terbesar, sedikitnya 100 p % dari observasi berada pada atau di bawah nilai tersebut dan sedikitnya
100 (1-p) % berada pada atau di atas nilai tersebut.
Jika kita menentukan p = 0.5, deskripsi konseptual dari sampel 100 (0.5) di atas = persentil ke-50
menentukan bahwa sedikitnya separuh dari observasi adalah sama atau lebih kecil dan sedikitnya
separuh dari observasi adalah sama atau lebih besar. Jika kita menentukan p = 0.25, sampel sebesar
100(0.25) = persentil ke-25 memiliki proporsi seperempat dari observasi yang sama atau lebih kecil
dan proporsi tigaperempat yang sama atau lebih besar.
Berikut ini adalah aturan pengerjaan yang akan membantu penyederhanaan perhitungan dari
persentil sampel.
1. Urutkan data dari nilai terkecil ke terbesar
2. Tentukan hasil kali dari (ukuran sampel) x (proporsi) = np
Jika np bukan bilangan bulat, bulatkan nilai tersebut ke bilangan bulat selanjutnya dan temukan nilai
berurutan yang sesuai. Jika np adalah bilangan bulat, katakanlah k, hitunglah rata-rata dari nilai ke-k
dan nilai ke-(k+1) dalam nilai yang berurutan.
Kuartil hanya terdiri dari persentil ke-25, ke-50, dan ke-75.
Kuartil Sampel
Kuartil rendah (pertama)
Q1 = Persentil ke-25
Kuartil sedang (median)
Q2 = Persentil ke-50
Kuartil tinggi (ketiga)
Q3 = Persentil ke-75
UKURAN-UKURAN VARIASI
Selain menemukan ukuran pusat data, studi deskriptif lainnya dari data dapat diukur secara numerik
mengenai tingkat variasi di sekitar pusat data. Dua set data dapat menunjukkan posisi yang sama
dari pusat namun ada kemungkinan benar-benar ada perbedaan dalam hal memperhatikan
variabilitas, seperti gambar di bawah ini, diagram dot dengan nilai pusat yang sama namun berbeda
variasi:
Karena rata-rata sampel merupakan ukuran pusat, variasi dari titik individu data dari nilai pusat ini
tercermin dalam deviasi (simpangan) dari rata-ratanya.
Deviasi (simpangan) = observasi – rata-rata sampel = x Sebagai contoh, set data 3, 5, 7, 7, 8 memiliki rata-rata
= (3 + 5 + 7 + 7 + 8)/5 = 30/5 = 6, sehingga
deviasinya dihitung dengan cara mengurangi 6 dari setiap observasi.
Kita mungkin merasa bahwa rata-rata dari simpangan akan memberikan ukuran numerik dari
penyebaran. Bagaimanapun, beberapa simpangan bersifat positif, beberapa lainnya bersifat negatif,
dan total dari simpangan yang positif dapat menghapus total dari simpangan yang negatif.
Untuk mendapatkan ukuran sebaran, kita harus mengurangi tanda-tanda adanya penyimpangan
sebelum menghitung rata-rata. Satu cara untuk menghilangkan gangguan dari tanda-tanda
penyimpangan, yaitu dengan cara menguadratkan bilangan. Ukuran sebaran yang disebut dengan
varians sampel, diperoleh dengan menambahkan simpangan yang telah dikuadratkan dan membagi
totalnya dengan jumlah observasi dikurangi satu.
Varians sampel dari n observasi:
Karena varians melibatkan jumlah kuadrat, unitnya adalah kuadrat dari unit di mana pengukuran
dinyatakan. Sebagai contoh, jika data mengenai pengukuran dari berat dalam pounds, varians
dinyatakan dalam (pounds)2. Untuk memperoleh ukuran variabilitas dalam unit yang sama sebagai
data, kita mengambil akar kuadrat positif dari varians, yang disebut standar deviasi sampel. Standar
deviasi daripada varians merupakan ukuran dasar dari variabilitas.
Standar deviasi sampel:
Kita dapat melihat bahwa satu set data dengan jumlah variasi yang lebih besar menghasilkan nilai s
numerik yang lebih besar. Masalah ada pada seputar perbandingan antara set data yang berbeda.
Dalam konteks mengenai set data tunggal, dapatkah kita mengaitkan nilai numerik dari s terhadap
kedekatan fisik titik data pada ukuran pusat ?. Untuk tujuan ini, kita melihat satu standar deviasi
sebagai jarak patokan dari rata-rata . Untuk distribusi bentuk lonceng, aturan empiris mengaitkan
standar deviasi dengan proporsi data yang disimpan dalam interval sekitar .
Petunjuk Empiris untuk Distribusi Lonceng Simetris
Sekitar
68% dari data terletak dalam
95% dari data terletak dalam
99.7% dari data terletak dalam
Ukuran Variasi Lainnya
Ukuran variasi lainnya yang terkadang digunakan :
Range sampel = Observasi terbesar – Observasi terkecil
Range menunjukkan panjang interval yang terbentang oleh observasi-observasi.
Sebagai ukuran sebaran, range memiliki 2 sifat yang menarik. Range sangat sederhana untuk
menghitung dan menjelaskan. Bagaimanapun, range mengalami kerugian serius yang terlalu sensitif
terhadap adanya observasi set data yang sangat besar atau kecil. Selain itu, range mengabaikan
informasi yang ada di dalam titik-titik menengah yang tersebar.
Untuk menghindari masalah dari penggunaan ukuran yang mungkin terlempar jauh dari sasaran
karena satu atau dua observasi liar atau tidak wajar, sebuah kesepakatan dibuat dengan menghitung
interval antara kuartil pertama dan ketiga.
Range Interkuartil Sampel = Kuartil Ketiga – Kuartil pertama
Interkuartil sampel mewakili panjang interval yang meliputi pusat separuh observasi. Ukuran dari
sejumlah variasi tidak terganggu jika pecahan observasi yang kecil sangat besar atau sangat kecil.
Range interkuartil sampel biasanya dipakai dalam laporan pemerintah mengenai pendapatan dan
distribusi lainnya yang memiliki bagian akhir yang panjang, dalam pilihan standar deviasi sebagai
ukuran sebaran.
Boxplot
Boxplot menyoroti informasi ringkasan dari kuartil. Dimulai dengan:
Ringkasan lima angka : minimum, Q1, Q2, Q3, maksimum
Pusat setengah data, dari kuartil pertama hingga ketiga, diwakili oleh sebuah kotak persegi panjang
dengan median ditunjukkan dengan sebuah batang. Sebuah garis memanjang dari Q3 hingga nilai
maksimum dan nilai lain dari Q1 hingga nilai minimum.
Contoh boxplot:
Download