PENDAHULUAN APA ITU STATISTIK? Kata statistik sering diartikan hanya sebagai tampilan dari data dan grafik yang berkaitan dengan situasi ekonomi, demografi, dan politik yang berlaku di suatu negara. Bahkan saat ini, pemikiran masyarakat umum tentang statistik identik dengan rangkaian angka yang mengerikan dan segudang grafik. Gambaran ini didukung dengan berbagai laporan pemerintah yang berisi kumpulan angka yang sangat banyak dan membawa kata statistik dalam judul mereka: "Statistik Produksi Pertanian," "Statistik Perdagangan dan Pengiriman," "Statistik Tenaga Kerja". Namun, kemajuan besar selama abad kedua puluh telah memungkinkan statistik untuk tumbuh dan kehadirannya yang penting sebagai disiplin ilmu berbasis data. Kemudian, apa peran dan tujuan utama statistika sebagai disiplin ilmu? Statistika berhubungan dengan pengumpulan data yang informatif, menginterpretasikan data tersebut, dan menarik kesimpulan tentang fenomena yang diteliti. Ruang lingkup dari subjek ini meluas ke semua proses dari ilmu pengetahuan yang melibatkan pencarian fakta melalui pengumpulan dan pengujian data. Jajak pendapat (survei untuk mempelajari isu-isu sosiologis, ekonomi, atau yang berhubungan dengan kesehatan), percobaan dalam pertanian (dengan bibit baru, pestisida, atau peralatan pertanian), studi klinis vaksin, dan penyemaian awan untuk produksi hujan buatan hanya beberapa contoh. Prinsip-prinsip dan metodologi statistika berguna dalam menjawab pertanyaan-pertanyaan seperti, apa dan berapa banyak data perlu dikumpulkan? Bagaimana seharusnya kita mengatur dan menafsirkan data? Bagaimana kita dapat menganalisis data dan menarik kesimpulan? Bagaimana kita menilai kekuatan kesimpulan dan mengukur ketidakpastian mereka? Statistika sebagai sebuah subjek menyediakan pokok dari prinsip dan metodologi untuk merancang proses pengumpulan data, meringkas dan menginterpretasikan data, dan penarikan kesimpulan atau generalisasi. STATISTIKA DALAM KEHIDUPAN SEHARI-HARI Pengumpulan dan interpretasi data tidak terbatas pada peneliti profesional saja. Dalam upaya kita seperti untuk memahami isu-isu perlindungan lingkungan, pengangguran, atau klasemen sepak bola, fakta numerik dan angka perlu ditinjau dan diinterpretasikan. Sebenarnya, banyak sekali peran statistika dalam kehidupan sehari-hari. Misalnya dalam survei penduduk, Biro Sensus mengumpulkan informasi tentang status pekerjaan dari sampel dari sekitar 65.000 rumah tangga. Rumah tangga dihubungi secara bergilir dengan tiga perempat dari sampel tetap sama untuk setiap dua bulan berturut-turut. Data survei dianalisis oleh Biro Statistik Tenaga Kerja, yang melaporkan tingkat pengangguran bulanan. Kemudian, dalam pemilihan umum. Ini yang paling dikenal dari jajak pendapat nasional, menghasilkan perkiraan persentase suara rakyat untuk setiap calon berdasarkan wawancara dengan minimal 1.500 orang dewasa. Dimulai beberapa bulan sebelum pemilihan, hasilnya secara teratur diterbitkan. Laporan-laporan ini membantu memprediksi pemenang dan melacak perubahan dalam preferensi pemilih. Sumber dari informasi faktual banyak sekali dalam kehidupan kita, mulai dari pengalaman individu sampai laporan di media berita, catatan pemerintah, dan artikel di jurnal profesional. Sebagai konsumen dari laporan tersebut, masyarakat perlu beberapa pengetahuan statistik untuk menafsirkan data dan mengambil kesimpulan. Pengetahuan statistik memberikan kriteria untuk menentukan kesimpulan mana yang didukung oleh data dan mana yang tidak. Kredibilitas kesimpulan juga sangat tergantung pada penggunaan metode statistik pada tahap pengumpulan data. STATISTIKA DALAM MEMBANTU PENELITIAN ILMIAH Dalam penelitian ilmiah pun, statistika memiliki banyak peranan. Misalnya, dalam suatu program pelatihan, untuk mempelajari tentang perbandingan efektivitas dari program yang berbeda, penting untuk mengumpulkan data tentang prestasi atau pertumbuhan keterampilan peserta pelatihan pada akhir setiap program. Lalu, dalam pembiakkan tanaman. Untuk meningkatkan produksi pangan, ilmuwan pertanian mengembangkan hibrida baru dengan fertilisasi silang dari spesies tanaman yang berbeda. Keturunan baru tersebut perlu dibandingkan dengan yang terbaik saat ini. Produktivitas relatif mereka dinilai dengan menanam beberapa dari masing-masing varietas di sejumlah tempat. Hasil dicatat dan kemudian dianalisis untuk perbedaan jelas. Keturunan ini juga dapat dibandingkan atas dasar ketahanan terhadap penyakit atau kebutuhan pupuk. Informasi faktual sangat penting untuk penelitian apa pun. Cabang dari statistika yang disebut desain eksperimen dapat membantu peneliti dalam perencanaan cara dan jangkauan pengumpulan data. Setelah data dikumpulkan, metode statistika yang ada dapat meringkas dan menggambarkan fitur yang menonjol dari data. Ini umumnya dikenal sebagai statistika deskriptif. Lalu, untuk mengevaluasi informasi yang terdapat dalam data dan penilaian pembelajaran baru yang diperoleh dari informasi merupakan area dari statistika inferensial, dan ini terkait dengan metode yang dikenal sebagai metode statistika inferensi. Harus disadari bahwa penelitian ilmiah biasanya adalah proses dari trial and error. Jarang sekali sebuah kejadian dapat dipahami dengan cara tunggal, atau hanya 1 kali percobaan. Yang sering kita dengar adalah kisah Thomas Edison. Bahkan setelah kesuksesan pertamanya dengan bola lampu listrik, Thomas Edison harus terus bereksperimen dengan berbagai bahan untuk filamen sebelum disempurnakan. Data yang diperoleh dari eksperimen memberikan pengetahuan baru. Pengetahuan ini sering menunjukkan revisi dari teori yang ada, dan itu sendiri ini mungkin memerlukan penyelidikan lebih lanjut melalui eksperimen dan analisis data. DUA KONSEP DASAR: POPULASI DAN SAMPEL Pada bagian sebelumnya, kita membahas beberapa contoh situasi dimana evaluasi dari informasi faktual sangat penting untuk memperoleh pengetahuan baru. Meskipun contoh-contoh ini diambil dari bidang yang berbeda-beda dan hanya penjelasan singkat dari ruang lingkup dan tujuan dari studi yang disediakan, beberapa karakteristik umum dengan mudah dapat dilihat. Pertama, dalam rangka memperoleh pengetahuan baru, data yang relevan harus dikumpulkan. Kedua, beberapa jumlah dari variabilitas dalam data tidak dapat dihindari meskipun pengamatan dibuat di bawah kondisi yang sama atau hampir mirip. Misalnya, pengobatan untuk alergi dapat memberikan keringanan jangka panjang untuk beberapa orang sedangkan mungkin hanya membawa keringanan sementara atau bahkan tidak sama sekali kepada orang lain. Ketiga, kita tidak bisa memperoleh data yang benar-benar lengkap. Ketika data telah diperoleh dari percobaan laboratorium atau uji coba lapangan, tidak peduli berapa banyak eksperimen telah dilakukan, sebenarnya kita dapat melakukan lebih banyak lagi. Dalam opini publik atau studi pengeluaran konsumen, informasi yang lengkap akan muncul hanya jika data dikumpulkan dari setiap individu di negara. Lalu, jika kita ingin mengumpulkan set data yang lengkap terkait dengan kerusakan yang dialami mobil jika terjadi tabrakan pada suatu kecepatan tertentu, apakah itu berarti setiap mobil harus ditabrakkan? Tentu saja tidak mungkin. Dengan demikian, karena keterbatasan waktu, sumber daya, fasilitas, dan kadang-kadang sifat destruktif pengujian, maka kita harus bekerja dengan informasi yang tidak lengkap. Maka, muncullah istilah populasi dan sampel. Populasi adalah himpunan yang berisi tentang seluruh informasi yang akan kita cari. Populasi merupakan target penyelidikan. Kita mempelajari tentang populasi dengan cara mengambil sampel dari populasi. Sebuah sampel yang ditetapkan terdiri dari pengukuran yang dicatat untuk unit-unit yang benar-benar diamati. Sebuah sampel dari populasi statistik adalah bagian dari pengukuran yang sebenarnya dikumpulkan dalam proses penyelidikan. MENGGUNAKAN TABEL ANGKA RANDOM UNTUK MEMILIH SAMPEL Pilihan untuk unit populasi mana yang akan disertakan dalam sampel harus berimbang dan objektif. Lalu, bagaimana cara untuk memilihnya? Ketika jumlah unit tidak terlalu banyak, kita dapat menggunakan secarik kertas dan menuliskan nama-nama dari setiap unit dalam populasi. Lalu kertas-kertas itu ditempatkan dalam sebuah kotak. Kertas-kertas tersebut dapat diambil satu per satu tanpa pengembalian dan unit terkait dipilih sebagai sampel. Sayangnya, prosedur sederhana dan intuitif ini rumit untuk diterapkan. Sulit untuk mencampur kertas-kertas dengan baik untuk memastikan ketidakberpihakan. Ada juga metode yang lebih baik, yaitu dengan mengambil 10 kelereng identik, lalu kelerengkelereng itu diberi nomor 0 sampai 9, dan menempatkan mereka dalam sebuah wadah. Setelah mengacak kelereng-kelereng tersebut, ambil 1 kelereng. Setelah mengambil 1 kelereng, acak dan ambil lagi. Dengan cara ini, kita telah membuat urutan angka acak. Setiap angka memiliki kesempatan yang sama untuk muncul di posisi apapun, semua pasangan memiliki kesempatan yang sama untuk muncul di dua posisi apapun, dan seterusnya. Untuk kenyamanan penggunaan, angka ini dapat ditempatkan di sebuah tabel yang disebut tabel angka random/acak. Untuk mendapatkan sampel acak dari unit dari populasi berukuran N, pertama kita beri nomor unit dari 1 sampai N. Kemudian nomor dibaca dari tabel angka random sampai nomor yang berbeda dalam kisaran yang tepat dipilih. TUJUAN STATISTIKA Subjek dari statistika memberikan metodologi untuk membuat dugaan tentang populasi dari pengumpulan dan analisis data sampel. Metode ini memungkinkan seseorang untuk memperoleh generalisasi yang masuk akal dan kemudian menilai sejauh mana ketidakpastian yang mendasari generalisasi tersebut. Konsep statistika juga penting selama tahap perencanaan dari penyelidikan. Tujuan utama dari statistika adalah: 1. Untuk membuat dugaan tentang populasi dari analisis informasi yang terkandung dalam data sampel. Ini termasuk penilaian dari tingkat ketidakpastian yang terlibat dalam dugaan tersebut. 2. Untuk mendesain proses dan banyaknya sampel sehingga pengamatan membentuk sebuah dasar untuk menarik kesimpulan yang valid. Rancangan dari proses pengambilan sampel merupakan langkah penting. Sebuah rancangan yang baik untuk proses pengumpulan data memungkinkan dugaan yang efisien yang akan dibuat, dengan analisis sederhana. Penggunaan awal dari statistika dalam kompilasi dan presentasi pasif dari data sebagian besar telah digantikan oleh peran modern yang menyediakan alat-alat analisis dengan data yang dapat secara efisien dikumpulkan, dipahami, dan diinterpretasikan. Konsep dan metode statistika memungkinkan untuk menarik kesimpulan yang valid tentang populasi berdasarkan sampel. Subjek statistik telah merambah semua bidang usaha manusia di mana evaluasi informasi harus didasarkan pada bukti berbasis data. ORGANISASI DAN DESKRIPSI DATA Pada pembahasan sebelumnya, kita mengutip beberapa contoh dari situasi-situasi di mana kumpulan data dengan proses eksperimen atau observasi yang tepat, sangat diperlukan untuk memperoleh pengetahuan baru. Suatu kumpulan data, dapat berkisar dalam kompleksitas dari beberapa hingga ratusan bahkan ribuan entri. Setiap entri berhubungan dengan observasi karakteristik yang ditentukan dari sampling unit. Sebagai contoh, seorang ahli ilmu gizi dapat memberikan menu makanan percobaan kepada 30 orang anak yang kurang gizi dan mencatat peningkatan berat badan mereka setelah 2 bulan. Dalam hal ini, anak-anak kurang gizi adalah sampling unit dan akan terdapat 30 data hasil pengukuran peningkatan berat badan. Setelah data dikumpulkan, langkah utama selanjutnya adalah mengelola informasi dan mengekstrak ringkasan deskriptif yang menyoroti karakteristik-karakteristiknya yang penting. Sekarang, kita akan mempelajari cara untuk mengelola dan mendeskripsikan suatu kumpulan data dengan menggunakan tabel, grafik, dan perhitungan ringkasan numerik. TIPE-TIPE DATA Dalam membahas metode-metode untuk menghasilkan ringkasan deskripsi data, dibedakan antara 2 (dua) tipe data, yaitu: Data kualitatif atau kategorik Data numerik atau pengukuran Ketika karakteristik yang diteliti berupa sifat kualitatif yang hanya diklasifikasikan dalam kategorikategori dan bukan pengukuran secara numerik, hasil tersebut dinamakan data kategori. Contohnya adalah warna rambut (pirang, coklat, merah, hitam), status pekerjaan (bekerja, tidak bekerja), dan golongan darah (O, A, B, AB). Sedangkan, jika karakteristik yang diteliti merupakan hasil pengukuran dalam skala numerik, hasil data tersebut akan terdiri dari kumpulan angka-angka dan dinamakan data pengukuran. Kita akan menggunakan istilah numerik bernilai variabel atau cukup menyebut variabel untuk menjelaskan karakteristik yang diukur dengan skala numerik. Kata “variabel” menandakan bahwa pengukuran bervariasi atas sampling unit yang berbeda. Dalam terminologi ini, observasi-observasi dari numerik bernilai variabel menghasilkan data pengukuran. Beberapa contoh dari numerik-numerik bernilai variabel adalah ukuran sepatu, jumlah korban kecelakaan lalulintas dalam suatu negara per hari, intensitas gempa bumi, tinggi pohon pinus berumur 1 tahun, lama waktu dalam antrian teller bank, dan jumlah anak binatang. Banyaknya korban kecelakaan lalu lintas hanya dapat dinyatakan dengan bilangan bulat dan sama halnya dengan jumlah keturunan seekor binatang. Contoh-contoh tersebut merupakan variabelvariabel diskrit. Di samping itu, beberapa variabel, seperti tinggi badan, berat badan, dan waktu kelangsungan hidup secara ideal dapat mengambil nilai dalam sebuah interval. Variabel-variabel tersebut dinamakan kontinu. MENDESKRIPSIKAN DATA DENGAN TABEL DAN GRAFIK Data Kategorik Ketika sifat kualitatif diteliti untuk sampel unit, setiap observasi dicatat sebagai bagian dari salah satu beberapa kategori. Data tersebut dapat segera diolah dalam bentuk tabel frekuensi yang menunjukkan jumlah-jumlah (frekuensi) dari kategori-kategori individual. Pemahaman kita mengenai data dapat lebih jauh ditingkatkan dengan perhitungan proporsi (dapat disebut juga frekuensi relatif) dari observasi-observasi dalam setiap kategori. Data kategorik sering disajikan secara grafis dengan diagram lingkaran (pie chart) di mana segmen dalam lingkaran menunjukkan frekuensi relatif dari kategori. Untuk mendapatkan sudut untuk kategori manapun, kita mengalikan frekuensi relatif dengan 360 derajat yang merupakan derajat lingkaran utuh. Contoh diagram lingkaran tentang pendapat mahasiswa tentang perubahan aturan di asrama: Diagram Pareto adalah teknik grafis yang powerful untuk menunjukkan kejadian-kejadian berdasarkan frekuensinya. Berdasarkan Hukum Empiris Pareto, kumpulan kejadian apapun terdiri dari hanya beberapa hal utama yang terjadi dalam sebagian besar waktu. Contoh diagram Pareto mengenai Tipe Kerusakan yang Ditemukan dalam Produksi Tisu Wajah: Data Diskrit Sama dengan deskripsi kita tentang data kategorik, informasi dalam set data diskrit dapat diringkas dalam tabel frekuensi, atau distribusi frekuensi yang meliputi perhitungan frekuensi relatif. Dalam kategori kualititatif, kini kita mendaftarkan perbedaan pengukuran numerik yang muncul dalam set data dan kemudian menghitung frekuensinya. Data Variabel Kontinu Kini kita mempertimbangkan penyajian data secara grafis yang meliputi pengukuran numerik pada skala kontinu. Tentu saja, catatan hasil pengukuran selalu dibulatkan. Berbeda dengan kasus data diskrit, data hasil pengukuran pada variabel kontinu dapat terdiri dari banyak nilai yang berbedabeda. Maka, tabel atau plot dari seluruh nilai yang berbeda-beda tersebut dan frekuensinya tidak akan memberikan ringkasan data yang informatif. Dua metode grafis yang utama digunakan untuk memperlihatkan set data pengukuran adalah diagram dot (titik) dan histogram. Diagram dot digunakan ketika beberapa observasi yang relatif sedikit (sekitar 20 atau 25 observasi), sedangkan histogram digunakan untuk observasi dengan jumlah yang lebih besar. Ketika data terdiri dari angka-angka dalam set yang kecil, data tersebut dapat disajikan secara grafis dengan menggambarkan garis dengan skala meliputi kisaran nilai pengukuran. Pengukuran individual diplotkan atas garis tersebut sebagai titik-titik yang penting. Hasil dari diagram tersebut dinamakan diagram dot. Contoh diagram dot jumlah hari dari 6 (enam) pasien pertama transplantasi jantung di Stanford untuk bertahan hidup setelah operasi mereka adalah selama 15, 3, 46, 623, 126, 64. Ketika data terdiri dari hasil pengukuran dalam jumlah yang besar, diagram dot mungkin sedikit sulit untuk dibuat. Kepadatan yang berlebih dari titik-titik (dot) akan menyebabkan titik-titik tersebut mengotori dan merusak kejelasan dari diagram. Dalam kasus seperti itu, akan sangat baik untuk meringkaskan data dengan mengelompokkan observasi-observasi berdasarkan interval dan mencatat frekuensi dari interval-interval tersebut. Tidak seperti distribusi frekuensi pada diskrit, di mana pengelompokkan secara natural dilakukan secara langsung. Untuk hal ini kita menggunakan interval dari nilai-nilai. Langkah utama dalam proses ini dijelaskan sebagai berikut: 1. Cari nilai minimum dan maksimum dalam set data 2. Pilih interval atau sel sama rentang yang mencakup rentang antara nilai minimum dan maksimum tanpa tumpang tindih. Ini disebut dengan kelas interval, dan titik akhirnya disebut batas kelas. 3. Hitung jumlah observasi dalam data yang termasuk di setiap kelas interval. Hitungan tiap kelas disebut dengan frekuensi kelas atau frekuensi sel. 4. Hitunglah frekuensi relatif untuk setiap kelas dengan membagi frekuensi kelas terhadap total banyaknya observasi dalam data. Sebuah distribusi frekuensi dapat disajikan secara grafis melalui histogram. Untuk menggambar histogram, mula-mula kita menandai kelas interval di bagian sumbu horizontal. Di setiap interval kita menggambarkan kotak vertical yang di areanya mewakili frekuensi relatif, yaitu proporsi dari observasi yang ada di kelas interval tersebut. Untuk membuat kotak-kotak tersebut yang areanya sama dengan frekuensi relatif, gunakan aturan: Area total dari seluruh kotak adalah sebesar 1, jumlah dari frekuensi relatif. Tampilan diagram batang dan daun memberikan jenis histogram yang lebih efisien untuk visualisasi data, khususnya ketika observasi-observasi berupa angka dengan 2 (dua) digit. Plot ini diperoleh dari mengurutkan observasi-observasi pada baris-baris berdasarkan digit utamanya. Untuk membuat tampilan diagram batang dan daun adalah sebagai berikut : 1. Tuliskan digit 0 sampai dengan 9 dalam sebuah kolom dan gambarkan garis vertikal. Ini disesuaikan dengan digit utama. 2. Untuk setiap observasi, tuliskan digit kedua di sebelah kanan dari garis vertical dalam baris di mana digit pertama muncul. 3. Terakhir, susun digit kedua di setiap baris sehingga digit-digit tersebut berada dalam urutan yang terus meningkat. Contoh: 75 86 68 49 93 84 98 78 57 92 85 64 Nilai Ujian dari 50 orang Siswa. 42 75 84 87 65 37 99 66 90 79 95 55 79 88 76 83 71 78 53 81 70 62 80 74 69 73 48 72 59 80 60 77 90 63 89 77 58 62 Tampilan Diagram Batang dan Daun untuk Nilai Ujian 0 1 2 3 4 5 6 7 8 9 7 289 35789 022345689 01234556778899 00134456789 0023589 Dalam diagram batang dan daun, kolom untuk digit pertama di sebelah kirim dari garis vertikal disebut sebagai batang., dan kolom kedua yang berisi digit kedua disebut sebagai daun. UKURAN-UKURAN PUSAT Langkah-langkah grafis yang digambarkan sebelumnya membantu kita untuk memvisualisasikan pola dari set data pengukuran. Untuk mendapatkan ringkasan deskripsi yang objektif dan perbandingan dari set-set data, kita harus melangkah lebih jauh dan mendapatkan nilai numerik untuk lokasi atau pusat data dan jumlah dari variabilitas yang ada. Untuk menyajikan ide secara efektif dan perhitungan terkait, ukuran pusat sesuai untuk mewakili set data dengan menggunakan simbol. Set data terdiri dari banyaknya pengukuran yang disajikan secara simbolis dengan x1,x2,…,xn. Indeks n menunjukkan banyaknya pengukuran dalam data, dan x1,x2,…, menunjukkan observasi pertama, observasi kedua, dan seterusnya. Sebagai contoh, sebuah set data terdiri dari 5 (lima) buah hasil pengukuran, yaitu 2.1, 3.2, 4.1, 5.6, dan 3.7 disajikan dalam symbol x1, x2, x3, x4, x5, di mana x1 = 2.1, x2 = 3.2, x3 = 4.1, x4 = 5.6, dan x5 = 3.7. Aspek yang paling penting dari mempelajari distribusi sampel pengukuran adalah dengan menempatkan posisi nilai pusat tentang pengukuran yang telah terdistribusi. Terdapat 2 (dua) indikator yang paling sering digunakan sebagai ukuran pusat, yaitu mean (rata-rata) dan median. Mean atau rata-rata dari set data pengukuran merupakan jumlah dari hasil pengukuran dibagi dengan banyaknya pengukuran tersebut. Sebagai contoh, rata-rata dari 5 (lima) pengukuran : 2.1, 3.2, 4.1, 5.6, dan 3.7 adalah Untuk menyatakan maksud dalam kondisi yang umum, kita menggunakan simbol. Jika sampel terdiri dari pengukuran x1,x2,…,xn, rata-rata dari sampel adalah sebagai berikut: Notasi akan digunakan untuk mewakili rata-rata sampel. Untuk penyederhanaan penulisan jumlah yang lebih jauh, huruf capital Yunani ∑ (sigma) digunakan sebagai tulisan singkat (steno) secara statistik. Dengan simbol berikut: Jumlah dari ditulis . Cara membacanya adalah “jumlah dari seluruh Sebagai contoh, dengan i dari 1 sampai n.” merupakan jumlah dari . Mean sampel dari set pengukuran sejumlah n, yaitu x1,x2,…,xn adalah jumlah dari hasi pengukuran tersebut dibagi dengan n. Mean sampel dinotasikan dengan . atau Berdasarkan konsep dari rata-rata, mean merepresentasikan suatu ukuran pusat dari set data. Jika kita menggambarkan diagram dot dari set data sebagai batang horizontal tanpa bobot di mana bulatan-bulatan memiliki ukuran yang sama dan bobot ditempatkan pada posisi titik data, kemudian mean mewakili titik di mana batang (bar) akan seimbang. Ukuran pusat lainnya adalah nilai tengah. Median sampel dari set pengukuran x1,x2,…,xn adalah nilai tengah dari pengukuran yang disusun dari nilai terkecil hingga terbesar. Secara kasar, median adalah nilai yang membagi data ke dalam 2 (dua) bagian yang sama. Dengan kata lain, 50% data terletak di bawah median dan 50% lainnya berada di atas median. Jika n adalah angka yang ganjil, terdapat sebuah nilai tengah yang unik dan nilai tengah tersebut dinamakan median. Jika n adalah angka genap, terdapat 2 (dua) nilai tengah dan median didapatkan dari ratarata keduanya. Sebagai contoh, terdapat urutan data 3, 5, 7, 8 memiliki nilai tengah sebesar 5 dan 7. Sehingga median = (5+7)/2 = 6. Median tidak dipengaruhi oleh beberapa observasi yang sangat kecil atau sangat besar, sebaliknya adanya nilai ekstrim dapat mempengaruhi mean. Untuk distribusi asimetris yang ekstrim, median itu lebih peka untuk mengukur nilai pusat dibandingkan mean. Itulah mengapa pemerintah melaporkan distribusi pendapatan menggunakan median pendapatan sebagai ringkasan, dibandingkan menggunakan mean. Banyaknya orang dengan bayaran/gaji tinggi yang relatif sedikit dapat memiliki efek yang besar terhadap rata-rata bayaran/gaji. Jika jumlah observasi cukup besar (kira-kira lebih besar dari 25 atau 30), hal tersebut terkadang berguna untuk memperluas dugaan nilai median dan membagi data yang telah diurutkan ke dalam quarter (perempat). Seperti titik untuk membagi kedua bagian, titik tersebut dinamakan median, titik untuk membagi menjadi empat bagian dinamakan kuartil, titik untuk membagi ke dalam fraksi yang lebih banyak dinamakan persentil. Persentil ke-p untuk 100 sampel adalah nilai yang setelah data diurutkan dari nilai terkecil ke terbesar, sedikitnya 100 p % dari observasi berada pada atau di bawah nilai tersebut dan sedikitnya 100 (1-p) % berada pada atau di atas nilai tersebut. Jika kita menentukan p = 0.5, deskripsi konseptual dari sampel 100 (0.5) di atas = persentil ke-50 menentukan bahwa sedikitnya separuh dari observasi adalah sama atau lebih kecil dan sedikitnya separuh dari observasi adalah sama atau lebih besar. Jika kita menentukan p = 0.25, sampel sebesar 100(0.25) = persentil ke-25 memiliki proporsi seperempat dari observasi yang sama atau lebih kecil dan proporsi tigaperempat yang sama atau lebih besar. Berikut ini adalah aturan pengerjaan yang akan membantu penyederhanaan perhitungan dari persentil sampel. 1. Urutkan data dari nilai terkecil ke terbesar 2. Tentukan hasil kali dari (ukuran sampel) x (proporsi) = np Jika np bukan bilangan bulat, bulatkan nilai tersebut ke bilangan bulat selanjutnya dan temukan nilai berurutan yang sesuai. Jika np adalah bilangan bulat, katakanlah k, hitunglah rata-rata dari nilai ke-k dan nilai ke-(k+1) dalam nilai yang berurutan. Kuartil hanya terdiri dari persentil ke-25, ke-50, dan ke-75. Kuartil Sampel Kuartil rendah (pertama) Q1 = Persentil ke-25 Kuartil sedang (median) Q2 = Persentil ke-50 Kuartil tinggi (ketiga) Q3 = Persentil ke-75 UKURAN-UKURAN VARIASI Selain menemukan ukuran pusat data, studi deskriptif lainnya dari data dapat diukur secara numerik mengenai tingkat variasi di sekitar pusat data. Dua set data dapat menunjukkan posisi yang sama dari pusat namun ada kemungkinan benar-benar ada perbedaan dalam hal memperhatikan variabilitas, seperti gambar di bawah ini, diagram dot dengan nilai pusat yang sama namun berbeda variasi: Karena rata-rata sampel merupakan ukuran pusat, variasi dari titik individu data dari nilai pusat ini tercermin dalam deviasi (simpangan) dari rata-ratanya. Deviasi (simpangan) = observasi – rata-rata sampel = x Sebagai contoh, set data 3, 5, 7, 7, 8 memiliki rata-rata = (3 + 5 + 7 + 7 + 8)/5 = 30/5 = 6, sehingga deviasinya dihitung dengan cara mengurangi 6 dari setiap observasi. Kita mungkin merasa bahwa rata-rata dari simpangan akan memberikan ukuran numerik dari penyebaran. Bagaimanapun, beberapa simpangan bersifat positif, beberapa lainnya bersifat negatif, dan total dari simpangan yang positif dapat menghapus total dari simpangan yang negatif. Untuk mendapatkan ukuran sebaran, kita harus mengurangi tanda-tanda adanya penyimpangan sebelum menghitung rata-rata. Satu cara untuk menghilangkan gangguan dari tanda-tanda penyimpangan, yaitu dengan cara menguadratkan bilangan. Ukuran sebaran yang disebut dengan varians sampel, diperoleh dengan menambahkan simpangan yang telah dikuadratkan dan membagi totalnya dengan jumlah observasi dikurangi satu. Varians sampel dari n observasi: Karena varians melibatkan jumlah kuadrat, unitnya adalah kuadrat dari unit di mana pengukuran dinyatakan. Sebagai contoh, jika data mengenai pengukuran dari berat dalam pounds, varians dinyatakan dalam (pounds)2. Untuk memperoleh ukuran variabilitas dalam unit yang sama sebagai data, kita mengambil akar kuadrat positif dari varians, yang disebut standar deviasi sampel. Standar deviasi daripada varians merupakan ukuran dasar dari variabilitas. Standar deviasi sampel: Kita dapat melihat bahwa satu set data dengan jumlah variasi yang lebih besar menghasilkan nilai s numerik yang lebih besar. Masalah ada pada seputar perbandingan antara set data yang berbeda. Dalam konteks mengenai set data tunggal, dapatkah kita mengaitkan nilai numerik dari s terhadap kedekatan fisik titik data pada ukuran pusat ?. Untuk tujuan ini, kita melihat satu standar deviasi sebagai jarak patokan dari rata-rata . Untuk distribusi bentuk lonceng, aturan empiris mengaitkan standar deviasi dengan proporsi data yang disimpan dalam interval sekitar . Petunjuk Empiris untuk Distribusi Lonceng Simetris Sekitar 68% dari data terletak dalam 95% dari data terletak dalam 99.7% dari data terletak dalam Ukuran Variasi Lainnya Ukuran variasi lainnya yang terkadang digunakan : Range sampel = Observasi terbesar – Observasi terkecil Range menunjukkan panjang interval yang terbentang oleh observasi-observasi. Sebagai ukuran sebaran, range memiliki 2 sifat yang menarik. Range sangat sederhana untuk menghitung dan menjelaskan. Bagaimanapun, range mengalami kerugian serius yang terlalu sensitif terhadap adanya observasi set data yang sangat besar atau kecil. Selain itu, range mengabaikan informasi yang ada di dalam titik-titik menengah yang tersebar. Untuk menghindari masalah dari penggunaan ukuran yang mungkin terlempar jauh dari sasaran karena satu atau dua observasi liar atau tidak wajar, sebuah kesepakatan dibuat dengan menghitung interval antara kuartil pertama dan ketiga. Range Interkuartil Sampel = Kuartil Ketiga – Kuartil pertama Interkuartil sampel mewakili panjang interval yang meliputi pusat separuh observasi. Ukuran dari sejumlah variasi tidak terganggu jika pecahan observasi yang kecil sangat besar atau sangat kecil. Range interkuartil sampel biasanya dipakai dalam laporan pemerintah mengenai pendapatan dan distribusi lainnya yang memiliki bagian akhir yang panjang, dalam pilihan standar deviasi sebagai ukuran sebaran. Boxplot Boxplot menyoroti informasi ringkasan dari kuartil. Dimulai dengan: Ringkasan lima angka : minimum, Q1, Q2, Q3, maksimum Pusat setengah data, dari kuartil pertama hingga ketiga, diwakili oleh sebuah kotak persegi panjang dengan median ditunjukkan dengan sebuah batang. Sebuah garis memanjang dari Q3 hingga nilai maksimum dan nilai lain dari Q1 hingga nilai minimum. Contoh boxplot: