STATISTIK, PENGERTIAN EKSPLORASI DATA 1 1. 2. 3. 4. DAN Populasi dan Sampel Statistik dan Statistika Jenis-jenis Observasi Statistika Deskriptif •Sari Numerik Data •Penyajian MA 2181 Analisis Data, Agustus 2010 Utriweni Mukhaiyar © 2008 by USP & UM ; last edited Aug 10 ILUSTRASI Data nilai ujian Analisis Data dari 15 mahasiswa Program Studi Matematika semester ganjil tahun 2008: 87 37 3 59 49 69 9 95 833 87 39 95 833 76 833 26 46 4 Berapa rata-rata nilai ujian? © 2008 by UM Seberapa menyebarnya kemampuan dari mahasiswa mahasiswa? Statistika deskriptif STATISTIK DAN Adakah mahasiswa yang perlu perhatian khusus? khusus Apakah rata-rata rata nilai tahun ini lebih baik daripada tahun lalu? Inferensi statistik 2 STATISTIKA Statistik : nilai-nilai ukuran data yang mudah dimengerti. Contoh : statistik liga sepak bola Indonesia Statistika : ilmu yang berkaitan dengan cara pengumpulan, pengolahan, analisis dan pernarikan kesimpulan atas data. 3 © 2008 by UM 1 JENIS-JENIS STATISTIKA 1. 2. Statistika deskriptif: metode yang berkaitan dengan pengumpulan dan penyajian data. Statistika inferensi: metode yang berkaitan dengan analisis sampel untuk penarikan kesimpulan tentang karakteristik populasi. populasi 4 © 2008 by UM POPULASI DAN SAMPEL Populasi Sampel setiap obyek populasi memiliki kemungkinan/kesempatan yang sama untuk terpilih Sampel Acak hasil pengukuran atau pengamatan Data 5 © 2008 by UM CONTOH POPULASI DAN SAMPEL Seluruh mahasiswa TPB ITB ? @ UM Akan dilakukan penelitian apakah tahun pertama di ITB (TPB) memberikan pengaruh terhadap perubahan berat badan mahasiswa. Untuk itu dilakukan pengambilan data pada hari j TPB. terakhir ujian Populasi Kendala: - sangat banyak, -menghabiskan waktu, -menghabiskan biaya Keterwakilan sampel atas populasi ?? Sampel Kaidah Pengambilan Sampel (Teknik Sampling) 6 Contoh: tiap-tiap kelas TPB diambil secara acak 10 orang mahasiswa. 2 JENIS-JENIS OBSERVASI OBSERVASI / DATA KUALITATIF Nominal KUANTITATIF Ordinal/Rank Diskrit Kontinu Tidak mengenal urutan dan operasi aritmatika Mengenal urutan dan operasi aritmatika Berhubungan dengan ‘proses menghitung’, dan pengamatan atas himpunan terhitung. p g Didasarkan pada suatu selang/interval sehingga meliputi g riil semua bilangan Warna batuan (abuabu, hitam, putih, coklat, dll), jenis kelamin , dll Ukuran baju (S, M, L, XL), ukuran kepuasan (tidak suka sama sekali, tidak suka, biasa saja, suka, sangat suka) Banyaknya pekerja yang dibutuhkan dalam suatu area pertambangan, jarak yang dilangkahi seseorang (bisa mundur, bisa maju) per 0,5 meter Berat batuan, luas area pertambangan, 7 jarak tempuh truk pengangkut, suhu, dll © 2008 by UM STATISTIKA DESKRIPTIF Metode yang berkaitan dengan pengolahan dan penyajian suatu gugus data sehingga memberikan informasi yang berguna. bentuk distribusi data 8 © 2008 by UM KARAKTERISTIK DISTRIBUSI 1. PARAMETER DISTRIBUSI 2. BENTUK DISTRIBUSI Ukuran Pemusatan mean, median, modus, kuartil atas, kuartil bawah, dll Ukuran Penyebaran y Range, simpangan baku, variansi, jangkauan antar kuartil, dll Kemencengan skewness Kelancipan kurtosis Simetris Berpuncak Jamak Berpuncak Tunggal gg # modus > 1 # modus = 1 Menceng/skew Positif Menceng/skew Negatif g mean = median mean > median mean < median 9 © 2008 by UM 3 CONTOH KASUS Berikut adalah data nilai ujian Statistik Dasar dari 15 mahasiswa Program Studi tertentu. (n = 15) 87 37 59 49 69 95 83 87 39 95 83 76 83 26 46 x1 x2 x9 x12 x15 Data yang diurutkan: 26 37 39 46 49 59 69 76 83 83 83 87 87 95 95 x(1) x(2) x(9) x(12) x(15) 10 maksimum minimum Adakah perbedaan dari penyajian kedua data di atas? © 2008 by UM UKURAN PEMUSATAN DATA 1. Mean (rata-rata) x 1 n n x i i 1 Contoh : x1 x2 ... x15 15 87 37 ... 46 67, 60 15 x 11 © 2008 by UM 26 50 37 % 39data 46 49 59 )69 76 8350% 83 data 83 87(akhir 87 95) 95 (awal) (awal (akhir) x(8) 3x 2x 2x 2. Median Nilai tengah yang membagi dua kelompok data sama banyak. y med = x(8) = 76 3. Modus Nilai yang paling sering muncul. mod = 83 12 © 2008 by UM 4 4. KUARTIL 26 25 37 % 39 46 49 25 59%69 76 832583% 83 87 87 25 95 % 95 q1 Kuartil q3 q2 = med bawah (q1) : q1 x n 1 q1 x 151 x(4) 46 4 4 Kuartil tengah (q2) : q2 x 2( n 1) x n 1 4 2 q2 x 151 x(8) 76 2 13 q3 x 3(151) x(12) 87 Kuartil atas (q3) : q3 x 3( n 1) © 2008 by UM 4 4 5. PERSENTIL 26 37 39 46 49 59 69 76 83 83 83 87 87 95 95 p25 • Persentil ke-i : p75 p50 = med x i ( n 1) 100 • Persentil ke-50 : x 50( n 1) x n 1 100 2 median • Persentil ke-25 dan Persentil ke-75? 14 © 2008 by UM kuartil bawah kuartil atas UKURAN PENYEBARAN DATA 1. Jangkauan data (Range) R = 95 – 26 = 69 R = datamax – datamin 2. Variansi 1 n 1 s2 ( xi x )2 n 1 i 1 n 1 n xi i 1 2 x i n i 1 n 2 s2 529,2571 529 2571 JKXX 3. Simpangan Baku (standard deviation) s 529, 2571 23, 01 s = √s2 15 4. Jangkauan antar kuartil dq = q3 – q1 dq = q3 – q1 = 87 – 46 = 41 © 2008 by UM 5 DATA PENCILAN Data yang nilainya berbeda jauh dari kelompok data yang lain. Bagaimana mendeteksi data pencilan ?? g dqq 1. Hitung dqq = 41 2. Hitung BBP = q1 – k.dq BBP = 46 – (1,5)(41) = -15,5 Pilih nilai k = 3/2 (tidak mutlak) 3. Hitung BAP = q3 + k.dq BAP = 87 + (1,5)(41) = 148,5 4. Pencilan bawah < BBP tidak ada pencilan bawah 5. Pencilan atas > BAP tidak ada pencilan atas 16 © 2008 by UM SARI NUMERIK Count (banyak data, n) 15 Sum (jumlah data) 1014 Average (rata-rata) 67.6 Median (kuartil tengah) 76 Mode (modus) 83 Minimum 26 Maximum 95 Range 69 Standard Deviation 23.01 Variance 529.2571 Skewness -0.50* Kurtosis -1.23* 25th Percentile (persentil-25) 46 50th Percentile (persentil-50) 76 75th Percentile (persentil-75) 87 Interquartile Range (dk) 41 mean < median Menceng kiri 17 * Perhitungan dengan Mic. Excel © 2008 by UM PENYAJIAN DATA 1. 2. 3. 4. 5. 6. Pie Chart Dot Plot Histogram g Diagram Batang – Daun (stem - leaf) Diagram Kotak – Titik (box plot) dll… Skala penggambaran harus diperhatikan dalam penyajian data dalam bentuk grafik. Penyajian data dalam bentuk grafik dapat dilakukan secara manual maupun menggunakan software-software statistik seperti Microsoft Excel, SPSS, SAS, S-Plus, Minitab dan lainnya. 18 © 2008 by UM 6 PIE CHART 9% 10% 23% 58% Pie chart merupakan grafik yang berbentuk lingkaran yang mana setiap potongannya mewakili proporsi atau persentase suatu komponen dari sebuah kelompok data (100%). Pemakaian pie chart hanya cocok ketika menyatakan data 19 dalam bentuk proporsi dari satu kelompok data. © 2008 by UM DOT PLOT 3.5 3 f frekuensi 2.5 2 1.5 1 0.5 0 0 20 40 60 80 100 nilai Cara menggambarkan data dalam bentuk titik, dengan memperhatikan frekuensi dari data yang bersangkutan Titik ditumpuk diatas nilai data yang digambarkan. 20 © 2008 by UM HISTOGRAM Histogram adalah gambar berdasarkan distribusi frekuensi Setiap frekuensi dipresentasikan oleh suatu segi empat (rectangle). 21 Daerah setiap rectangle sebanding dengan frekuensinya. © 2008 by UM 7 DIAGRAM BATANG-DAUN (STEM-LEAF) Stem atau batang, mirip dengan grup data pada histogram, sedangkan leaf atau daun, mirip dengan frekuensi. Stem atau batang adalah digit pertama yang terpenting yang ada dalam bilangan yang membentuk harga data, sedangkan digit di belakangnya akan merupakan leaf atau daun. 22 Melalui stem-Leaf masih dapat dilihat nilai data mentahnya. © 2008 by UM DIAGRAM KOTAK-TITIK (BOX-PLOT) max 100 95 90 85 80 76 70 q2 q3 mean 60 50 q1 47.5 40 30 min 26 20 10 0 Box Plot digunakan untuk menyelidiki distribusi tanpa menggunakan grup data seperti pada histogram dan diagram batang daun. Box Plot terdiri dari: datamin , q1 , q2 (median), q3 , dan 23 datamax yang disusun secara terurut dengan membentuk kotak. © 2008 by UM PENCILAN PADA BOX PLOT * pencilan atas max kedua q3 q2 mean q1 min ketiga * * pencilan bawah 24 © 2008 by UM 8 KELEMAHAN DAN KEUNGGULAN KELEMAHAN DOT PLOT HISTOGRAM KEUNGGULAN Tidak efektif untuk ukuran data yang besar Cepat Lama Histogram peluang dapat memberi gambaran tentang distribusi populasi Nilai data asli dapat diperkirakan Banyak perhitungan Tidak menuntut ketelitian dalam mencatat t t setiap ti nilai il i data d t Nilai data tidak nampak Cepat BATANGDAUN Tidak memerlukan perhitungan Menuntut ketelitian mencatat daun Nilai data asli dapat dilihat Memudahkan perhitungan berbagai parameter Membutuhkan perhitungan Box plot dapat memberi gambaran yang panjang tentang bentuk distribusi populasi BOX PLOT © 2008 by UM Terdiri dari parameterparameter dari data yang sudah diurutkan Efektif untuk membandingkan 25 bentuk distribusi beberapa kelompok data sekaligus BENTUK DISTRIBUSI IDEAL NORMAL mean = median Memiliki bentuk distribusi yang simetris, yaitu : Skewness = 0 Kurtosis = 3, (dalam software tertentu kurtosis normal =260 © 2008 by UM TRANSFORMASI DATA Transformasi dilakukan untuk mendapatkan bentuk distribusi yang lebih simetris. Transformasi Tangga Tukey -1/x2 -1/x untuk bentuk distribusi : skewness positif √x log (x) x x2 data awal Merenggangkan data‐data yang berharga kecil dan merapatkan data‐data yang berharga besar x3 10x untuk bentuk distribusi : skewness negatif Merapatkan data‐data yang berharga kecil dan merenggangkan data‐data yang berharga besar Data contoh kasus : skewness = -0,5 (menceng kiri), maka transformasi yang mungkin adalah x2, x3, dan 10x. 27 © 2008 by UM 9 TRANSFORMASI DATA CONTOH KASUS x y = x2 87 37 59 49 69 95 83 87 39 95 83 76 83 26 46 7569 1369 3481 2401 4761 9025 6889 7569 1521 9025 6889 5776 6889 676 2116 © 2008 by UM transformasi Lebih mendekati simetris (skew = 0) dibanding sebelum transformasi (skew = -0,5) skew = -0,18 ** Ketika data ditransformasi, maka satuan 28 dari data juga akan berubah REFERENSI Djauhari, M.A., 2001, Catatan Kuliah Analisis Data. Devore, J.L. and Peck, R., Statistics – The Exploration and Analysis of Data, USA: Duxbury Press, 1997. Walpole, Ronald E. dan Myers, Raymond H., Ilmu Peluang dan Statistika S i ik untukk Insinyur I i dan d Ilmuwan, Il Edi i 4, Edisi 4 Bandung: B d Penerbit ITB, 1995. Walpole, Ronald E., et.al, Statistitic for Scientist and Engineering, 8th Ed., 2007. Wild, C.J. and Seber, G.A.F., Chance Encounters – A first Course in Data Analysis and Inference, USA: John Wiley&Sons,Inc., 2000. 29 Pasaribu, U.S., 2007, Catatan Kuliah Biostatistika. © 2008 by UM 10