Analisa Data Statistik Agoes Soehianie, Ph.D Agoes Soehianie Rencana Perkuliahan 1. 2. 3. 4. 5. Komponen Penilaian a. b. c. d. Ujian Tengah Semester Ujian Akhir Semester Tugas/PR Quiz Perhitungan Nilai Akhir NA = 40% UTS + 40% UAS + 10% PR/Tugas + 10% Quiz Konversi Nilai Mengikuti aturan Fisika dasar x>= 75 Index= A 68<= x < 75 Index = AB 60<= x < 68 Index = B 55<= x < 60 Index = BC 50<= x < 55 Index = C 45<= x < 50 Index = D X < 45 Index = E Tidak ikut ujian = 0 Syarat kehadiran 80% Text Book : Walpole, R.E., Myers, R.H., Myers, S.L., Keying Ye, Probability and Statistics for Engineers and Scientiests, 8th ed., 2007, Pearson Education International Pelengkap: Lind, D.A., William G Marchal, Samuel A. Wathen, Basic Statistics for Business & Economics, McGraw Hill Int. 5th Ed. Agoes Soehianie Rencana Perkuliahan 6. a. b. c. d. e. f. g. h. i. j. k. Cakupan bahan Pendahuluan & Deskripsi Data Probabilitas Distribusi Probabilitas (Diskrit dan Kontinu) Metoda Sampling dan Distribusi Sample Estimasi dan Confidence Interval Testing Hipotesa (1 sample) :sample kecil dan besar Testing Hipotesa (2 sample) : sample kecil dan besar ANOVA Korelasi dn Regresi Linear Regresi Linear Jamak Time Series dan Forecasting (jika waktu memungkinkan) Metoda Kuliah: tatap muka (slides, software & PR/ Quiz) Softwares : SPSS dan Excell Agoes Soehianie Chap-1 Agoes Soehianie Chap 1: Pendahuluan dan Deskripsi Data Arti Statistik: Ilmu pengumpulan, mengorganisasi, menganalisa, menampilkan data serta menginterpretasikan data dalam rangka membuat keputusan yg efektif. Arti lain Statistik: Angka-angka numerik yang menggambarkan sekumpulan data Misal : nilai rata-rata 89.3, GNP negara X : 3000 USD, Median penghasilan negara X adalah 5000 USD. Agoes Soehianie Macam Statistik Dua macam statistik: – – Statistik Inferensial mengambil kesimpulan ttg populasi dari sampel Statistik Deskriptif menggambarkan sampel saja Statistik Inferensial: Sampel Teori Probabilitas dan Distribusi Populasi Populasi: Keseluruhan object atau pengukuran tertentu yang menjadi pusat perhatian. Sampel: sebagian object atau pengukuran dari sebuah populasi Agoes Soehianie Tipe Variabel Tipe Variabel Kualitatif •Status Perkawinan •Pekerjaan •Kebangsaan Kuantitatif Diskrit •Jumlah anak di keluarga •Banyak orang menyukai merek X •Jumlah pemilih partai X Kontinyu •Gaji dosen •Tinggi anak •Intensitas cahaya •Jarak tempuh Agoes Soehianie Tingkat Pengukuran Tingkat Pengukuran Non Metric Nominal Hanya kategori •Jenis kelamin •Tipe hari •Warna mobil Metric Ordinal Ada urutan •Tingkat kepuasan •Tingkat resiko Interval •Jarak antar ukuran bermakna •Suhu •Ukuran sepatu •IQ Rasio •Titik Nol bermakna •Gaji dosen •Tinggi anak •Intensitas cahaya •Jarak tempuh Agoes Soehianie Cara Deskripsi Data Cara penyajian data : Tabel dan Grafik Tabel : Distribusi Frekuensi Batas Bawah Kelas Limit Bawah Kelas Limit Atas Kelas 1.5 6.5 11.5 16.5 21.5 26.5 2 7 12 17 22 27 6 11 16 21 26 31 Batas Atas Kelas 6.5 11.5 16.5 21.5 26.5 31.5 Panjang Interval Kelas 5 5 5 5 5 5 Titik Tengah Kelas 4 9 14 19 24 29 TOTAL Frekuensi Frekuensi Frekuensi kelas Relatif Kumulatif 2 5 7 10 4 3 31 6% 16% 23% 32% 13% 10% 100% 6% 23% 45% 77% 90% 100% Istilah penting: batas kelas, limit kelas, panjang interval, titik tengah kelas, frekuensi, frekuensi relatif dan frekuensi kumulatif Agoes Soehianie Tabel Distribusi Frekuensi Dari data mentah Tabel distribusi frekuensi (apa tujuannya?) Bagaimana membuatnya? Contoh : Data mentah (Nilai ADS) 41 23 33 50 86 21 68 72 71 73 84 74 60 38 17 100 62 65 60 73 17 89 63 84 90 49 26 85 60 81 58 71 14 18 72 73 60 36 18 16 50 33 Banyak data (N), sort (urutkan) Manual? (No way!) Cari Data Max, Min dan Range Max : 100 Min: 14 , Range (Jangkauan) : Max –Min = 100-14 = 86 Berapa banyak interval kelas? Berapa Lebarnya? Banyak interval kelas (contoh) pakai Aturan Sturgess : k = 1+ 3.31log(N) ( Bukan harga mati) Agoes Soehianie Tabel Distribusi Frekuensi Hal yang harus dihindari : Interval terlalu lebar Interval terlalu kecil 100 60 30 50 25 90 80 20 50 40 Frekuensi 40 60 Frekuensi 30 15 10 20 30 5 20 10 10 0 0 0 0-49 50-99 0-24 25-49 Nilai Cara membuat Distribusi Frequency : Excell : fungsi Frequency Note: Penjelasan dan demo dengan Excell 50-74 Nilai 75-99 04 10 -1 4 20 -2 4 30 -3 4 40 -4 4 50 -5 4 60 -6 4 70 -7 4 80 -8 4 90 -9 4 Frekuensi 70 Nilai Agoes Soehianie Tabel Distribusi Frekuensi Memakai Excell untuk distribusi frekuensi: 1. Fungsi Frequency menerima dua argumen : Range Data dan Bins Array 2. Range Data menunjuk pada range alamat sel yg berisi data yg akan dihitung distribusinya 3. Bins Array menunjuk pada array 1D yang menyatakan batas atas interval yang berturutan. 4. Harus dimasukkan sebagai Rumus Array (bagaimana caranya?) 5. Awas Bins array terakhir! Contoh : Frequency (Excell) Scores Bins 79 85 78 85 50 81 95 88 97 Frekuensi 70 1 79 2 89 4 2 Scores 79 85 78 85 50 81 95 88 97 Bins 70 79 89 Agoes Soehianie Frekuensi =FREQUENCY($I$3:$I$11,$J$3:$J$6) =FREQUENCY($I$3:$I$11,$J$3:$J$6) =FREQUENCY($I$3:$I$11,$J$3:$J$6) =FREQUENCY($I$3:$I$11,$J$3:$J$6) Penyajian Data Dalam Grafik Macam-macam grafik: – Histogram Line graph Scatter diagram Pie Chart Area Graph – Stem-Leaf Plot – – – – Agoes Soehianie Agoes Soehianie Eksplorasi Data dan Penyajiannya Ukuran Pemusatan – – – Rata-rata (mean) aritmetika dan rata-rata terbobot Median Modus/Mode Ukuran Penyebaran – – – – – Range Quartile Semi InterQuartile Variansi Standard Deviasi Agoes Soehianie Mean Mean N N X X X j j 1 N f j 1 k j Xj f j 1 j fj = frekuen`si Weighted Mean N X W X j 1 k j W j 1 j Wj : weight j Bisa untuk data dalam Bentuk interval Agoes Soehianie Mean : Contoh Mean Data : X : 3, 4, 4, 5 , 8 , 6 Mean : N X X j 1 j N Mean data berbentuk tabel distribusi Interval Klas Titik Tengah Frekuensi Xk Fk 0-9 4.5 3 10-19 14.5 4 20-29 24.5 6 30-39 34.5 10 TOTAL 23 Rata-rata= Xk* Fk 13.5 58 147 345 563.5 24.5 3 4 4 5 8 6 30 5 6 6 Median : Contoh Agoes Soehianie Median Data : X : 3, 4, 4, 1, 5 , 8 , 6 Median : nilai tengah (yg berada di tengah) jikalau data di urut. Langkah 1: urutkan X : 1, 3,4,4,5,6,8 Langkah 2: tentukan posisi tengah Banyak data : N= 7 Median : data ke (N+1)/2 = 4. Arti : Median data X= 4 : setengah data lebih kecil dari 4, setengah lagi lebih besar dari 4. Bagaimana Mediannya jika N genap? Diambil rata-rata data yg di tengah. Contoh : X : 3, 4, 4, 5 , 6 , 8 Median : ½ (XN/2 + XN/2-1) = ½ (4+5) 4.5 Modus : Contoh Agoes Soehianie Modus Data : X : 3, 4, 4, 1, 5 , 8 , 6 Modus : data yg paling sering muncul. Frekuensinya tertinggi. Dalam contoh di atas modus X = 4. Untuk data-data yg bersifat nominal/kategorikal maka seringkali yg dipakai adalah modusnya. Berdasarkan pola distribusinya, terkadang bisa dikenali bahwa modusnya lebih dari satu macam: misal bi-modal ( 2 modus) Range, Variansi dan STD Agoes Soehianie Ukuran penyebaran yang paling sederhana adalah Range (jangkauan) data yaitu : Data terbesar – Data terkecil. N Variansi (populasi): 2 j 1 S2 2 ) j N N Variansi (sampel): Standard deviasi : populasi : σ = √ σ2 sampel : S = √ S2 (X (X j 1 2 X ) j N 1 koreksi di penyebut untuk memperbaiki nilai variansi sampel sebagai penaksir variansi populasi Agoes Soehianie Variansi dan STD : data mentah Contoh: Hitunglah variansi dan STD sampel berikut ini: N X : 3, 4, 4, 5 , 8 , 6 Hitung dulu rata-rata sampel: X X j 1 N j 3 4 4 5 8 6 30 5 6 6 Variansi (sampel): N S 2 (X j 1 2 X ) j N 1 (3 5) 2 (4 5) 2 (4 5) 2 (5 5) 2 (8 5) 2 (6 5) 2 6 1 S2= 16/5 = 3.2 Standard deviasi sampel = S = √3.2= 1.79 Agoes Soehianie Variansi dan STD: tabel frekuensi Contoh: Hitunglah variansi dan STD sampel berikut ini: No 1 2 3 4 5 Interval 0-9 10-19 20-29 30-39 40-49 N S2 Titik tengah Frekuensi Xi Fi XiFi (Xi-X)^2 Fi 4.5 5 22.5 1517.17 14.5 8 116 440.3746 24.5 10 245 66.59729 34.5 6 207 949.6358 44.5 2 89 1019.771 TOTAL 31 679.5 3993.548 rata-rata 21.92 Variansi 133.12 STD 11.54 2 f ( X X ) j j j 1 N 1 Untuk data terdistribusi dalam bentuk tabel interval klas, maka yang dipergunakan adalah titik tengah intervalnya, dan perhitungannya mempergunakan frekuensi tiap interval sebagai weighting factornya Agoes Soehianie Quartile & Percentile Ukuran penyebaran yg lain, yang merupakan pengembangan dari Median adalah Quartile. Pada dasarnya Quartile adalah datadata yang membagi seluruh data menjadi 4 bagian yang sama banyaknya. Q1=Quatile bawah Q2=median Q3=Quatile atas X Data rendah Data tinggi Jadi Q1 adalah menyatakan batas dimana 25% data adalah lebih kecil dari Q1 Jadi Q2 adalah menyatakan batas dimana 50% data adalah lebih kecil dari Q2 Jadi Q3 adalah menyatakan batas dimana 75% data adalah lebih kecil dari Q3 Quartile & Percentile Agoes Soehianie Lebih umum dari Quartile adalah Percentile, yang menyatakan batas dimana sebanyak P% data ada di bawah nilai percentile dimaksud. Lokasi (atau posisi data) untuk sampel N data yang menjadi batas percentile P adalah: P LP ( N 1) 100 Berarti L25 = Q1, L50 = Q2= median, L75 = Q3 Bilamana nilai Lp bukan bilangan bulat, maka dilakukan interpolasi linear dua dari dua data terdekat. Sebagai ukuran sebaran data terkait adalah InterQuartile (IQ) yaitu IQ = Q3- Q1 Quartile & Percentile : Contoh Agoes Soehianie Lebih umum dari Quartile adalah Percentile, yang menyatakan batas dimana sebanyak P% data ada di bawah nilai percentile dimaksud. Lokasi (atau posisi data) untuk sampel N data yang menjadi batas percentile P adalah: P LP ( N 1) 100 Berarti L25 = Q1, L50 = Q2= median, L75 = Q3 Bilamana nilai Lp bukan bilangan bulat, maka dilakukan interpolasi linear dua dari dua data terdekat. Cara penaksiran median dengan metoda ini lebih baik dari cara sebelumnya yg hanya menghitung rata-rata dua data yg terdekat. Quartile & Percentile : Contoh No Contoh: N=16 data (disamping) Hitunglah Q1, Q2 dan Q3 dan SIQ Lokasi Q1,Q2 dan Q3 dihitung dari rumus LP P P LP ( N 1) 100 LP 25 50 75 L25 Data ke 4 Data ke 5 L25 L75 Data ke 12 Data ke 13 L75 4.25 8.5 12.75 5 7 5.5 15 18 17.25 L50 Data ke 8 Data ke 9 L50 Agoes Soehianie 10 10 10 Data 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 L25: 4.25, jadi Q1 antara data ke 4 dan 5. Interpolasi: Q1 5 0.25 * (7 5) 5.5 2 4 4 5 7 8 8 10 10 12 13 15 18 20 25 30 Agoes Soehianie Box Whisker Plot Salah satu kegunaan informasi Quartile adalah untuk membuat Box Whisker Plot, dimana dengan cepat kita mengetahui karakter umum penyebaran data secara visual saja. Data kandungan nikotin 1.09 1.92 0.85 1.23 1.86 1.9 1.82 0.72 2.55 2.03 1.88 1.68 1.47 1.75 1.69 2.1 2.50 2.00 Sorted Q3 Q2 0.72 0.85 1.09 1.23 1.47 1.68 1.69 1.75 1.82 1.86 1.88 1.9 1.92 2.03 2.1 2.55 P LP 25 50 75 4.25 8.5 12.75 X No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Extreme 1.50 Q1 1.00 Q1 Q2 Q3 1.29 1.785 1.915 Extreme Macam Studi Statistik Observasi Desain Kausalitas Agoes Soehianie