Statistika Chapter 3 Describing Data: Numerical Topik Ukuran kecenderungan pusat, variasi dan bentuk data Mean, median, modus Range, variance dan standard deviation, coefficient of variation Symmetric dan skewed distribution Ukuran Ringkasan Populasi Mean, variance, and standard deviation Covariance and coefficient of correlation Ukuran Data Numerik Data Numerik Ukuran Pusat Variasi Mean-Rata2 Range Median Variansi Modus Standard Deviasi Coefficient Variasi Ukuran Pusat Data Overview Pusat Data Mean Median Modus n x x i i1 n Arithmetic average Nilai tengah data terurut Nilai observasi yang paling sering keluar Mean Arithmetic Mean arithmetic (mean) adalah ukuran pusat data yang paling umum dipakai For a population of N values: N x x1 x 2 x N μ N N i i1 Nilai2 Populasi Ukuran Populasi For a sample of size n: n x x i1 n i x1 x 2 x n n Nilai2 sampel Ukuran Sampel Arithmetic Mean Ukuran pusat yang paling sering dipakai Mean = Jumlah data dibagi banyak data Dipengaruhi oleh nilai ekstrim (outlier) 0 1 2 3 4 5 6 7 8 9 10 Mean = 3 1 2 3 4 5 15 3 5 5 0 1 2 3 4 5 6 7 8 9 10 Mean = 4 1 2 3 4 10 20 4 5 5 Median Median adalah nilai tengah data terurut (50% di atas, 50% di bawah) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 Median = 3 Median = 3 Tidak dipengaruhi nilai ekstrim Finding the Median Letak Median: n 1 Median Data terurut ke 2 Jika banyaknya data ganjil, median adalah data tengahnya Jika banyaknya data genap, median adalah rata-rata dua data tengah Catatan : Ingat bahwa n 1 bukan nilai median, hanya 2 posisi data terurut untuk median Modus Suatu ukuran pusat Nilai yang paling sering keluar Tidak dipengaruhi oleh nilai ekstrim Dapat digunakan untuk data numerik maupun kategorik Mungkin tidak ada modus Mungkin ada beberapa 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Mode = 9 0 1 2 3 4 5 6 No Mode Contoh Lima rumah di perbukitan dekat pantai $2,000 K Harga Rumah: $2,000,000 500,000 300,000 100,000 100,000 $500 K $300 K $100 K $100 K Ringkasan Statistik Mean: ($3,000,000/5) = $600,000 Median: nilai tengah data terurut = $300,000 Mode: nilai paling sering muncul = $100,000 Mana yang “terbaik” ? Mean paling umum digunakan jika tidak ada data ekstrim Median sering digunakan juga, karena tidak sensitif terhadap nilai ekstrim. Contoh: Median harga rumah lebih mewakili data harga rumah pada contoh di atas Shape of a Distribution Describes how data are distributed Measures of shape Symmetric or skewed Left-Skewed Symmetric Right-Skewed Mean < Median Mean = Median Median < Mean Measures of Variability Variation Range Interquartile Range Variance Standard Deviation Coefficient of Variation Measures of variation give information on the spread or variability of the data values. Same center, different variation Range Ukuran variasi data yang tersederhana Selisih data terbesar dan data terkecil : Range = Xterbesar – Xterkecil Contoh: 0 1 2 3 4 5 6 7 8 9 10 11 12 Range = 14 - 1 = 13 13 14 Kelemahan Range Tidak memperhitungkan distribusi data 7 8 9 10 11 12 Range = 12 - 7 = 5 7 8 9 10 11 12 Range = 12 - 7 = 5 Sensitif terhadap outlier 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5 Range = 5 - 1 = 4 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120 Range = 120 - 1 = 119 Population Variance Rata-rata dari kuadrat deviasi data terhadap meannya N Variansi Populasi: σ 2 Where μ = rata-rata populasi N = banyaknya data xi = data variabel X (x μ) i i1 N -1 2 Sample Variance Rata-rata dari kuadrat deviasi data terhadap meannya n Variansi Sampel: s 2 Dimana X = arithmetic mean n = banyak data Xi = data variable X (x x) i1 i n -1 2 Standard Deviasi Ukuran variasi yang paling sering digunakan Variasi dari mean Mempunyai unit yg sama dengan data asli Populasi Sampel N σ 2 (x μ) i i1 N -1 n S 2 (x x ) i i1 n -1 Menghitung Standard Deviasi Sampel Sampel Data (xi) : 10 12 14 n=8 s 15 17 18 18 24 Mean = x = 16 (10 X )2 (12 x)2 (14 x)2 (24 x)2 n 1 (10 16)2 (12 16)2 (14 16)2 (24 16)2 8 1 126 7 4.2426 Ukuran sebaran data terhadap rata-rata Ukuran variasi Standard deviasi kecil Standard deviasi besar Perbandingan Dev Standard Data A 11 12 13 14 15 16 17 18 19 20 21 Mean = 15.5 s = 3.338 20 21 Mean = 15.5 s = 0.926 20 21 Mean = 15.5 s = 4.570 Data B 11 12 13 14 15 16 17 18 19 Data C 11 12 13 14 15 16 17 18 19 Kelebihan Variansi dan Dev Standard Setiap nilai dalam data digunakan dalam perhitungan Nilai data yang jauh dari rata-rata memberikan bobot kuadrat yang lebih (demikian juga sebaliknya) The Empirical Rule If the data distribution is bell-shaped, then the interval: μ 1σ contains about 68% of the values in the population or the sample 68% μ μ 1σ The Empirical Rule μ 2σ contains about 95% of the values in the population or the sample contains about 99.7% of the values μ in3σ the population or the sample 95% 99.7% μ 2σ μ 3σ Excel output Microsoft Excel descriptive statistics output, Data harga rumah: Harga rumah: $2,000,000 500,000 300,000 100,000 100,000 Covariansi Sampel Covariansi mengukur kekuatan hubungan linear antara dua variabel Covariansi Populasi : N Cov (x , y) xy (x i x )(y i y ) i1 N Covariansi Sampel: n Cov (x , y) s xy (x x)(y i i1 n 1 i y) Umur B. Pressure 23 125 26 140 29 146 33 160 38 167 42 170 50 188 55 195 60 200 Di dunia kedokteran, diketahui bahwa ada kecenderungan umur dengan tekanan darah. Makin bertambah umur seseorang, makin bertambah tekanan darahnya… Hitunglah kovariansi u data di atas Chap 3-28 Interpreting Covariance Covariansi antara dua variabel: Cov(x,y) > 0 x dan y cenderung bergerak searah Cov(x,y) < 0 x and y cenderung bergerak berlawanan Cov(x,y) = 0 x and y bergerak independen Kelemahan Kovariansi Kovariansi hanya mampu menentukan arah hubungan Tidak mampu menentukan besar kecilnya hubungan Perlu dicari ukuran hubungan dua variabel yang lebih terstandard, shg mampu menentukan besar kecilnya hubungan Chap 3-30 Coefficient of Correlation Measures the relative strength of the linear relationship between two variables Population correlation coefficient Cov (x , y) ρ σXσY Population correlation coefficient r SX,Y sX sY Koefisien Korelasi-r Unit bebas Nilai antara –1 dan 1 Semakin mendekati –1, semakin kuat hubungan kebalikannya Semakin mendekati 1, semakin kuat hubungan searahnya Semakin mendekati 0, semain lemah hubungan linearnya Scatter Plots of Data Y Y Y X X r = -1 r = -.6 Y r=0 Y Y r = +1 X X X r = +.3 X r=0 Umur B. Pressure 23 125 26 140 29 146 33 160 38 167 42 170 50 188 55 195 60 200 Di dunia kedokteran, diketahui bahwa ada kecenderungan umur dengan tekanan darah. Makin bertambah umur seseorang, makin bertambah tekanan darahnya… Hitunglah korelasi u data di atas Chap 3-34