Analisis Data - FMIPA Personal Blogs

advertisement
Catatan Kuliah
Analisis Data
“Orang Cerdas Belajar Statistika”
disusun oleh
Khreshna I.A. Syuhada, MSc. PhD.
Kelompok Keilmuan STATISTIKA - FMIPA
Institut Teknologi Bandung
2013
Tentang Analisis Data
A. Jadwal kuliah (total 40 jam):
• Senin, 08.00-selesai
• Rabu, 08.00-selesai
B. Silabus:
• Statistika deskriptif
• Peluang
• Distribusi diskrit dan kontinu
C. Buku teks:
Ronald Walpole, Raymond Myers, Sharon Myers, Keying Ye, 2007, Probability
and Statistics for Engineers and Scienctists.
D. Penilaian:
1. Ujian 1 (30%) - Rabu, 4.12.2013
2. PR/Kuis (10%)
3. Praktikum (10%)
D. Matriks kegiatan perkuliahan:
Table 1: Matriks perkuliahan Analisis Data.
MingguMateri
Keterangan
1
Pengantar
Penjelasan kuliah, motivasi (Kaprodi)
2
Statistika deskriptif
4 jam
3
4
Statistika deskriptif (lanjutan)
6+4 jam
5
Peluang
6+4 jam
6
Distribusi diskrit dan kontinu
6+4 jam
7
Kilas balik (review)
6 jam
7
Ujian Tengah Semester
Rabu, 4.12.2013
Analisis Data
i
K. Syuhada, PhD.
Daftar Isi
1 Statistika Deskriptif
1.1 Data, Jenis Data, Memahami Data . .
1.2 Ukuran Pusat/Lokasi dan Penyebaran
1.3 Mengamati Observasi Luar . . . . . . .
1.4 Data Kelompok . . . . . . . . . . . . .
1.5 Memahami Grafik . . . . . . . . . . . .
ii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2
3
6
6
7
BAB 1
Statistika Deskriptif
Silabus: Jenis data, ukuran pusat/lokasi, ukuran penyebaran, koefisien variasi,
observasi luar, data kelompok, distribusi frekuensi, grafik
Statistika adalah ilmu yang digunakan untuk mengumpulkan, mengorganisasi,
melakukan inferensi dan menafsirkan data. Secara singkat, statistika adalah
ilmu/pekerjaan untuk meyimpulkan tentang suatu fenomena pada populasi
menggunakan sampel.
Kajian awal dan utama dalam analisis data adalah statistika deskriptif. Kita
dapat menghitung berbagai statistik dan membuat grafik serta memberikan
interpretasi. Kesimpulan yang diberikan dalam statistika deskriptif bersifat
subyektif; walau demikian, kesimpulan yang salah akan terlihat.
Tujuan yang ingin dicapai dalam memahami statistika deskriptif, secara detil,
adalah
1. membedakan jenis data dan memahami data
2. menghitung dan memaknai ukuran lokasi/pusat
3. membedakan variansi dan koefisien variasi
4. mengamati observasi luar
5. memahami data kelompok
6. menentukan distribusi frekuensi
7. membuat dan menafsirkan grafik
1
1.1
Data, Jenis Data, Memahami Data
Data adalah hasil observasi tunggal (datum) yang didapat baik secara langsung
(observasi/survey, praktikum) ataupun tidak langsung (buku, koran, internet).
Data merupakan sumber utama analisis data. Pengumpulan, pengorganisasian
dan pengolahan data merupakan pekerjaan statistika yang menuntut kerapian
dan detil.
Dalam praktiknya, data yang kita kumpulkan dapat dikelompokkan menjadi
data kategorik atau data numerik. Hal ini merujuk pada sifat data yang memiliki label (kategorik) atau memiliki nilai (numerik). Data dapat pula dibedakan
menjadi jenis data berikut:
• nominal (jenis kelamin, golongan darah)
• ordinal (tingkat kecemasan, tingkat nyeri)
• rasio/interval (denyut nadi, tekanan darah, nilai ujian)
Latihan:
Perhatikan kalimat-kalimat berikut. Tentukan jenis datanya (nominal, ordinal, rasio/interval).
(a) “dr. KS, SpD. mengatakan bahwa penyakit Noor sudah kronis, bukan
akut”
(b) Wanda dan Windi berdebat tentang harga mobil yang kiranya layak untuk
mobil yang hendak mereka beli
(c) “Apakah anda lahir pada bulan September?”
Diskusi: Perhatikan data jarak tempuh (dalam meter) ke sekolah dari beberapa siswa di suatu daerah.
Table 1.1: Data jarak tempuh ke sekolah dari beberapa siswa.
Siswa- Jarak
1
3265
2
3260
3
3245
4
3484
5
4146
Analisis Data
Siswa- Jarak
6
3323
7
3649
8
3200
9
3031
10
2069
2
Siswa- Jarak
11
2581
12
2841
13
3609
14
2838
15
3541
Siswa- Jarak
16
2759
17
3248
18
3314
19
3101
20
2834
K. Syuhada, PhD.
Apakah analisis data rasio/interval akan lebih “kaya” dibandingkan dengan
data nominal/ordinal? Apa yang bisa kita katakan tentang data tersebut?
Dapatkah data numerik diubah menjadi data kategorik?
Diskusi: Data peserta ujian di beberapa sekolah di suatu kecamatan tercatat
dalam diagram batang dan daun sebagai berikut. Untuk membaca data, kita
perhatikan kolom disebelah kiri garis yang menyatakan “angka puluhan” dan
angka-angka disebelah kanan garis yang menyatakan “angka satuan”. Sebagai
contoh, “3—5” berarti jumlah peserta ujian di sekolahg tertentu adalah 35
orang.
0 357889
1 02
2
3 5
Apakah data dalam bentuk diagram batang dan daun cukup informatif? Dapatkah data numerik tersebut diubah menjadi data kategorik?
1.2
Ukuran Pusat/Lokasi dan Penyebaran
Setelah data dikumpulkan dan diorganisasikan, kita dapat memberikan tafsiran
sederhana melalui ukuran atau statistik. Beberapa ukuran yang dikenal antara lain mean dan variansi/deviasi standar yang menyatakan nilai tengah dan
simpangan data.
Ukuran atau statistik yang melekat pada data dapat dibagi menjadi
• Ukuran pusat/lokasi: mean (aritmetik), median, modus
• Ukuran penyebaran: jangkauan, variansi/deviasi standar, kuartil
Misalkan data sampel adalah
x1 , x2 , . . . , xn ,
dimana xi menyatakan titik sampel ke-i. Mean (aritmetik) didefinisikan sebagai
n
∑
x̄ =
i=1
n
Analisis Data
xi
.
3
K. Syuhada, PhD.
Sifat-sifat mean
(a) Untuk suatu konstanta k,
n
∑
k xi = · · ·
i=1
(b) Jika yi = xi + k maka ȳ = x̄ + k. Buktikan!
(c) Jika yi = k xi maka ȳ = · · · .
Median atau median sampel seringkali dikatakan sebagai nilai tengah. Dengan demikian, menghitung median haruslah dilakukan pada data yang sudah
diurutkan. Definisi median adalah
(a) Observasi ke-((n + 1)/2), (n ganjil), atau
(b) Nilai tengah dari observasi ke-(n/2) dan ke-((n/2) + 1), (n genap)
Diskusi: Bagaimana (perbandingan) nilai mean dan median untuk data yang
(i) simetrik, (ii) menceng ke kanan, (iii) menceng ke kiri?
Modus atau Mode adalah ukuran pusat yang menyatakan nilai observasi yang
paling sering muncul. Menentukan modus dapat dilakukan pada data tanpa
diurutkan (meskipun lebih mudah apabila diurutkan lebih dahulu).
Latihan:
1. Tentukan ukuran lokasi/pusat dari contoh data diatas
2. Diketahui suatu data tentang jumlah saudara (kandung, angkat, tiri) dari
20 orang siswa sekolah menengah. Apabila setiap titik data ditambah tiga
maka nilai mean dan jangkauan menjadi...
Ukuran penyebaran menyatakan seberapa jauh data menyebar dari mean. Misalkan kita memiliki dua data sampel. Kedua sampel memiliki mean yang sama,
namun mungkin saja memiliki penyebaran data yang berbeda. Beberapa ukuran penyebaran yang dikenal antara lain:
1. Jangkauan (Range):
R = xmaks − xmin
2. Variansi atau variansi sampel:
n
∑
s2 =
Analisis Data
(xi − x̄)2
i=1
n−1
4
K. Syuhada, PhD.
Catatan:
Deviasi standar atau simpangan baku adalah akar kuadrat dari variansi.
3. Kuartil:
Umumnya kita kenal kuartil pertama dan ketiga, dinotasikan dengan K1
dan K3 . Apa yang dapat kita katakan tentang kuartil kedua atau K2 ?
4. Kuantil atau persentil:...
Sifat-sifat variansi:
Diketahui data sampel x1 , . . . , xn memiliki variansi s2x . Jika data sampel
(a) yi = xi + k,
(b) yi = k xi ,
untuk suatu konstanta k, maka
s2y = . . .
Variansi versus Koefisien Variasi: Kita dapat menghitung suatu ukuran yang
mengaitkan ukuran penyebaran (deviasi standar) dengan ukuran lokasi (mean),
yaitu koefisien variasi (coefficient of variation atau CV):
CV = 100% × (s/x̄)
yang tidak dipengaruhi unit ukuran yang dipakai. CV bermanfaat untuk membandingkan variabilitas beberapa sampel yang berbeda relatif terhadap nilai
mean-nya. Dapat pula kita membanding CV dari beberapa variabel.
Latihan:
Data pada tabel berikut menyatakan berbagai faktor yang mempengaruhi
masalah pada sistem jantung dan peredaran darah anak. Tentukan CV dan
berikan interpretasinya.
Table 1.2: Faktor risiko kardiovaskular pada anak.
n mean
s
CV(%)
364 142.6 0.31
365 39.5 0.77
337 104 4.97
395 160.4 3.44
Tinggi (cm)
Berat (kg)
Tekanan darah (mm Hg)
Kolesterol (mg/dL)
Analisis Data
5
K. Syuhada, PhD.
1.3
Mengamati Observasi Luar
Observasi luar atau pencilan atau outlier adalah nilai/observasi yang “menyimpang” dari nilai-nilai/observasi yang lain. Observasi luar dapat ditentukan/dihitung
dengan melihat apakah ada nilai/observasi yang LEBIH BESAR dari
K3 + 1.5 (K3 − K1 )
atau LEBIH KECIL dari
K1 − 1.5 (K3 − K1 ),
dengan K1 dan K3 adalah kuartil pertama dan ketiga seperti telah dijelaskan
sebelumnya.
Dalam praktiknya, observasi luar dapat menyatakan sesuatu yang baik/jelek.
Misalnya, seseorang dengan tingkat kecerdasan (IQ) yang sangat tinggi (jauh
diatas rata-rata alias observasi luar) adalah baik. Seringkali observasi luar
diabaikan dalam analisis data meskipun sesungguhnya cara ini tidaklah tepat.
Mendeteksi observasi luar adalah sesuatu yang sangat menantang dalam statistika.
Diskusi: Sekelompok observasi x1 , . . . , xn memiliki observasi luar xj untuk
suatu j. Dapatkah kita membandingkan mean dengan dan tanpa observasi
luar? Mungkinkah terdapat lebih dari satu observasi luar?
1.4
Data Kelompok
Pandang data sampel dengan 275 observasi. Ukuran sampel tersebut terlalu
besar sehingga menampilkan data apa adanya menjadi tidak efisien. Dengan
demikian, data sampel dapat dikelompokkan. Pengelompokan ini dapat pula
terjadi (harus dilakukan) karena tingkat keakuratan data yang diambil tidak
dapat diperoleh dengan baik.
Pengelompokan data memberikan masalah: Berapa banyak kelompok atau
interval kelas (class intervals) yang ingin kita buat? Berapa lebar interval
(interval width)? Salah satu formula yang bisa kita pakai adalah Formula
Sturges, dimana banyaknya interval kelas adalah
k = 1 + (3.322 × log10 n),
dimana n adalah besar sampel. Lebar intervalnya:
w = R/k,
Analisis Data
6
K. Syuhada, PhD.
dengan R adalah jangkauan.
Untuk contoh data sampel dengan 275 observasi, kita peroleh:
k ≈ 8,
w = (63 − 18)/8 = 5.625
Dengan demikian, lebar kelas interval adalah 5 atau 10. Diketahui obervasi
terkecil dan terbesar, berturut-turut, adalah 18 dan 63. Jadi, kelas interval
yang bisa dibuat adalah:
10-19
20-29
30-39
40-49
50-59
60-69
1.5
Memahami Grafik
Tampilan visual (baca: grafik) dari data merupakan salah satu cara untuk
memahami dan menginterpretasi data. Grafik bersifat menarik, memudahkan
dalam membentuk pola, dan prediktif. Beberapa tampilan visualn untuk data
adalah diagram pencar (scatter diagram), diagram bar/batang (bar chart),
diagram batang dan daun (stem-and-leaf plot), histogram, box-plot.
Diagram pencar merupakan bentuk grafik yang sederhana namun cukup informatif. Diagram ini berupa titik-titik yang menggambarkan nilai observasi.
Pola atau kecenderungan data dapat dilihat dengan melihat grafik ini.
Diagram batang dan daun memiliki ke-khas-an berupa tampilan nilai utama/pertama
(batang) dan nilai satuan/kedua (daun). Diagram ini membantu kita untuk
menghitung kuantil/persentil data dengan mudah.
Analisis Data
7
K. Syuhada, PhD.
Download