Uploaded by User101023

Deteksi Dan Menghilangkan Outliers (translate)

advertisement
Deteksi Dan Menghilangkan Outliers
Outlier adalah nilai yang sangat tinggi atau sangat rendah dalam dataset. Mari kita lihat beberapa
data dan lihat cara kerjanya. Dalam statistik, outlier adalah titik pengamatan yang jauh dari
pengamatan lain.
Definisi di atas menunjukkan bahwa outlier adalah sesuatu yang terpisah/ berbeda dari
umumnya.
Apa kriteria untuk mengidentifikasi outlier?
1. Titik data yang berada di luar 1,5 kali rentang antar kuartile di atas kuartil ke-3 dan di
bawah kuartil ke-1
2. Titik data yang berada di luar 3 standar deviasi. Kita dapat menggunakan skor a z dan jika
skor z jatuh di luar 2 standar deviasi
Mengapa outlier perlu diperhatikan?
1. Outlier mendistorsi gambar data yang kita peroleh menggunakan statistik deskriptif dan
visualisasi data. Ketika tujuan kita adalah untuk memahami data, seringkali ada baiknya
untuk mengabaikan outlier.
2. Outlier bermain buruk dengan banyak algoritma pembelajaran mesin dan model statistik.
Ketika tujuan kita adalah untuk memprediksi, model kita sering ditingkatkan dengan
mengabaikan outlier.
3. Outlier dapat persis menjadi apa yang ingin kita pelajari, terutama untuk tugas-tugas
seperti deteksi anomali.
Beberapa cara berbeda untuk menentukan pengamatan mana dalam dataset yang harus
dianggap outlier, dan kapan masing-masing sesuai. Fokus di sini adalah pada pengulangan. Tidak
satu pun dari cara ini yang membawa kita dari data mentah ke analisis - mereka semua berasumsi
bahwa data yang relevan telah diekstraksi, dan dalam format yang masuk akal.
Kriteria apa saja untuk mengidentifikasi outlier?
1. Titik data yang berada di luar 1,5 kali rentang antar kuartile di atas kuartil ke-3 dan di
bawah kuartil ke-1
2. Titik data yang berada di luar 3 standar deviasi. Kita dapat menggunakan skor a z dan jika
skor z jatuh di luar 2 standar deviasi
Apa alasan outlier ada dalam set data?
1. Variabilitas dalam data.
2. Kesalahan pengukuran eksperimental
Apa dampak memiliki outlier dalam set data?
1. Menyebabkan berbagai masalah selama analisis statistik kami.
2. Dapat menyebabkan dampak signifikan pada rata-rata dan simpangan baku
Cara-cara untuk menemukan outlier:
1.
2.
3.
4.
Scatter plot
Box plot
Z score
IQR interquartile range
1. Scatter plot, adalah jenis plot atau diagram matematika menggunakan koordinat
Cartesian untuk menampilkan nilai, biasanya dua variabel untuk sekumpulan data. Data
yang dikumpulkan sebagai kumpulan titik, masing-masing memiliki nilai satu variabel
untuk menentukan posisi pada sumbu horizontal dan nilai variabel lain untuk menentukan
posisi pada sumbu vertikal.
2. Dalam statistik deskriptif, box plot adalah metode untuk menggambarkan kelompok data
numerik secara grafis melalui kuartilnya. Box plot mungkin juga memiliki garis yang
membentang secara vertikal dari kotak (whiskers) menunjukkan variabilitas di luar kuartil
atas dan bawah, karenanya istilah plot box-and-whisker dan diagram box-and-whisker.
Outlier dapat diplot sebagai poin individual.
3. Z-Score adalah jumlah standar deviasi yang ditandatangani di mana nilai pengamatan
atau titik data berada di atas nilai rata-rata dari apa yang sedang diamati atau diukur.
Intuisi di balik Z-score adalah untuk menggambarkan titik data apa pun dengan menemukan
hubungan mereka dengan Standar deviasi dan Rata-Rata dari kelompok titik data. Z-score
menemukan distribusi data di mana rata-rata= 0 dan standar deviasi=1 yaitu distribusi
normal.<br>
Z-score adalah konsep penting dalam statistik. Z-score juga disebut skor standar. Skor ini
membantu memahami apakah nilai data lebih besar atau lebih kecil dari rata-rata dan seberapa
jauh dari rata-rata. Lebih khusus lagi, skor Z memberi tahu berapa banyak standar deviasi jauh
titik data dari rata-rata.
Z score = (x -mean) / std. deviation
Distribusi normal ditunjukkan di bawah ini dan diperkirakan
68% dari titik data terletak di antara +/- 1 standar deviasi.
95% dari titik data terletak di antara +/- 2 standar deviasi
99,7% dari titik data terletak di antara +/- 3 standar deviasi
4. Inter Quantile Range (IQR)
InterQuartile Range
75%-25% bernilai di dataset
Langkah:
1. Susun data
2. Hitung kuartil 1 dan 3 (q1 dan q3)
3. Temukan interquartile range (q3-q1)
4. Temukan lower bound q1*1.5
5. Temukan upper bound q3*1.5
A. PROGRAM Z-SCORE
1. Ketik program import
2. Ketik program data array
3. Ketik program data frame
4. Ketik program perhitungan Z-score menggunakan scipy
5. Ketik program perhitungan Z-score berdasarkan rumus
6. Ketik program untuk mencari outlier. Lihat nilai z score pada Langkah ke 5
mempunyai nilai z score ≥ 3 .
7. Ketik program untuk melihat data tanpa outlier
8. Ketik program cek ukuran data
PROGRAM IQR
9. Ketik program menghitung Q1 dan Q3
10. Ketik program menghitung lower dan upper
11. Ketik program meghilangkan data outlier dan cek ukuran data
12. Ketik program melihat ukuran data sebelum outlier dihilangkan
13. Gambar boxplot sebelum outlier dihilangkan
14. Gambar boxplot setelah outlier dihilangkan
Download