Deteksi Dan Menghilangkan Outliers Outlier adalah nilai yang sangat tinggi atau sangat rendah dalam dataset. Mari kita lihat beberapa data dan lihat cara kerjanya. Dalam statistik, outlier adalah titik pengamatan yang jauh dari pengamatan lain. Definisi di atas menunjukkan bahwa outlier adalah sesuatu yang terpisah/ berbeda dari umumnya. Apa kriteria untuk mengidentifikasi outlier? 1. Titik data yang berada di luar 1,5 kali rentang antar kuartile di atas kuartil ke-3 dan di bawah kuartil ke-1 2. Titik data yang berada di luar 3 standar deviasi. Kita dapat menggunakan skor a z dan jika skor z jatuh di luar 2 standar deviasi Mengapa outlier perlu diperhatikan? 1. Outlier mendistorsi gambar data yang kita peroleh menggunakan statistik deskriptif dan visualisasi data. Ketika tujuan kita adalah untuk memahami data, seringkali ada baiknya untuk mengabaikan outlier. 2. Outlier bermain buruk dengan banyak algoritma pembelajaran mesin dan model statistik. Ketika tujuan kita adalah untuk memprediksi, model kita sering ditingkatkan dengan mengabaikan outlier. 3. Outlier dapat persis menjadi apa yang ingin kita pelajari, terutama untuk tugas-tugas seperti deteksi anomali. Beberapa cara berbeda untuk menentukan pengamatan mana dalam dataset yang harus dianggap outlier, dan kapan masing-masing sesuai. Fokus di sini adalah pada pengulangan. Tidak satu pun dari cara ini yang membawa kita dari data mentah ke analisis - mereka semua berasumsi bahwa data yang relevan telah diekstraksi, dan dalam format yang masuk akal. Kriteria apa saja untuk mengidentifikasi outlier? 1. Titik data yang berada di luar 1,5 kali rentang antar kuartile di atas kuartil ke-3 dan di bawah kuartil ke-1 2. Titik data yang berada di luar 3 standar deviasi. Kita dapat menggunakan skor a z dan jika skor z jatuh di luar 2 standar deviasi Apa alasan outlier ada dalam set data? 1. Variabilitas dalam data. 2. Kesalahan pengukuran eksperimental Apa dampak memiliki outlier dalam set data? 1. Menyebabkan berbagai masalah selama analisis statistik kami. 2. Dapat menyebabkan dampak signifikan pada rata-rata dan simpangan baku Cara-cara untuk menemukan outlier: 1. 2. 3. 4. Scatter plot Box plot Z score IQR interquartile range 1. Scatter plot, adalah jenis plot atau diagram matematika menggunakan koordinat Cartesian untuk menampilkan nilai, biasanya dua variabel untuk sekumpulan data. Data yang dikumpulkan sebagai kumpulan titik, masing-masing memiliki nilai satu variabel untuk menentukan posisi pada sumbu horizontal dan nilai variabel lain untuk menentukan posisi pada sumbu vertikal. 2. Dalam statistik deskriptif, box plot adalah metode untuk menggambarkan kelompok data numerik secara grafis melalui kuartilnya. Box plot mungkin juga memiliki garis yang membentang secara vertikal dari kotak (whiskers) menunjukkan variabilitas di luar kuartil atas dan bawah, karenanya istilah plot box-and-whisker dan diagram box-and-whisker. Outlier dapat diplot sebagai poin individual. 3. Z-Score adalah jumlah standar deviasi yang ditandatangani di mana nilai pengamatan atau titik data berada di atas nilai rata-rata dari apa yang sedang diamati atau diukur. Intuisi di balik Z-score adalah untuk menggambarkan titik data apa pun dengan menemukan hubungan mereka dengan Standar deviasi dan Rata-Rata dari kelompok titik data. Z-score menemukan distribusi data di mana rata-rata= 0 dan standar deviasi=1 yaitu distribusi normal.<br> Z-score adalah konsep penting dalam statistik. Z-score juga disebut skor standar. Skor ini membantu memahami apakah nilai data lebih besar atau lebih kecil dari rata-rata dan seberapa jauh dari rata-rata. Lebih khusus lagi, skor Z memberi tahu berapa banyak standar deviasi jauh titik data dari rata-rata. Z score = (x -mean) / std. deviation Distribusi normal ditunjukkan di bawah ini dan diperkirakan 68% dari titik data terletak di antara +/- 1 standar deviasi. 95% dari titik data terletak di antara +/- 2 standar deviasi 99,7% dari titik data terletak di antara +/- 3 standar deviasi 4. Inter Quantile Range (IQR) InterQuartile Range 75%-25% bernilai di dataset Langkah: 1. Susun data 2. Hitung kuartil 1 dan 3 (q1 dan q3) 3. Temukan interquartile range (q3-q1) 4. Temukan lower bound q1*1.5 5. Temukan upper bound q3*1.5 A. PROGRAM Z-SCORE 1. Ketik program import 2. Ketik program data array 3. Ketik program data frame 4. Ketik program perhitungan Z-score menggunakan scipy 5. Ketik program perhitungan Z-score berdasarkan rumus 6. Ketik program untuk mencari outlier. Lihat nilai z score pada Langkah ke 5 mempunyai nilai z score ≥ 3 . 7. Ketik program untuk melihat data tanpa outlier 8. Ketik program cek ukuran data PROGRAM IQR 9. Ketik program menghitung Q1 dan Q3 10. Ketik program menghitung lower dan upper 11. Ketik program meghilangkan data outlier dan cek ukuran data 12. Ketik program melihat ukuran data sebelum outlier dihilangkan 13. Gambar boxplot sebelum outlier dihilangkan 14. Gambar boxplot setelah outlier dihilangkan