PERFORMA METODE K NEAREST NEIGHBOR IMPUTATION (KNNI) UNTUK MENANGANI MULTIVARIATE MISSING DATA Sartika Y Siregar,S.ST1, Dr. Toni Toharudin2, Bertho Tantular, S.Si, M.Si3 1 Mahasiswa Pascasarjana Statistika Terapan, FMIPA Unpad, Bandung 2 Departemen Statistika, FMIPA Universitas Padjadjaran, Bandung 3 Departemen Statistika, FMIPA Universitas Padjadjaran, Bandung ABSTRAK Salah satu hal yang sangat diharapkan ketika melakukan pengumpulan data pada sensus atau survei adalah menghasilkan data yang lengkap. Ketika terdapat data yang tidak lengkap maka harus diklarifikasi penyebabnya. Secara umum, ketidak lengkapan data terjadi karena adanya non observational yaitu kegagalan dalam memperoleh data sebagai bagian dari pendefinisian populasi target. Non observational dapat berupa non coverage dan non response. Non coverage terjadi pada saat elemen dari target populasi tidak mempunyai kesempatan untuk terpilih karena tidak tercantum dalam kerangka sampel. Nonrespon merupakan suatu kegagalan untuk memperoleh data baik secara keseluruhan (nonrespon unit) maupun sebagian dari karakteristik yang ingin diukur (nonrespon item). Nonrespon item masih dapat diatasi dengan berbagai metode. Salah satu caranya adalah dengan metode imputasi. Tujuan dari penelitian ini adalah mengkaji metode K-Nearest Neighbor Imputation (KNNI) untuk menangani multivariate missing data dengan simulasi data hilang sebanyak 10,20,30,dan 40 persen dari total sampel sehingga dapat dibandingkan performa metode ini pada tiap simulasi data hilang. Data yang digunakan pada penelitian ini adalah data Survei Produktivitas Tanaman Pangan Komoditi Ubi Kayu Provinsi Lampung tahun 2013. Berdasarkan hasil pengolahan pada metode KNNI bahwa semakin besar missing data yang terjadi pada data produktivitas ubi kayu maka rata-rata nilai RMSE nya juga semakin besar pada setiap nilai K yang digunakan. Artinya bahwa semakin sedikit data yang hilang maka tingkat akurasinya pun semakin baik. Kata Kunci : Nonrespon, Imputasi, KNNI, Nearest Neighbor 1. Pendahuluan Salah satu hal yang sangat diharapkan ketika melakukan pengumpulan data baik secara sensus atau survei adalah menghasilkan data yang lengkap. Namun ketika terdapat data tidak lengkap/data hilang di dalamnya, maka sebelumnya harus diklarifikasi penyebabnya. Secara umum, ketidak lengkapan data terjadi karena adanya non observational yaitu kegagalan dalam memperoleh data sebagai bagian dari pendefinisian populasi target. Non observational dapat berupa non coverage dan non response. Non coverage terjadi pada saat elemen dari target populasi tidak mempunyai kesempatan untuk terpilih karena tidak tercantum dalam kerangka sampel. Nonrespon merupakan suatu kegagalan untuk memperoleh data baik secara keseluruhan (nonrespon unit) maupun sebagian dari karakteristik yang ingin diukur (nonrespon item). Pada tahun 2013 di Provinsi Lampung, pada kelompok sampel rumah tangga komoditi ubi kayu terdapat non observational sekitar 46,35 persen. Tingkat non observational 1 komoditi ini lebih tinggi dari tingkat non observational pada seluruh komoditi (34,06 persen). Permasalahan data hilang (missing data) akibat adanya nonrespon juga terjadi pada survei yang dilakukan oleh Badan Pusat Statistik (BPS). Salah satunya yaitu pada Survei Produktivitas Tanaman Pangan (Ubinan). Data diperoleh dengan dua cara yaitu dengan metode wawancara dan pengukuran langsung. Ketika pengukuran langsung tidak dapat dilakukan karena waktu survey yang tidak tepat maka akan muncul nonrespon unit. Sebenarnya nonrespon unit pada survei ini dapat dikurangi dengan tetap melakukan metode wawancara untuk item pertanyaan yang lain, namun pada isian item pertanyaan banyaknya hasil ubinan dan jumlah batang/rumpun dalam plot ubinan akan kosong (missing data) karena mensyaratkan metode pengumpulan data untuk kedua item ini dengan metode pengukuran langsung sehingga terjadi nonrespon item pada kedua item pertanyaan tersebut. Untuk mengatasi missing data tersebut, dapat digunakan beberapa metode yaitu mengabaikan atau membuang data yang hilang, estimasi parameter dan metode imputasi [13]. Pada penelitian ini difokuskan pada metode imputasi untuk mengatasi missing data yang terdapat pada Survei Produktivitas Ubinan. Berdasarkan teknik imputasinya, metode imputasi terdiri dari dua jenis yaitu teknik machine learning dan teknik statistik. Salah satu metode dengan teknik machine learning adalah metode K-Nearest Neighbor Imputation (KNNI) [10]. Metode KNNI adalah metode yang paling terkenal yang digunakan untuk mengatasi missing data. Metode ini tidak perlu memprediksi model seperti halnya pada prosedur EM Algorithm, hanya menggunakan ukuran jarak. Metode KNNI juga memberikan hasil imputasi yang sangat baik bahkan ketika data yang digunakan memiliki missing data yang cukup besar [5]. Oleh karena itu, pada penelitian ini akan dikaji performa metode KNNI untuk menangani masalah missing data pada item banyaknya hasil ubinan dan jumlah batang/rumpun dalam plot ubinan guna mengurangi nonrespon unit pada Survei Produktivitas Tanaman Pangan Komoditi Ubi Kayu Provinsi Lampung Tahun 2013. 2.Metode Missing data adalah suatu keadaan dimana beberapa nilai atribut dalam suatu dataset kosong /tidak ada nilainya [18]. Artinya terdapat isian yang tidak lengkap pada variabel tertentu pada suatu observasi. Keacakan missing data dapat dibagi ke dalam tiga tipe [5] yaitu : (1) Missing Completely at Random (MCAR), yaitu terjadinya missing data tidak bergantung pada nilai seluruh variabel, baik variabel yang terisi (diketahui) maupun variabel yang mengandung missing values ; (2) Missing at Random (MAR), yaitu terjadinya missing data bergantung pada variabel yang terisi (diketahui) namun tidak bergantung pada variabel yang mengandung missing values itu sendiri ; (3) Not Missing at Random (NMAR), yaitu terjadinya missing data pada suatu variabel bergantung pada variabel itu sendiri sehingga tidak dapat diprediksi dari variabel yang lain. Ada beberapa teknik untuk menangani missing data, namun pada penelitian ini hanya akan membahas salah satu metode imputasi. Metode imputasi adalah metode yang sering digunakan untuk mengatasi missing data. Metode ini menjadi sangat berguna pada situasi dimana dataset yang lengkap dibutuhkan untuk melakukan analisis 2 data [13]. Metode imputasi tidak hanya mengurangi bias nonrespon tetapi juga dapat menghasilkan data yang lengkap [16]. Beberapa metode imputasi akan dipaparkan pada bagian ini, yaitu : 1. Metode imputasi dengan ukuran pemusatan Metode imputasi ini menggunakan ukuran pemusatan data untuk mengisikan data yang hilang. Jika tipe data atributnya kontinu maka digunakan nilai mean dan jika tipe data atributnya diskret maka digunakan nilai modus [5]. Metode imputasi ini termasuk ke dalam model-donor imputation yaitu nilai imputasi yang diambil dari model [6]. 2. Metode imputasi regresi Metode imputasi ini termasuk ke dalam model-donor imputation [6]. Metode imputasi ini akan mengisikan nilai yang missing dengan nilai prediksi dari regresi yang berasal dari unit observasi [14]. 3. Metode imputasi Hot Deck Metode imputasi ini termasuk ke dalam real-donor imputation yaitu nilai imputasi diambil dari himpunan nilai observasi [6]. Dengan metode ini, missing data diganti dengan nilai dari observasi yang respon yang memiliki kemiripan dengan observasi yang mempunyai missing data [14]. 4. Metode imputasi ColdDeck Pada metode imputasi ini, missing data pada suatu observasi diisikan dengan hasil survei pada periode sebelumnya atau berdasarkan informasi lain, misal data historis atau series data. Sumber data imputasi bukan berasal dari data set yang sama dengan observasi yang lengkap sehingga tidak memerlukan perhitungan atau algoritma komputer dalam proses imputasinya [16]. 5. Metode imputasi berbasis Machine Learning Metode imputasi berbasis Machine Learning diantaranya yaitu metode C4.5 dan CN2. Kedua metode tersebut merupakan metode yang simpel untuk mengatasi missing data. Namun jika kedua metode tersebut dibandingkan dengan metode KNearest Neighbor Imputation (KNNI) untuk mengatasi missing data, metode KNNI memberikan hasil yang lebih baik [5]. Metode imputasi berbasis Machine Learning yang lain adalah Multi Layer Perceptron (MLP) dan Self Organization Maps (SOM). Jika dua metode tersebut dibandingkan dengan metode KNNI, maka metode KNNI memberikan performa yang paling baik [10]. Pada penelitian ini akan diterapkan metode K Nearest Neighbor Imputation untuk menangani missing data pada data produktivitas tanaman pangan komoditi ubi kayu. Metode K Nearest Neighbor Imputation (KNNI) Metode imputasi KNN merupakan salah satu metode yang paling populer untuk menyelesaikan permasalahan missing data. Keunggulan dari metode imputasi KNN adalah : (1) Metode imputasi KNN dapat digunakan untuk memprediksi dua tipe data baik data diskret (dengan nilai modus) maupun kontinu (dengan nilai mean) (2) Metode imputasi KNN tidak membutuhkan pembentukan model prediksi untuk setiap item yang mengalami missing data [5]. Kelemahan utama dari metode imputasi KNN adalah ketika mencari pengamatan yang paling sesuai dengan pengamatan yang mempunyai nilai yang hilang, algoritma imputasi KNN akan mencari melalui semua dataset. Kelemahan ini akan berpengaruh 3 ketika dataset yang digunakan cukup besar, akan membutuhkan waktu yang cukup lama. Namun walaupun begitu, metode imputasi KNN tetap merupakan metode yang cukup baik untuk imputasi data yang hilang [13]. Tahapan pengerjaan imputasi missing data dengan metode KNNI dapat dijelaskan sebagai berikut : 1. Menentukan nilai K, yaitu berapa jumlah observasi terdekat yang akan digunakan 2. Menghitung jarak antara observasi yang mengandung missing data pada variabel ke-j dengan observasi lainnya yang tidak mengandung missing data pada variabel yang bersesuaian dengan menggunakan rumus , = ∑ − (1) Dengan : , = jarak antar observasi target dan observasi = nilai variabel ke-j pada observasi target , j = 1,2,. , m = nilai variabel ke-j pada observasi lainnya , j = 1,2,., m 3. Mencari K observasi terdekat berdasarkan nilai jarak terkecil. Nilai variabel pada K observasi terdekat ini yang akan digunakan untuk proses imputasi pada observasi yang mengandung nilai missing 4. Menghitung bobot (weight) pada setiap K observasi terdekat. Observasi yang paling dekat akan mendapatkan bobot yang paling besar 5. Menghitung nilai rata-rata pada K observasi terdekat yang tidak mengandung nilai missing dengan prosedur weighted mean estimation yaitu dengan rumusan = ∑ (2) Dengan adalah nilai variabel ke-j pada observasi ke-k, k= 1,2,…,K dan = ∑ adalah bobot observasi tetangga terdekat ke-k, yang dirumuskan sebagai berikut : = , ! 6. Melakukan proses imputasi missing data pada observasi yang mangandung nilai missing dengan nilai rata-rata yang diperoleh pada tahap 5 3.Hasil dan Pembahasan Data yang digunakan dalam penelitian ini adalah data survei produktivitas tanaman pangan/ubinan tahun 2013 di Provinsi Lampung pada komoditi ubi kayu. Komoditi ini dipilih karena tingkat nonrespon unitnya lebih tinggi daripada tingkat nonrespon pada seluruh komoditi. Jumlah observasi yang akan digunakan dalam penelitian ini adalah 1427 observasi dengan jumlah variabel yang digunakan sebanyak lima variabel. Variabel yang akan digunakan pada penelitian ini adalah : luas tanaman sejenis (X1), banyaknya pupuk UREA yang digunakan (X2), banyaknya pupuk NPK/majemuk yang digunakan (X3), berat hasil ubinan (X4), banyaknya batang dalam plot ubinan (X5). Imputasi missing data dengan metode KNNI akan dilakukan pada variabel berat hasil ubinan (X4) dan banyaknya batang dalam plot ubinan (X5) secara bersamaan. Karena data yang digunakan adalah dataset lengkap maka terlebih dahulu dilakukan simulasi data hilang pada variabel berat hasil ubinan (X4) dan banyaknya batang dalam 4 plot ubinan (X5) secara bersamaan. Simulasi data hilang akan menggunakan simple random sampling without replacement (SRS WOR) dengan persentase data hilang sebanyak 10, 20, 30, dan 40 persen. Banyaknya persentase data hilang disesuaikan dengan permasalahan yang ada. Setelah data pada variabel X4 dan X5 dihilangkan sesuai banyaknya persentase data hilang, maka langkah selanjutnya adalah melakukan imputasi dengan metode KNNI dengan menggunakan nilai K=10,15,20, dan 30. Setiap nilai K pada tiap persentase missing data dicobakan sebanyak 10 kali percobaan sehingga diperoleh nilai RMSE pada tiap percobaannya dan kemudian dihitung rata-rata nilai RMSE nya. Tabel 1. Nilai Rata-rata RMSE pada Imputasi Variabel X4 dan X5 dengan Metode KNNI pada Data Produktivitas Ubi Kayu Prov. Lampung 2013 Persentase Missing Data Rata-rata Nilai RMSE K=10 K=15 K=20 K=30 10 4.7388014 4.341415 4.2186241 4.5352438 20 8.3209924 7.220235 6.5948563 7.8889096 30 11.9230503 10.17751 9.3844144 12.1286796 40 13.757097 13.6982 12.0325382 14.001417 Sumber : Hasil Pengolahan Data Dari tabel diatas dapat dilihat hasil pengolahan dari metode KNNI bahwa semakin besar missing data yang terjadi pada data produktivitas ubi kayu maka rata-rata nilai RMSE nya juga semakin besar pada setiap nilai K yang digunakan. Artinya bahwa semakin sedikit data yang hilang maka tingkat akurasinya pun semakin baik. Jika dilihat pada kolom K=10 diperoleh hasil rata-rata nilai RMSE pada missing data 10 persen yaitu 4,7388014; pada missing data 20 persen yaitu 8,3209924; pada missing data 30 persen yaitu 11,9230503; dan pada missing data 40 persen yaitu 13,757097; dan begitu seterusnya pada setiap nilai K yang digunakan. Semakin besar nilai K yang digunakan tidak menunjukkan rata-rata nilai RMSE yang semakin kecil. Nilai K dapat ditentukan oleh peneliti disesuaikan dengan banyaknya observasi yang diteliti. Tabel diatas dapat dilihat lebih jelas pada gambar berikut : 5 16 14 Rata-rata RMSE 12 10 Missing Data 10% 8 Missing Data 20% 6 Missing Data 30% 4 Missing Data 40% 2 0 10 15 20 30 Nilai K Gambar 1. Rata-rata nilai RMSE pada setiap Persentase Missing Data dan Nilai K yang Digunakan dengan Metode KNNI 4. Kesimpulan Berdasarkan penelitian yang telah dilakukan pada metode KNNI dapat diambil kesimpulan bahwa : 1. Semakin besar missing data yang terdapat pada data maka rata-rata nilai RMSE nya juga semakin besar 2. Semakin besar nilai K yang digunakan tidak menunjukkan rata-rata nilai RMSE yang semakin kecil. DAFTAR PUSTAKA [1] Alfarisi, A.R., Tjandrasa, H, dan Arieshanti, I. 2013. Perbandingan Performa antara Imputasi Metode Konvensional dan Imputasi dengan Algoritma Mutual Nearest Neighbor. Jurnal Teknik Pomits, 2. Surabaya : Institut Teknologi Sepuluh November. [2] Andridge, A. dan Little, R.J.A. 2010. A Review of Hot Deck Imputation for Survey Non-response. NIH Public Access, 78, 40–64. [3] Babich, G.A. dan Sibul, L.H. 1994. Weighted Parzen Windows for Pattern Classification. Technical Report. Applied Research Laboratory The Pennsylvania State University. [4] Badan Pusat Statistik. 2012. Buku Pedoman Pengumpulan Data Tanaman Pangan. Jakarta : BPS. [5] Batista, G.E. dan Monard, M.C. 2002. A Study of K-Nearest Neighbour as an Imputation Method. Second International Conference on Hybrid Intelligence Systems, 87, 251-260. 6 [6] Chaimongkol, W. dan Suwattee, P. 2004. Weighted Nearest Neighbor and Regression Imputation. Working Paper. National Institute of Development Administration. [7] Cover, T.M. dan Thomas, J.A. 2006. Elements of Information Theory, Second Edition. New York : John Wiley & Sons, Inc. [8] Doquire, G. dan Verleysen, M. 2012. Feature Selection with Missing Data Using Mutual Information Estimators. Neurocomputing, 90, 3-11. Elsevier. [9] Francois, D., Rossi, F., Wertz, V., dan Verleysen, M. 2007. Resampling Methods for Parameter-Free and Robust Feature Selection with Mutual Information. Neurocomputing, 70, 1276-1288. Elsevier. [10] Jerez, J.M., Molina, I, Laencina, P.J.G., Alba, E., dan Ribelles, N. 2010. Missing Data Imputation Using Statistical and Machine Learning Methods in a Real Breast Cancer Problem. Artificial Intelligence in Medicine, 50, 105-115. Elsevier. [11] Kwak, N. dan Choi, C-H. 2002. Input Feature Selection by Mutual Information Based on Parzen Window. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24, 1667-1671. [12] Laencina, P.J.G., Gomez, J-L.S., Vidal, A.R.F., dan Verleysen, M. 2008. K-Nearest Neighbours Based on Mutual Information for Incomplete Data Classification. ESANN’2008 Proceedings. European Symposium on Artificial Neural NetworksAdvances in Computational Intelligence and Learning Bruges. [13] Laencina, P.J.G., Gomez, J-L.S., Vidal, A.R.F., dan Verleysen, M. 2009. K Nearest Neighbours with Mutual Information for Simultaneous Classification and Missing Data Imputation. Neurocomputing, 72, 1483-1493. Elsevier. [14] Little, R.J. dan Rubin, D.B. 1987. Statistical Analysis with Missing Data. New York: John Wiley & Sons, Inc. [15] Liu, H. dan Zhang, S. 2012. Noisy Data Elimination Using Mutual K-Nearest Neighbor for Classification Mining. The Journal of System and Software, 85, 10671074. Elsevier. [16] Lohr, S.L. 1999. Sampling : Design and Analysis. Pacific Grove,CA : Duxbury Press. [17] Mawarsari, U. 2012. Imputasi Missing Data dengan K-Nearest Neighbor dan Algoritma Genetika (Studi Kasus pada Data Survei Industri Besar dan Sedang 2008). Tesis. Surabaya : Institut Sepuluh November. [18] Tan, P.N., Steinbach, M., dan Kumar, V. 2006. Introduction to Data Mining (4th ed.). Boston : Pearson Addison Wesley. [19] Wettschereck, D., Aha, D.W., dan Mohri, T. 1997. A Review and Empirical Evaluation of Feature Weighting Methods for a Class of Lazy Learning Algorithms. Artificial and Intelligence Review, 11, 273-314. 7