TINJAUAN PUSTAKA PENDAHULUAN Latar Belakang Klasifikasi dan Prediksi Institut Pertanian Bogor (IPB) setiap tahunnya menerima mahasiswa baru dengan berbagai jalur masuk. Pada tingkat I, mahasiswa baru tersebut menjalani Tingkat Persiapan Bersama (TPB) yang merupakan tingkat awal bagi mahasiswa dalam memasuki dunia perkuliahan. Klasifikasi dan prediksi merupakan bentuk analisis data yang dapat digunakan untuk membangun model berdasarkan kelas data yang tersedia atau untuk memprediksi trend data selanjutnya (Han & Kamber 2006). IPB menentukan kelulusan mahasiswa tingkat I berdasarkan hasil akademik mahasiswa pada akhir tingkat I. Mahasiswa yang berhasil lulus tingkat I dapat melanjutkan ke tingkat berikutnya. Analisis data akademik dan data diri mahasiswa IPB tingkat I perlu dilakukan untuk mengetahui tingkat keberhasilan mahasiswa IPB dalam menyelesaikan studi di tingkat I. Salah satu metode data mining yang dapat digunakan untuk membangun model klasifikasi (classifier) untuk menunjukkan tingkat keberhasilan mahasiswa tingkat I IPB adalah kNearest Neighbor. Tujuan Tujuan dari penelitian ini adalah: 1 Menerapkan metode k-Nearest Neighbor untuk membangun model klasifikasi dari data akademik (IPK) dan data penerimaan mahasiswa baru (PPMB) IPB. 2 Memprediksi tingkat keberhasilan mahasiswa tingkat I IPB pada tahun selanjutnya dengan model terbaik yang diperoleh. Ruang Lingkup Ruang lingkup penelitian ini difokuskan pada: Klasifikasi terdiri atas dua proses yaitu tahap induktif yang merupakan tahap membangun model klasifikasi dari data latih dan tahap deduktif yang merupakan tahap menerapkan model untuk data uji. Klasifikasi mempunyai dua teknik pembelajaran yaitu eager learners yang membuat model berdasarkan atribut input yang dipetakan terhadap kelas label setelah data latih tersedia dan lazy learners yang melakukan proses pemodelan dari data latih ketika ada data uji yang akan diklasifikasikan (Tan et al.2006). k-Nearest Neighbor Kelemahan dari teknik lazy learners adalah hanya mampu mengklasifikasikan data uji jika dan hanya jika atributnya sesuai dengan salah satu data latih. Jika atribut data uji tidak sesuai dengan data latih maka tidak akan diklasifikasikan. k-Nearest Neighbor merupakan teknik yang lebih fleksibel karena mampu mengklasifikasikan data uji ke dalam kelas label dengan cara mencari data latih yang relatif sama dengan data uji (Tan et al.2006). k-Nearest Neighbor merepresentasikan setiap data sebagai titik dalam k-ruang dimensi. Jika ada sebuah data uji maka akan dihitung kedekatan titik data tersebut dengan titik data lainnya pada data latih untuk diklasifikasikan berdasarkan kedekatannya yang didefinisikan dengan ukuran jarak (Han & Kamber 2006). 1 Penggunaan data mahasiswa IPB tahun ajaran 2007 yang berasal dari PPMB dan Direktorat TPB. 2 Pemilihan atribut yang diperkirakan merupakan faktor penentu keberhasilan mahasiswa tingkat I menggunakan uji hipotesis statistika. 3 Penerapan teknik data mining klasifikasi menggunakan metode k-Nearest Neighbor. dengan Manfaat x= Model terbaik yang diperoleh diharapkan dapat digunakan untuk memprediksi tingkat keberhasilan mahasiswa-mahasiswa tingkat I IPB pada tahun selanjutnya, lebih lanjut IPB dapat memberikan treatment terhadap mahasiswa yang diprediksi drop out (memiliki tingkat keberhasilan rendah). y= Analis data mendefinisikan ukuran kedekatan atau ukuran kesamaan menggunakan fungsi jarak. Fungsi jarak yang umumnya digunakan adalah jarak Euclidean (Larose 2005). ...(1) = selisih data uji dengan data latih m = jumlah atribut Penentuan klasifikasi data uji berdasar pada kelas utama (majority voting) pada nearest 1 neighbor dengan menggunakan rumus berikut ini: …(2) dengan v adalah label kelas, yi adalah label kelas untuk satu nearest neighbor dan I adalah fungsi indikator yang mengembalikan nilai 1 jika pernyataan benar dan nilai 0 jika salah (Tan et al. 2006). Normalisasi Pada perhitungan jarak Euclidean, atribut berskala panjang dapat mempunyai pengaruh lebih besar daripada atribut berskala pendek. Untuk mencegah hal tersebut perlu dilakukan normalisasi terhadap nilai atribut (Larose 2005). Salah satu metode normalisasi adalah minmax normalization yang diterapkan untuk atribut kontinu. Formula untuk normalisasi atribut X adalah: …(3) dengan X* adalah nilai setelah dinormalisasi, X adalah nilai sebelum dinormalisasi, min(X) adalah nilai minimum dari atribut, dan max(X) adalah nilai maksimum dari suatu atribut. Untuk atribut berikut: kategori digunakan rumus …(4) k-Fold Cross Validation k-fold cross validation dilakukan untuk membagi data latih dan data uji. k-fold cross validation mengulang k-kali untuk membagi sebuah himpunan contoh secara acak menjadi k subset yang saling bebas, setiap ulangan disisakan satu subset untuk pengujian dan subset lainnya untuk pelatihan (Fu 1994). Pada metode tersebut, data awal dibagi menjadi k subset atau “fold” yang saling bebas secara acak, yaitu S1, S2, …, Sk, dengan ukuran setiap subset kira-kira sama. Pada iterasi ke-i, subset Si diperlukan sebagai data pengujian dan subset lainnya diperlukan sebagai data pelatihan. Prosedur ini diulang sebanyak k-kali sedemikian sehingga setiap subset digunakan untuk pengujian tepat satu kali. Total akurasi ditentukan dengan menjumlahkan akurasi untuk semua k proses tersebut. Confusion Matrix Evaluasi model klasifikasi berdasar pada proporsi antara data uji yang diprediksi secara tepat dengan total seluruh prediksi (Tan et al.2006). Informasi mengenai klasifikasi sebenarnya (aktual) dengan klasifikasi hasil prediksi disajikan dalam bentuk tabel yang disebut confusion matrix seperti diperlihatkan pada Tabel 1. Tabel 1 Confusion matrix dua kelas Kelas aktual Kelas1 Kelas2 Kelas hasil prediksi Kelas1 Kelas2 a b c d Jumlah baris dan kolom pada tabel bergantung pada banyaknya kelas target. Akurasi merupakan proporsi jumlah prediksi yang tepat. Contoh perhitungan akurasi untuk tabel tersebut adalah: …(5) Koefisien Korelasi Peringkat Spearman Korelasi peringkat merupakan ukuran yang menunjukkan derajat keeratan hubungan diantara dua peubah. Salah satu ukuran asosiasi yang dikenal yaitu Koefisien Korelasi Peringkat Spearman. Asumsi atau syarat yang harus dipenuhi pada korelasi ini antara lain (Daniel 1990): Data terdiri atas contoh acak n berpasangan pengamatan numerik atau bukan numerik. Tiap pasang pengamatan menunjukkan dua ukuran yang diperoleh dari objek atau individu yang sama. Langkah perhitungan koefisien korelasi peringkat Spearman (Daniel 1990): Jika data terdiri atas pengamatan dari suatu populasi bivariabel, ditunjukkan n pasang pengamatan yang diperoleh yaitu (X1,Y1), (X2,Y2), …, (Xn,Yn). Tiap X diperingkatkan terhadap seluruh pengamatan X lainnya dari nilai terkecil hingga terbesar. Peringkat nilai ke-i dari X ditunjukkan dengan R(Xi) dan R(Xi) = 1 jika Xi nilai pengamatan terkecil dari X. Tiap Y diperingkatkan terhadap seluruh pengamatan Y lainnya dari nilai terkecil hingga terbesar. Peringkat nilai ke-i dari Y ditunjukkan dengan R(Yi) dan R(Yi) = 1 jika Yi nilai pengamatan terkecil dari Y. Jika ada nilai yang sama (ties) diantara X dan Y, digunakan peringkat rata-rata. 2 Jika data bukan numerik, maka mampu diperingkatkan. harus Hipotesis statistik adalah dugaan mengenai suatu populasi. Hipotesis yang dirumuskan dengan harapan akan ditolak disebut hipotesis nol (H0) sedangkan hipotesis alternatif dilambangkan dengan H1 (Walpole 1992). Hipotesis koefisien korelasi peringkat Spearman (Daniel 1990): H0: X dan Y saling bebas H1: X dan Y berhubungan langsung atau kebalikan Statistik uji yang digunakan adalah (Daniel 1990): …(6) …(7) dengan: di: jumlah kuadrat beda antara peringkat record X ke-i dengan peringkat record Y ke-i R(Xi): peringkat record ke-i pada atribut X R(Yi): peringkat record ke-i pada atribut Y n: banyaknya record rs: koefisien korelasi, dimana -1 ≤ rs ≤ 1 Jika ada nilai pengamatan yang sama (ties), nilai menggunakan rumus: …(8) dengan …(9) …(10) …(11) …(12) Benar atau salahnya suatu hipotesis tidak akan pernah diketahui dengan pasti kecuali bila memeriksa seluruh populasi. Namun dalam kebanyakan situasi, hal itu tidak mungkin dilakukan. Oleh karena itu, dapat mengambil contoh acak dari populasi untuk memutuskan apakah hipotesis tersebut kemungkinan besar benar atau salah. Bukti dari contoh yang tidak konsisten dengan hipotesis yang dinyatakan tentu saja membawa pada penolakan hipotesis tersebut sedangkan bukti yang mendukung hipotesis membawa pada penerimaan hipotesis tersebut. Penerimaan suatu hipotesis statistik adalah karena tidak cukup bukti untuk menolaknya. Penolakan suatu hipotesis berarti menyimpulkan bahwa hipotesis itu salah (Walpole 1992). Kaidah keputusan hipotesis koefisien korelasi peringkat Spearman (Daniel 1990): Jika rs > nilai Tabel koefisien korelasi peringkat Spearman untuk n dan α(2) atau rs < nilai tabel ini, maka tolak H0 dengan α adalah besarnya taraf nyata (tingkat error) dan dapat disimpulkan bahwa antara peubah satu dengan peubah lainnya tidak saling bebas (berpengaruh). Uji Kebebasan Chi-Square Hubungan diantara peubah kategorik dapat dilakukan melalui penggunaan uji kebebasan chi-square. Data dalam pengujian hubungan disajikan dalam bentuk tabel kontingensi. Bentuk umum tabel kontingensi, yaitu berukuran i baris × j kolom. Hipotesis untuk menguji pengaruh antara peubah satu dengan peubah lainnya, yaitu (Freeman 1987): H0: Pij = Pi.Pj (tidak ada hubungan) H1: Pij ≠ Pi.Pj (terdapat hubungan) dengan Pi: peluang total atribut ke-i terhadap total data Pj: peluang total kelas ke-j terhadap total data dimana tx=banyaknya pengamatan X yang sama untuk nilai tertentu (untuk suatu peringkat) ty=banyaknya pengamatan Y yang sama untuk nilai tertentu (untuk suatu peringkat) Jika n>100, maka gunakan tabel normal (z) dengan: …(13) Statistik uji yang digunakan adalah statistik 2 yang dirumuskan dengan (Freeman 1987) Eij = n (Pi) (Pj) = n (ni/n) (nj/n) = [(ni) (nj)]/n …(14) 3 dengan n: total data (banyaknya pengamatan) sedangkan IPK masuk ke dalam faktor keterlibatan mahasiswa terhadap pendidikan. Pengadaan Data Oij: frekuensi pengamatan Eij: frekuensi harapan Praproses Data ni: total data atribut ke-i nj: total data kelas ke-j Penentuan data latih dan data uji Kaidah keputusan Jika 2hitung > 2 (db, ) tabel chisquare maka tolak H0 dan dapat disimpulkan bahwa antara peubah satu dengan lainnya tidak saling bebas (berpengaruh). Derajat bebas (db) menunjukkan banyaknya parameter (informasi) minimum yang digunakan. Formula derajat bebas: db = (i 1) (j 1) dengan i=jumlah level atribut dan j=jumlah level kelas target. METODE PENELITIAN Penelitian ini dilakukan dalam beberapa tahap seperti diilustrasikan pada Gambar 1. Data Latih Data Uji Pembentukan classifier menggunakan k-Nearest Neihgbor classifier Penentuan akurasi Prediksi mahasiswa baru Data mahasiswa baru tanpa label kelas Pengadaan Data Banyak studi yang telah lakukan untuk menjelaskan prestasi akademik atau memprediksi kesuksesan akademik dalam dunia pendidikan, salah satunya adalah studi yang dilakukan Parmentier pada tahun 1994. Parmentier menunjukkan bahwa prestasi akademik mahasiswa dipengaruhi oleh tiga kumpulan faktor, yaitu berbagai hal yang berhubungan dengan latar belakang pribadi mahasiswa (identitas, pendidikan, keluarga, dan lain-lain), keterlibatan atau tingkah laku mahasiswa terhadap pendidikan (partisipasi pada kegiatan pilihan, bertemu dengan profesor untuk bertanya atau memperoleh feedback pada ujian berkala, dan lain-lain), dan persepsi dari mahasiswa (persepsi mahasiswa terhadap konteks akademik, profesornya, kuliah, dan lain-lain) (Superby et al. 2005). Penelitian ini hanya menggunakan dua faktor Parmentier, yaitu faktor data pribadi mahasiswa dan faktor keterlibatan mahasiswa terhadap pendidikan. Data yang digunakan adalah data mahasiswa TPB IPB tahun ajaran 2007 yang berasal dari Panitia Penerimaan Mahasiswa Baru (PPMB) dan Direktorat Tingkat Persiapan Bersama (Direktorat TPB). Data tersebut terdiri dari dua kelompok data yaitu IPK dan Biodata. Biodata mahasiswa masuk ke dalam faktor data pribadi mahasiswa, Data mahasiswa baru dengan label kelas Gambar 1 Tahap penelitian. Pengelompokan mahasiswa untuk menganalisis tingkat keberhasilan mahasiswa tingkat I dibagi menjadi tiga kategori, yaitu low risk (memiliki kemungkinan/resiko rendah tidak lulus), medium risk (dibolehkan lulus berdasarkan ukuran yang diambil perguruan tinggi), dan high risk (memiliki kemungkinan/resiko besar tidak lulus atau drop out) (Superby et al. 2005). Praproses Data Tahapan yang dilakukan dalam praproses diantaranya : Penggabungan data, menggabungkan dua kelompok data yaitu Indeks Prestasi Mahasiswa (IPK) dan Biodata Mahasiswa. Pembersihan data, membuang data yang missing value. Pemilihan data, mengambil data yang relevan digunakan untuk proses analisis. Pada penelitian ini pemilihan data menggunakan uji hipotesis statistika yaitu Uji Kebebasan dan Uji Spearman. 4