1 PENDAHULUAN Latar Belakang Institut

advertisement
TINJAUAN PUSTAKA
PENDAHULUAN
Latar Belakang
Klasifikasi dan Prediksi
Institut Pertanian Bogor (IPB) setiap
tahunnya menerima mahasiswa baru dengan
berbagai jalur masuk. Pada tingkat I, mahasiswa
baru tersebut menjalani Tingkat Persiapan
Bersama (TPB) yang merupakan tingkat awal
bagi mahasiswa dalam memasuki dunia
perkuliahan.
Klasifikasi dan prediksi merupakan bentuk
analisis data yang dapat digunakan untuk
membangun model berdasarkan kelas data yang
tersedia atau untuk memprediksi trend data
selanjutnya (Han & Kamber 2006).
IPB menentukan kelulusan mahasiswa
tingkat I berdasarkan hasil akademik mahasiswa
pada akhir tingkat I. Mahasiswa yang berhasil
lulus tingkat I dapat melanjutkan ke tingkat
berikutnya. Analisis data akademik dan data diri
mahasiswa IPB tingkat I perlu dilakukan untuk
mengetahui tingkat keberhasilan mahasiswa
IPB dalam menyelesaikan studi di tingkat I.
Salah satu metode data mining yang dapat
digunakan untuk membangun model klasifikasi
(classifier)
untuk
menunjukkan
tingkat
keberhasilan mahasiswa tingkat I IPB adalah kNearest Neighbor.
Tujuan
Tujuan dari penelitian ini adalah:
1 Menerapkan metode k-Nearest Neighbor
untuk membangun model klasifikasi dari
data akademik (IPK) dan data penerimaan
mahasiswa baru (PPMB) IPB.
2 Memprediksi
tingkat
keberhasilan
mahasiswa tingkat I IPB pada tahun
selanjutnya dengan model terbaik yang
diperoleh.
Ruang Lingkup
Ruang lingkup penelitian ini difokuskan
pada:
Klasifikasi terdiri atas dua proses yaitu
tahap induktif yang merupakan tahap
membangun model klasifikasi dari data latih
dan tahap deduktif yang merupakan tahap
menerapkan model untuk data uji. Klasifikasi
mempunyai dua teknik pembelajaran yaitu
eager learners yang membuat model
berdasarkan atribut input yang dipetakan
terhadap kelas label setelah data latih tersedia
dan lazy learners yang melakukan proses
pemodelan dari data latih ketika ada data uji
yang akan diklasifikasikan (Tan et al.2006).
k-Nearest Neighbor
Kelemahan dari teknik lazy learners adalah
hanya mampu mengklasifikasikan data uji jika
dan hanya jika atributnya sesuai dengan salah
satu data latih. Jika atribut data uji tidak sesuai
dengan data latih maka tidak akan
diklasifikasikan.
k-Nearest
Neighbor
merupakan teknik yang lebih fleksibel karena
mampu mengklasifikasikan data uji ke dalam
kelas label dengan cara mencari data latih yang
relatif sama dengan data uji (Tan et al.2006).
k-Nearest Neighbor merepresentasikan
setiap data sebagai titik dalam k-ruang dimensi.
Jika ada sebuah data uji maka akan dihitung
kedekatan titik data tersebut dengan titik data
lainnya pada data latih untuk diklasifikasikan
berdasarkan kedekatannya yang didefinisikan
dengan ukuran jarak (Han & Kamber 2006).
1 Penggunaan data mahasiswa IPB tahun
ajaran 2007 yang berasal dari PPMB dan
Direktorat TPB.
2 Pemilihan atribut yang diperkirakan
merupakan faktor penentu keberhasilan
mahasiswa tingkat I menggunakan uji
hipotesis statistika.
3 Penerapan teknik data mining klasifikasi
menggunakan metode k-Nearest Neighbor.
dengan
Manfaat
x=
Model terbaik yang diperoleh diharapkan
dapat digunakan untuk memprediksi tingkat
keberhasilan mahasiswa-mahasiswa tingkat I
IPB pada tahun selanjutnya, lebih lanjut IPB
dapat
memberikan
treatment
terhadap
mahasiswa yang diprediksi drop out (memiliki
tingkat keberhasilan rendah).
y=
Analis
data
mendefinisikan
ukuran
kedekatan atau ukuran kesamaan menggunakan
fungsi jarak. Fungsi jarak yang umumnya
digunakan adalah jarak Euclidean (Larose
2005).
...(1)
= selisih data uji dengan data latih
m = jumlah atribut
Penentuan klasifikasi data uji berdasar pada
kelas utama (majority voting) pada nearest
1
neighbor dengan menggunakan rumus berikut
ini:
…(2)
dengan v adalah label kelas, yi adalah label
kelas untuk satu nearest neighbor dan I adalah
fungsi indikator yang mengembalikan nilai 1
jika pernyataan benar dan nilai 0 jika salah (Tan
et al. 2006).
Normalisasi
Pada perhitungan jarak Euclidean, atribut
berskala panjang dapat mempunyai pengaruh
lebih besar daripada atribut berskala pendek.
Untuk mencegah hal tersebut perlu dilakukan
normalisasi terhadap nilai atribut (Larose 2005).
Salah satu metode normalisasi adalah minmax normalization yang diterapkan untuk
atribut kontinu. Formula untuk normalisasi
atribut X adalah:
…(3)
dengan X* adalah nilai setelah dinormalisasi, X
adalah nilai sebelum dinormalisasi, min(X)
adalah nilai minimum dari atribut, dan max(X)
adalah nilai maksimum dari suatu atribut.
Untuk atribut
berikut:
kategori
digunakan
rumus
…(4)
k-Fold Cross Validation
k-fold cross validation dilakukan untuk
membagi data latih dan data uji. k-fold cross
validation mengulang k-kali untuk membagi
sebuah himpunan contoh secara acak menjadi k
subset yang saling bebas, setiap ulangan
disisakan satu subset untuk pengujian dan
subset lainnya untuk pelatihan (Fu 1994). Pada
metode tersebut, data awal dibagi menjadi k
subset atau “fold” yang saling bebas secara
acak, yaitu S1, S2, …, Sk, dengan ukuran setiap
subset kira-kira sama. Pada iterasi ke-i, subset
Si diperlukan sebagai data pengujian dan subset
lainnya diperlukan sebagai data pelatihan.
Prosedur ini diulang sebanyak k-kali
sedemikian sehingga setiap subset digunakan
untuk pengujian tepat satu kali. Total akurasi
ditentukan dengan menjumlahkan akurasi untuk
semua k proses tersebut.
Confusion Matrix
Evaluasi model klasifikasi berdasar pada
proporsi antara data uji yang diprediksi secara
tepat dengan total seluruh prediksi (Tan et
al.2006). Informasi mengenai klasifikasi
sebenarnya (aktual) dengan klasifikasi hasil
prediksi disajikan dalam bentuk tabel yang
disebut confusion matrix seperti diperlihatkan
pada Tabel 1.
Tabel 1 Confusion matrix dua kelas
Kelas aktual
Kelas1
Kelas2
Kelas hasil prediksi
Kelas1
Kelas2
a
b
c
d
Jumlah baris dan kolom pada tabel
bergantung pada banyaknya kelas target.
Akurasi merupakan proporsi jumlah prediksi
yang tepat. Contoh perhitungan akurasi untuk
tabel tersebut adalah:
…(5)
Koefisien Korelasi Peringkat Spearman
Korelasi peringkat merupakan ukuran yang
menunjukkan derajat keeratan hubungan
diantara dua peubah. Salah satu ukuran asosiasi
yang dikenal yaitu Koefisien Korelasi Peringkat
Spearman. Asumsi atau syarat yang harus
dipenuhi pada korelasi ini antara lain (Daniel
1990):
Data terdiri atas contoh acak n berpasangan
pengamatan numerik atau bukan numerik.
Tiap pasang pengamatan menunjukkan dua
ukuran yang diperoleh dari objek atau
individu yang sama.
Langkah perhitungan koefisien korelasi
peringkat Spearman (Daniel 1990):
Jika data terdiri atas pengamatan dari suatu
populasi bivariabel, ditunjukkan n pasang
pengamatan yang diperoleh yaitu (X1,Y1),
(X2,Y2), …, (Xn,Yn).
Tiap X diperingkatkan terhadap seluruh
pengamatan X lainnya dari nilai terkecil
hingga terbesar. Peringkat nilai ke-i dari X
ditunjukkan dengan R(Xi) dan R(Xi) = 1 jika
Xi nilai pengamatan terkecil dari X.
Tiap Y diperingkatkan terhadap seluruh
pengamatan Y lainnya dari nilai terkecil
hingga terbesar. Peringkat nilai ke-i dari Y
ditunjukkan dengan R(Yi) dan R(Yi) = 1
jika Yi nilai pengamatan terkecil dari Y.
Jika ada nilai yang sama (ties) diantara X
dan Y, digunakan peringkat rata-rata.
2
Jika data bukan numerik, maka
mampu diperingkatkan.
harus
Hipotesis statistik adalah dugaan mengenai
suatu populasi. Hipotesis yang dirumuskan
dengan harapan akan ditolak disebut hipotesis
nol (H0) sedangkan hipotesis alternatif
dilambangkan dengan H1 (Walpole 1992).
Hipotesis
koefisien
korelasi
peringkat
Spearman (Daniel 1990):
H0: X dan Y saling bebas
H1: X dan Y berhubungan langsung atau
kebalikan
Statistik uji yang digunakan adalah
(Daniel 1990):
…(6)
…(7)
dengan:
di: jumlah kuadrat beda antara peringkat record
X ke-i dengan peringkat record Y ke-i
R(Xi): peringkat record ke-i pada atribut X
R(Yi): peringkat record ke-i pada atribut Y
n: banyaknya record
rs: koefisien korelasi, dimana -1 ≤ rs ≤ 1
Jika ada nilai pengamatan yang sama (ties),
nilai menggunakan rumus:
…(8)
dengan
…(9)
…(10)
…(11)
…(12)
Benar atau salahnya suatu hipotesis tidak
akan pernah diketahui dengan pasti kecuali bila
memeriksa seluruh populasi. Namun dalam
kebanyakan situasi, hal itu tidak mungkin
dilakukan. Oleh karena itu, dapat mengambil
contoh acak dari populasi untuk memutuskan
apakah hipotesis tersebut kemungkinan besar
benar atau salah. Bukti dari contoh yang tidak
konsisten dengan hipotesis yang dinyatakan
tentu saja membawa pada penolakan hipotesis
tersebut sedangkan bukti yang mendukung
hipotesis membawa pada penerimaan hipotesis
tersebut. Penerimaan suatu hipotesis statistik
adalah karena tidak cukup bukti untuk
menolaknya. Penolakan suatu hipotesis berarti
menyimpulkan bahwa hipotesis itu salah
(Walpole 1992). Kaidah keputusan hipotesis
koefisien korelasi peringkat Spearman (Daniel
1990):
Jika rs > nilai Tabel koefisien korelasi
peringkat Spearman untuk n dan α(2) atau rs <
nilai tabel ini, maka tolak H0 dengan α adalah
besarnya taraf nyata (tingkat error) dan dapat
disimpulkan bahwa antara peubah satu dengan
peubah
lainnya
tidak
saling
bebas
(berpengaruh).
Uji Kebebasan Chi-Square
Hubungan diantara peubah kategorik dapat
dilakukan melalui penggunaan uji kebebasan
chi-square. Data dalam pengujian hubungan
disajikan dalam bentuk tabel kontingensi.
Bentuk umum tabel kontingensi, yaitu
berukuran i baris × j kolom.
 Hipotesis untuk menguji pengaruh antara
peubah satu dengan peubah lainnya, yaitu
(Freeman 1987):
H0: Pij = Pi.Pj (tidak ada hubungan)
H1: Pij ≠ Pi.Pj (terdapat hubungan)
dengan
Pi: peluang total atribut ke-i terhadap total
data
Pj: peluang total kelas ke-j terhadap total
data
dimana
tx=banyaknya pengamatan X yang sama untuk
nilai tertentu (untuk suatu peringkat)
ty=banyaknya pengamatan Y yang sama untuk
nilai tertentu (untuk suatu peringkat)
Jika n>100, maka gunakan tabel normal (z)
dengan:
…(13)
 Statistik uji yang digunakan adalah statistik
2
yang dirumuskan dengan (Freeman 1987)
Eij
= n (Pi) (Pj)
= n (ni/n) (nj/n)
= [(ni) (nj)]/n
…(14)
3
dengan
n: total data (banyaknya pengamatan)
sedangkan IPK masuk ke dalam faktor
keterlibatan mahasiswa terhadap pendidikan.
Pengadaan
Data
Oij: frekuensi pengamatan
Eij: frekuensi harapan
Praproses
Data
ni: total data atribut ke-i
nj: total data kelas ke-j
Penentuan
data latih dan
data uji
 Kaidah keputusan
Jika 2hitung > 2 (db, ) tabel chisquare maka tolak H0 dan dapat disimpulkan
bahwa antara peubah satu dengan lainnya
tidak saling bebas (berpengaruh).
Derajat bebas (db) menunjukkan
banyaknya parameter (informasi) minimum
yang digunakan. Formula derajat bebas: db
= (i 1) (j 1) dengan i=jumlah level atribut
dan j=jumlah level kelas target.
METODE PENELITIAN
Penelitian ini dilakukan dalam beberapa
tahap seperti diilustrasikan pada Gambar 1.
Data Latih
Data Uji
Pembentukan classifier
menggunakan k-Nearest
Neihgbor
classifier
Penentuan
akurasi
Prediksi
mahasiswa baru
Data mahasiswa
baru tanpa label
kelas
Pengadaan Data
Banyak studi yang telah lakukan untuk
menjelaskan
prestasi
akademik
atau
memprediksi kesuksesan akademik dalam dunia
pendidikan, salah satunya adalah studi yang
dilakukan Parmentier pada tahun 1994.
Parmentier menunjukkan bahwa prestasi
akademik mahasiswa dipengaruhi oleh tiga
kumpulan faktor, yaitu berbagai hal yang
berhubungan dengan latar belakang pribadi
mahasiswa (identitas, pendidikan, keluarga, dan
lain-lain), keterlibatan atau tingkah laku
mahasiswa terhadap pendidikan (partisipasi
pada kegiatan pilihan, bertemu dengan profesor
untuk bertanya atau memperoleh feedback pada
ujian berkala, dan lain-lain), dan persepsi dari
mahasiswa (persepsi mahasiswa
terhadap
konteks akademik, profesornya, kuliah, dan
lain-lain) (Superby et al. 2005).
Penelitian ini hanya menggunakan dua
faktor Parmentier, yaitu faktor data pribadi
mahasiswa dan faktor keterlibatan mahasiswa
terhadap pendidikan. Data yang digunakan
adalah data mahasiswa TPB IPB tahun ajaran
2007 yang berasal dari Panitia Penerimaan
Mahasiswa Baru (PPMB) dan Direktorat
Tingkat Persiapan Bersama (Direktorat TPB).
Data tersebut terdiri dari dua kelompok data
yaitu IPK dan Biodata. Biodata mahasiswa
masuk ke dalam faktor data pribadi mahasiswa,
Data mahasiswa
baru dengan
label kelas
Gambar 1 Tahap penelitian.
Pengelompokan
mahasiswa
untuk
menganalisis tingkat keberhasilan mahasiswa
tingkat I dibagi menjadi tiga kategori, yaitu low
risk (memiliki kemungkinan/resiko rendah tidak
lulus), medium risk (dibolehkan lulus
berdasarkan ukuran yang diambil perguruan
tinggi),
dan
high
risk
(memiliki
kemungkinan/resiko besar tidak lulus atau drop
out) (Superby et al. 2005).
Praproses Data
Tahapan yang dilakukan dalam praproses
diantaranya :
Penggabungan data, menggabungkan dua
kelompok data yaitu Indeks Prestasi
Mahasiswa (IPK) dan Biodata Mahasiswa.
Pembersihan data, membuang data yang
missing value.
Pemilihan data, mengambil data yang
relevan digunakan untuk proses analisis.
Pada penelitian ini pemilihan data
menggunakan uji hipotesis statistika yaitu
Uji Kebebasan dan Uji Spearman.
4
Download