penanganan ketidakseimbangan kelas pada dataset

advertisement
BAB I
PENDAHULUAN
1.1
Latar Belakang
Setiap siswa di dalam kelas memiliki karakteristik diri yang berbeda – beda,
seperti : jujur, empati, sopan, menghargai dan sebagainya. Karakteristik diri
tersebut berperan penting dalam pembangunan hubungan dengan teman sekelas,
guru dan pegawai di lingkungan sekolah [1]. Hubungan di lingkungan sekolah ini
mempengaruhi motivasi siswa di dalam aktivitas belajar, baik motivasi intrinsik dan
ekstrinsik [2]. Menurut penelitian [3], motivasi intrinsik maupun ekstrinsik inilah
yang mempengaruhi performa akademik siswa. Berdasarkan keeratan hubungan
dengan motivasi, faktor metakognisi juga mempengaruhi bagaimana siswa
berperilaku di kelas dan mempengaruhi tingkat performa di dalam akademik [4].
Faktor
metakognisi
merupakan
kemampuan
untuk
merefleksikan,
memahami dan mengkontrol belajar dirinya sendiri. Metakognisi berperan dalam
pemilihan meta level seseorang yang berkaitan dengan informasi kapan
menggunakan proses kognisi tertentu dan bagaimana mengkombinasikannya dalam
rangka mengerjakan tugas yang lebih besar. Metakognisi memiliki dua komponen
utama yaitu ‘pengetahuan kognisi’ serta ‘peraturan kognisi’ [5]. Pengetahuan
kognisi adalah mekanisme untuk menggunakan strategi maupun prosedur,
sedangkan peraturan kognisi adalah sekumpulan aktivitas yang membantu
seseorang dalam mengkontrol cara belajarnya. Hal – hal yang membuat faktor
metakognisi unggul dalam meneliti perilaku siswa karena faktor ini mencakup
motivasi, peraturan (regulation) maupun kognisi seseorang.
Sudah banyak penelitian yang memprediksi faktor performa siswa
berdasarkan nilai kognisi yang dilihat dari pengetahuan mata pelajaran tertentu [6]–
[8]. Namun belum banyak proses prediksi faktor performa siswa berdasarkan nilai
metakognisi dalam bidang keteknikan. Biasanya proses prediksi faktor
diimplementasi dengan menggunakan Educational Data Mining (EDM). EDM
adalah suatu mekanisme konversi data mentah dari sistem pendidikan menjadi
1
informasi yang bermanfaat, baik untuk siswa itu sendiri, guru, orang tua maupun
peneliti sistem pendidikan [9]. Penggunaan EDM untuk mencari faktor performa
dari motif siswa yang sebenarnya, sebaiknya diimplementasi pada level kelas yang
sama, mata pelajaran yang sama atau level lingkungan pendidikan yang sama [6].
Namun imbas dari implementasi tersebut adalah sedikitnya data yang dikumpulkan
oleh peneliti. Sedikitnya data tersebut biasanya dinamakan sebagai dataset kecil.
Penggunaan dataset kecil pada implementasi data mining memiliki banyak
kelebihan maupun kekurangan. Kelebihan penggunaan dataset kecil yaitu
implementasi analisis yang lebih cepat serta meminimalisir kebutuhan yang
dikeluarkan seperti waktu, tenaga, biaya dan sebagainya. Sedangkan kekurangan
dari dataset kecil adalah kurangnya representasi informasi sehingga peneliti akan
kesulitan dalam pengambilan keputusan. Bahkan parahnya, dataset kecil ini akan
memunculkan fenomena yang dinamakan ketidakseimbangan kelas (class
imbalanced) [10]. Fenomena ini terjadi ketika rasio kejadian antara satu kasus
dengan kasus lainnya berjumlah tidak seimbang (rasio tidak seimbang/imbalanced
ratio). Misalnya dalam kasus metakognisi, jumlah siswa yang memiliki kasus
metakognisi buruk lebih banyak dibandingkan jumlah kasus siswa bermetakognisi
baik. Kumpulan siswa yang masuk dalam kumpulan kasus berkejadian tinggi ini
dinamakan sebagai kelas mayoritas, sedangkan kumpulan kasus berkejadian sedikit
ini disebut sebagai kelas minoritas.
Ketidakseimbangan kelas di dataset kecil sangat merugikan bagi peneliti
yang berkecimpung di bidang data mining. Alasannya adalah kebanyakan machine
learning pada data mining memiliki kesulitan dalam mengklasifikasi kelas
minoritas dengan benar. Kebanyakan dari algoritme tersebut mengasumsi bahwa
distribusi kelas yang diuji sudah seimbang sehingga salah dalam mengklasifikasi
nilai pada tiap kelas. Terlebih lagi, algoritme machine learning dirancang untuk
menggeneralisisasi data yang diuji sebagai sama kedudukannya dan menghasilkan
hipotesis yang paling sederhana. Prinsip tersebut disematkan pada berbagai
algoritme seperti decision tree, nearest neighbor serta Support Vector Machine
(SVM). Oleh karenanya ketika algoritme ini menguji dataset yang tidak seimbang
2
maka akan cenderung fokus pada kelas mayoritas dan mengabaikan kelas minoritas
sehingga menyebabkan error pada klasifikasi kelas minoritas. Kelas minoritas
hanya dianggap sebagai noise saja [11].
Hasil pengujian metode klasifikasi di dataset yang tidak seimbang biasanya
memiliki ciri khas berupa nilai instance yang terklasifikasi (misclassification cost)
di kelas minoritas lebih tinggi dibandingkan dengan misclassification cost di kelas
mayoritas. Oleh karenanya, tantangan dalam mengatasi hal ini adalah bagaimana
caranya mengklasifikasi kelas minoritas secara lebih akurat. Menurut penelitian
[12], cara untuk mengatasi ketidakseimbangan kelas adalah dengan melakukan
sampel ulang (resample) dataset asli, baik pada kelas minoritas (oversampling)
ataupun kelas mayoritas (undersampling). Cara kedua adalah dengan cara
memberikan nilai / cost pada instance yang diuji.
Cara pertama untuk mengatasi ketidakseimbangan kelas adalah proses
sampel ulang. Oversampling merupakan mekanisme untuk menyeimbangkan
distribusi kelas dengan cara replikasi instance kelas minoritas secara acak. Namun,
kekurangan dari oversampling adalah peningkatan kemungkinan munculnya
overfitting karena mekanisme ini membuat duplikasi instance secara persis.
Kemudian Chawla dkk [13] mengajukan solusi yang dinamakan SMOTE
(Synthethic Minority Oversampling Technique). SMOTE dapat membangkitkan
sampel kelas minoritas secara sintetis dengan cara proses interpolasi antar instance
kelas minoritas yang terletak berdekatan. SMOTE memanfaatkan faktor nearest
neighbors serta tingkat oversampling yang diinginkan. Undersampling adalah suatu
mekanisme untuk menyeimbangkan distribusi kelas dengan cara mengurangi
instance kelas mayoritas secara acak. Namun kekurangan dari undersampling
adalah hilangnya data yang dianggap penting bagi kelangsungan proses
pengambilan keputusan oleh machine learning.
Cara kedua untuk mengatasi ketidakseimbangan kelas adalah pemberian
nilai / cost atribut pada instance yang diuji, akibat adanya jarak/gap informasi pada
dataset jumlah terbatas. Li dkk [14] mengajukan suatu metode yang dinamakan
MTD (Mega Trend Diffusion) yang bekerja dengan cara memperluas cakupan
3
informasi atribut dengan memberikan atribut sintetis. Atribut sintetis ini dibuat
berdasarkan tingkat keanggotaan atribut di dalam dataset. Kebanyakan MTD diuji
dengan algoritme SVM karena sering digunakan pada penanganan dataset kecil
[15]–[17].
Tetapi dari banyaknya penanganan ketidakseimbangan kelas di dataset
kecil, tidak banyak yang mempertimbangkan seluruh aspek seperti oversampling,
undersampling dan penanganan atribut. Dataset yang kecil cenderung memiliki
informasi yang sedikit, pada atribut tambahan dapat berperan memberikan
informasi lebih untuk machine learning. Selain itu, keadaan atribut yang semakin
similiar dan berkorelasi tinggi akan sulit untuk dipisahkan dan membuat machine
learning kesulitan dalam proses prediksi klasifikasi.
Pengunaan algoritme machine learning sebagai penguji performa data
seperti SVM, merupakan salah satu faktor penting keberhasilan penelitian di bidang
data mining terutama pada dataset kecil [18]. N
amun menurut Fern´andez-Delgado [19], tidak ada metode klasifikasi yang
dianggap terbaik pada seluruh kasus. Oleh karenanya disarankan penggunaan
kombinasi lebih dari 1 (satu) jenis algoritme yang dinamakan sebagai algoritme
ensemble. Salah satu algoritme ensemble ini adalah Stacking.
Algoritme Stacking bekerja dengan memanfaatkan probabilitas dari masing
– masing klasifikasi yang dipakai (base classifier) untuk diuji kembali oleh suatu
klasifikasi meta-learning. Stacking dianggap lebih baik jika dibandingkan dengan
Voting, bahkan Stacking dianggap lebih efektif dibandingkan dengan pemilihan
salah satu metode klasifikasi terbaik berdasarkan pengujian cross validation [20].
Selain itu dibandingkan dengan teknik ensemble lainnya, seperti Bagging dan
Boosting, teknik Stacking dapat mengurangi tingkat kesalahan (false positive rate)
secara lebih signifikan [21]. SVM sering dipadupadankan dengan Naive Bayes pada
penelitian teks mining serta sistem deteksi intrusi [22]. Naive Bayes merupakan
salah satu teknik klasifikasi yang dapat diimplementasi dengan baik pada dataset
terbatas, karena pengklasifikasi ini tetap dapat mengestimasi parameter walaupun
data yang tersedia terbatas [23]. Namun belum banyak implementasi Stacking di
4
dataset bidang metakognisi.
Menurut referensi [24], hasil dari kombinasi 2 (dua) atau lebih algoritme
pada klasifikasi ensemble termasuk Stacking, dapat menghasilkan 3 (tiga) jenis
kemungkinan :
1. Kemungkinan pertama, kerja ensemble menghasilkan nilai maksimal pada
seluruh evaluasi performa.
2. Kemungkinan kedua, kerja ensemble menghasilkan nilai buruk pada seluruh
evaluasi performa.
3. Kemungkinan ketiga, kerja ensemble menghasilkan nilai baik pada salah satu
pengukuran, tapi tidak pada pengukuran lainnya.
Untuk kemungkinan ketiga ini, evaluasi dipilih tergantung pada kepentingan relatif
dari pengukuran performa dan tergantung dari tujuan si pembuat keputusan.
Evaluasi performa klasifikasi dapat diukur dengan berbagai metode.
Menurut Weiss [25], salah satu masalah pada dataset yang tidak seimbang ditandai
dengan adanya kesalahan dalam evaluasi. Oleh karenanya diperlukan proses
evaluasi yang tepat guna membantu dalam pengambilan keputusan. Proses
pengambilan keputusan yang tepat dilakukan sesuai dengan tujuan awal penelitian.
1.2
Perumusan Masalah
Berdasarkan latar belakang masalah yang telah dikemukakan sebelumnya,
permasalahan yang dihadapi dalam penanganan ketidakseimbangan kelas di dataset
metakognisi berjumlah terbatas adalah sebagai berikut :
1.
Kebanyakan penelitian yang menangani ketidakseimbangan kelas di dataset
kecil, tidak mempertimbangkan aspek penyeimbangan jumlah kelas serta aspek
penambahan informasi atribut.
2.
MTD biasanya diuji dengan SVM, padahal tidak ada klasifikasi terbaik yang
berlaku pada berbagai jenis dataset.
3.
Pengambilan keputusan di dataset yang tidak seimbang sering menjadi masalah
akibat kesalahan evaluasi.
5
4.
Pengujian faktor metakognisi seseorang yang mempengaruhi tingkat performa
akademik pada dataset terbatas, belum banyak diimplementasi dan diteliti di
bidang keteknikan (EDM).
1.3
Keaslian Penelitian
Beberapa penelitian yang menjadi dasar penelitian ini dikemukakan pada
Tabel 1.1. Dari tabel tersebut diketahui bahwa terdapat penelitian yang bergerak di
bidang penangan ketidakseimbangan kelas. Penelitian – penelitian tersebut
melibatkan metode Mega Trend Diffusion yakni “A Learning Method for the Class
Imbalance Problem with Medical Data Sets” [15] serta “Extending Attribute
Information for Small Data Set Classification” [16]. Penelitian [15] memiliki
kelebihan mekanisme MTD berupa penanganan dataset secara sistematis pada kelas
mayoritas maupun minoritas. Namun kekurangan dari penelitian ini adalah tidak
dipertimbangkannya kemungkinan overlap antar atribut yang dapat berimbas buruk
bagi kelas minoritas. Di referensi [15] juga menyebutkan perlunya peningkatan
jumlah kelas minoritas, namun mekanisme oversampling yang tepat tidak
disebutkan. Padahal oversampling merupakan suatu upaya peningkatan jumlah
instance dengan menduplikasinya secara persis dan dapat menyebabkan overfitting.
Oleh karenanya, penelitian ini mengacu pada penggunaan metode yang diajukan
pada penelitian Chawla, yakni SMOTE.
Penelitian lain yang bergerak dalam bidang penanganan ketidakseimbangan
kelas adalah referensi [16]. Referensi ini memiliki kelebihan berupa pembuatan
atribut sintetis untuk menangani atribut yang berkorelasi tinggi, untuk
kekurangannya adalah tidak membedakan perlakuan terhadap instance yang ada di
kelas mayoritas maupun minoritas (generalisasi perlakuan) sehingga jumlah kelas
mayoritas masih lebih besar dibandingkan kelas minoritas.
Pengujian pada penelitian referensi [15] dan [16] sama – sama
menggunakan teknik klasifikasi SVM. Padahal menurut Dzeroski [20]
implementasi Stacking lebih baik dibandingkan penggunaan satu klasifikasi yang
dianggap baik.
6
Tabel 1. 1. Berbagai referensi yang terkait dengan penelitian ini
No
1
2
3
4
5
6
Peneliti
Judul Penelitian
Tujuan
Hasil dan Kesimpulan Terkait
Li, Der-chiang
Liu, Chiaowen
Hu, Susan C
(2010)
Li, Der-chiang
Liu, Chiao-wen
(2012)
Schraw,
Gregory
Dennison,
Rayne Sperling
(1994)
Dzeroski, Saso
Zenko, Bernard
(2004)
Sagale, Amit D
Kale, Swati G
(2014)
Chawla, Nitesh
V dkk
(2002)
A Learning Method for the
Class Imbalance Problem
with Medical Data Sets
Strategi penanganan ketidakseimbangan
kelas dengan meminimalisir bias terhadap
kelas mayoritas pada dataset kedokteran.
Extending
Attribute
Information for Small Data
Set Classification
Assessing
Metacognitive
Awareness
Mengekstrasi informasi secara efektif di
dataset yang jumlahnya terbatas.
Performa dari pendekatan penelitian ini memperoleh hasil yang optimum
karena memanfaatkan oversampling di kelas minoritas dan undersample di
kelas minoritas. Proses ini melibatkan Gaussian Membership serta Mega
Trend Diffusion.
Dihasilkan pendekatan baru yang memanfaatkan konversi data asli menjadi
dimensi data yang lebih tinggi berdasarkan fungsi fuzzy membership
sehingga membentuk atribut sintetis.
Instrumen 52 pertanyaan mencakup dua konsep metakognisi yaitu
pengetahuan dan peraturan kognisi. Instrumen ini menjadi standar
pertanyaan metakognisi dalam dunia psikologi.
Is Combining Classifiers with
Stacking Better than Selecting
the Best One ?
Combining Naive Bayesian
and Support Vector Machine
for Intrusion Detection System
SMOTE : Synthetic Minority
Over-sampling Technique
Evaluasi berbagai kombinasi metode
klasifikasi untuk implementasi Stacking.
Pembuatan instrumen metakognisi untuk
resipien usia dewasa.
Kombinasi Naive Bayes dan SVM untuk
memperoleh performa yang lebih baik di
sistem deteksi intrusi.
Mengatasi kekurangan dari undersampling
oleh kelas mayoritas serta oversampling
kelas minoritas.
7
Implementasi Stacking menghasilkan performa yang lebih baik apabila
dibandingkan dengan memilih klasifikasi yang dianggap paling baik melalui
mekanisme cross validation.
Kombinasi ini dapat menganalisis volume data yang lebih besar dan
meningkatkan kecepatan deteksi serta akurasi pendeteksian kerusakan.
Pendekatan SMOTE dapat meningkatkan akurasi metode klasifikasi untuk
kelas minoritas. SMOTE merupakan pendekatan baru dari proses
oversampling.
Dikarenakan
SVM
sering
diimplementasi
dalam
uji
penanganan
ketidakseimbangan kelas, maka berdasarkan penelitian Sagale dan Kale [22] yang
mengkombinasikan antara SVM dan Naive Bayes, akan digunakan 2 kombinasi ini
dalam pengujian dataset hasil penanganan ketidakseimbangan kelas.
Oleh karenanya, penelitian ini berupaya menggabungkan teknik Mega
Trend Diffusion dari dua penelitian tersebut [15],[16], karena masing – masing
penelitian
memiliki
kelebihan
maupun
kekurangan
dalam
menangani
ketidakseimbangan kelas. Teknik menaikkan jumlah instance di kelas minoritas
menggunakan metode SMOTE [13]. Selanjutnya dataset hasil penanganan
ketidakseimbangan kelas tersebut akan diuji dengan menggunakan kombinasi SVM
dan Naive Bayes melalui klasifikasi Stacking. Dikarenakan belum banyak
penanganan ketidakseimbangan kelas di bidang metakognisi, maka penelitian ini
meneliti dataset metakognisi yang atributnya diambil dari penelitian Gregory dan
Dennison [5].
1.4
Tujuan Penelitian
Tujuan utama dari penelitian ini adalah pembuatan algoritme transformasi
dataset kecil guna penanganan ketidakseimbangan kelas. Untuk mencapai tujuan
utama tersebut, diperlukan berbagai upaya pencapaian berbagai tujuan seperti :
1. Mengkombinasi dan memodifikasi algoritme penelitian sebelumnya yakni
referensi [15] dan [16] yang mempertimbangkan aspek penyeimbangan jumlah
kelas dan juga aspek penambahan informasi atribut.
2. Menguji signifikansi peranan pengujian dengan klasifikasi ensemble Stacking
antara SVM dan Naive Bayes di dataset hasil algoritme penanganan
ketidakseimbangan kelas.
3. Menguji hubungan antara faktor metakognisi dengan tingkat performa
akademik, sehingga dapat diketahui faktor metakognisi apa saja yang paling
cenderung mempengaruhi siswa berperforma buruk.
8
1.5
Manfaat Penelitian
Hasil penelitian ini diharapkan dapat menghasilkan mekanisme penanganan
ketidakseimbangan kelas yang bersifat optimal, melalui kombinasi Mega Trend
Diffusion (MTD), proses oversampling oleh SMOTE serta pengujian klasifikasi
ensemble. Selanjutnya, dari mekanisme tersebut akan diperoleh prediksi faktor
metakognisi apa sajakah yang mempengaruhi tingkat performa seorang siswa.
9
Download