analisis klasifikasi algoritma credos pada kasus imbalance class

advertisement
Tugas Akhir - 2006
ANALISIS KLASIFIKASI ALGORITMA CREDOS PADA KASUS IMBALANCE
CLASS CLASSIFICATION ANALYSIS OF CREDOS ALGORITHM IN IMBALANCE
CLASS PROBLEM
Dewi Novitasari¹, -²
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
¹[email protected]
Abstrak
Imbalance class merupakan ketidakseimbangan dalam jumlah training data antara 2 class yang
berbeda. Salah satu classnya merepresentasikan kasus yang bersifat jarang terjadi sehingga
jumlah data latih anomali yang akan digunakan akan relatif sedikit dibandingkan dengan jumlah
data latih pada kasus normal. Salah satu metode data mining yang digunakan untuk memprediksi
data adalah klasifikasi. Beberapa metode klasifikasi yang ada sekarang ini lebih ditujukan untuk
kasus yang jumlah trainingnya seimbang, dengan tujuan akhir memaksimalkan akurasi yang
tentu saja kurang cocok bila digunakan pada kasus imbalance class dimana kecenderungan
jumlah data lebih sedikit dibandingkan dengan kasus normal, sehingga metode tersebut tidak
dapat memprediksi secara maksimal. Salah satu algoritma untuk menangani kasus imbalance
class adalah algoritma CREDOS(Classification Using Ripple Down Rule).
Dalam tugas akhir ini telah dilakukan analisis karakteristik imbalance class, analisis performansi
algoritma CREDOS sebelum dan sesudah pemangkasan, analisis performansi algoritma CREDOS
untuk data anomali terkluster dan data anomali tidak terkluster(tersebar), analisis perbandingan
dengan beberapa metode klasifikasi lain dan analisis kelebihan dan kekurangan algoritma Credos
pada kasus imbalance class
Dari hasil pengujian diperoleh kesimpulan bahwa algoritma CREDOS cukup baik digunakan pada
kasus imbalance class bila dibandingkan dengan beberapa metode klasifikasi seperti Decision
Tree, Naïve Bayes, dan OneR. Untuk jenis data terkluster, algoritma CREDOS(Classification Using
Ripple Down Rule) memiliki performansi yang baik. Algoritma CREDOS juga memiliki
interpretabilitas yang baik. Namun, kelemahan algoritma CREDOS(Classification Using Ripple
Down Rule) untuk jenis data tidak terkluster performansinya tidak sebaik performansi untuk data
terkluster.
Kata Kunci : Algoritma CREDOS , Imbalance Class, Klasifikasi.
Abstract
Imbalance class represents imbalance in number of training data between two different classes.
One of the classes represents rare case. The number of the anomaly training data which is used
will relatively small when it is compared to amount training of normal case. One of data mining
methods which is used to predict data is Classification. Recently, some existing classification
methods are more addressed for the well-balanced training data which purposed to maximize the
overall accuracy. Those existing methods aren’t proper to imbalance class problem, so that those
methods can’t give a good performance in classifying imbalance class problem. One of new
algorithm which is used to solve imbalance class problem is CREDOS (Classification Using Ripple
Down Rule) algorithm.
In this final project, had been analysed the imbalance class characteristic, the performance of
CREDOS algorithm before and after pruning model, the performance of CREDOS algorithm in
clustered data and unclustered data, the strengths and weaknesses of CREDOS algorithm, the
performance of CREDOS algorithm compared to another classification methods such as Decision
Tree, Naïve Bayes, OneR, and Balancing Tree.
The result shows that CREDOS algorithm compared to some existing method such as Decision
Tree, Naïve Bayes, and OneR has good performance in classifying imbalance class problem. The
weakness is the performance of CREDOS algorithm in classifying unclustered data was not as
good as performance of CREDOS algorithm in classifying clustered data.
Keywords : Classification, CREDOS algorithm, and Imbalance Class.
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Tugas Akhir - 2006
BAB I
PENDAHULUAN
1.1. Latar Belakang
Imbalance class merupakan ketidakseimbangan dalam jumlah data latih antara 2
kelas yang berbeda. Karakteristik dari imbalance class adalah pada salah satu classnya
merepresentasikan kasus yang bersifat jarang terjadi sehingga jumlah data latih yang
akan digunakan akan relatif sedikit (sekitar 0.1%-10%) dibandingkan dengan jumlah data
latih yang merepresentasikan kasus normal. Salah satu contoh kasus imbalance class
adalah fraud. Fraud merupakan kecurangan yang dilakukan dengan sengaja untuk
mendapatkan keuntungan. Beberapa contoh fraud antara lain adalah operator ilegal
telepon, penyalahgunaan kartu kredit dan bad debt. Kerugian yang diakibatkan oleh fraud
cukup besar. Pada tahun 1997, US Telecom, perusahaan telekomunikasi di Amerika
mencatat sedikitnya 4%-6% dari pendapatan hilang akibat fraud.
Untuk
memprediksi
kasus-kasus
imbalance
class
tersebut,
kita
dapat
menggunakan metode klasifikasi. Klasifikasi merupakan salah satu teknik data mining
yang digunakan untuk mendapatkan suatu model dari sekumpulan data latih yang
nantinya akan digunakan untuk memprediksi kelas dari suatu data yang belum diketahui
sebelumnya. Beberapa metode klasifikasi yang ada sekarang ini lebih ditujukan untuk
kasus yang jumlah data latih tiap kelasnya seimbang, dengan tujuan akhir
memaksimalkan akurasi keseluruhan, sehingga metode tersebut tidak dapat memprediksi
data anomali secara maksimal.
Pada tugas akhir ini akan menganalisis salah satu pengembangan klasifikasi yang
dapat digunakan untuk memprediksi kelas yang bersifat jarang terjadi atau anomali yaitu
algoritma CREDOS (Classification using Ripple Down Structure). Dalam proses
pelatihannya, kelas yang jumlahnya lebih kecil akan mendapatkan perhatian lebih
walaupun jumlahnya sangat sedikit sehingga diharapkan keseluruhan kelas yang
jumlahnya kecil dapat diprediksikan secara maksimal.
Fakultas Teknik Informatika
Program Studi S1 Teknik Informatika
Tugas Akhir - 2006
1.2. Perumusan Masalah
Sebuah kasus akan disebut imbalance class apabila pada salah satu kelasnya
memiliki jumlah data latih yang jauh lebih sedikit dibandingkan dengan kelas yang
lainnya. Beberapa metode klasifikasi yang ada sekarang ini lebih ditujukan untuk kasus
yang jumlah data latihnya seimbang, beberapa contohnya adalah desicion tree, OneR dan
Naive Bayes. Beberapa metode klasifikasi yang ada sekarang ini cenderung
mengutamakan kelas yang memiliki jumlah data besar. Hal ini dapat menyebabkan
kehilangan data anomali yang justru memiliki nilai informasi yang tinggi.
Pada tugas akhir ini akan dianalisis adalah performansi algoritma CREDOS
sebelum dan sesudah pemangkasan, performansi algoritma CREDOS untuk data anomali
terkluster dan data anomali tidak terkluster, performansi algoritma CREDOS
dibandingkan dengan beberapa algoritma lain dan analisis kelebihan dan kekurangan
algoritma CREDOS pada kasus imbalance class. Parameter yang digunakan adalah recall
untuk mengevaluasi coverage suatu model, presicion untuk mengevaluasi akurasi model
dalam memprediksi data, dan F-Measure yang merupakan gabungan kombinasi antara
recall dan presicion.
Dari uraian di atas maka dapat dirumuskan permasalahan pokok yaitu sulit
mendeteksi data anomali menggunakan metode klasifikasi biasa, disebabkan karena
adanya kemungkinan kehilangan data anomali pada saat pembentukkan model.
1.3. Tujuan Pembahasan
Berdasarkan pada rumusan masalah yang telah didefinisikan, maka tujuan Tugas
Akhir ini adalah :
1. Menganalisis karakteristik data pada kasus imbalance class.
2. Mengimplementasikan algoritma CREDOS (Classification using Ripple Down
Structure) dalam pemecahan kasus imbalance class.
3. Menganalisis
performansi
algoritma
CREDOS
sebelum
dan
sesudah
pemangkasan menggunakan parameter recall, presicion dan F-Measure.
Fakultas Teknik Informatika
Program Studi S1 Teknik Informatika
Tugas Akhir - 2006
4. Menganalisis performansi algoritma CREDOS untuk data anomali terkluster
dan data anomali tidak terkluster (tersebar) menggunakan parameter recall,
presicion dan F-Measure.
5. Menganalisis perbandingan performansi algoritma CREDOS dengan algoritma
klasifikasi lainnya.
6. Menganalisis kelebihan dan kekurangan algoritma CREDOS pada kasus
imbalance class.
1.4. Batasan Masalah
Ruang lingkup tugas akhir ini digambarkan pada gambar 1 di bawah ini.
Data Uji
Gambaran Umum Sistem
Preprocessing
data
Data
Latih
Rule
Pengujian
Parameter
Performansi
Rule
Prediksi
Kelas Label
Pelatihan Algoritma
CREDOS
Data Prediksi
Gambar 1.1 Ruang lingkup tugas akhir.
Daerah didalam kotak yang berwarna abu-abu merupakan ruang lingkup pengerjaan tugas
akhir. Tahap preprocessing merupakan tahap awal data mining yang meliputi
pembersihan, pemahaman, integrasi, dan transformasi data. Tahap preprocessing data
menjadi batasan masalah dalam tugas akhir ini, sehingga data latih dan data uji telah
bersih dari noise. Data latih yang digunakan adalah data yang mengandung anomali dan
memiliki classlabel. Data latih akan menjadi inputan pada tahap klasifikasi data yang
terdiri phase pertumbuhan dan phase pemangkasan. Dari tahap pelatihan algoritma
CREDOS akan dihasilkan rule yang akan digunakan pada tahap pengujian data. Tahap
pengujian menggunakan data uji sebagai input akan menghasilkan parameter
Fakultas Teknik Informatika
Program Studi S1 Teknik Informatika
Tugas Akhir - 2006
penghitungan performansi algoritma CREDOS. Tahap prediksi menggunakan data
prediksi sebagai input dan akan menghasilkan kelas label dari data tersebut.
Batasan masalah dari Tugas Akhir ini adalah :
1. Data yang digunakan telah melalui tahap preprocessing data (proses cleansing)
sehingga data latih dan data uji yang digunakan telah bersih dari noise.
2. Data latih dan data uji berupa data yang mengandung anomali dan memiliki
kelas label yang akan digunakan sudah tersedia dalam bentuk tabel pada basis
data.
3. Klasifikasi yang digunakan adalah klasifikasi binary class yang terdiri dari
kelas anomali dan kelas yang normal (bukan anomali).
1.5. Metodologi Penyelesaian Masalah
Metode yang akan digunakan untuk menyelesaikan tugas akhir ini adalah :
1. Studi Literatur.
Studi Literatur dengan mempelajari literatur-literatur yang relevan dengan
permasalahan yang meliputi : melakukan studi pustaka dan referensi mengenai
data mining, klasifikasi, algoritma CREDOS, matriks evaluasi dan imbalance
class.
2. Pengumpulan Data.
Mencari data yang akan digunakan sebagai studi kasus, dalam tugas akhir ini
adalah data operator ilegal Telkom. Pengumpulan data Call Detail Record
(CDR) yaitu kumpulan data penggunaan telepon PSTN yang sudah
dikelompokkan ke level customer.
3. Analisis dan perancangan perangkat lunak.
Menganalisis permasalahan yang akan ditangani, menganalisis metode yang
akan digunakan untuk menyelesaikan permasalahan, merancang tahapan –
tahapan yang akan dilakukan untuk menyelesaikan masalah dengan metode
yang terstruktur.
Fakultas Teknik Informatika
Program Studi S1 Teknik Informatika
Tugas Akhir - 2006
4. Implementasi system.
Melakukan coding dengan membangun perangkat lunak untuk pengklasifikasian
pada data mining dengan menggunakan algoritma CREDOS.
5. Pengujian sistem dan analisis hasil.
Melakukan proses pengujian terhadap keakuratan hasil dan performansi
algoritma CREDOS, serta melakukan analisis terhadap kelebihan dan
keterbatasan algoritma CREDOS terutama dalam hal akurasi pendeteksian data
anomali pada kasus imbalance class.
6. Penyusunan laporan tugas akhir dan kesimpulan akhir
1.6. Sistematika Penulisan
Sistematika penulisan tugas akhir ini adalah sebagai berikut :
BAB I
PENDAHULUAN
Berisi latar belakang, perumusan masalah, batasan masalah, tujuan
pembahasan, metodologi penyelesaian masalah dan sistematika
penulisan.
BAB II
LANDASAN TEORI
Pada bab ini membahas teori dasar pendukung implementasi,antara
lain mengenai data mining, klasifikasi, algoritma CREDOS,
imbalance class, dan matriks evaluasi.
BAB III
ANALISIS ALGORITMA
Menganalisis karakteristik imbalance class, input, proses, output, dan
analisis pengujian performansi algoritma CREDOS.
BAB IV
Fakultas Teknik Informatika
PEMBANGUNAN PERANGKAT LUNAK
Program Studi S1 Teknik Informatika
Tugas Akhir - 2006
Bab ini membahas analisis, perancangan, implementasi dan pengujian
perangkat lunak.
BAB V
KESIMPULAN DAN SARAN
Berisi kesimpulan akhir dan saran pengembangan dari penelitian
tugas akhir.
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Tugas Akhir - 2006
BAB V
KESIMPULAN
5.1. Kesimpulan
Kesimpulan yang dapat diambil dari penelitian tugas akhir ini antara lain :
1.
Karakteristik imbalance class antara lain adalah mengandung data yang
bersifat anomali dan jumlahnya sekitar 0.01% hingga 0.1%, kesulitan
dalam mengklasifikasi terdapat pada jenis data imbalance tidak
terkluster.
2.
Phase pemangkasan pada yang digunakan pada data latih mamalia dan
operator illegal menghasilkan rule yang lebih sederhana dan tidak
overfitting terhadap data latih.
3.
Performansi algoritma CREDOS dalam mengklasifikasi data terkluster
sangat baik.
4.
Performansi algoritma CREDOS dalam mengklasifikasi data tidak
terkluster cukup baik bila dibandingkan dengan algoritma seperti
Decision Tree, Naïve Bayes dan OneR.
5.
Kelebihan algoritma CREDOS adalah dapat digunakan pada kasus
imbalance class karena dalam pembangunan modelnya memprioritaskan
data yang mengandung anomali dan model yang dihasilkan oleh
algoritma CREDOS memiliki interpretasi yang baik.
6.
Kelemahan algoritma CREDOS adalah karena data anomali cenderung
kecil, sehingga masih terdapat nilai false positive.
5.2. Saran
Pengembangan yang dapat dilakukan pada tugas akhir ini adalah :
7.
Implementasi penelitian ini dapat dikembangkan untuk mengatasi kasuskasus imbalance class seperti fraud.
Fakultas Teknik Informatika
Program Studi S1 Teknik Informatika
Tugas Akhir - 2006
8.
Pengembangan dilakukan untuk data latih yang memiliki lebih dari 2
kelas.
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Tugas Akhir - 2006
DAFTAR PUSTAKA
[1]
Cahill, Michael H, Detecting Fraud in The Real World, Lucent Technologies
[2]
Jo, Taeho, Nathalie J, Class Imbalance versus Small Disjuncts, University of
Otawa
[3]
Joshi, Mahesh, Learning Classifier Model for Predicting Rare Phenomena, The
University of Minnesota, 2002
[4]
Kumar, Vipin, Aleksandar Lazarevic, Jaideep Srivastava, Data Mining for
Analysis Rare Event : A Case Study in Security, Financial, and Medical
Applications. Department Computer Science University of Minnesota, 2004
[5]
Pramudiono, Iko, Menambang Permata Pengetahuan di Gunung Data, NTT
Laboratories, 2005
[6]
Sucahyo, Yudho Giri, Fraud Detection in Telecomunications, Seminar ICTEL,
2005
[7]
Tan, Et, Anomaly Detection, Lecture Note
[8]
Vipin Kumar, Tan, Pang Nim, Introduction to Data Mining, Pearson Addison
Wesley
[9]
Weiss, Garry, Data Mining in Telecommunication, Department of Computer and
Information Science Fordham University
[10] Weiss, Garry M, Mining with Rarity : A Unifying Framework, AT&T
Laboratories.
[11] Weiss, Garry M, The Effect of Small Disjuncts and Class Distribution on Decision
Tree Learning, The State University of New Jersey, 2003
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Download