Tugas Akhir - 2006 ANALISIS KLASIFIKASI ALGORITMA CREDOS PADA KASUS IMBALANCE CLASS CLASSIFICATION ANALYSIS OF CREDOS ALGORITHM IN IMBALANCE CLASS PROBLEM Dewi Novitasari¹, -² ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom ¹[email protected] Abstrak Imbalance class merupakan ketidakseimbangan dalam jumlah training data antara 2 class yang berbeda. Salah satu classnya merepresentasikan kasus yang bersifat jarang terjadi sehingga jumlah data latih anomali yang akan digunakan akan relatif sedikit dibandingkan dengan jumlah data latih pada kasus normal. Salah satu metode data mining yang digunakan untuk memprediksi data adalah klasifikasi. Beberapa metode klasifikasi yang ada sekarang ini lebih ditujukan untuk kasus yang jumlah trainingnya seimbang, dengan tujuan akhir memaksimalkan akurasi yang tentu saja kurang cocok bila digunakan pada kasus imbalance class dimana kecenderungan jumlah data lebih sedikit dibandingkan dengan kasus normal, sehingga metode tersebut tidak dapat memprediksi secara maksimal. Salah satu algoritma untuk menangani kasus imbalance class adalah algoritma CREDOS(Classification Using Ripple Down Rule). Dalam tugas akhir ini telah dilakukan analisis karakteristik imbalance class, analisis performansi algoritma CREDOS sebelum dan sesudah pemangkasan, analisis performansi algoritma CREDOS untuk data anomali terkluster dan data anomali tidak terkluster(tersebar), analisis perbandingan dengan beberapa metode klasifikasi lain dan analisis kelebihan dan kekurangan algoritma Credos pada kasus imbalance class Dari hasil pengujian diperoleh kesimpulan bahwa algoritma CREDOS cukup baik digunakan pada kasus imbalance class bila dibandingkan dengan beberapa metode klasifikasi seperti Decision Tree, Naïve Bayes, dan OneR. Untuk jenis data terkluster, algoritma CREDOS(Classification Using Ripple Down Rule) memiliki performansi yang baik. Algoritma CREDOS juga memiliki interpretabilitas yang baik. Namun, kelemahan algoritma CREDOS(Classification Using Ripple Down Rule) untuk jenis data tidak terkluster performansinya tidak sebaik performansi untuk data terkluster. Kata Kunci : Algoritma CREDOS , Imbalance Class, Klasifikasi. Abstract Imbalance class represents imbalance in number of training data between two different classes. One of the classes represents rare case. The number of the anomaly training data which is used will relatively small when it is compared to amount training of normal case. One of data mining methods which is used to predict data is Classification. Recently, some existing classification methods are more addressed for the well-balanced training data which purposed to maximize the overall accuracy. Those existing methods aren’t proper to imbalance class problem, so that those methods can’t give a good performance in classifying imbalance class problem. One of new algorithm which is used to solve imbalance class problem is CREDOS (Classification Using Ripple Down Rule) algorithm. In this final project, had been analysed the imbalance class characteristic, the performance of CREDOS algorithm before and after pruning model, the performance of CREDOS algorithm in clustered data and unclustered data, the strengths and weaknesses of CREDOS algorithm, the performance of CREDOS algorithm compared to another classification methods such as Decision Tree, Naïve Bayes, OneR, and Balancing Tree. The result shows that CREDOS algorithm compared to some existing method such as Decision Tree, Naïve Bayes, and OneR has good performance in classifying imbalance class problem. The weakness is the performance of CREDOS algorithm in classifying unclustered data was not as good as performance of CREDOS algorithm in classifying clustered data. Keywords : Classification, CREDOS algorithm, and Imbalance Class. Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2006 BAB I PENDAHULUAN 1.1. Latar Belakang Imbalance class merupakan ketidakseimbangan dalam jumlah data latih antara 2 kelas yang berbeda. Karakteristik dari imbalance class adalah pada salah satu classnya merepresentasikan kasus yang bersifat jarang terjadi sehingga jumlah data latih yang akan digunakan akan relatif sedikit (sekitar 0.1%-10%) dibandingkan dengan jumlah data latih yang merepresentasikan kasus normal. Salah satu contoh kasus imbalance class adalah fraud. Fraud merupakan kecurangan yang dilakukan dengan sengaja untuk mendapatkan keuntungan. Beberapa contoh fraud antara lain adalah operator ilegal telepon, penyalahgunaan kartu kredit dan bad debt. Kerugian yang diakibatkan oleh fraud cukup besar. Pada tahun 1997, US Telecom, perusahaan telekomunikasi di Amerika mencatat sedikitnya 4%-6% dari pendapatan hilang akibat fraud. Untuk memprediksi kasus-kasus imbalance class tersebut, kita dapat menggunakan metode klasifikasi. Klasifikasi merupakan salah satu teknik data mining yang digunakan untuk mendapatkan suatu model dari sekumpulan data latih yang nantinya akan digunakan untuk memprediksi kelas dari suatu data yang belum diketahui sebelumnya. Beberapa metode klasifikasi yang ada sekarang ini lebih ditujukan untuk kasus yang jumlah data latih tiap kelasnya seimbang, dengan tujuan akhir memaksimalkan akurasi keseluruhan, sehingga metode tersebut tidak dapat memprediksi data anomali secara maksimal. Pada tugas akhir ini akan menganalisis salah satu pengembangan klasifikasi yang dapat digunakan untuk memprediksi kelas yang bersifat jarang terjadi atau anomali yaitu algoritma CREDOS (Classification using Ripple Down Structure). Dalam proses pelatihannya, kelas yang jumlahnya lebih kecil akan mendapatkan perhatian lebih walaupun jumlahnya sangat sedikit sehingga diharapkan keseluruhan kelas yang jumlahnya kecil dapat diprediksikan secara maksimal. Fakultas Teknik Informatika Program Studi S1 Teknik Informatika Tugas Akhir - 2006 1.2. Perumusan Masalah Sebuah kasus akan disebut imbalance class apabila pada salah satu kelasnya memiliki jumlah data latih yang jauh lebih sedikit dibandingkan dengan kelas yang lainnya. Beberapa metode klasifikasi yang ada sekarang ini lebih ditujukan untuk kasus yang jumlah data latihnya seimbang, beberapa contohnya adalah desicion tree, OneR dan Naive Bayes. Beberapa metode klasifikasi yang ada sekarang ini cenderung mengutamakan kelas yang memiliki jumlah data besar. Hal ini dapat menyebabkan kehilangan data anomali yang justru memiliki nilai informasi yang tinggi. Pada tugas akhir ini akan dianalisis adalah performansi algoritma CREDOS sebelum dan sesudah pemangkasan, performansi algoritma CREDOS untuk data anomali terkluster dan data anomali tidak terkluster, performansi algoritma CREDOS dibandingkan dengan beberapa algoritma lain dan analisis kelebihan dan kekurangan algoritma CREDOS pada kasus imbalance class. Parameter yang digunakan adalah recall untuk mengevaluasi coverage suatu model, presicion untuk mengevaluasi akurasi model dalam memprediksi data, dan F-Measure yang merupakan gabungan kombinasi antara recall dan presicion. Dari uraian di atas maka dapat dirumuskan permasalahan pokok yaitu sulit mendeteksi data anomali menggunakan metode klasifikasi biasa, disebabkan karena adanya kemungkinan kehilangan data anomali pada saat pembentukkan model. 1.3. Tujuan Pembahasan Berdasarkan pada rumusan masalah yang telah didefinisikan, maka tujuan Tugas Akhir ini adalah : 1. Menganalisis karakteristik data pada kasus imbalance class. 2. Mengimplementasikan algoritma CREDOS (Classification using Ripple Down Structure) dalam pemecahan kasus imbalance class. 3. Menganalisis performansi algoritma CREDOS sebelum dan sesudah pemangkasan menggunakan parameter recall, presicion dan F-Measure. Fakultas Teknik Informatika Program Studi S1 Teknik Informatika Tugas Akhir - 2006 4. Menganalisis performansi algoritma CREDOS untuk data anomali terkluster dan data anomali tidak terkluster (tersebar) menggunakan parameter recall, presicion dan F-Measure. 5. Menganalisis perbandingan performansi algoritma CREDOS dengan algoritma klasifikasi lainnya. 6. Menganalisis kelebihan dan kekurangan algoritma CREDOS pada kasus imbalance class. 1.4. Batasan Masalah Ruang lingkup tugas akhir ini digambarkan pada gambar 1 di bawah ini. Data Uji Gambaran Umum Sistem Preprocessing data Data Latih Rule Pengujian Parameter Performansi Rule Prediksi Kelas Label Pelatihan Algoritma CREDOS Data Prediksi Gambar 1.1 Ruang lingkup tugas akhir. Daerah didalam kotak yang berwarna abu-abu merupakan ruang lingkup pengerjaan tugas akhir. Tahap preprocessing merupakan tahap awal data mining yang meliputi pembersihan, pemahaman, integrasi, dan transformasi data. Tahap preprocessing data menjadi batasan masalah dalam tugas akhir ini, sehingga data latih dan data uji telah bersih dari noise. Data latih yang digunakan adalah data yang mengandung anomali dan memiliki classlabel. Data latih akan menjadi inputan pada tahap klasifikasi data yang terdiri phase pertumbuhan dan phase pemangkasan. Dari tahap pelatihan algoritma CREDOS akan dihasilkan rule yang akan digunakan pada tahap pengujian data. Tahap pengujian menggunakan data uji sebagai input akan menghasilkan parameter Fakultas Teknik Informatika Program Studi S1 Teknik Informatika Tugas Akhir - 2006 penghitungan performansi algoritma CREDOS. Tahap prediksi menggunakan data prediksi sebagai input dan akan menghasilkan kelas label dari data tersebut. Batasan masalah dari Tugas Akhir ini adalah : 1. Data yang digunakan telah melalui tahap preprocessing data (proses cleansing) sehingga data latih dan data uji yang digunakan telah bersih dari noise. 2. Data latih dan data uji berupa data yang mengandung anomali dan memiliki kelas label yang akan digunakan sudah tersedia dalam bentuk tabel pada basis data. 3. Klasifikasi yang digunakan adalah klasifikasi binary class yang terdiri dari kelas anomali dan kelas yang normal (bukan anomali). 1.5. Metodologi Penyelesaian Masalah Metode yang akan digunakan untuk menyelesaikan tugas akhir ini adalah : 1. Studi Literatur. Studi Literatur dengan mempelajari literatur-literatur yang relevan dengan permasalahan yang meliputi : melakukan studi pustaka dan referensi mengenai data mining, klasifikasi, algoritma CREDOS, matriks evaluasi dan imbalance class. 2. Pengumpulan Data. Mencari data yang akan digunakan sebagai studi kasus, dalam tugas akhir ini adalah data operator ilegal Telkom. Pengumpulan data Call Detail Record (CDR) yaitu kumpulan data penggunaan telepon PSTN yang sudah dikelompokkan ke level customer. 3. Analisis dan perancangan perangkat lunak. Menganalisis permasalahan yang akan ditangani, menganalisis metode yang akan digunakan untuk menyelesaikan permasalahan, merancang tahapan – tahapan yang akan dilakukan untuk menyelesaikan masalah dengan metode yang terstruktur. Fakultas Teknik Informatika Program Studi S1 Teknik Informatika Tugas Akhir - 2006 4. Implementasi system. Melakukan coding dengan membangun perangkat lunak untuk pengklasifikasian pada data mining dengan menggunakan algoritma CREDOS. 5. Pengujian sistem dan analisis hasil. Melakukan proses pengujian terhadap keakuratan hasil dan performansi algoritma CREDOS, serta melakukan analisis terhadap kelebihan dan keterbatasan algoritma CREDOS terutama dalam hal akurasi pendeteksian data anomali pada kasus imbalance class. 6. Penyusunan laporan tugas akhir dan kesimpulan akhir 1.6. Sistematika Penulisan Sistematika penulisan tugas akhir ini adalah sebagai berikut : BAB I PENDAHULUAN Berisi latar belakang, perumusan masalah, batasan masalah, tujuan pembahasan, metodologi penyelesaian masalah dan sistematika penulisan. BAB II LANDASAN TEORI Pada bab ini membahas teori dasar pendukung implementasi,antara lain mengenai data mining, klasifikasi, algoritma CREDOS, imbalance class, dan matriks evaluasi. BAB III ANALISIS ALGORITMA Menganalisis karakteristik imbalance class, input, proses, output, dan analisis pengujian performansi algoritma CREDOS. BAB IV Fakultas Teknik Informatika PEMBANGUNAN PERANGKAT LUNAK Program Studi S1 Teknik Informatika Tugas Akhir - 2006 Bab ini membahas analisis, perancangan, implementasi dan pengujian perangkat lunak. BAB V KESIMPULAN DAN SARAN Berisi kesimpulan akhir dan saran pengembangan dari penelitian tugas akhir. Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2006 BAB V KESIMPULAN 5.1. Kesimpulan Kesimpulan yang dapat diambil dari penelitian tugas akhir ini antara lain : 1. Karakteristik imbalance class antara lain adalah mengandung data yang bersifat anomali dan jumlahnya sekitar 0.01% hingga 0.1%, kesulitan dalam mengklasifikasi terdapat pada jenis data imbalance tidak terkluster. 2. Phase pemangkasan pada yang digunakan pada data latih mamalia dan operator illegal menghasilkan rule yang lebih sederhana dan tidak overfitting terhadap data latih. 3. Performansi algoritma CREDOS dalam mengklasifikasi data terkluster sangat baik. 4. Performansi algoritma CREDOS dalam mengklasifikasi data tidak terkluster cukup baik bila dibandingkan dengan algoritma seperti Decision Tree, Naïve Bayes dan OneR. 5. Kelebihan algoritma CREDOS adalah dapat digunakan pada kasus imbalance class karena dalam pembangunan modelnya memprioritaskan data yang mengandung anomali dan model yang dihasilkan oleh algoritma CREDOS memiliki interpretasi yang baik. 6. Kelemahan algoritma CREDOS adalah karena data anomali cenderung kecil, sehingga masih terdapat nilai false positive. 5.2. Saran Pengembangan yang dapat dilakukan pada tugas akhir ini adalah : 7. Implementasi penelitian ini dapat dikembangkan untuk mengatasi kasuskasus imbalance class seperti fraud. Fakultas Teknik Informatika Program Studi S1 Teknik Informatika Tugas Akhir - 2006 8. Pengembangan dilakukan untuk data latih yang memiliki lebih dari 2 kelas. Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2006 DAFTAR PUSTAKA [1] Cahill, Michael H, Detecting Fraud in The Real World, Lucent Technologies [2] Jo, Taeho, Nathalie J, Class Imbalance versus Small Disjuncts, University of Otawa [3] Joshi, Mahesh, Learning Classifier Model for Predicting Rare Phenomena, The University of Minnesota, 2002 [4] Kumar, Vipin, Aleksandar Lazarevic, Jaideep Srivastava, Data Mining for Analysis Rare Event : A Case Study in Security, Financial, and Medical Applications. Department Computer Science University of Minnesota, 2004 [5] Pramudiono, Iko, Menambang Permata Pengetahuan di Gunung Data, NTT Laboratories, 2005 [6] Sucahyo, Yudho Giri, Fraud Detection in Telecomunications, Seminar ICTEL, 2005 [7] Tan, Et, Anomaly Detection, Lecture Note [8] Vipin Kumar, Tan, Pang Nim, Introduction to Data Mining, Pearson Addison Wesley [9] Weiss, Garry, Data Mining in Telecommunication, Department of Computer and Information Science Fordham University [10] Weiss, Garry M, Mining with Rarity : A Unifying Framework, AT&T Laboratories. [11] Weiss, Garry M, The Effect of Small Disjuncts and Class Distribution on Decision Tree Learning, The State University of New Jersey, 2003 Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika