BAB I PENDAHULUAN 1.1. Latar Belakang Imbalance class merupakan ketidakseimbangan dalam jumlah data latih antara 2 kelas yang berbeda. Karakteristik dari imbalance class adalah pada salah satu classnya merepresentasikan kasus yang bersifat jarang terjadi sehingga jumlah data latih yang akan digunakan akan relatif sedikit (sekitar 0.1%-10%) dibandingkan dengan jumlah data latih yang merepresentasikan kasus normal. Salah satu contoh kasus imbalance class adalah fraud. Fraud merupakan kecurangan yang dilakukan dengan sengaja untuk mendapatkan keuntungan. Beberapa contoh fraud antara lain adalah operator ilegal telepon, penyalahgunaan kartu kredit dan bad debt. Kerugian yang diakibatkan oleh fraud cukup besar. Pada tahun 1997, US Telecom, perusahaan telekomunikasi di Amerika mencatat sedikitnya 4%-6% dari pendapatan hilang akibat fraud. Untuk memprediksi kasus-kasus imbalance class tersebut, kita dapat menggunakan metode klasifikasi. Klasifikasi merupakan salah satu teknik data mining yang digunakan untuk mendapatkan suatu model dari sekumpulan data latih yang nantinya akan digunakan untuk memprediksi kelas dari suatu data yang belum diketahui sebelumnya. Beberapa metode klasifikasi yang ada sekarang ini lebih ditujukan untuk kasus yang jumlah data latih tiap kelasnya seimbang, dengan tujuan akhir memaksimalkan akurasi keseluruhan, sehingga metode tersebut tidak dapat memprediksi data anomali secara maksimal. Pada tugas akhir ini akan menganalisis salah satu pengembangan klasifikasi yang dapat digunakan untuk memprediksi kelas yang bersifat jarang terjadi atau anomali yaitu algoritma CREDOS (Classification using Ripple Down Structure). Dalam proses pelatihannya, kelas yang jumlahnya lebih kecil akan mendapatkan perhatian lebih walaupun jumlahnya sangat sedikit sehingga diharapkan keseluruhan kelas yang jumlahnya kecil dapat diprediksikan secara maksimal. 1.2. Perumusan Masalah Sebuah kasus akan disebut imbalance class apabila pada salah satu kelasnya memiliki jumlah data latih yang jauh lebih sedikit dibandingkan dengan kelas yang lainnya. Beberapa metode klasifikasi yang ada sekarang ini lebih ditujukan untuk kasus yang jumlah data latihnya seimbang, beberapa contohnya adalah desicion tree, OneR dan Naive Bayes. Beberapa metode klasifikasi yang ada sekarang ini cenderung mengutamakan kelas yang memiliki jumlah data besar. Hal ini dapat menyebabkan kehilangan data anomali yang justru memiliki nilai informasi yang tinggi. Pada tugas akhir ini akan dianalisis adalah performansi algoritma CREDOS sebelum dan sesudah pemangkasan, performansi algoritma CREDOS untuk data anomali terkluster dan data anomali tidak terkluster, performansi algoritma CREDOS dibandingkan dengan beberapa algoritma lain dan analisis kelebihan dan kekurangan algoritma CREDOS pada kasus imbalance class. Parameter yang digunakan adalah recall untuk mengevaluasi coverage suatu model, presicion untuk mengevaluasi akurasi model dalam memprediksi data, dan F-Measure yang merupakan gabungan kombinasi antara recall dan presicion. Dari uraian di atas maka dapat dirumuskan permasalahan pokok yaitu sulit mendeteksi data anomali menggunakan metode klasifikasi biasa, disebabkan karena adanya kemungkinan kehilangan data anomali pada saat pembentukkan model. 1.3. Tujuan Pembahasan Berdasarkan pada rumusan masalah yang telah didefinisikan, maka tujuan Tugas Akhir ini adalah : 1. Menganalisis karakteristik data pada kasus imbalance class. 2. Mengimplementasikan algoritma CREDOS (Classification using Ripple Down Structure) dalam pemecahan kasus imbalance class. 3. Menganalisis performansi algoritma CREDOS sebelum dan pemangkasan menggunakan parameter recall, presicion dan F-Measure. sesudah 4. Menganalisis performansi algoritma CREDOS untuk data anomali terkluster dan data anomali tidak terkluster (tersebar) menggunakan parameter recall, presicion dan F-Measure. 5. Menganalisis perbandingan performansi algoritma CREDOS dengan algoritma klasifikasi lainnya. 6. Menganalisis kelebihan dan kekurangan algoritma CREDOS pada kasus imbalance class. 1.4. Batasan Masalah Ruang lingkup tugas akhir ini digambarkan pada gambar 1 di bawah ini. Data Uji Gambaran Umum Sistem Preprocessing data Data Latih Rule Pengujian Parameter Performansi Rule Prediksi Kelas Label Pelatihan Algoritma CREDOS Data Prediksi Gambar 1.1 Ruang lingkup tugas akhir. Daerah didalam kotak yang berwarna abu-abu merupakan ruang lingkup pengerjaan tugas akhir. Tahap preprocessing merupakan tahap awal data mining yang meliputi pembersihan, pemahaman, integrasi, dan transformasi data. Tahap preprocessing data menjadi batasan masalah dalam tugas akhir ini, sehingga data latih dan data uji telah bersih dari noise. Data latih yang digunakan adalah data yang mengandung anomali dan memiliki classlabel. Data latih akan menjadi inputan pada tahap klasifikasi data yang terdiri phase pertumbuhan dan phase pemangkasan. Dari tahap pelatihan algoritma CREDOS akan dihasilkan rule yang akan digunakan pada tahap pengujian data. Tahap pengujian menggunakan data uji sebagai input akan menghasilkan parameter penghitungan performansi algoritma CREDOS. Tahap prediksi menggunakan data prediksi sebagai input dan akan menghasilkan kelas label dari data tersebut. Batasan masalah dari Tugas Akhir ini adalah : 1. Data yang digunakan telah melalui tahap preprocessing data (proses cleansing) sehingga data latih dan data uji yang digunakan telah bersih dari noise. 2. Data latih dan data uji berupa data yang mengandung anomali dan memiliki kelas label yang akan digunakan sudah tersedia dalam bentuk tabel pada basis data. 3. Klasifikasi yang digunakan adalah klasifikasi binary class yang terdiri dari kelas anomali dan kelas yang normal (bukan anomali). 1.5. Metodologi Penyelesaian Masalah Metode yang akan digunakan untuk menyelesaikan tugas akhir ini adalah : 1. Studi Literatur. Studi Literatur dengan mempelajari literatur-literatur yang relevan dengan permasalahan yang meliputi : melakukan studi pustaka dan referensi mengenai data mining, klasifikasi, algoritma CREDOS, matriks evaluasi dan imbalance class. 2. Pengumpulan Data. Mencari data yang akan digunakan sebagai studi kasus, dalam tugas akhir ini adalah data operator ilegal Telkom. Pengumpulan data Call Detail Record (CDR) yaitu kumpulan data penggunaan telepon PSTN yang sudah dikelompokkan ke level customer. 3. Analisis dan perancangan perangkat lunak. Menganalisis permasalahan yang akan ditangani, menganalisis metode yang akan digunakan untuk menyelesaikan permasalahan, merancang tahapan – tahapan yang akan dilakukan untuk menyelesaikan masalah dengan metode yang terstruktur. 4. Implementasi system. Melakukan coding dengan membangun perangkat lunak untuk pengklasifikasian pada data mining dengan menggunakan algoritma CREDOS. 5. Pengujian sistem dan analisis hasil. Melakukan proses pengujian terhadap keakuratan hasil dan performansi algoritma CREDOS, serta melakukan analisis terhadap kelebihan dan keterbatasan algoritma CREDOS terutama dalam hal akurasi pendeteksian data anomali pada kasus imbalance class. 6. Penyusunan laporan tugas akhir dan kesimpulan akhir 1.6. Sistematika Penulisan Sistematika penulisan tugas akhir ini adalah sebagai berikut : BAB I PENDAHULUAN Berisi latar belakang, perumusan masalah, batasan masalah, tujuan pembahasan, metodologi penyelesaian masalah dan sistematika penulisan. BAB II LANDASAN TEORI Pada bab ini membahas teori dasar pendukung implementasi,antara lain mengenai data mining, klasifikasi, algoritma CREDOS, imbalance class, dan matriks evaluasi. BAB III ANALISIS ALGORITMA Menganalisis karakteristik imbalance class, input, proses, output, dan analisis pengujian performansi algoritma CREDOS. BAB IV PEMBANGUNAN PERANGKAT LUNAK Bab ini membahas analisis, perancangan, implementasi dan pengujian perangkat lunak. BAB V KESIMPULAN DAN SARAN Berisi kesimpulan akhir dan saran pengembangan dari penelitian tugas akhir.