BAB I PENDAHULUAN 1.1. Latar Belakang - Repository

advertisement
BAB I
PENDAHULUAN
1.1. Latar Belakang
Imbalance class merupakan ketidakseimbangan dalam jumlah data latih antara 2
kelas yang berbeda. Karakteristik dari imbalance class adalah pada salah satu classnya
merepresentasikan kasus yang bersifat jarang terjadi sehingga jumlah data latih yang
akan digunakan akan relatif sedikit (sekitar 0.1%-10%) dibandingkan dengan jumlah data
latih yang merepresentasikan kasus normal. Salah satu contoh kasus imbalance class
adalah fraud. Fraud merupakan kecurangan yang dilakukan dengan sengaja untuk
mendapatkan keuntungan. Beberapa contoh fraud antara lain adalah operator ilegal
telepon, penyalahgunaan kartu kredit dan bad debt. Kerugian yang diakibatkan oleh fraud
cukup besar. Pada tahun 1997, US Telecom, perusahaan telekomunikasi di Amerika
mencatat sedikitnya 4%-6% dari pendapatan hilang akibat fraud.
Untuk
memprediksi
kasus-kasus
imbalance
class
tersebut,
kita
dapat
menggunakan metode klasifikasi. Klasifikasi merupakan salah satu teknik data mining
yang digunakan untuk mendapatkan suatu model dari sekumpulan data latih yang
nantinya akan digunakan untuk memprediksi kelas dari suatu data yang belum diketahui
sebelumnya. Beberapa metode klasifikasi yang ada sekarang ini lebih ditujukan untuk
kasus yang jumlah data latih tiap kelasnya seimbang, dengan tujuan akhir
memaksimalkan akurasi keseluruhan, sehingga metode tersebut tidak dapat memprediksi
data anomali secara maksimal.
Pada tugas akhir ini akan menganalisis salah satu pengembangan klasifikasi yang
dapat digunakan untuk memprediksi kelas yang bersifat jarang terjadi atau anomali yaitu
algoritma CREDOS (Classification using Ripple Down Structure). Dalam proses
pelatihannya, kelas yang jumlahnya lebih kecil akan mendapatkan perhatian lebih
walaupun jumlahnya sangat sedikit sehingga diharapkan keseluruhan kelas yang
jumlahnya kecil dapat diprediksikan secara maksimal.
1.2. Perumusan Masalah
Sebuah kasus akan disebut imbalance class apabila pada salah satu kelasnya
memiliki jumlah data latih yang jauh lebih sedikit dibandingkan dengan kelas yang
lainnya. Beberapa metode klasifikasi yang ada sekarang ini lebih ditujukan untuk kasus
yang jumlah data latihnya seimbang, beberapa contohnya adalah desicion tree, OneR dan
Naive Bayes. Beberapa metode klasifikasi yang ada sekarang ini cenderung
mengutamakan kelas yang memiliki jumlah data besar. Hal ini dapat menyebabkan
kehilangan data anomali yang justru memiliki nilai informasi yang tinggi.
Pada tugas akhir ini akan dianalisis adalah performansi algoritma CREDOS
sebelum dan sesudah pemangkasan, performansi algoritma CREDOS untuk data anomali
terkluster dan data anomali tidak terkluster, performansi algoritma CREDOS
dibandingkan dengan beberapa algoritma lain dan analisis kelebihan dan kekurangan
algoritma CREDOS pada kasus imbalance class. Parameter yang digunakan adalah recall
untuk mengevaluasi coverage suatu model, presicion untuk mengevaluasi akurasi model
dalam memprediksi data, dan F-Measure yang merupakan gabungan kombinasi antara
recall dan presicion.
Dari uraian di atas maka dapat dirumuskan permasalahan pokok yaitu sulit
mendeteksi data anomali menggunakan metode klasifikasi biasa, disebabkan karena
adanya kemungkinan kehilangan data anomali pada saat pembentukkan model.
1.3. Tujuan Pembahasan
Berdasarkan pada rumusan masalah yang telah didefinisikan, maka tujuan Tugas
Akhir ini adalah :
1. Menganalisis karakteristik data pada kasus imbalance class.
2. Mengimplementasikan algoritma CREDOS (Classification using Ripple Down
Structure) dalam pemecahan kasus imbalance class.
3. Menganalisis
performansi
algoritma
CREDOS
sebelum
dan
pemangkasan menggunakan parameter recall, presicion dan F-Measure.
sesudah
4. Menganalisis performansi algoritma CREDOS untuk data anomali terkluster
dan data anomali tidak terkluster (tersebar) menggunakan parameter recall,
presicion dan F-Measure.
5. Menganalisis perbandingan performansi algoritma CREDOS dengan algoritma
klasifikasi lainnya.
6. Menganalisis kelebihan dan kekurangan algoritma CREDOS pada kasus
imbalance class.
1.4. Batasan Masalah
Ruang lingkup tugas akhir ini digambarkan pada gambar 1 di bawah ini.
Data Uji
Gambaran Umum Sistem
Preprocessing
data
Data
Latih
Rule
Pengujian
Parameter
Performansi
Rule
Prediksi
Kelas Label
Pelatihan Algoritma
CREDOS
Data Prediksi
Gambar 1.1 Ruang lingkup tugas akhir.
Daerah didalam kotak yang berwarna abu-abu merupakan ruang lingkup pengerjaan tugas
akhir. Tahap preprocessing merupakan tahap awal data mining yang meliputi
pembersihan, pemahaman, integrasi, dan transformasi data. Tahap preprocessing data
menjadi batasan masalah dalam tugas akhir ini, sehingga data latih dan data uji telah
bersih dari noise. Data latih yang digunakan adalah data yang mengandung anomali dan
memiliki classlabel. Data latih akan menjadi inputan pada tahap klasifikasi data yang
terdiri phase pertumbuhan dan phase pemangkasan. Dari tahap pelatihan algoritma
CREDOS akan dihasilkan rule yang akan digunakan pada tahap pengujian data. Tahap
pengujian menggunakan data uji sebagai input akan menghasilkan parameter
penghitungan performansi algoritma CREDOS. Tahap prediksi menggunakan data
prediksi sebagai input dan akan menghasilkan kelas label dari data tersebut.
Batasan masalah dari Tugas Akhir ini adalah :
1. Data yang digunakan telah melalui tahap preprocessing data (proses cleansing)
sehingga data latih dan data uji yang digunakan telah bersih dari noise.
2. Data latih dan data uji berupa data yang mengandung anomali dan memiliki
kelas label yang akan digunakan sudah tersedia dalam bentuk tabel pada basis
data.
3. Klasifikasi yang digunakan adalah klasifikasi binary class yang terdiri dari
kelas anomali dan kelas yang normal (bukan anomali).
1.5. Metodologi Penyelesaian Masalah
Metode yang akan digunakan untuk menyelesaikan tugas akhir ini adalah :
1. Studi Literatur.
Studi Literatur dengan mempelajari literatur-literatur yang relevan dengan
permasalahan yang meliputi : melakukan studi pustaka dan referensi mengenai
data mining, klasifikasi, algoritma CREDOS, matriks evaluasi dan imbalance
class.
2. Pengumpulan Data.
Mencari data yang akan digunakan sebagai studi kasus, dalam tugas akhir ini
adalah data operator ilegal Telkom. Pengumpulan data Call Detail Record
(CDR) yaitu kumpulan data penggunaan telepon PSTN yang sudah
dikelompokkan ke level customer.
3. Analisis dan perancangan perangkat lunak.
Menganalisis permasalahan yang akan ditangani, menganalisis metode yang
akan digunakan untuk menyelesaikan permasalahan, merancang tahapan –
tahapan yang akan dilakukan untuk menyelesaikan masalah dengan metode
yang terstruktur.
4. Implementasi system.
Melakukan coding dengan membangun perangkat lunak untuk pengklasifikasian
pada data mining dengan menggunakan algoritma CREDOS.
5. Pengujian sistem dan analisis hasil.
Melakukan proses pengujian terhadap keakuratan hasil dan performansi
algoritma CREDOS, serta melakukan analisis terhadap kelebihan dan
keterbatasan algoritma CREDOS terutama dalam hal akurasi pendeteksian data
anomali pada kasus imbalance class.
6. Penyusunan laporan tugas akhir dan kesimpulan akhir
1.6. Sistematika Penulisan
Sistematika penulisan tugas akhir ini adalah sebagai berikut :
BAB I
PENDAHULUAN
Berisi latar belakang, perumusan masalah, batasan masalah, tujuan
pembahasan, metodologi penyelesaian masalah dan sistematika
penulisan.
BAB II
LANDASAN TEORI
Pada bab ini membahas teori dasar pendukung implementasi,antara
lain mengenai data mining, klasifikasi, algoritma CREDOS,
imbalance class, dan matriks evaluasi.
BAB III
ANALISIS ALGORITMA
Menganalisis karakteristik imbalance class, input, proses, output, dan
analisis pengujian performansi algoritma CREDOS.
BAB IV
PEMBANGUNAN PERANGKAT LUNAK
Bab ini membahas analisis, perancangan, implementasi dan pengujian
perangkat lunak.
BAB V
KESIMPULAN DAN SARAN
Berisi kesimpulan akhir dan saran pengembangan dari penelitian
tugas akhir.
Download