BAB. III. ANALISA PERMASALAHAN

advertisement
BAB. III.
ANALISA PERMASALAHAN
Pada Bab II telah diuraikan beberapa teori dasar yang akan menjadi acuan /
referensi ilmiah dalam melakukan penelitian. Bab ini akan berisi studi kasus yang
dibangun dari sebuah data dalam bentuk data relasi, model visualisasi yang akan
dibuat, tolok ukur yang dipakai untuk mengevaluasi performansi metode klasifikasi.
III.1 Studi Kasus Data Mining
Pada penelitian ini, penulis menggunakan studi kasus tentang data bank yang
diambil dan diekstrak dari situs PKDD 1999 Discovery Challenge Guide to the
Financial Data Set. Data tersebut di sediakan oleh Petr Berka and Marta
Sochorova.
Tugas
prediksi/studi
kasus
dari
classifier
adalah
untuk
menentukan/memprediksikan kategori dari client-client bank tersebut. Kategori
client dibagi 2 (dua) kelas, yaitu (1) Produktif dan Tidak Produktif yaitu YES (jika
nasabah adalah nasabah Produktif) dan NO (jika nasabah adalah nasabah Tidak
Produktif), (2) Aktif dan Tidak Aktif yaitu YES (jika nasabah aktif) dan NO (jika
nasabah tidak aktif).
Walaupun data sudah tersedia, data tersebut tidak dapat langsung dipakai untuk
menjadi dataset pada tugas data mining untuk studi kasus penelitian ini. Oleh sebab
itu diperlukan beberapa kegiatan/aktifitas untuk memilih atribut-atribut dan nilainilai atribut yang bersesuaian dengan studi kasus penelitian.
Pada akhirnya data yang dipakai adalah data yang siap pakai. Data sudah tidak
mengandung noise dan missing value sehingga tidak memerlukan aktifitas preprocessing ketika membangun model dengan menggunakan perangkat lunak.
III.1.1 Kriteria Nasabah Aktif dan Nasabah Produktif
Perlu diperhatikan bahwa kriteria yang akan ditulis pada tesis ini bukanlah
kriteria sebenarnya di dunia nyata. Pada dunia nyata banyak faktor-faktor yang
menentukan apakah suatu nasabah produtif atau tidak di mana faktor-faktor tersebut
dapat berbeda dari satu bank dengan bank lain. Namun demikian, agar data dapat
digunakan sebagai studi kasus aplikasi klasifikasi dan visualisasi data mining dengan
40
Bayesian Networks maka penulis mendefinisikan sendiri nasabah produktif dan
nasabah aktif.
III.1.1.1 Nasabah Produktif
Suatu nasabah di sebut produktif jika nasabah tersebut memberikan
keuntungan kepada bank ketika melakukan transaksi bank. Transaksi tersebut dapat
berupa peningkatan frekuensi setoran tunai yang
dapat meningkatkan saldo
tabungan nasabah. Semakin tinggi saldo nasabah pada suatu periode tertentu akan
disebut nasabah yang produktif.
Pada tesis ini nasabah disebut produktif jika semua saldo per triwulan
mengalami peningkatan dibandingkan saldo triwulan sebelumnya untuk satu tahun.
III.1.1.2 Nasabah Aktif
Sedangkan nasabah yang disebut aktif adalah nasabah yang sering melakukan
transaksi bank baik setoran ataupun tarikan tanpa memperhitungkan jumlah saldo.
Semakin sering nasabah melakukan transaksi bank, maka peluang untuk menjadi
nasabah yang aktif semakin besar.
Pada tesis ini nasabah disebut aktif jika jumlah keseluruhan transaksi per
triwulan lebih dari 15 (lima belas) transaksi selama satu tahun. Dengan demikian
nasabah aktif paling tidak akan melakukan transaksi bank sebanyak 60 (enam puluh)
transaksi selama satu tahun.
III.1.2 Attribut Data
Seperti yang telah disebutkan pada awal bab ini, tugas klasifikasi data mining
yang dilakukan adalah untuk memprediksi nasabah produktif atau tidak produktif
dan nasabah aktif dan tidak aktif. Oleh sebab itu atribut yang dipilih untuk menjadi
training set (data yang dipakai untuk membangun model klasifikasi) dan testing set
(data yang dipakai untuk mencoba model yang telah dihasilkan untuk melihat
keakuratannya dalam hal memprediksi target kelas) adalah berdasarkan kriteria yang
dapat menjadi acuan/indikator untuk menentukan suatu nasabah produktif atau tidak
produktif dan nasabah aktif atau tidak aktif.
41
Berdasarkan definisi nasabah aktif dan produktif yang telah disebutkan
sebelumnya maka indikator yang dapat dijadikan acuan dari data bank untuk
menentukan nasabah produktif dan aktif, secara umum adalah :
Besaran rata-rata simpanan/saldo nasabah yang dihitung setiap periode
yang ditentukan (untuk menentukan apakah nasabah produktif atau tidak
produktif), dalam hal ini periode adalah setiap tiga bulan.
Jumlah rata-rata transaksi yang dilakukan nasabah setiap periode yang
ditentukan (untuk menentukan nasabah aktif atau tidak aktif), dalam hal
ini periode adalah setiap tiga bulan.
Selain dapat dilihat dari kriteria-kriteria diatas, secara intuisi karakteristik
dari nasabah sendiri juga dapat menentukan kegiatan-kegiatan transaksi bank yang
dapat dilakukannya. Sebagai contoh gaji rata-rata nasabah dapat mempengaruhi
besaran rata-rata setoran, penarikan yang dapat dilakukan oleh nasabah tersebut.
Oleh sebab dari karakteristik nasabah, dapat dipilih beberapa atribut untuk mewakili
nasabah antara lain adalah :
Umur nasabah.
Jenis kelamin nasabah.
Penghasilan/gaji rata-rata perbulan nasabah.
Pada akhirnya atribut-atribut yang dipilih untuk menjadi atribut dataset
adalah sebagai berikut :
Tabel 3.1 Atribut Trainingset
No
1
Atribut
Sex
Keterangan
Jenis kelamin, dikelompokkan dalam dua kategori, yaitu
Pria atau Wanita
2
Age
Umur Nasabah, dikelompokkan dalam 3 kategori, yaitu
Remaja, Dewasa, dan Pensiunan
3
Salary
Gaji, dikelompokkan dalam tiga kategori, yaitu
Rendah, Sedang dan Tinggi
4
Balance_Q1
Status kenaikan saldo triwulan I (naik atau turun)
5
Balance_Q2
Status kenaikan saldo triwulan II (naik atau turun)
6
Balance_Q3
Status kenaikan saldo triwulan III (naik atau turun)
42
7
Balance_Q4
Status kenaikan saldo triwulan IV (naik atau turun)
8
Productive
Kelas target yang mengklasifikasikan tabungan nasabah
produktif (YES) atau tidak produktif (NO)
9
Trans_Q1
Status jumlah transaksi triwulan I, dikelompokkan dalam
dua kategori yaitu : baik dan tidak baik
10
Trans_Q2
Status jumlah transaksi
triwulan II, dikelompokkan
dalam dua kategori yaitu : baik dan tidak baik
11
Trans_Q3
Status jumlah transaksi
triwulan III, dikelompokkan
dalam dua kategori yaitu : baik dan tidak baik
12
Trans_Q4
Status jumlah transaksi
triwulan IV, dikelompokkan
dalam dua kategori yaitu : baik dan tidak baik
13
Active
Kelas target yang mengklasifikasikan tabungan nasabah
Aktif (YES) atau tidak aktif (NO)
Cuplikan data bank tersebut dalam format Microsoft Access dapat dilihat pada
Gambar 3.1
Gambar 3.1. Cuplikan Tabel Data Bank dalam format MS. Access
43
III.2 Aplikasi Klasifikasi dan Visualisasi Data Mining yang di Kembangkan.
Seperti yang telah di uraikan pada Bab II, telah terdapat aplikasi yang dapat
membangun struktur Bayesian Networks dan memvisualisasikan struktur DAG nya
yaitu BN PowerConstructor dengan mengimplementasikan algoritma TPDA. Namun
demikian pada BN PowerConstructor visualisasi hanya sebatas pada visualisasi DAG
saja, belum menampilkan Conditional Probability Tabel (CPT) untuk setiap node
dan tidak ada visualisasi distribusi probabilitas untuk setiap node.
Oleh sebab itu, jika dibandingkan dengan BN PowerConstructor, perangkat
lunak yang dibangun dalam tesis adalah membuat visualisasi struktur Bayesian
Networks yang belum ada pada BN PowerConstructor, yaitu visualisasi Conditional
Probability Tabel (CPT) yang akan ditampilkan dalam bentuk tabel dan visualisasi
node-node pada DAG yang yang dapat menampilkan probabilitas distribusi dalam
bentuk bar chart . Kegunaan CPT adalah memberikan ukuran probabilitas nilai suatu
node jika nilai node sebelumnya diketahui. Selain itu CPT juga akan digunakan
untuk melakukan inferensi terhadap kelas target.
Bar chart akan memvisualisasikan distribusi probabilitas untuk setiap node.
Alasan memakai bar chart
untuk visualisasi distribusi probabilitas pada node
adalah karena bentuk grafik tersebut telah banyak dipakai dan dikenal dalam
menampilkan perbandingan nilai-nilai numerik yang akan di observasi. Selain itu,
dari pada penggunaan pie chart, bar chart lebih banyak digunakan untuk keperluan
perbandingan suatu nilai data yang diamati karena nilai yang ditampilkan oleh bar
chart lebih dapat diserap oleh pengguna (misalnya bandingkan dengan penggunaan
pie chart yang kadang susah untuk membandingkan area pie yang merepresentasikan
nilai 0.7 dan 1).
Seperti yang telah disebutkan pada sub bab II.11 tentang dua metode umum
dalam visualisasi CPT [HUNG99], baik metode pertama maupun yang kedua
mempunyai kelemahan, misalkan untuk metode yang pertama, struktur DAG akan
kelihatan padat ketika deskripsi formal matematika CPT ditulis disekitar node. Dapat
dibayangkan ketika struktur mempunyai node yang banyak dan masing-masing node
mempunyai nilai yang banyak juga, maka tampilan struktur akan sangat padat/ramai
44
sehingga akhirnya menyulitkan pengguna untuk menangkap/melihat subtansi
(hubungan kausalitas) yang di visualisasikan.
Demikian juga permasalahan yang ada jika visualisasi CPT menggunakan
metode yang kedua. Ketika CPT ditampilkan dalam bentuk tabel, CPT dapat
ditampilkan lebih sederhana, sehingga pengguna awam dapat langsung mengetahui
probabilitas nilai suatu node berdasarkan nilai node sebelumnya (node parent) ketika
CPT ditampilkan disekitar node yang bersangkutan. Tetapi jika suatu node
mempunyai banyak parent dan masing-masing node memiliki banyak nilai maka
secara otomatis CPT akan berukuran besar dan akan sulit menampilkan pada struktur
DAG di sekitar node yang bersangkutan.
Berdasarkan hal tersebut, maka pada aplikasi yang dibangun bentuk
visualisasi CPT adalah dalam bentuk tabel di mana setiap node akan mempunyai
CPT sendiri. Untuk menghindari tampilan struktur DAG yang padat dan tidak
beraturan, maka daripada menampilkan CPT berada disekitar
(disamping atau
dibawah) node yang bersangkutan, CPT akan ditampilkan terpisah dari struktur
DAG. CPT ditampilkan ketika pengguna memilih node ataupun CPT yang ingin
dilihat. Hal ini dilakukan untuk menghindari tampilan struktur DAG yang padat
ataupun tidak beraturan jika CPT ditampilkan di sebelah node.
III.3 Visualisasi dan Prediksi Kelas Nasabah Bank
Aplikasi pada tesis ini adalah untuk melihat pola/perilaku nasabah suatu bank
dengan memvisualisasikan data nasabah ke dalam
Pilihan penggunaan Bayesian Networks
struktur Bayesian Networks.
sebagai media visualisasi adalah untuk
melihat hubungan kausalitas antar atribut nasabah yang dapat memberikan
pengetahuan kepada pengguna mengenai atribut-atribut yang dapat membedakan
nasabah menjadi produkti dan/atau aktif (misalkan apakah gaji nasabah dapat
mempengaruhi frekuensi melakukan transaksi bank)
Selain itu, aplikasi yang dibangun dapat juga digunakan untuk memprediksi
suatu nasabah kedalam kelas produktif/tidak produktif dan aktif/tidak aktif.
45
III.4 Evaluasi Performansi Metode Klasifikasi
Evaluasi performanasi metode klasifikasi yang dilakukan adalah berdasarkan
tingkat akurasi model dalam melakukan prediksi. Hal ini dilakukan mengingat data
yang dijadikan studi kasus adalah data bank di mana keakuratan dalam mengolah
data merupakan salah satu hal yang penting karena menyangkut pengeluaran dana.
Evaluasi performansi untuk running time, diasumsikan tidak mendesak.
Metode yang digunakan untuk menguji tingkat akurasi model klasifikasi ini
adalah metode holdout. Dalam metode ini, data asli dipartisi menjadi dua himpunan
yang saling terpisah yang dinamakan training set dan test set. Model klasifikasi
kemudian dibangun berdasarkan training set dan hasilnya kemudian dievaluasi
dengan menggunakan testing set. Akurasi dari masing – masing metode klasifikasi
dapat diestimasi berdasarkan akurasi yang diperoleh dari test set. Proporsi antara
training set dan test set tidak mengikat tetapi agar variansi dalam model tidak terlalu
besar maka dapat ditentukan bahwa proporsi training set lebih besar daripada test
setnya. Biasanya 2/3 dari data dijadikan sebagai training set dan 1/3 lagi dijadikan
testing set [HAN01].
Ukuran dari tingkat akurasi dari sebuah classifier dari ditentukan dengan
menggunakan perhitungan-perhitungan sebagai berikut[HAN01] :
sensitivity =
t _ pos
pos
3.1
specificity =
t _ neg
neg
3.2
t _ pos
(t _ pos + f _ pos )
3.3
precision =
accuracy = sensivity
pos
neg
+ specificity
( pos + neg )
( pos + neg )
3.4
t_pos adalah jumlah true positive yaitu jumlah data yang berhasil di prediksi oleh
classifier dengan benar (misalnya jumlah data kelas “yes”dari sample yang secara
benar dapat diprediksi sebagaimana mestinya oleh model klasifikasi) , pos adalah
46
jumlah sample data positives (“yes”), t_neg adalah jumlah true negatives yaitu
adalah kebalikan dari true positive (misalnya jumlah data kelas “no” dari sample
yang secara benar dapat diprediksi sebagaimana mestinya oleh model klasifikasi),
neg adalah jumlah total sample negatives (“no”), dan f_pos adalah false positives
yaitu jumlah data yang salah di prediksi oleh classifier (“no” diprediksi sebagai
“yes”).
Sensitivity adalah ukuran tingkatan derajat classifier dapat mengenal positive
samples (“yes”) berdasarkan jumlah true positives yang dapat diprediksi secara
benar jika yang diberikan adalah sample positives, specificity
adalah ukuran
tingkatan dejarat classifier dapat mengenal negative samples (“no”) berdasarkan true
negatives yang dapat diprediksi secara benar jika yang diberikan adalah sample
negatives.
Precision adalah besarnya persentasi classifier dalam menebak dengan tepat kelas
true positives (“yes”)
dengan melihat perbandingan true positive yang dapat
diprediksi dengan penjumlahan true positives dan false positif.
Accuracy adalah derajat ukuran yang merupakan fungsi dari sensitivity dan
specificity model klasifikasi dalam melakukan prediksi.
47
Download