BAB. III. ANALISA PERMASALAHAN Pada Bab II telah diuraikan beberapa teori dasar yang akan menjadi acuan / referensi ilmiah dalam melakukan penelitian. Bab ini akan berisi studi kasus yang dibangun dari sebuah data dalam bentuk data relasi, model visualisasi yang akan dibuat, tolok ukur yang dipakai untuk mengevaluasi performansi metode klasifikasi. III.1 Studi Kasus Data Mining Pada penelitian ini, penulis menggunakan studi kasus tentang data bank yang diambil dan diekstrak dari situs PKDD 1999 Discovery Challenge Guide to the Financial Data Set. Data tersebut di sediakan oleh Petr Berka and Marta Sochorova. Tugas prediksi/studi kasus dari classifier adalah untuk menentukan/memprediksikan kategori dari client-client bank tersebut. Kategori client dibagi 2 (dua) kelas, yaitu (1) Produktif dan Tidak Produktif yaitu YES (jika nasabah adalah nasabah Produktif) dan NO (jika nasabah adalah nasabah Tidak Produktif), (2) Aktif dan Tidak Aktif yaitu YES (jika nasabah aktif) dan NO (jika nasabah tidak aktif). Walaupun data sudah tersedia, data tersebut tidak dapat langsung dipakai untuk menjadi dataset pada tugas data mining untuk studi kasus penelitian ini. Oleh sebab itu diperlukan beberapa kegiatan/aktifitas untuk memilih atribut-atribut dan nilainilai atribut yang bersesuaian dengan studi kasus penelitian. Pada akhirnya data yang dipakai adalah data yang siap pakai. Data sudah tidak mengandung noise dan missing value sehingga tidak memerlukan aktifitas preprocessing ketika membangun model dengan menggunakan perangkat lunak. III.1.1 Kriteria Nasabah Aktif dan Nasabah Produktif Perlu diperhatikan bahwa kriteria yang akan ditulis pada tesis ini bukanlah kriteria sebenarnya di dunia nyata. Pada dunia nyata banyak faktor-faktor yang menentukan apakah suatu nasabah produtif atau tidak di mana faktor-faktor tersebut dapat berbeda dari satu bank dengan bank lain. Namun demikian, agar data dapat digunakan sebagai studi kasus aplikasi klasifikasi dan visualisasi data mining dengan 40 Bayesian Networks maka penulis mendefinisikan sendiri nasabah produktif dan nasabah aktif. III.1.1.1 Nasabah Produktif Suatu nasabah di sebut produktif jika nasabah tersebut memberikan keuntungan kepada bank ketika melakukan transaksi bank. Transaksi tersebut dapat berupa peningkatan frekuensi setoran tunai yang dapat meningkatkan saldo tabungan nasabah. Semakin tinggi saldo nasabah pada suatu periode tertentu akan disebut nasabah yang produktif. Pada tesis ini nasabah disebut produktif jika semua saldo per triwulan mengalami peningkatan dibandingkan saldo triwulan sebelumnya untuk satu tahun. III.1.1.2 Nasabah Aktif Sedangkan nasabah yang disebut aktif adalah nasabah yang sering melakukan transaksi bank baik setoran ataupun tarikan tanpa memperhitungkan jumlah saldo. Semakin sering nasabah melakukan transaksi bank, maka peluang untuk menjadi nasabah yang aktif semakin besar. Pada tesis ini nasabah disebut aktif jika jumlah keseluruhan transaksi per triwulan lebih dari 15 (lima belas) transaksi selama satu tahun. Dengan demikian nasabah aktif paling tidak akan melakukan transaksi bank sebanyak 60 (enam puluh) transaksi selama satu tahun. III.1.2 Attribut Data Seperti yang telah disebutkan pada awal bab ini, tugas klasifikasi data mining yang dilakukan adalah untuk memprediksi nasabah produktif atau tidak produktif dan nasabah aktif dan tidak aktif. Oleh sebab itu atribut yang dipilih untuk menjadi training set (data yang dipakai untuk membangun model klasifikasi) dan testing set (data yang dipakai untuk mencoba model yang telah dihasilkan untuk melihat keakuratannya dalam hal memprediksi target kelas) adalah berdasarkan kriteria yang dapat menjadi acuan/indikator untuk menentukan suatu nasabah produktif atau tidak produktif dan nasabah aktif atau tidak aktif. 41 Berdasarkan definisi nasabah aktif dan produktif yang telah disebutkan sebelumnya maka indikator yang dapat dijadikan acuan dari data bank untuk menentukan nasabah produktif dan aktif, secara umum adalah : Besaran rata-rata simpanan/saldo nasabah yang dihitung setiap periode yang ditentukan (untuk menentukan apakah nasabah produktif atau tidak produktif), dalam hal ini periode adalah setiap tiga bulan. Jumlah rata-rata transaksi yang dilakukan nasabah setiap periode yang ditentukan (untuk menentukan nasabah aktif atau tidak aktif), dalam hal ini periode adalah setiap tiga bulan. Selain dapat dilihat dari kriteria-kriteria diatas, secara intuisi karakteristik dari nasabah sendiri juga dapat menentukan kegiatan-kegiatan transaksi bank yang dapat dilakukannya. Sebagai contoh gaji rata-rata nasabah dapat mempengaruhi besaran rata-rata setoran, penarikan yang dapat dilakukan oleh nasabah tersebut. Oleh sebab dari karakteristik nasabah, dapat dipilih beberapa atribut untuk mewakili nasabah antara lain adalah : Umur nasabah. Jenis kelamin nasabah. Penghasilan/gaji rata-rata perbulan nasabah. Pada akhirnya atribut-atribut yang dipilih untuk menjadi atribut dataset adalah sebagai berikut : Tabel 3.1 Atribut Trainingset No 1 Atribut Sex Keterangan Jenis kelamin, dikelompokkan dalam dua kategori, yaitu Pria atau Wanita 2 Age Umur Nasabah, dikelompokkan dalam 3 kategori, yaitu Remaja, Dewasa, dan Pensiunan 3 Salary Gaji, dikelompokkan dalam tiga kategori, yaitu Rendah, Sedang dan Tinggi 4 Balance_Q1 Status kenaikan saldo triwulan I (naik atau turun) 5 Balance_Q2 Status kenaikan saldo triwulan II (naik atau turun) 6 Balance_Q3 Status kenaikan saldo triwulan III (naik atau turun) 42 7 Balance_Q4 Status kenaikan saldo triwulan IV (naik atau turun) 8 Productive Kelas target yang mengklasifikasikan tabungan nasabah produktif (YES) atau tidak produktif (NO) 9 Trans_Q1 Status jumlah transaksi triwulan I, dikelompokkan dalam dua kategori yaitu : baik dan tidak baik 10 Trans_Q2 Status jumlah transaksi triwulan II, dikelompokkan dalam dua kategori yaitu : baik dan tidak baik 11 Trans_Q3 Status jumlah transaksi triwulan III, dikelompokkan dalam dua kategori yaitu : baik dan tidak baik 12 Trans_Q4 Status jumlah transaksi triwulan IV, dikelompokkan dalam dua kategori yaitu : baik dan tidak baik 13 Active Kelas target yang mengklasifikasikan tabungan nasabah Aktif (YES) atau tidak aktif (NO) Cuplikan data bank tersebut dalam format Microsoft Access dapat dilihat pada Gambar 3.1 Gambar 3.1. Cuplikan Tabel Data Bank dalam format MS. Access 43 III.2 Aplikasi Klasifikasi dan Visualisasi Data Mining yang di Kembangkan. Seperti yang telah di uraikan pada Bab II, telah terdapat aplikasi yang dapat membangun struktur Bayesian Networks dan memvisualisasikan struktur DAG nya yaitu BN PowerConstructor dengan mengimplementasikan algoritma TPDA. Namun demikian pada BN PowerConstructor visualisasi hanya sebatas pada visualisasi DAG saja, belum menampilkan Conditional Probability Tabel (CPT) untuk setiap node dan tidak ada visualisasi distribusi probabilitas untuk setiap node. Oleh sebab itu, jika dibandingkan dengan BN PowerConstructor, perangkat lunak yang dibangun dalam tesis adalah membuat visualisasi struktur Bayesian Networks yang belum ada pada BN PowerConstructor, yaitu visualisasi Conditional Probability Tabel (CPT) yang akan ditampilkan dalam bentuk tabel dan visualisasi node-node pada DAG yang yang dapat menampilkan probabilitas distribusi dalam bentuk bar chart . Kegunaan CPT adalah memberikan ukuran probabilitas nilai suatu node jika nilai node sebelumnya diketahui. Selain itu CPT juga akan digunakan untuk melakukan inferensi terhadap kelas target. Bar chart akan memvisualisasikan distribusi probabilitas untuk setiap node. Alasan memakai bar chart untuk visualisasi distribusi probabilitas pada node adalah karena bentuk grafik tersebut telah banyak dipakai dan dikenal dalam menampilkan perbandingan nilai-nilai numerik yang akan di observasi. Selain itu, dari pada penggunaan pie chart, bar chart lebih banyak digunakan untuk keperluan perbandingan suatu nilai data yang diamati karena nilai yang ditampilkan oleh bar chart lebih dapat diserap oleh pengguna (misalnya bandingkan dengan penggunaan pie chart yang kadang susah untuk membandingkan area pie yang merepresentasikan nilai 0.7 dan 1). Seperti yang telah disebutkan pada sub bab II.11 tentang dua metode umum dalam visualisasi CPT [HUNG99], baik metode pertama maupun yang kedua mempunyai kelemahan, misalkan untuk metode yang pertama, struktur DAG akan kelihatan padat ketika deskripsi formal matematika CPT ditulis disekitar node. Dapat dibayangkan ketika struktur mempunyai node yang banyak dan masing-masing node mempunyai nilai yang banyak juga, maka tampilan struktur akan sangat padat/ramai 44 sehingga akhirnya menyulitkan pengguna untuk menangkap/melihat subtansi (hubungan kausalitas) yang di visualisasikan. Demikian juga permasalahan yang ada jika visualisasi CPT menggunakan metode yang kedua. Ketika CPT ditampilkan dalam bentuk tabel, CPT dapat ditampilkan lebih sederhana, sehingga pengguna awam dapat langsung mengetahui probabilitas nilai suatu node berdasarkan nilai node sebelumnya (node parent) ketika CPT ditampilkan disekitar node yang bersangkutan. Tetapi jika suatu node mempunyai banyak parent dan masing-masing node memiliki banyak nilai maka secara otomatis CPT akan berukuran besar dan akan sulit menampilkan pada struktur DAG di sekitar node yang bersangkutan. Berdasarkan hal tersebut, maka pada aplikasi yang dibangun bentuk visualisasi CPT adalah dalam bentuk tabel di mana setiap node akan mempunyai CPT sendiri. Untuk menghindari tampilan struktur DAG yang padat dan tidak beraturan, maka daripada menampilkan CPT berada disekitar (disamping atau dibawah) node yang bersangkutan, CPT akan ditampilkan terpisah dari struktur DAG. CPT ditampilkan ketika pengguna memilih node ataupun CPT yang ingin dilihat. Hal ini dilakukan untuk menghindari tampilan struktur DAG yang padat ataupun tidak beraturan jika CPT ditampilkan di sebelah node. III.3 Visualisasi dan Prediksi Kelas Nasabah Bank Aplikasi pada tesis ini adalah untuk melihat pola/perilaku nasabah suatu bank dengan memvisualisasikan data nasabah ke dalam Pilihan penggunaan Bayesian Networks struktur Bayesian Networks. sebagai media visualisasi adalah untuk melihat hubungan kausalitas antar atribut nasabah yang dapat memberikan pengetahuan kepada pengguna mengenai atribut-atribut yang dapat membedakan nasabah menjadi produkti dan/atau aktif (misalkan apakah gaji nasabah dapat mempengaruhi frekuensi melakukan transaksi bank) Selain itu, aplikasi yang dibangun dapat juga digunakan untuk memprediksi suatu nasabah kedalam kelas produktif/tidak produktif dan aktif/tidak aktif. 45 III.4 Evaluasi Performansi Metode Klasifikasi Evaluasi performanasi metode klasifikasi yang dilakukan adalah berdasarkan tingkat akurasi model dalam melakukan prediksi. Hal ini dilakukan mengingat data yang dijadikan studi kasus adalah data bank di mana keakuratan dalam mengolah data merupakan salah satu hal yang penting karena menyangkut pengeluaran dana. Evaluasi performansi untuk running time, diasumsikan tidak mendesak. Metode yang digunakan untuk menguji tingkat akurasi model klasifikasi ini adalah metode holdout. Dalam metode ini, data asli dipartisi menjadi dua himpunan yang saling terpisah yang dinamakan training set dan test set. Model klasifikasi kemudian dibangun berdasarkan training set dan hasilnya kemudian dievaluasi dengan menggunakan testing set. Akurasi dari masing – masing metode klasifikasi dapat diestimasi berdasarkan akurasi yang diperoleh dari test set. Proporsi antara training set dan test set tidak mengikat tetapi agar variansi dalam model tidak terlalu besar maka dapat ditentukan bahwa proporsi training set lebih besar daripada test setnya. Biasanya 2/3 dari data dijadikan sebagai training set dan 1/3 lagi dijadikan testing set [HAN01]. Ukuran dari tingkat akurasi dari sebuah classifier dari ditentukan dengan menggunakan perhitungan-perhitungan sebagai berikut[HAN01] : sensitivity = t _ pos pos 3.1 specificity = t _ neg neg 3.2 t _ pos (t _ pos + f _ pos ) 3.3 precision = accuracy = sensivity pos neg + specificity ( pos + neg ) ( pos + neg ) 3.4 t_pos adalah jumlah true positive yaitu jumlah data yang berhasil di prediksi oleh classifier dengan benar (misalnya jumlah data kelas “yes”dari sample yang secara benar dapat diprediksi sebagaimana mestinya oleh model klasifikasi) , pos adalah 46 jumlah sample data positives (“yes”), t_neg adalah jumlah true negatives yaitu adalah kebalikan dari true positive (misalnya jumlah data kelas “no” dari sample yang secara benar dapat diprediksi sebagaimana mestinya oleh model klasifikasi), neg adalah jumlah total sample negatives (“no”), dan f_pos adalah false positives yaitu jumlah data yang salah di prediksi oleh classifier (“no” diprediksi sebagai “yes”). Sensitivity adalah ukuran tingkatan derajat classifier dapat mengenal positive samples (“yes”) berdasarkan jumlah true positives yang dapat diprediksi secara benar jika yang diberikan adalah sample positives, specificity adalah ukuran tingkatan dejarat classifier dapat mengenal negative samples (“no”) berdasarkan true negatives yang dapat diprediksi secara benar jika yang diberikan adalah sample negatives. Precision adalah besarnya persentasi classifier dalam menebak dengan tepat kelas true positives (“yes”) dengan melihat perbandingan true positive yang dapat diprediksi dengan penjumlahan true positives dan false positif. Accuracy adalah derajat ukuran yang merupakan fungsi dari sensitivity dan specificity model klasifikasi dalam melakukan prediksi. 47