implementasi data mining untuk memprediksi data nasabah bank

advertisement
IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI
DATA NASABAH BANK DALAM PENAWARAN DEPOSITO
BERJANGKA DENGAN MENGGUNAKAN ALGORITMA
KLASIFIKASI NAIVE BAYES
Nama
NPM
Jurusan
Pembimbing
: Muhammad Rizki
: 54410806
: Teknik Informatika
: Dr. Ana Kurniawati, ST.,MMSI.
Latar Belakang
• Sebuah bank mempunyai program layanan yang banyak untuk
ditawarkan kepada calon nasabah dan nasabah bank tersebut. Salah
satu layanan yang cukup di kenal adalah deposito berjangka. Bagian
marketing bank melakukan penawaran deposito berjangka kepada
nasabah dengan menghubungi nasabah satu persatu via telepon.
Namun nasabah dengan kriteria seperti apa yang ingin menggunakan
layanan deposito. Bank mempunyai data yang sangat banyak untuk
mengelola data tersebut data mining dianggap sebagai solusi.
• Teknik yang digunakan adalah klasifikasi dengan menggunakan
algoritma naive bayes. Aturan bayes digunakan karena mempunyai
asumsi yang kuat bahwa atribut yang digunakan adalah independen.
Rumusan Masalah
• Bagaimana proses merancang dan membangun aplikasi data
mining dengan menggunakan data nasabah untuk memprediksi
apakah nasabah sebuah bank mau menggunakan layanan
deposito berjangka atau tidak.
• Bagaimana hasil pengujian data training terhadap data testing
serta tingkat akurasi yang di dapat dari pengujian dengan
menggunakan algoritma naive bayes.
• Bagaimana hasil prediksi pola data nasabah yang setuju dengan
penawaran deposito berjangka dengan menggunakan algoritma
naive bayes.
Batasan Masalah
•
•
•
Bagaimana pembuatan aplikasi data mining dengan menggunakan data nasabah untuk
memprediksi apakah nasabah sebuah bank mau menggunakan layanan deposito
berjangka atau tidak dengan menggunakan bahasa pemrograman Java dan basis data
Mysql.
Data set yang digunakan di dapat dari http://archive.ics.uci.edu/. Data tersebut adalah
data yang didapat dari bagian marketing sebuah bank di portugal, data tersebut di
donasi pada tanggal 14 februari 2012 oleh S. Moro, P. Cortez and P. Rita. Jumlah record
yang di peroleh sebanyak 4521 record. Pada data tersebut bagian marketing juga
menghubungi nasabah yang sama lebih dari 1 kali sebagai syarat di perlukan.
Pada penulisan ini tidak dibahas tentang penggunaan aplikasi pada Java mobile atau
smartphone dan java web, sebab aplikasi ini hanya untuk digunakan pada perangkat
komputer dan sejenisnya. Pada penulisan dan aplikasi ini proses pengujian data testing
tidak dapat dilakukan secara menyeluruh namun harus satu persatu atau secara manual.
Tujuan Penulisan
• Tujuan dari penelitian ini adalah membuat aplikasi data
mining untuk memprediksi data nasabah dalam penawaran
deposito berjangka dengan menggunakan algoritma naive
bayes. Diharapkan aplikasi ini dapat membantu bagian
marketing sebuah bank untuk mengetahui apakah suatu
nasabah bank mau menerima penawaran deposito berjangka
atau tidak serta berapa presentasi yang dihasilkan untuk yang
menerima deposito dan tidak.
Data Mining
Data minig adalah proses yang menggunakan statistik,
matematika, kecerdasan buatan, dan mesin pembelajaran
untuk mengekstrasi dan mengidentifikasi informasi yang
bermanfaat dan terakait dari berbagai database
besar(Turban, dkk. 2005)
Pengelompokan Data Mining
•
•
•
•
•
•
(Larose, 2005)
Deskripsi
Klasifikasi
Estimasi
Prediksi
Clustering
Asosiasi
Tahapan Data Mining
•
•
•
•
•
•
•
Pembersihan Data (Cleaning)
Integrasi Data
Seleksi Data
Transformasi Data
Proses Mining
Evaluasi Pola
Presentasi Pengetahuan
Data
• Data Training
• Data Testing
• Data Target
Algoritma Naïve Bayesian
HMAP
HMAP ( Hypothesis Maximum AppropriProbability ) adalah
diartikan mencari probabilitas tersebar dari semua instance pada
attribute atau semua kemungkinan keputusan. HMAP dapat
dirumuskan sebagai berikut :
hMAP = arg max P(x |h) p(h).
Distribusi Frekuensi Kelompok
Distribusi frekuensi adalah susunan data menurut kelas-kelas
interval tertentu atau menurut kategori tertentu dalam sebuah
daftar. Daftar distribusi frekuensi dapat memudahkan penyajian
data serta memberikan potret yang lebih jelas berkaitan dengan
distribusi data.
Distribusi Frekuensi Kelompok
Arsitektur Sistem
Analisis Kebutuhan Data
• Data Training dan Data Testing. Data ini akan digunakan sebagai proses
pengujian, berupa data nasabah bank yang sebelumnya sudah dihubungi
pihak marketing dan memiliki hasil ya dan tidak. Persentase pembagian
data set menjadi data training dan testing sebenarnya tidak ada aturannya
namun berdasarkan salah satu perusahaan besar yaitu microsoft
melakukan pengujian model dengan membagi data set menjadi 70% untuk
data training dan 30% data testing.
• Data Target. Data ini merupakan data nasabah yang belum memiliki label
atau tujuan. Setelah proses mining data ini akan memiliki kelas
berdasarkan tabel probabilitas yang diperoleh dari data set.
Perancangan Data Set
•
•
•
Data yang digunakan untuk penelitian ini adalah data yang bersifat open
source atas donasi S. Moro, P. Cortez dan P. Rita pada tahun 2012. Data
didapat dari sebuah situs data set yaitu http://archive.ics.uci.edu/.
Jumlah record yang ada pada data set sebanyak 4521 record. Data ini adalah
data nasabah pada sebuah bank di portugal namun data ini akan di sesuaikan
untuk dapat digunakan di indonesia maka data akan mengalami seleksi data.
Atribut data yang digunakan adalah age(usia nasabah), job(pekerjaan
nasabah), marital(status pernikahan nasabah), education(pendidikan terakhir
nasabah), contact(jenis komunikasi untuk menghubungi nasabah),
previous(pernah dihubungi sebelumnya oleh bagian marketing),
postcome(hasil dari menghubungi nasabah sebelumnya) dan class(atribut
tujuan).
Struktur Navigasi
Use Case Diagram
Activity Diagram
Class Diagram
Diagram Alur Naïve Bayesian
Output Program
Output Program
Output Program
Output Program
Output Program
Output Program
Output Program
Hasil Pengujian
• Hasil pengujian adalah hasil pengujian model data training
terhadap data testing. Dari hasil pengujian dengan
menggunakan 1321 record pada data testing di dapat
• Hasil Akurat = 1173 record
• Hasil Tidak Akurat = 148 record
• Menghitung akurasi = (jumlah data benar/banyak data)*100%
• (1173/1321) *100% = 88.79%
• Menghitung Kesalahan = 100- hasil akurasi
• 100-88.79 = 11.21%
Hasil Prediksi
• Hasil prediksi data target yang berisikan 100
record. di dapatkan hasil.
• 97 record di prediksi tidak akan menggunakan
deposito berjangka.
• 3 record di prediksi akan menggunakan
deposito berjangka.
Pola Prediksi Nasabah Setuju
Kesimpulan
• Pada pengujian model data training terhadapa data testing di dapat
tingkat akurasi model data sebesar 88%. Dengan tingkat akurasi yang lebih
dari 50% dapat dikatakan permodelan data sudah dapat dikatakan cukup
baik.
• Melakukan prediksi terhadap data target yang belum memiliki output. Di
dapat hasil prediksi 3 nasbah dari 100 data yang di prediksi akan
menggunakan deposito berjangka sedangkan sisanya tidak akan
menggunakan deposito berjangka. Di dapatnya hasil prediksi bagian
marketing mengetahui nasabah seperti apa yang akan setuju
menggunakan deposito berjangka dan tidak
Terima Kasih
Download