penerapan data mining untuk menganalisa jumlah pelanggan aktif

advertisement
Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20
Copyright©2016 by LPPM UPI YPTK Padang
ISSN : 1412-5854
PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH
PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA
C4.5
Annisak Izzaty Jamhur
Universitas Putera Indonesia YPTK Padang
e-mail: [email protected]
Abstract
Penelitian ini dilakukan untuk menganalisa jumlah pelanggan aktif di PT. Multi Daya Prima, dengan
menggunakan teknik Data Mining. Algoritma C4.5 merupakan teknik Data Mining yang dapat digunakan
untuk menganalisa jumlah pelanggan aktif dengan mengolah variabel PO Pertahun, Diskon, Jumlah Barang,
Total Pembelian. Variabel tersebut diklasifikasikan untuk selanjutnya dilakukan pengolahan data. Hasil dari
pengolahan Algoritma C4.5 ini akan membentuk pohon keputusan (decision tree). Pohon keputusan
mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan (rule). Hasil
yang dicapai adalah aturan-aturan yang dapat digunakan untuk menggambarkan proses yang terkait dengan
pelanggan aktif. Karakteristik data yang diklasifikasi dapat diperoleh dengan jelas, baik dalam bentuk
struktur pohon keputusan maupun aturan sehingga dalam tahap pengujian dapat membantu dalam
menganalisa jumlah pelanggan aktif.
Kata Kunci :Data Mining, Algoritma C4.5, Pohon Keputusan, Pelanggan Aktif
1.
PENDAHULUAN
Latar Belakang Masalah
Ketatnya persaingan antara perusahaan dalam era ekonomi global seperti sekarang ini,
menuntut perusahaan untuk selalu menjadi yang terdepan dan terbaik dalam memberikan
pelayanan yang dapat memuaskan konsumen. Kepuasan pelanggan merupakan suatu penilaian
bahwa produk atau jasa telah memenuhi kriteria kebutuhan dan harapan pelanggan. Kegagalan
untuk memenuhi kebutuhan dan harapan pelanggan dapat menghasilkan ketidakpuasan pelanggan
terhadap produk atau jasa.
Kepuasan pelanggan adalah perasaan senang atau kecewa seorang yang merupakan hasil
dari perbandingan dari persepsi kinerja produk dan harapannya. Kesetiaan pelanggan terhadap
suatu perusahaan sangat perlu dipertahankan dan ditingkatkan. Ini berarti, kepuasan pelanggan
merupakan awal dari terciptanya kepercayaan pelanggan tersebut terhadap perusahaan. Selain itu,
untuk meningkatkan kepuasan, perusahaan harus menambah nilai yang dapat membuat para
pelanggannya mendapatkan apa yang mereka bayar atau lebih dari yang mereka harapkan,
sehingga mereka dapat bertahan dan mengarah pada pembelian ulang, perekomendasian, dan
perekomendasian yang meningkat.
Hal ini sangat diperlukan, karena dengan mengetahui tingkat kepuasan pelanggan, secara
otomatis pelanggan tersebut akan menjadi pelanggansetia diperusahaan dan menjadi pelanggan
aktif yang berbelanja di perusahaan. Dengan mengetahui pelanggan aktif, perusahaan dapat
mengetahui pendapatan tetap setiap periodenya. Untuk itu perlu adanya pengolahan data
tentangpelanggan aktif, sehingga diketahui jumlah pelanggan aktif setiap periode tertentu. Jika
jumlah pelanggan aktif bertambah maka diperlukan strategi untuk mempertahankan dan
meningkatkan jumlahnya. Jika jumlah pelanggan aktif menurun, maka diperlukan strategi lain
untuk meningkatkan jumlahnya.
12
Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20
Copyright©2016 by LPPM UPI YPTK Padang
ISSN : 1412-5854
2. LANDASAN TEORI
Knowledge Discovery in Database (KDD)
Knowledge Discovery in Database (KDD) didefinisikan sebagai ekstraksi informasi potensial,
implicit dan tidak dikenal dari sekumpulan data. Proses Knowledge Discovery in Database
melibatkan hasil proses Data Mining (proses pengekstrak kecenderungan suatu pola data),
kemudian mengubah hasilnya secara akurat menjadi informasi yang mudah dipahami (Sri
Andayani, 2010).
Perusahaan memerlukan kecerdasan bisnis untuk mengembangkan proses bisnis, memonitor waktu,
biaya kualitas, dan pengendalian. Kecerdasan bisnis merupakan proses pengubahan data menjadi
informasi. Dari kumpulan informasi yang ada akan diambil polanya menjadi pengetahuan. Tujuan
kecerdasan bisnis adalah untuk mengubah data yang sangat banyak menjadi nilai bisnis melalui
laporan analistik (Kusrini dan Emha Taufiq Luthfi, 2009).
Data Mining
Data Mining adalah kegiatan yang meliputi pengumpulan, pemakaian data historis yang
menentukan keteraturan, pola, dan hubungan dalam set data berukuran besar (Selvia Lorena,2014).
Definisi lain Data Mining adalah proses yang memperkerjakan satu atau lebih teknik pembelajaran
komputer untuk menganalisis dan mengekstrak pengetahuan secara otomatis atau serangkaian
proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini
tidak diketahui secara manual (Alimancon Sijabat, 2015).
Klasifikasi
Teknik klasifikasi adalah pendekatan sistematis untuk membangun model klasifikasi dari
kumpulan data masukan. Misalnya, teknik pohon keputusan, Bayesian (Naive Bayesian dan
Bayesian Belief Networks), Jaringan Saraf Tiruan (Backpropagation), teknik yang berbasis konsep
dari penambangan aturan-aturan asosiasi, dan teknik lain (K-Nearest Neighboor, algoritma genetik,
teknik dengan pendekatan himpunan rough dan fuzzy). Klasifikasi merupakan teknik
mengklasifikasikan data. Perbedaannya dengan metode clustering terletak pada data, dimana pada
clustering variable dependen tidak ada, sedangkan pada classification diharuskan ada variable
dependen (David Hartato Kamagi, 2014).
Setiap teknik juga memiliki kelebihan dan kekurangannya sendiri. Data dengan profil tertentu
mungkin paling optimal jika diklasifikasi dengan teknik tertentu, atau dengan kata lain, profil data
tertentu dapat mendukung termanfaatkannya kelebihan dari teknik ini.
Gambar 2.1 Pengelompokkan Teknik Klasifikasi
Algoritma C4.5
Algoritma C4.5 merupakan pengembangan dari algoritma ID3. Algoritma C4.5 dan ID3 diciptakan
oleh seorang peneliti dibidang kecerdasan buatan bernama J. Rose Quinlan pada akhirtahun 197013
Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20
Copyright©2016 by LPPM UPI YPTK Padang
ISSN : 1412-5854
an. Algoritma C4.5 membuat pohon keputusan dari atas kebawah, dimana atribute paling atas
merupakan akar, dan yang paling bawah dinamakan daun. Beberapa pengembangan yang
dilakukan pada C.45 antaralain bisa mengatasi missing value, bias mengatasi continu data, dan
pruning (Fadillah, 2013).
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut. (
Kusrini & Luthfi, 2009 )
1. Pilih atribut sebagai akar.
2. Buat cabang untuk tiap-tiap nilai.
3. Bagi kasus dalam cabang.
4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang
sama.
Untuk memilih atribut akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada.
Untuk menghitung gain digunakan rumus seperti yang tertera dalam persamaan berikut.
Di mana :
S
: himpunan kasus
A
: atribut
N
: jumlah partisi atribut A
|Si|
: jumlah kasus pada partisi ke-i
|S|
: jumlah kasus dalam S
Sementara itu, perhitungan nilai entropi dapat dilihat pada persamaan 2 berikut.
Di mana :
S
: himpunan kasus
A
: fitur
N
: jumlah partisi S
pi
: proporsi dari Si terhadap S
1.
Metodologi Penelitian
Metodologi penelitian diperlukan sebagai kerangka dan panduan dalam melakukan proses
penelitian, sehingga penelitian yang dilakukan menjadi lebih terarah, teratur, dan sistematis.
Gambar 2.2 Kerangka Kerja Penelitian
14
Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20
Copyright©2016 by LPPM UPI YPTK Padang
3.
ISSN : 1412-5854
ANALISA DAN PERANCANGAN SISTEM
Analisa Teknik Pengolahan Data Menggunakan Algoritma C4.5
Data yang akan diolah mempunyai beberapa kriteria yang merupakan syarat dalam pengolahan
Data Mining dengan menggunakan teknik algoritma C4.5. Dimulai dengan perhitungan Entropy
dan Gain untuk menentukan akar (root) dari pohon keputusan, sampai terbentuk pohon keputusan
menganalisa jumlah pelanggan aktif.
Pemilihan Variabel
Adapun format data dari keputusan untuk menganalisa jumlah pelanggan aktif adalah sebagai
berikut :
a.
Jumlah Beli
b.
Jumlah Bayar
c.
Pembelian PerTahun
d.
Diskon
Variabel yang akan menjadi keputusan adalah AKTIF dan TIDAK AKTIF.
Melakuakan Pra-Proses
Berdasarkan variabel-variabel yang sudah terpilih, format data menjadi seperti tampak pada tabel
di bawah ini :
1. Mengelompokkan Jumlah Beli, pengelompokan jumlah beli berdasarkan banyak pelanggan
tersebut melakukan pembelian, sehingga jumlah beli dapat dikelompokkan seperti terlihat pada
tabel dibawah ini.
Tabel 2.1 Klasifikasi Jumlah Beli
Jumlah Beli
>100
>50-100
0-50
Klasifikasi
Banyak
Sedang
Sedikit
2. Mengelompokkan Jumlah Bayar, pengelompokan jumlah bayar berdasarkan pembayaran yang
dilakukan, sehingga jumlah bayar dapat dikelompokkan seperti terlihat pada tabel 2.2 dibawah ini.
Tabel 2.2 Klasifikasi Jumlah Bayar
15
Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20
Copyright©2016 by LPPM UPI YPTK Padang
Jumlah Bayar
>100jt
>50jt-100jt
0-50jt
ISSN : 1412-5854
Klasifikasi
Tinggi
Sedang
Rendah
3.
Mengelompokkan Pembelian PerTahun, pengelompokan pembelian pertahun berdasarkan
jumlah pembelian yang dilakukan dalam satu tahun, sehingga pembelian pertahun dapat dilihat
pada table 4.4 dibawah ini.
Tabel 2.3 Klasifikasi Pembelian PerTahun
Jumlah Bayar
Klasifikasi
>20jt
>10jt-20jt
0-10jt
Tinggi
Sedang
Rendah
4. Mengelompokkan Diskon, pengelompokan diskon berdasarkan jenis diskon yang diberikan,
sehingga diskon dapat dilihat pada table dibawah ini.
Tabel 2.4 Klasifikasi Diskon
Pembelian PerTahun
Klasifikasi
>100
>50-100
0-50
Banyak
Sedang
Sedikit
Format data akhir setelah dilakukan pra-proses tampak seperti tabel berikut ini :
Tabel 2.5 Format Data Akhir
16
Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20
Copyright©2016 by LPPM UPI YPTK Padang
ISSN : 1412-5854
Pohon Keputusan
Dalam pembuatan pohon keputusan, yang harus dilakukan adalah menghitung jumlah kasus,
jumlah kasus untuk keputusan “Aktif”, jumlah kasus untuk keputusan “Tidak Aktif” dan kasus
yang dibagi berdasarkan atribut Jumlah Beli, Jumlah Bayar, Pembelian Pertahun, dan Diskon.
Setelah itu, lakukan perhitungan gain untuk setiap atribut. Adapun langkah-langkah pembuatan
pohon keputusan adalah sebagai berikut :
Menghitung Nilai Entropy tiap-tiap atribut:
Entropy (Total)
Entropy (total) adalah menghitung nilai total keputusan aktif (5) dan tidak aktif (14), sedangkan 19
adalah jumlah keseluruhan kasus.
Menghitung Nilai Gain tiap-tiap atribut:
a. Gain (Total, Jumlah Beli)
( )
∑
((
|
|
|
(
|
)
(
)
(
)
))
17
Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20
Copyright©2016 by LPPM UPI YPTK Padang
b. Gain (Total, Jumlah Bayar)
( )
|
ISSN : 1412-5854
|
∑
|
((
)
c. Gain (Total, Pembelian Pertahun)
( )∑
(
|
( )
|
∑|
(
|
|
)
(
(
))
(
|
)
d. Gain (Total, Diskon)
)
)
|
|
((
((
(
|
)
)
(
(
))
)
))
18
Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20
Copyright©2016 by LPPM UPI YPTK Padang
ISSN : 1412-5854
JUMLAH BAYAR
sedang
Tinggi
PEMBELIAN PERTAHUN
sedang
Rendah
TIDAK AKTIF
TIDAK AKTIF
sedikit
AKTIF
DISKON
Tinggi
TIDAK AKTIF
Rendah
AKTIF
Gambar
Adapun aturan atau rule yang terbentuk berdasarkan pohon keputusan terakhir seperti pada gambar
4.4 di atas adalah sebagai berikut :
1.
Jika Jumlah Bayar = Sedang maka Pelanggan = Tidak Aktif
2.
Jika Jumlah Bayar = Rendah maka Pelanggan = Tidak Aktif
3.
Jika Jumlah Bayar = Tinggi dan Pembelian Pertahun = sedang maka Pelanggan = Aktif
4.
Jika Pembelian Pertahun = Sedikit dan Diskon = Tinggi maka Pelanggan = Tidak Aktif
5.
JIka Diskon = Rendah maka Pelanggan = Aktif
5.
KESIMPULAN DAN SARAN
Berdasarkan uraian pada bab-bab yang sudah dibahas sebelumnya dapat diambil beberapa
kesimpulan, yaitu :
1.
Pemilihan variabel Total Pembelian, Jumlah Barang dan PO Pertahun, dapat menjadi
kriteria penilaian terhadap pelanggan aktif dan tidak aktif dengan menggunakan Algoritma C4.5.
2.
Algoritma C4.5 dapat menghasilkan rule untuk menggambarkan proses yang terkait
dengan pelanggan aktif dan tidak aktif.
3.
Metode pohon keputusan yang diproses dengan WEKA lebih membantu perusahaan dalam
hal menganalisaa jumlah pelanggan aktif.
Saran
Mengingat keterbatasan yang dimiliki oleh penulis, baik pengetahuan, waktu,
maupun pemikiran, maka penulis dapat memberikan beberapa gambaran sebagai saran. Saran ini
dapat digunakan untuk reverensi di masa yang akan datang maupun untuk pengembangan lebih
lanjut mengenai analisa jumlah pelanggan aktif menggunakan Algoritma C4.5 adalah sebagai
berikut :
1.
Perlu adannya penambahan variabel tertentu yang dilakukan untuk menganalisa jumlah
pelanggan aktif, agar rule yang dihasilkan bisa lebih tepat lagi.
2.
Pada penelitian ini, penulis hanya mencoba salah satu teknik yaitu decision tree. Untuk
mendapatkan hasil yang lebih baik lagi, dapat digunakan beberapa teknik data mining lainnya.
3.
Dalam penelitian ini penulis hanya menggunakan software data mining WEKA, perlu
dilakukan perbandingan lebih lanjut terhadap software aplikasi data mining lainnya, seperti Rapid
Miner, Orange, dan lain-lain, guna melihat hasil dari pengolahan yang dilakukan terhadap software
yang digunakan.
19
Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20
Copyright©2016 by LPPM UPI YPTK Padang
ISSN : 1412-5854
DAFTAR PUSTAKA
Abidin, Zaenal. 2011. Implementsi Algoritma C4.5 Untuk Menentukan Tingkat Bahaya Tsunami.
Seminar Nasional Informatika 2011. ISSN: 1979-2328
Ersi, Yuni. 2014. Analysis CRM, Kepuasan Pelanggan Dan Loyalitas Produk UKM Berbasis
Bahan Baku Terigu di Jawa Timur. Jurnal manajemen pemasaran. Vol. 8, No. 1, April 2014. ISSN
1907-235X
Faradillah, Sarah. 2013. Implementasi Data Mining Untuk Pengenalan Karakteristik Transaksi
Customer Dengan Menggunakan Algoritma C4.5. ISSN : 2301-9425
Hartanto, Kamagi. 2014. Implementasi Data Mining Dengan Algoritma C4.5 Untuk Memprediksi
Tingkat Kelulusan Mahasiswa. ISSN 2085-4552.
Lorena, Silvia. 2014. Analisis dan Penerapan Algoritma C4.5 Dalam Data Mining Untuk
Memprediksi Masa Studi Mahasiswa Berdasarkan Data Nilai Akademik. Prosiding Seminar
Nasional Aplikasi Sains & Teknologi (SNAST) 2014 ISSN: 1979-911X.
Mandasari, Vina. 2011. Analisis Kepuasan Konsumen Terhadap Restoran Cepat Saji Melalui
Pendekatan Data Mining. Vol.6 No.1, Januari 2011
Sijabat, Alimancon. 2015. Penerapan Data Mining untuk Pengolahan Data Siswa dengan
Menggunakan Metode Decision Tree. Jurnal Informasi dan Teknologi Ilmiah. Volume 5 No 3.
ISSN : 2339-210X.
Suhartono, Entot. 2011. Prediksi perilaku loyalitas pelanggan dengan tehnik data mining decision
tree (Studi Kasus Pada Pelanggan Kartu Telkomsel Halo Di Semarang). Prestasi Vol.7 No.1, Juni
2011 ISSN 1411-1497.
Sulistyo, Yusuf. 2014. Penerapan Algoritma C4.5 Untuk Klasifikasi Predikat Kelulusan
Mahasiswa Fakultas Komunikasi Dan Informatika Universitas Muhammadiyah Surakarta.
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST 2014). ISSN : 1979-911X
Tampubolon, Kennedi. 2013. Implementasi Data Mining Algoritma Apriori Pada Sistem
Persediaan Alat-Alat Kesehatan.Issn : 2339-210X
Wajhillah, Rusda. 2014. Optimasialgoritma Klasifikasi C4.5 Berbasis Particle Swarm
Optimization Untuk Prediksi Penyakit Jantung. SWABUMI VOL I No.1, September 2014
20
Download