Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20 Copyright©2016 by LPPM UPI YPTK Padang ISSN : 1412-5854 PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA C4.5 Annisak Izzaty Jamhur Universitas Putera Indonesia YPTK Padang e-mail: [email protected] Abstract Penelitian ini dilakukan untuk menganalisa jumlah pelanggan aktif di PT. Multi Daya Prima, dengan menggunakan teknik Data Mining. Algoritma C4.5 merupakan teknik Data Mining yang dapat digunakan untuk menganalisa jumlah pelanggan aktif dengan mengolah variabel PO Pertahun, Diskon, Jumlah Barang, Total Pembelian. Variabel tersebut diklasifikasikan untuk selanjutnya dilakukan pengolahan data. Hasil dari pengolahan Algoritma C4.5 ini akan membentuk pohon keputusan (decision tree). Pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan (rule). Hasil yang dicapai adalah aturan-aturan yang dapat digunakan untuk menggambarkan proses yang terkait dengan pelanggan aktif. Karakteristik data yang diklasifikasi dapat diperoleh dengan jelas, baik dalam bentuk struktur pohon keputusan maupun aturan sehingga dalam tahap pengujian dapat membantu dalam menganalisa jumlah pelanggan aktif. Kata Kunci :Data Mining, Algoritma C4.5, Pohon Keputusan, Pelanggan Aktif 1. PENDAHULUAN Latar Belakang Masalah Ketatnya persaingan antara perusahaan dalam era ekonomi global seperti sekarang ini, menuntut perusahaan untuk selalu menjadi yang terdepan dan terbaik dalam memberikan pelayanan yang dapat memuaskan konsumen. Kepuasan pelanggan merupakan suatu penilaian bahwa produk atau jasa telah memenuhi kriteria kebutuhan dan harapan pelanggan. Kegagalan untuk memenuhi kebutuhan dan harapan pelanggan dapat menghasilkan ketidakpuasan pelanggan terhadap produk atau jasa. Kepuasan pelanggan adalah perasaan senang atau kecewa seorang yang merupakan hasil dari perbandingan dari persepsi kinerja produk dan harapannya. Kesetiaan pelanggan terhadap suatu perusahaan sangat perlu dipertahankan dan ditingkatkan. Ini berarti, kepuasan pelanggan merupakan awal dari terciptanya kepercayaan pelanggan tersebut terhadap perusahaan. Selain itu, untuk meningkatkan kepuasan, perusahaan harus menambah nilai yang dapat membuat para pelanggannya mendapatkan apa yang mereka bayar atau lebih dari yang mereka harapkan, sehingga mereka dapat bertahan dan mengarah pada pembelian ulang, perekomendasian, dan perekomendasian yang meningkat. Hal ini sangat diperlukan, karena dengan mengetahui tingkat kepuasan pelanggan, secara otomatis pelanggan tersebut akan menjadi pelanggansetia diperusahaan dan menjadi pelanggan aktif yang berbelanja di perusahaan. Dengan mengetahui pelanggan aktif, perusahaan dapat mengetahui pendapatan tetap setiap periodenya. Untuk itu perlu adanya pengolahan data tentangpelanggan aktif, sehingga diketahui jumlah pelanggan aktif setiap periode tertentu. Jika jumlah pelanggan aktif bertambah maka diperlukan strategi untuk mempertahankan dan meningkatkan jumlahnya. Jika jumlah pelanggan aktif menurun, maka diperlukan strategi lain untuk meningkatkan jumlahnya. 12 Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20 Copyright©2016 by LPPM UPI YPTK Padang ISSN : 1412-5854 2. LANDASAN TEORI Knowledge Discovery in Database (KDD) Knowledge Discovery in Database (KDD) didefinisikan sebagai ekstraksi informasi potensial, implicit dan tidak dikenal dari sekumpulan data. Proses Knowledge Discovery in Database melibatkan hasil proses Data Mining (proses pengekstrak kecenderungan suatu pola data), kemudian mengubah hasilnya secara akurat menjadi informasi yang mudah dipahami (Sri Andayani, 2010). Perusahaan memerlukan kecerdasan bisnis untuk mengembangkan proses bisnis, memonitor waktu, biaya kualitas, dan pengendalian. Kecerdasan bisnis merupakan proses pengubahan data menjadi informasi. Dari kumpulan informasi yang ada akan diambil polanya menjadi pengetahuan. Tujuan kecerdasan bisnis adalah untuk mengubah data yang sangat banyak menjadi nilai bisnis melalui laporan analistik (Kusrini dan Emha Taufiq Luthfi, 2009). Data Mining Data Mining adalah kegiatan yang meliputi pengumpulan, pemakaian data historis yang menentukan keteraturan, pola, dan hubungan dalam set data berukuran besar (Selvia Lorena,2014). Definisi lain Data Mining adalah proses yang memperkerjakan satu atau lebih teknik pembelajaran komputer untuk menganalisis dan mengekstrak pengetahuan secara otomatis atau serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual (Alimancon Sijabat, 2015). Klasifikasi Teknik klasifikasi adalah pendekatan sistematis untuk membangun model klasifikasi dari kumpulan data masukan. Misalnya, teknik pohon keputusan, Bayesian (Naive Bayesian dan Bayesian Belief Networks), Jaringan Saraf Tiruan (Backpropagation), teknik yang berbasis konsep dari penambangan aturan-aturan asosiasi, dan teknik lain (K-Nearest Neighboor, algoritma genetik, teknik dengan pendekatan himpunan rough dan fuzzy). Klasifikasi merupakan teknik mengklasifikasikan data. Perbedaannya dengan metode clustering terletak pada data, dimana pada clustering variable dependen tidak ada, sedangkan pada classification diharuskan ada variable dependen (David Hartato Kamagi, 2014). Setiap teknik juga memiliki kelebihan dan kekurangannya sendiri. Data dengan profil tertentu mungkin paling optimal jika diklasifikasi dengan teknik tertentu, atau dengan kata lain, profil data tertentu dapat mendukung termanfaatkannya kelebihan dari teknik ini. Gambar 2.1 Pengelompokkan Teknik Klasifikasi Algoritma C4.5 Algoritma C4.5 merupakan pengembangan dari algoritma ID3. Algoritma C4.5 dan ID3 diciptakan oleh seorang peneliti dibidang kecerdasan buatan bernama J. Rose Quinlan pada akhirtahun 197013 Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20 Copyright©2016 by LPPM UPI YPTK Padang ISSN : 1412-5854 an. Algoritma C4.5 membuat pohon keputusan dari atas kebawah, dimana atribute paling atas merupakan akar, dan yang paling bawah dinamakan daun. Beberapa pengembangan yang dilakukan pada C.45 antaralain bisa mengatasi missing value, bias mengatasi continu data, dan pruning (Fadillah, 2013). Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut. ( Kusrini & Luthfi, 2009 ) 1. Pilih atribut sebagai akar. 2. Buat cabang untuk tiap-tiap nilai. 3. Bagi kasus dalam cabang. 4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama. Untuk memilih atribut akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti yang tertera dalam persamaan berikut. Di mana : S : himpunan kasus A : atribut N : jumlah partisi atribut A |Si| : jumlah kasus pada partisi ke-i |S| : jumlah kasus dalam S Sementara itu, perhitungan nilai entropi dapat dilihat pada persamaan 2 berikut. Di mana : S : himpunan kasus A : fitur N : jumlah partisi S pi : proporsi dari Si terhadap S 1. Metodologi Penelitian Metodologi penelitian diperlukan sebagai kerangka dan panduan dalam melakukan proses penelitian, sehingga penelitian yang dilakukan menjadi lebih terarah, teratur, dan sistematis. Gambar 2.2 Kerangka Kerja Penelitian 14 Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20 Copyright©2016 by LPPM UPI YPTK Padang 3. ISSN : 1412-5854 ANALISA DAN PERANCANGAN SISTEM Analisa Teknik Pengolahan Data Menggunakan Algoritma C4.5 Data yang akan diolah mempunyai beberapa kriteria yang merupakan syarat dalam pengolahan Data Mining dengan menggunakan teknik algoritma C4.5. Dimulai dengan perhitungan Entropy dan Gain untuk menentukan akar (root) dari pohon keputusan, sampai terbentuk pohon keputusan menganalisa jumlah pelanggan aktif. Pemilihan Variabel Adapun format data dari keputusan untuk menganalisa jumlah pelanggan aktif adalah sebagai berikut : a. Jumlah Beli b. Jumlah Bayar c. Pembelian PerTahun d. Diskon Variabel yang akan menjadi keputusan adalah AKTIF dan TIDAK AKTIF. Melakuakan Pra-Proses Berdasarkan variabel-variabel yang sudah terpilih, format data menjadi seperti tampak pada tabel di bawah ini : 1. Mengelompokkan Jumlah Beli, pengelompokan jumlah beli berdasarkan banyak pelanggan tersebut melakukan pembelian, sehingga jumlah beli dapat dikelompokkan seperti terlihat pada tabel dibawah ini. Tabel 2.1 Klasifikasi Jumlah Beli Jumlah Beli >100 >50-100 0-50 Klasifikasi Banyak Sedang Sedikit 2. Mengelompokkan Jumlah Bayar, pengelompokan jumlah bayar berdasarkan pembayaran yang dilakukan, sehingga jumlah bayar dapat dikelompokkan seperti terlihat pada tabel 2.2 dibawah ini. Tabel 2.2 Klasifikasi Jumlah Bayar 15 Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20 Copyright©2016 by LPPM UPI YPTK Padang Jumlah Bayar >100jt >50jt-100jt 0-50jt ISSN : 1412-5854 Klasifikasi Tinggi Sedang Rendah 3. Mengelompokkan Pembelian PerTahun, pengelompokan pembelian pertahun berdasarkan jumlah pembelian yang dilakukan dalam satu tahun, sehingga pembelian pertahun dapat dilihat pada table 4.4 dibawah ini. Tabel 2.3 Klasifikasi Pembelian PerTahun Jumlah Bayar Klasifikasi >20jt >10jt-20jt 0-10jt Tinggi Sedang Rendah 4. Mengelompokkan Diskon, pengelompokan diskon berdasarkan jenis diskon yang diberikan, sehingga diskon dapat dilihat pada table dibawah ini. Tabel 2.4 Klasifikasi Diskon Pembelian PerTahun Klasifikasi >100 >50-100 0-50 Banyak Sedang Sedikit Format data akhir setelah dilakukan pra-proses tampak seperti tabel berikut ini : Tabel 2.5 Format Data Akhir 16 Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20 Copyright©2016 by LPPM UPI YPTK Padang ISSN : 1412-5854 Pohon Keputusan Dalam pembuatan pohon keputusan, yang harus dilakukan adalah menghitung jumlah kasus, jumlah kasus untuk keputusan “Aktif”, jumlah kasus untuk keputusan “Tidak Aktif” dan kasus yang dibagi berdasarkan atribut Jumlah Beli, Jumlah Bayar, Pembelian Pertahun, dan Diskon. Setelah itu, lakukan perhitungan gain untuk setiap atribut. Adapun langkah-langkah pembuatan pohon keputusan adalah sebagai berikut : Menghitung Nilai Entropy tiap-tiap atribut: Entropy (Total) Entropy (total) adalah menghitung nilai total keputusan aktif (5) dan tidak aktif (14), sedangkan 19 adalah jumlah keseluruhan kasus. Menghitung Nilai Gain tiap-tiap atribut: a. Gain (Total, Jumlah Beli) ( ) ∑ (( | | | ( | ) ( ) ( ) )) 17 Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20 Copyright©2016 by LPPM UPI YPTK Padang b. Gain (Total, Jumlah Bayar) ( ) | ISSN : 1412-5854 | ∑ | (( ) c. Gain (Total, Pembelian Pertahun) ( )∑ ( | ( ) | ∑| ( | | ) ( ( )) ( | ) d. Gain (Total, Diskon) ) ) | | (( (( ( | ) ) ( ( )) ) )) 18 Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20 Copyright©2016 by LPPM UPI YPTK Padang ISSN : 1412-5854 JUMLAH BAYAR sedang Tinggi PEMBELIAN PERTAHUN sedang Rendah TIDAK AKTIF TIDAK AKTIF sedikit AKTIF DISKON Tinggi TIDAK AKTIF Rendah AKTIF Gambar Adapun aturan atau rule yang terbentuk berdasarkan pohon keputusan terakhir seperti pada gambar 4.4 di atas adalah sebagai berikut : 1. Jika Jumlah Bayar = Sedang maka Pelanggan = Tidak Aktif 2. Jika Jumlah Bayar = Rendah maka Pelanggan = Tidak Aktif 3. Jika Jumlah Bayar = Tinggi dan Pembelian Pertahun = sedang maka Pelanggan = Aktif 4. Jika Pembelian Pertahun = Sedikit dan Diskon = Tinggi maka Pelanggan = Tidak Aktif 5. JIka Diskon = Rendah maka Pelanggan = Aktif 5. KESIMPULAN DAN SARAN Berdasarkan uraian pada bab-bab yang sudah dibahas sebelumnya dapat diambil beberapa kesimpulan, yaitu : 1. Pemilihan variabel Total Pembelian, Jumlah Barang dan PO Pertahun, dapat menjadi kriteria penilaian terhadap pelanggan aktif dan tidak aktif dengan menggunakan Algoritma C4.5. 2. Algoritma C4.5 dapat menghasilkan rule untuk menggambarkan proses yang terkait dengan pelanggan aktif dan tidak aktif. 3. Metode pohon keputusan yang diproses dengan WEKA lebih membantu perusahaan dalam hal menganalisaa jumlah pelanggan aktif. Saran Mengingat keterbatasan yang dimiliki oleh penulis, baik pengetahuan, waktu, maupun pemikiran, maka penulis dapat memberikan beberapa gambaran sebagai saran. Saran ini dapat digunakan untuk reverensi di masa yang akan datang maupun untuk pengembangan lebih lanjut mengenai analisa jumlah pelanggan aktif menggunakan Algoritma C4.5 adalah sebagai berikut : 1. Perlu adannya penambahan variabel tertentu yang dilakukan untuk menganalisa jumlah pelanggan aktif, agar rule yang dihasilkan bisa lebih tepat lagi. 2. Pada penelitian ini, penulis hanya mencoba salah satu teknik yaitu decision tree. Untuk mendapatkan hasil yang lebih baik lagi, dapat digunakan beberapa teknik data mining lainnya. 3. Dalam penelitian ini penulis hanya menggunakan software data mining WEKA, perlu dilakukan perbandingan lebih lanjut terhadap software aplikasi data mining lainnya, seperti Rapid Miner, Orange, dan lain-lain, guna melihat hasil dari pengolahan yang dilakukan terhadap software yang digunakan. 19 Majalah Ilmiah, Vol. 23, No. 2, Oktober 2016, Hal. 12-20 Copyright©2016 by LPPM UPI YPTK Padang ISSN : 1412-5854 DAFTAR PUSTAKA Abidin, Zaenal. 2011. Implementsi Algoritma C4.5 Untuk Menentukan Tingkat Bahaya Tsunami. Seminar Nasional Informatika 2011. ISSN: 1979-2328 Ersi, Yuni. 2014. Analysis CRM, Kepuasan Pelanggan Dan Loyalitas Produk UKM Berbasis Bahan Baku Terigu di Jawa Timur. Jurnal manajemen pemasaran. Vol. 8, No. 1, April 2014. ISSN 1907-235X Faradillah, Sarah. 2013. Implementasi Data Mining Untuk Pengenalan Karakteristik Transaksi Customer Dengan Menggunakan Algoritma C4.5. ISSN : 2301-9425 Hartanto, Kamagi. 2014. Implementasi Data Mining Dengan Algoritma C4.5 Untuk Memprediksi Tingkat Kelulusan Mahasiswa. ISSN 2085-4552. Lorena, Silvia. 2014. Analisis dan Penerapan Algoritma C4.5 Dalam Data Mining Untuk Memprediksi Masa Studi Mahasiswa Berdasarkan Data Nilai Akademik. Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 ISSN: 1979-911X. Mandasari, Vina. 2011. Analisis Kepuasan Konsumen Terhadap Restoran Cepat Saji Melalui Pendekatan Data Mining. Vol.6 No.1, Januari 2011 Sijabat, Alimancon. 2015. Penerapan Data Mining untuk Pengolahan Data Siswa dengan Menggunakan Metode Decision Tree. Jurnal Informasi dan Teknologi Ilmiah. Volume 5 No 3. ISSN : 2339-210X. Suhartono, Entot. 2011. Prediksi perilaku loyalitas pelanggan dengan tehnik data mining decision tree (Studi Kasus Pada Pelanggan Kartu Telkomsel Halo Di Semarang). Prestasi Vol.7 No.1, Juni 2011 ISSN 1411-1497. Sulistyo, Yusuf. 2014. Penerapan Algoritma C4.5 Untuk Klasifikasi Predikat Kelulusan Mahasiswa Fakultas Komunikasi Dan Informatika Universitas Muhammadiyah Surakarta. Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST 2014). ISSN : 1979-911X Tampubolon, Kennedi. 2013. Implementasi Data Mining Algoritma Apriori Pada Sistem Persediaan Alat-Alat Kesehatan.Issn : 2339-210X Wajhillah, Rusda. 2014. Optimasialgoritma Klasifikasi C4.5 Berbasis Particle Swarm Optimization Untuk Prediksi Penyakit Jantung. SWABUMI VOL I No.1, September 2014 20