data mining dengan metode fuzzy untuk customer

advertisement
TESIS
DATA MINING DENGAN METODE FUZZY
UNTUK CUSTOMER RELATIONSHIP MANAGEMENT
(CRM) PADA PERUSAHAAN RETAIL
YOHANA NUGRAHENI
PROGRAM PASCASARJANA
UNIVERSITAS UDAYANA
DENPASAR
2011
TESIS
DATA MINING DENGAN METODE FUZZY
UNTUK CUSTOMER RELATIONSHIP MANAGEMENT
(CRM) PADA PERUSAHAAN RETAIL
YOHANA NUGRAHENI
NIM 0991761018
PROGRAM MAGISTER
PROGRAM STUDI TEKNIK ELEKTRO
PROGRAM PASCASARJANA
UNIVERSITAS UDAYANA
DENPASAR
2011
ii DATA MINING DENGAN METODE FUZZY
UNTUK CUSTOMER RELATIONSHIP MANAGEMENT (CRM)
PADA PERUSAHAAN RETAIL
Tesis untuk Memperoleh Gelar Magister
pada Program Magister, Program Studi Teknik Elektro,
Program Pascasarjana Universitas Udayana
YOHANA NUGRAHENI
NIM 0991761018
PROGRAM MAGISTER
PROGRAM STUDI TEKNIK ELEKTRO
PROGRAM PASCASARJANA
UNIVERSITAS UDAYANA
DENPASAR
2011
iii Lembar Pengesahan
Tesis Ini Telah Disetujui
Tanggal 19 Juli 2011
Pembimbing I,
Pembimbing II,
Dr. IKG Darma Putra, S.Kom., MT.
NIP. 197404241999031003
Ir. Linawati, M.Eng.Sc., Ph.D
NIP. 196608241991032001
Mengetahui
Ketua Program Magister,
Program Studi Teknik Elektro
Program Pascasarjana
Universitas Udayana
Direktur
Program Pascasarjana
Universitas Udayana
Prof.Ir.I.A.Dwi Giriantari, M.EngSc., Ph.D
NIP. 196512131991032001
Prof.Dr.dr.A.A.Raka Sudewi,Sp.S(K)
NIP. 195902151985102001
iv Tesis Ini Telah Diuji dan Dinilai
Tanggal 18 Juli 2011
Panitia Penguji Tesis Berdasarkan SK Direktur Program Pascasarjana
Universitas Udayana, No : 088/UN14.4/TU/TE/2011, Tanggal 11 Juli 2011
Panitia Penguji Tesis :
Ketua
: Dr. IKG Darma Putra, S.Kom., MT.
Anggota
:
1.
Ir. Linawati, M.Eng.Sc., Ph.D
2. Prof.Ir.Ida Ayu Dwi Giriantari, M.EngSc., Ph.D
3. Prof. Ir. Rukmi Sri Hartati, MT., Ph.D
4. Ni. Made Ary Esta Dewi Wirastuti, S.T., M.Sc., Ph.D
PERNYATAAN KEASLIAN KARYA TULIS TESIS
Dengan ini saya menyatakan bahwa dalam tesis ini tidak terdapat karya
tulis yang pernah diajukan untuk memperoleh gelar kesarjanaan di suatu
perguruan tinggi, dan sepanjang pengetahuan saya tidak terdapat karya atau
pendapat yang pernah ditulis atau diterbitkan orang lain, kecuali yang secara
tertulis diacu dalam naskah ini dan disebutkan dalam daftar pustaka.
Apabila kemudian hari terbukti bahwa saya melakukan tindakan menyalin
atau meniru tulisan orang lain sebagai hasil pemikiran saya sendiri, maka gelar
dan ijasah yang telah diberikan oleh universitas batal saya terima.
Denpasar, 19 Juli 2011
Yang menyatakan
Yohana Nugraheni
ii ABSTRAK
DATA MINING DENGAN METODE FUZZY
UNTUK CUSTOMER RELATIONSHIP MANAGEMENT (CRM) PADA
PERUSAHAAN RETAIL
Konsumen merupakan aset yang sangat penting bagi perusahaan retail. Hal ini
adalah alasan mengapa perusahaan retail harus merencanakan dan menggunakan strategi
yang cukup jelas dalam memperlakukan konsumen. Dengan banyaknya jumlah konsumen
yang dimiliki oleh suatu perusahaan retail, maka masalah yang harus dihadapi adalah
bagaimana menentukan konsumen potensial. Dengan menerapkan konsep CRM
(Customer Relationship Management), perusahaan dapat melakukan identifikasi
konsumen potensial dengan melakukan segmentasi konsumen. Tujuan dari proses
segmentasi konsumen adalah untuk mengetahui perilaku konsumen dan menerapkan
strategi pemasaran yang tepat sehingga mendatangkan keuntungan bagi pihak
perusahaan.
Penelitian ini membahas tentang bagaimana proses data mining dari data
konsumen di UD. Fenny, yaitu perusahaan retail yang khusus menjual bahan dan
peralatan membuat kue yang berlokasi di Jalan Nakula, Denpasar. Proses data mining ini
menggunakan data yang berasal dari data penjualan pada UD. Fenny dan bertujuan untuk
mencari konsumen potensial. Proses data mining dimulai dengan melakukan proses
clustering menggunakan algoritma Fuzzy C-Means (FCM) dan Fuzzy Subtractive (FS)
Clustering. Pada FCM jumlah cluster ditentukan, sedangkan pada FS, jumlah cluster
tidak ditentukan, melainkan diperoleh melalui proses iterasi berdasarkan nilai radii. Hasil
clustering dari masing-masing metode tersebut digunakan untuk melakukan segmentasi
menggunakan model Fuzzy RFM untuk mendapatkan kelas konsumen. Model Fuzzy
RFM menggabungkan teori himpunan fuzzy dengan model RFM, yaitu model segmentasi
berdasarkan atribut Recency, Frequency dan Monetary. Model RFM merupakan model
segmentasi yang umum digunakan pada perusahaan retail.
Aplikasi data mining dibangun berbasis GUI menggunakan MATLAB versi
7.10.0 dan memanfaatkan beberapa toolbox yaitu Fuzzy Logic Toolbox dan Database
Toolbox. Uji coba dilakukan terhadap data penjualan pada tahun 2008. Dari uji coba ini
dilakukan analisis terhadap validitas algoritma clustering yang digunakan. Metode
pengukuran indeks validitas cluster yang digunakan adalah Modified Partition Coefficient
(MPC) dan Classification Entropy (CE). Dari kedua metode ini diperoleh hasil bahwa
algoritma FCM lebih baik dibandingkan FS. Selain untuk mengukur validitas cluster,
MPC dan CE digunakan juga untuk menentukan jumlah cluster terbaik. Dari hasil
penelitian, jumlah cluster yang optimal untuk kedua metode clustering adalah 2. Jika
diterapkan pada proses segmentasi, segmentasi dari hasil FS tidak dapat mengidentifikasi
konsumen potensial, sedangkan jika menggunakan FCM identifikasi terhadap konsumen
potensial didapatkan pada proses clustering dengan 2 cluster. Sehingga dapat
disimpulkan bahwa algoritma FS kurang mendukung proses data mining pada perusahaan
retail
Kata kunci : data mining, Fuzzy C-Means, Fuzzy Subtractive, clustering, segmentasi,
RFM, Modified Partition Coefficient, Classification Entropy, validitas cluster, Customer
Relationship Management
iii ABSTRACT
DATA MINING USING FUZZY METHOD
FOR CUSTOMER RELATIONSHIP MANAGEMENT (CRM)
IN RETAIL INDUSTRY
Customers are the most important asset of a retail industry. That is why a retail
industry should plan and employ a clear strategy for treating customers. A problem that
appears in a retail industry with a great quantity of customers is how to identify potential
customers. A retail industry could identify their best customer through customer
segmentation by applying Customer Relationship Management (CRM) concept. The
objective of customer segmentation is to understand the customer’s behavior and apply
the appropriate marketing strategy in order to make a retail industry profitable.
This research presents data mining process from customer’s data in UD. Fenny,
a retail industry located in Nakula street, Denpasar which specially sells baking
ingredients and equipment. The data mining process uses data that derived from sales
data in UD Fenny and aims to look for potential customers. Data mining process begins
with clustering process using Fuzzy C-Means (FCM) and Fuzzy Subtractive (FS)
Clustering algorithm. On FCM, the cluster number needs to be determined. While on FS,
the cluster number obtained through the iteration process based on the radii. The
clustering result from each method is used for the segmentation process using Fuzzy RFM
model to obtain customer class. Fuzzy RFM model combines the fuzzy set theory with
RFM model, the segmentation model based on Recency, Frequency, and Monetary
attribute. RFM model is a segmentation model that commonly used in retail industries.
The data mining application was built based on GUI using MATLAB version
7.10.0 and utilized Fuzzy Logic and Database Toolbox. The trial was performed on sales
data in 2008. In this trial, the cluster validity from FCM and FS has been evaluated using
Modified Partition Coefficient (MPC) and Classification Entropy (CE). The comparative
study shows that FCM has a better performance than FS and the optimal cluster number
for both clustering method is 2. Segmentation process from FS clustering result fails to
identify the potential customer. While, segmentation process from FCM clustering result
successfully identify the potential customer with 2 cluster number. So, it can be concluded
from this research that FS clustering method is less supportive for data mining process in
retail industry.
Keywords: data mining, Fuzzy C-Means, Fuzzy Subtractive, clustering, segmentation,
RFM, Modified Partition Coefficient, Classification Entropy,cluster validity, Customer
Relationship Management
iv KATA PENGANTAR
Puji syukur penulis panjatkan kepada Tuhan Yesus Kristus, karena atas
kasih dan anugerahNya tesis yang berjudul “DATA MINING DENGAN
METODE FUZZY UNTUK CUSTOMER RELATIONSHIP MANAGEMENT
(CRM) PADA PERUSAHAAN RETAIL” ini dapat diselesaikan.
Penulis menyadari bahwa tanpa dukungan dari banyak pihak, tesis ini
tidak akan terselesaikan dengan baik. Untuk itu, dengan kesempatan ini penulis
ingin menyampaikan penghargaan dan rasa terima kasih yang sebesar-besarnya
kepada :
1. Prof. Dr. dr. A. A.Raka Sudewi, Sp.S(K) sebagai Direktur Pascasarjana
Universitas Udayana,
2. Prof. Ir. Ida Ayu Dwi Giriantari, M.EngSc., Ph.D sebagai Ketua Program
Magister, Program Studi Teknik Elektro, Program Pascasarjana Universitas
Udayana.
3. Dr. I Ketut Gede Darma Putra, S.Kom., MT sebagai pembimbing I atas waktu
dan kesediaan untuk memberikan ilmu, ide, masukan, dan saran kepada
penulis.
4. Ir. Linawati, M.Eng.Sc., Ph.D sebagai pembimbing II.
5. A.A. Oka Sudana, S.Kom, MT sebagai pembimbing pendamping
6. Bapak dan Ibu dosen pengajar di Program Magister Teknik Elektro yang telah
membagikan ilmu kepada penulis.
7. Suami tercinta Putu Denny Arsana dan putri tersayang Putu Kania Irene
Arsana yang telah memberikan dukungan dan semangat untuk menyelesaikan
studi S2.
8. Pdt. Dr. Budyo Pantoro dan ibu, Bapak Ketut Sudiasa dan ibu, atas dukungan
doanya.
v 9. Teman-teman seperjuangan di Program Magister Teknik Elektro, Gung
Ariana, Mbok Tini, Mbok Trisna, Roy, Indah, Ayu Wirdi dan teman-teman
lainnya yang tidak dapat penulis sebutkan satu per satu, atas semangat dan
keceriaan yang telah dibagikan selama menjalani perkuliahan di S2 Elektro.
Penulis menyadari bahwa tesis yang dibuat dengan segenap kemampuan
ini memiliki kekurangan. Harapan penulis, semoga karya kecil ini dapat
memberikan sumbangsih pada kemajuan dunia ilmu pengetahuan dan pendidikan.
Juli, 2011
Penulis
vi DAFTAR ISI
Halaman
SAMPUL DALAM .................................................................................................. i
PRASYARAT GELAR........................................................................................... ii
LEMBAR PERSETUJUAN................................................................................... iii
PENETAPAN PANITIA PENGUJI ..................................................................... iv
PERNYATAAN KEASLIAN KARYA TULIS TESIS.......................................... v
ABSTRAK ............................................................................................................. vi
ABSTRACT ............................................................................................................ vii
KATA PENGANTAR ......................................................................................... viii
DAFTAR ISI ........................................................................................................... x
DAFTAR TABEL ................................................................................................. xii
DAFTAR GAMBAR ........................................................................................... xiv
BAB I PENDAHULUAN ...................................................................................... 1
1.1 Latar Belakang ...................................................................................... 1
1.2 Rumusan Masalah ................................................................................. 4
1.3 Batasan Penelitian ................................................................................. 4
1.4 Tujuan Penelitian................................................................................... 5
1.5 Keaslian Penelitian ................................................................................ 5
BAB II KAJIAN PUSTAKA DAN LANDASAN TEORI................................... 7
2.1 Kajian Pustaka...................................................................................... 7
2.2 Data Warehouse ................................................................................. 12
2.3 Data Mining ....................................................................................... 15
2.2.1 Tugas Data Mining .................................................................. 17
2.2.2 CRISP-DM............................................................................... 19
2.3 Customer Relationship Management (CRM)..................................... 22
2.3.1 Teknologi CRM ....................................................................... 23
2.3.2 Data Mining dalam Kerangka CRM ........................................ 25
2.4 Himpunan Fuzzy................................................................................. 27
vii 2.5 Clustering ........................................................................................... 28
2.5.1 Hard Clustering dan Fuzzy Clustering .................................... 29
2.5.2 Metode Fuzzy C-Means Clustering.......................................... 30
2.5.3 Metode Fuzzy Subtractive Clustering ...................................... 31
2.5 Ukuran Validitas Cluster.................................................................... 34
2.6 Metode Klasifikasi Fuzzy RFM.......................................................... 36
BAB III METODOLOGI DAN RANCANGAN............................................... 42
3.1 Rancangan Penelitian .......................................................................... 42
3.2 Tempat dan Waktu Penelitian ............................................................. 55
3.3 Sumber Data ........................................................................................ 55
3.4 Instrumen Penelitian............................................................................ 56
3.5 Jadwal Penelitian................................................................................. 56
BAB IV IMPLEMENTASI................................................................................ 57
4.1 Implementasi Data Warehouse ........................................................... 57
4.2 Implementasi Data Mining.................................................................. 59
4.2.1 Implementasi Clustering
dengan Algoritma Fuzzy C-Means ........................................... 60
4.2.2 Implementasi Clustering
dengan Algoritma Fuzzy Subtractive ....................................... 65
4.2.3 Implementasi Segmentasi dengan Model Fuzzy RFM.............. 69
4.2.4 Implementasi Perbandingan Kelas Konsumen ......................... 75
BAB V HASIL PENELITIAN DAN PEMBAHASAN .................................... 79
5.1 Hasil Uji Coba ..................................................................................... 79
5.1.1 Algoritma Fuzzy C-Means (FCM) Clustering .......................... 79
5.1.2 Algoritma Fuzzy Subtractive (FS) Clustering........................... 93
5.2 Analisis Cluster ................................................................................. 108
BAB VI KESIMPULAN.................................................................................. 124
DAFTAR PUSTAKA ......................................................................................... 126
viii DAFTAR TABEL
Halaman
Tabel 2.1 Penelitian yang Telah Dilakukan........................................................ 11
Tabel 2.2 Definisi Kelas dan Nilai (Score) dalam Metode Sharp RFM............. 39
Tabel 2.3 Penilaian Konsumen Berdasarkan Metode Sharp RFM..................... 40
Tabel 2.4 Penilaian Konsumen Berdasarkan Metode Fuzzy RFM.................... 40
Tabel 3.1 Tabel Customer .................................................................................. 44
Tabel 3.2 Tabel Barang ..................................................................................... 44
Tabel 3.3 Tabel Master Penjualan ...................................................................... 44
Tabel 3.4 Tabel Detil Penjualan ......................................................................... 45
Tabel 3.5 Tabel Master Piutang.......................................................................... 45
Tabel 3.6 Tabel Detil Piutang............................................................................. 45
Tabel 3.7 Data Parsial dari Database UD. Fenny ............................................. 47
Tabel 3.8 Domain Nilai Untuk Masing-Masing Himpunan Fuzzy..................... 49
Tabel 3.9 Deskripsi Variabel Linguistik dan Label Konsumen ...................... 52
Tabel 3.10 Pembagian Superstar Customer ......................................................... 53
Tabel 3.11 Pembagian Golden Customer ............................................................. 54
Tabel 3.12 Pembagian Everyday Customer.......................................................... 54
Tabel 3.13 Pembagian Occational Customer ....................................................... 54
Tabel 3.14 Pembagian Dormant Customer .......................................................... 54
Tabel 3.15 Jadwal Penelitian ................................................................................ 55
Tabel 5.1 Koordinat Titik Pusat Cluster (Jumlah Cluster = 2).......................... 80
Tabel 5.2 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 2) ...................... 81
Tabel 5.3 Koordinat Titik Pusat Cluster (Jumlah Cluster = 3).......................... 83
Tabel 5.4 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 3) ...................... 83
Tabel 5.5 Koordinat Titik Pusat Cluster (Jumlah Cluster = 4).......................... 85
Tabel 5.6 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 4) ...................... 86
Tabel 5.7 Koordinat Titik Pusat Cluster (Jumlah Cluster = 5).......................... 88
Tabel 5.8 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 5) ...................... 89
Tabel 5.9 Koordinat Titik Pusat Cluster (Jumlah Cluster = 6).......................... 91
Tabel 5.10 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 6) ...................... 92
Tabel 5.11 Koordinat Titik Pusat Cluster (Radii=0.5)......................................... 95
ix Tabel 5.12 Kelas Konsumen Setiap Cluster (Radii=0.5, Jumlah Cluster = 2).... 95
Tabel 5.13 Koordinat Titik Pusat Cluster (Radii=0.22)....................................... 97
Tabel 5.14 Kelas Konsumen Setiap Cluster
(Radii=0.22, Jumlah Cluster = 3) ...................................................... 98
Tabel 5.15 Koordinat Titik Pusat Cluster (Radii=0.15)..................................... 100
Tabel 5.16 Kelas Konsumen Setiap Cluster
(Radii=0.15, Jumlah Cluster = 4) .................................................... 100
Tabel 5.17 Koordinat Titik Pusat Cluster (Radii=0.1)....................................... 103
Tabel 5.18 Kelas Konsumen Setiap Cluster
(Radii=0.1, Jumlah Cluster = 5) ...................................................... 104
Tabel 5.19 Koordinat Titik Pusat Cluster (Radii=0.09)..................................... 106
Tabel 5.20 Kelas Konsumen Setiap Cluster
(Radii=0.09, Jumlah Cluster = 6) .................................................... 106
Tabel 5.21 Indeks MPC dan CE pada Algoritma FCM dan FS Clustering ....... 108
Tabel 5.22 Perbandingan Kelas Konsumen Per Tahun ..................................... 110
Tabel 5.23 Contoh Konsumen yang Mengalami Anomali
pada Proses Penentuan Kelas Konsumen ......................................... 122
x DAFTAR GAMBAR
Halaman
Gambar 2.1
Arsitektur Data Warehouse ........................................................... 14
Gambar 2.2
Proses KDD ................................................................................... 16
Gambar 2.3
Tahapan dalam Proses Knowledge Discovery in Database........... 17
Gambar 2.4
Empat Tugas Inti Data Mining ...................................................... 18
Gambar 2.5
Siklus Hidup CRISP-DM .............................................................. 20
Gambar 2.6
Kerangka Kerja Teknik Data Mining dalam CRM ....................... 26
Gambar 2.7
Contoh Proses Clustering .............................................................. 29
Gambar 2.8
Hard dan Fuzzy Clustering............................................................ 29
Gambar 2.9
Metode (a) Sharp RFM dan (b) Fuzzy RFM ................................. 41
Gambar 3.1
Diagram Relasi Antar Tabel .......................................................... 46
Gambar 3.2
Star Schema Penjualan .................................................................. 48
Gambar 3.3
Himpunan Fuzzy pada Variabel Recency ...................................... 50
Gambar 3.4
Himpunan Fuzzy pada Variabel Frequency................................... 50
Gambar 3.5
Himpunan Fuzzy pada Variabel Monetary .................................... 50
Gambar 4.1
Tampilan Utama Aplikasi Data Warehouse.................................. 57
Gambar 4.2
Fasilitas Drill-Down dan Roll-Up
pada Aplikasi Data Warehouse ..................................................... 58
Gambar 4.3
Fasilitas untuk Mengetahui Total Recency, Frequency, Monetary,
dan Average pada Aplikasi Data Warehouse ................................ 59
Gambar 4.4
Menu Utama Aplikasi Data Mining .............................................. 60
Gambar 4.5
Tampilan Aplikasi untuk Fuzzy C-Means Clustering ................... 61
Gambar 4.6
Tampilan Aplikasi Daftar Anggota Cluster................................... 65
Gambar 4.7
Tampilan Aplikasi untuk Fuzzy Subtractive Clustering................ 66
Gambar 4.8
Kurva Gauss................................................................................... 67
Gambar 4.9
Tampilan Aplikasi Segmentasi Menggunakan
Model Fuzzy RFM ......................................................................... 70
Gambar 4.10 Hasil Plot Himpunan Fuzzy dengan Fungsi Keanggotaan
Trapezoidal .................................................................................... 73
Gambar 4.11 Tampilan Aplikasi Perbandingan Kelas Konsumen
dengan Pilihan Bentuk Grafik General ......................................... 76
xi Gambar 4.12 Tampilan Aplikasi Perbandingan Kelas Konsumen
dengan Pilihan Bentuk Grafik Detail............................................. 76
Gambar 5.1
Hasil Clustering Menggunakan FCM dengan 2 cluster ................ 80
Gambar 5.2
Tampilan Hasil Segmentasi 2 Cluster
yang Diperoleh dari FCM.............................................................. 81
Gambar 5.3
Hasil Clustering Menggunakan FCM dengan 3 cluster ................ 82
Gambar 5.4
Tampilan Hasil Segmentasi 3 Cluster
yang Diperoleh dari FCM.............................................................. 83
Gambar 5.5
Hasil Clustering Menggunakan FCM dengan 4 cluster ................ 85
Gambar 5.6
Tampilan Hasil Segmentasi 4 Cluster
yang Diperoleh dari FCM.............................................................. 86
Gambar 5.7
Hasil Clustering Menggunakan FCM dengan 5 cluster ................ 88
Gambar 5.8
Tampilan Hasil Segmentasi 5 Cluster
yang Diperoleh dari FCM.............................................................. 89
Gambar 5.9
Hasil Clustering Menggunakan FCM dengan 6 cluster ................ 91
Gambar 5.10 Tampilan Hasil Segmentasi 6 Cluster
yang Diperoleh dari FCM.............................................................. 92
Gambar 5.11 Tampilan Hasil Clustering Menggunakan FS
dengan Nilai Radii=0.5.................................................................. 94
Gambar 5.12 Tampilan Hasil Segmentasi 2 Cluster yang Diperoleh dari FS..... 95
Gambar 5.13 Tampilan Hasil Clustering Menggunakan FS
dengan Nilai Radii=0.22................................................................ 97
Gambar 5.14 Tampilan Hasil Segmentasi 3 Cluster yang Diperoleh dari FS..... 98
Gambar 5.15 Tampilan Hasil Clustering Menggunakan FS
dengan Nilai Radii=0.15................................................................ 99
Gambar 5.16 Tampilan Hasil Segmentasi 4 Cluster yang Diperoleh dari FS... 102
Gambar 5.17 Tampilan Hasil Clustering Menggunakan FS
dengan Nilai Radii=0.1................................................................ 103
Gambar 5.18 Tampilan Hasil Segmentasi 5 Cluster yang Diperoleh dari FS... 104
Gambar 5.19 Tampilan Hasil Clustering Menggunakan FS
dengan Nilai Radii=0.09.............................................................. 105
Gambar 5.20 Tampilan Hasil Segmentasi 6 Cluster yang Diperoleh dari FS... 107
xii Gambar 5.21 Grafik Indeks MPC dan CE untuk Algoritma FCM.................... 109
Gambar 5.22 Grafik Indeks MPC dan CE untuk Algoritma FS........................ 109
Gambar 5.23 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FCM Clustering (Customer No. = C0020)
dengan Bentuk Grafik (a) General (b) Detail.............................. 111
Gambar 5.24 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FS Clustering (Customer No. = C0020)
dengan Bentuk Grafik (a) General (b) Detail.............................. 112
Gambar 5.25 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FCM Clustering (Customer No. = C0051)
dengan Bentuk Grafik (a) General (b) Detail.............................. 113
Gambar 5.26 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FS Clustering (Customer No. = C0051)
dengan Bentuk Grafik (a) General (b) Detail.............................. 114
Gambar 5.27 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FCM Clustering (Customer No. = C0061)
dengan Bentuk Grafik (a) General (b) Detail.............................. 115
Gambar 5.28 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FS Clustering (Customer No. = C0061)
dengan Bentuk Grafik (a) General (b) Detail.............................. 116
Gambar 5.29 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FCM Clustering (Customer No. = C0138)
dengan Bentuk Grafik (a) General (b) Detail.............................. 117
Gambar 5.30 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FS Clustering (Customer No. = C0138)
dengan Bentuk Grafik (a) General (b) Detail.............................. 118
Gambar 5.31 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FCM Clustering (Customer No. = C0205)
dengan Bentuk Grafik (a) General (b) Detail.............................. 119
Gambar 5.32 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FS Clustering (Customer No. = C0205)
dengan Bentuk Grafik (a) General (b) Detail.............................. 120
xiii BAB I
PENDAHULUAN
1.1
Latar Belakang
Di tengah persaingan bisnis yang sangat ketat dewasa ini, perusahaan-
perusahaan
retail
mulai
mengalihkan
perhatian
mereka
dari
sekedar
mengembangkan produk dan layanan yang unggul ke arah penciptaan
pengalaman personal konsumen. Hal ini dilakukan dengan suatu kesadaran yang
utuh bahwa hubungan antara perusahaan dengan konsumen sangat penting untuk
menunjang perkembangan dan kelangsungan perusahaan. Sesuai dengan hukum
Pareto (hukum 80:20), hanya 20% dari keseluruhan konsumen yang mewakili
80% pendapatan perusahaan. Dalam hal ini, konsumen yang berbeda mewakili
nilai yang berbeda. Pihak manajemen perusahaan retail harus mampu untuk
mengenali konsumen terbaiknya dan mempercayainya dengan meningkatkan
pemahaman perusahaan akan kebutuhan mereka sebagai individu sehingga dapat
mempertahankan loyalitasnya terhadap perusahaan. Dengan menerapkan konsep
CRM (Customer Relationship Management), perusahaan dapat melakukan
identifikasi konsumen dengan melakukan segmentasi konsumen. Tujuan dari
proses segmentasi konsumen adalah untuk mengetahui perilaku konsumen dan
menerapkan strategi pemasaran yang tepat sehingga mendatangkan keuntungan
bagi pihak perusahaan.
UD. Fenny adalah salah satu perusahaan retail yang menyadari akan
pentingnya hubungan antara pelanggan yang loyal dengan keberhasilan bisnis
perusahaan. UD. Fenny merupakan perusahaan retail yang khusus menjual bahan
1
2 dan peralatan membuat kue dan berlokasi di Jalan Nakula, Denpasar. Sampai
tahun 2010, UD. Fenny memiliki 1.200 pelanggan, 10.000 item barang, dan
3.000.000 transaksi penjualan. Sejak tahun 2006, UD. Fenny telah menggunakan
sistem informasi berbasis komputer untuk menangani point of sales (POS) dan
inventory. Hal ini berdampak pada pertumbuhan jumlah data yang sangat pesat
dan menimbulkan tumpukan data yang berjumlah besar dalam basis data. Dengan
jumlah data yang sangat besar, UD. Fenny kesulitan untuk melakukan identifikasi
terhadap konsumen terbaiknya. Penggunaan metode tradisional untuk melakukan
identifikasi konsumen dari data membutuhkan kemampuan manusia untuk
menganalisa dan menginterpretasikan data. Dengan volume data yang
berkembang sangat pesat, baik dari jumlah record dan jumlah field, analisa
terhadap data tidak mungkin dilakukan secara manual oleh manusia. Penerapan
data mining dapat membantu untuk menganalisa data yang diperoleh dari
transaksi pada sistem informasi sehingga dapat menggali pola-pola yang dapat
dijadikan pengetahuan baru untuk proses identifikasi konsumen di UD. Fenny.
Data mining merupakan proses pencarian pola-pola yang menarik dan
tersembunyi (hidden pattern) dari suatu kumpulan data yang berukuran besar
yang tersimpan dalam suatu basis data, data warehouse, atau
tempat
penyimpanan data lainnya (Tan dkk, 2006). Menurut Sumanthi dan Sivandham
(2009), data mining juga didefinisikan sebagai bagian dari proses penggalian
pengetahuan dalam database yang dikenal dengan istilah Knowledge Discovery
in Database (KDD). Teknik data mining yang digunakan untuk mencari
segmentasi konsumen adalah menggunakan teknik clustering. Menurut Jain
(1999), teknik clustering digunakan pada data mining untuk mengelompokan
3 objek-objek yang memiliki kemiripan dalam kelas atau segmen yang sama,
sementara objek-objek yang terletak pada kelas yang berbeda menunjukkan
karakteristik yang berbeda juga. Ada dua macam teknik clustering yang dapat
digunakan, yaitu hard clustering dan fuzzy clustering.
Pada penelitian ini akan digunakan metode fuzzy clustering, yaitu dengan
algoritma Fuzzy C-Means Clustering (FCM) dan Fuzzy Subtractive Clustering
(FS) untuk mengelompokkan data penjualan pada basis data UD. Fenny.
Algoritma Fuzzy C-Means Clustering merupakan algoritma supervised clustering
(jumlah cluster ditentukan). FCM memiliki tingkat akurasi yang tinggi dan waktu
komputasi yang cepat (Hammouda, 2000). Jika jumlah cluster tidak ditentukan,
maka dapat digunakan algoritma Fuzzy Subtractive Clustering, yang termasuk
algoritma unsupervised clustering (Hammouda, 2000). Dengan menggunakan
algoritma Fuzzy C-Means Clustering dan Fuzzy Subtractive Clustering, hasil
pengelompokan data menggunakan kedua algoritma tersebut dapat dibandingkan.
Hasil clustering selanjutnya akan diklasifikasi untuk menentukan segmentasi
konsumen menggunakan model fuzzy RFM. Model fuzzy RFM memadukan
model RFM dan logika fuzzy. Model RFM merupakan model untuk menentukan
segmentasi konsumen berdasarkan recency, frequency, dan monetary. Recency
adalah rentang waktu (dalam satuan hari, bulan, tahun) dari transaksi terakhir
yang dilakukan oleh konsumen sampai saat ini. Frequency adalah jumlah total
transaksi atau jumlah rata-rata transaksi dalam satu periode. Monetary, adalah
jumlah rata-rata nilai pembelian konsumen dalam suatu satuan waktu. Dengan
memadukan logika fuzzy dengan model Recency Frequency Monetary (RFM),
hasil segmentasi konsumen dapat digunakan untuk memberi penilaian terhadap
4 konsumen (customer scoring) dan menentukan profil konsumen (customer
profiling) dengan lebih tepat dibandingkan model RFM yang berdiri sendiri
(Zumstein, 2007).
1.2
Rumusan Masalah
Berdasarkan latar belakang di atas, dapat dirumuskan beberapa masalah
yang menjadi inti dari penelitian ini, yaitu :
1. Apakah algoritma Fuzzy C-Means Clustering dan Fuzzy Subtractive
Clustering yang dipadukan dengan model fuzzy RFM dapat mengidentifikasi
konsumen potensial dalam proses data mining ?
2. Bagaimana pengukuran kinerja algoritma Fuzzy C-Means Clustering dan
Fuzzy Subtractive Clustering dalam proses data mining ?
1.3
Batasan Penelitian
Dengan luasnya cakupan yang dapat terkait dengan tesis ini dan untuk
keseragaman pemahaman dalam penelitian, maka terdapat batasan-batasan yang
perlu diberlakukan pada tesis ini. Batasan-batasan tersebut adalah:
1.
Meskipun proses mining akan dilakukan dari suatu data warehouse, namun
dalam penelitian tidak akan melakukan kajian tentang proses pembangunan
data warehouse.
2.
Proses clustering dengan algoritma Fuzzy C-Means dan Fuzzy Subtractive
Clustering akan diterapkan pada data yang sama dan akan dilakukan
perbandingan terhadap hasil clustering dari kedua algoritma ini.
5 3.
Tidak membuat proses otomatisasi pada proses ekstraksi fitur dan transfer
data. Kedua proses tersebut dilakukan dengan menggunakan query sederhana
melalui fasilitas query analyzer.
1.4
Tujuan Penelitian
Tujuan dari penelitian adalah membuat suatu aplikasi yang merupakan
simulasi dari data mining dengan menerapkan metode Fuzzy C-Means Clustering
dan Fuzzy Subtractive Clustering dan model fuzzy RFM untuk melakukan
segmentasi terhadap hasil clustering. Hasil segmentasi dapat digunakan oleh
pihak manajemen perusahaan retail untuk mendukung proses CRM sehingga
perusahaan dapat melakukan identifikasi terhadap konsumen yang banyak
mendatangkan keuntungan bagi perusahaan (profitable consumer). Dengan proses
CRM diharapkan perusahaan retail, dalam hal ini UD. Fenny dapat melakukan
manajemen yang baik terhadap konsumennya, sehingga akan tercipta loyalitas
konsumen terhadap UD. Fenny.
1.5
Keaslian Penelitian
Penelitian sebelumnya yang sejenis adalah penelitian Cheng dengan judul
Classifying the Segmentation of Customer Value via RFM Model and RS Theory,
menggunakan metode K-Means dan Rough Theory serta pemodelan RFM.
Sedangkan Zumstein dalam thesisnya yang berjudul Customer Performance
Measurement : Analysis of the Benefit of a Fuzzy Classification Approach in
Customer Relationship Management meneliti tentang metode fuzzy RFM untuk
melakukan klasifikasi dalam proses segmentasi konsumen. Penelitian yang
6 dilakukan oleh Zumstein merupakan paparan konsep dari fuzzy RFM dan belum
diterapkan untuk proses data mining. Penelitian lain dengan metode fuzzy
clustering untuk proses data mining akan dipaparkan pada bagian kajian pustaka.
BAB II
KAJIAN PUSTAKA DAN LANDASAN TEORI
2.1
Kajian Pustaka
Penelitian tentang data mining untuk CRM, khususnya untuk proses
segmentasi konsumen, serta metode Fuzzy RFM telah beberapa kali dilakukan
sebelumnya.
Shin dan Sohn (2004) dalam penelitiannya menggunakan algoritma KMeans, SOM, dan Fuzzy C-Means untuk mencari segmentasi konsumen pasar
modal berdasarkan nilai potensialnya, yaitu berdasarkan total nilai transaksi yang
dilakukan dalam periode tiga bulan. Dari hasil perbandingan terhadap ketiga
metode tersebut, algoritma K-Means memiliki hasil segmentasi yang lebih akurat.
Selanjutnya dilakukan proses klasifikasi menggunakan metode aturan berbasis
pohon keputusan, sehingga dihasilkan tiga segmen konsumen dan setiap segmen
konsumen menentukan besarnya komisi yang harus dibayarkan untuk broker.
Penelitian lainnya dilakukan oleh Jansen (2007) untuk
menerapkan
konsep data mining dalam proses segmentasi konsumen (customer segmentation)
dan mendefinisikan profil konsumen (customer profiling) serta hubungan antara
keduanya. Jansen menggunakan algoritma K-Means, K-Medoid, Fuzzy C-Means,
Gustafson Kessel dan Gath Geva Clustering untuk melakukan proses segmentasi
konsumen. Studi kasus dalam penelitian ini adalah konsumen pengguna jasa
telekomunikasi Vodafone. Segmentasi konsumen didasarkan pada perilaku
konsumen yang diukur berdasarkan jumlah panggilan masuk dan panggilan keluar
yang dilakukan oleh konsumen. Customer profiling dibangun melalui informasi
7 8
yang berasal dari datawarehouse, seperti umur, jenis kelamin, dan informasi
daerah tempat tinggal. Dengan menggunakan teknik data mining, yaitu Support
Vector Machine (SVM), segmentasi konsumen dapat diperkirakan melalui profil
konsumen. Dalam penelitian ini diperoleh hasil bahwa dengan menggunakan
SVM, dapat dibentuk empat segmen konsumen dari data profil konsumen yang
ada dengan tingkat keakuratan 80,3%. Sedangkan jika jumlah segmen yang
dibentuk berjumlah 6, maka tingkat keakuratan klasifikasinya adalah 78,5%.
Cao, Zhu, dan Hou (2009) menggunakan metode FFCHC (Fuzzy Fisher
Criterion Based Hierarchical Clustering Algorithm) untuk melakukan segmentasi
konsumen. Metode FFHC memadukan algoritma FFC (Fuzzy Fisher Criterion)
sebagai algoritma untuk melakukan clustering dan clustering validity function
untuk mencari jumlah cluster yang paling optimal. Metode ini diterapkan pada
dataset konsumen pada suatu perusahaan pasar modal.
Fathi, Kianfar, Hasanzadeh, dan Sadeghi (2009) meneliti nilai kepuasan
konsumen yang dapat dimaksimalkan melalui penggunaan katalog dalam proses
penjualan produk. Derajat kepuasan konsumen didefinisikan melalui dari jumlah
produk kebutuhan konsumen yang muncul dalam catalog dan tingkat prioritas
kebutuhan terhadap produk tersebut. Konsumen dikelompokkan menjadi tiga
kelompok berdasarkan tingkat kebutuhannya terhadap produk di dalam katalog,
menggunakan algoritma Fuzzy C-Means.
Cheng dan Chen (2009) menggunakan teknik data mining untuk menemukan pola dan trend dari data konsumen dalam kaitannya dengan konsep CRM. Proses clustering dilakukan terhadap data konsumen C-­‐
company, yaitu perusahaan yang bergerak di bidang industry elektronik. 9
Proses clustering didahului dengan mendefinisikan skala dari atribut R-­‐F-­‐M. Atribut inilah yang digunakan sebagai input dalam proses clustering yang dilakukan dengan algoritma K-­Means . Proses clustering dilakukan untuk membagi data konsumen menjadi lima cluster. Dari lima cluster tersebut berikutnya akan dilakukan proses verifikasi, perbandingan, dan perhitungan tingkat akurasi dengan menggunakan algoritma LEM2. Dari 401 instances pada dataset yang digunakan, 67% dataset (268 instances) digunakan untuk training set, dan 33% sisanya (133instances) digunakan untuk testing set. Sedangkan penelitian tentang perbandingan algoritma Fuzzy C-Means dan
Fuzzy Subtractive Clustering juga pernah dilakukan sebelumnya. Collazo-Cuevas
dkk (2010) melakukan perbandingan terhadap dua metode clustering yaitu Fuzzy C-­Means dan Fuzzy Subtractive Clustering. Kedua metode ini diterapkan untuk melakukan clustering terhadap data polusi udara di Liverpool. Dalam penelitian ini juga dibangun algoritma identifikasi model fuzzy sebagai dasar dari metode estimasi. Hasil dari proses clustering adalah pemodelan hubungan antara suhu udara, kelembaban udara, dan konsentrasi PM10 di Liperpool, Inggris. Hammouda dan Prof. Karaay (2000) dalam penelitiannya melakukan perbandingan terhadap empat metode clustering, yaitu F-­Means, Fuzzy C-­
Mean, Mountain, dan Fuzzy Subtractive Clustering. Keempat metode clustering ini diterapkan untuk melakukan proses clustering terhadap data medis. Selanjutnya, hasil dari proses clustering tersebut digunakan untuk membantu proses diagnosa terhadap penyakit hati. Perbandingan terhadap keempat metode clustering dilakukan menggunakan parameter keakuratan 10
hasil clustering, waktu yang dibutuhkan untuk melakukan proses clustering, root mean square error, dan kemiringan garis regresi (regression line slope). Dari hasil perbandingan diperoleh hasil bahwa Mountain Clustering kurang baik untuk digunakan pada data dengan jumlah dimensi yang besar. Pendekatan algoritma yang lebih baik adalah menggunakan Fuzzy Subtractive Clustering karena membutuhkan waktu pemrosesan yang lebih cepat dibandingkan Mountain Clustering untuk memproses data dengan 13 dimensi. Algoritma K-­Means dan Fuzzy C-­Means kinerja yang lebih baik dibandingkan Mountain Clustering dan Fuzzy Subtractive Clustering, namun membutuhkan informasi tentang jumlah cluster yang harus dibentuk. Penelitian tentang metode fuzzy RFM dilakukan oleh Zumstein (2007) dalam thesisnya. Zumstein meneliti tentang klasifikasi fuzzy sebagai metode analisa dan manajemen data multidimensi. Metode klasifikasi fuzzy sesuai untuk digunakan dalam proses CRM dan membangun hubungan dengan konsumen yang menguntungkan. Metode fuzzy dipadukan dengan metode klasifikasi seperti metode analisa SWOT, analisa portfolio, analisa ABC, serta metode penilaian (scoring method) untuk memperoleh hasil segmentasi konsumen yang lebih baik. Dalam penelitian ini, metode fuzzy juga dipadukan dengan metode RFM, yaitu metode untuk menentukan segmen-­‐segmen konsumen berdasarkan recency, frequency, dan monetary. Metode fuzzy RFM juga dibandingkan terhadap metode sharp RFM dan dapat disimpulkan bahwa metode fuzzy RFM memberikan hasil segmentasi konsumen yang lebih baik, sehingga dapat membantu perusahaan untuk memahami perilaku konsumennya dengan lebih baik. 11
Berikut ini adalah daftar penelitian mengenai data mining yang dilakukan
sebelumnya dilakukan disajikan dalam Tabel 2.1
Tabel 2.1
Penelitian yang Telah Dilakukan
No.
Penelitian
Metode
Deskripsi
1.
Shin dan Sohn K-means, Fuzzy C- mencari segmentasi konsumen
(2004)
Means, SOM,
pasar modal berdasarkan nilai
Decision tree.
potensialnya
2.
Jansen (2007)
K-Means, K-Medoid, mencari segmentasi dan profil
Fuzzy
C-Means, konsumen pada perusahaan
Gustafson Kessel dan telekomunikasi Vodafone
Gath Geva Clustering
3.
Cao, Zhu, dan FFCHC (Fuzzy Fisher mencari segmentasi konsumen
Hou (2009)
Criterion
Based pada suatu perusahaan pasar
Hierarchical
modal
Clustering Algorithm)
4.
Fathi
dkk Fuzzy C-Means
mencari segmentasi konsumen
(2009)
berdasarkan
tingkat
kebutuhannya terhadap produk
di dalam katalog.
5.
Cheng dan K-Means, RFM , dan mencari segmentasi konsumen
LEM2
di C-company berdasarkan
Chen (2009)
atribut R-F-M.
6.
Collazo-Cuevas Fuzzy C-­Means dan melakukan perbandingan dkk (2010) Fuzzy Subtractive terhadap Fuzzy C-­means dan Clustering.
Fuzzy Subtractive Clustering untuk data polusi udara.
7.
Hammouda K-­Means, melakukan perbandingan dan Prof. Fuzzy C-­Means, keempat algoritma clustering Karaay (2000) Mountain Clustering, dengan menggunakan data Subtractive medis untuk mendiagnosa Clustering penyakit hati 8.
Zumstein
(2007)
Fuzzy classification, melakukan studi fuzzy RFM perbandingan metode klasifikasi klasik dengan metode klasifikasi yang dipadukan dengan metode fuzzy. Dari kajian pustaka yang telah dilakukan, belum ada penelitian di bidang data
mining yang diterapkan pada perusahaan retail dengan menggunakan metode
12
fuzzy, yaitu algoritma Fuzzy C-Means dan Fuzzy Subtractive Clustering dan
model fuzzy RFM untuk proses segmentasi.
2.2
Data Warehouse
Data warehouse merupakan kumpulan data dari berbagai sumber yang
disimpan dalam suatu gudang data (repository) dalam kapasitas besar dan
digunakan untuk proses pengambilan keputusan (Prabhu, 2007). Menurut William
Inmon, karakteristik dari data warehouse adalah sebagai berikut :
1. Subject oriented.
Pada sistem operasional, data disimpan berdasarkan aplikasi. Set data hanya
terdiri dari data yang dibutuhkan oleh fungsi yang terkait dan aplikasinya.
Sedangkan pada data warehouse, data disimpan bukan berdasarkan aplikasi,
melainkan berdasarkan subjeknya. Misalnya untuk sebuah perusahaan
manufaktur subjek bisnis yang penting, yaitu penjualan, pengangkutan, dan
penyimpanan barang.
2. Integrated.
Data yang tersimpan dalam data warehouse terdiri dari berbagai sistem
operasional. Oleh sebab itu terdapat kemungkinan bahwa terjadi beberapa
perbedaan, yaitu dalam konvensi penamaan, representasi kode, atribut data,
dan pengukuran data. Keempat perbedaan tersebut harus disamakan terlebih
dahulu sesuai dengan standar tertentu agar data yang nantinya tersimpan
dalam data warehouse dapat terintegrasi.
3. Time variant.
13
Pada data warehouse, data yang tersimpan adalah data historis dalam kurun
waktu tertentu, bukan data terkini. Oleh karena itu data yang tersimpan
mengandung keterangan waktu, misalnya tanggal, minggu, bulan, catur wulan,
dan sebagainya. Karakteristik time variant pada data warehouse memiliki
karakteristik sebagai berikut :
a. Melakukan analisa terhadap hal di masa lalu.
b. Mencari hubungan antara informasi dengan keadaan saat ini.
c. Melakukan prediksi hal yang akan datang.
4. Non-volatile.
Data dalam sistem operasional dapat di-update sesuai transaksi bisnis. Setiap
kali terjadi transaksi bisnis. Namun dalam data warehouse, data tidak dapat
diubah karena bersifat read only.
Arsitektur data warehouse (gambar 2.1) mencakup proses ETL (Extraction,
Transformation, Loading) untuk memindahkan data dari operational data source
dan sumber data eksternal lainnya ke dalam data warehouse . Data warehouse
dapat dibagi menjadi beberapa data mart, berdasarkan fungsi bisnisnya (contoh
data mart untuk penjualan, pemasaran, dan keuangan). Data dalam data
warehouse dan data mart diatur oleh satu atau lebih server yang mewakili
multidimensional view dari data terhadap berbagai front end tool, seperti query
tools, analysis tools, report writers, dan data mining tools.
14
Gambar 2.1 Arsitektur Data Warehouse (Prabhu, 2007)
Proses ETL (Extraction, Transformation, Loading) merupakan proses yang harus
dilalui dalam pembentukan data warehouse (Kimball, 2004). Berikut adalah
penjelasan dari tiap proses.
1. Ekstraksi Data (Extract)
Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai
sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat
beberapa fungsi ekstraksi data, yaitu :
a. Ekstraksi data secara otomatis dari aplikasi sumber.
b. Penyaringan atau seleksi data hasil ekstraksi.
c. Pengiriman data dari berbagai platform aplikasi ke sumber data.
d. Perubahan format layout data dari format aslinya.
e. Penyimpanan dalam file sementara untuk penggabungan dengan hasil
ekstraksi dari sumber lain.
15
2. Transformasi Data (Transformation)
Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi
disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkahlangkah dalam transformasi data adalah sebagai berikut :
a. Memetakan data input dari skema data aslinya ke skema data
warehouse.
b. Melakukan konversi tipe data atau format data.
c. Pembersihan serta pembuangan duplikasi dan kesalahan data.
d. Penghitungan nilai-nilai derivat atau mula-mula.
e. Penghitungan nilai-nilai agregat atau rangkuman.
f. Pemerikasaan integritas referensi data.
g. Pengisian nilai-nilai kosong dengan nilai default.
h. Penggabungan data.
3. Pengisian Data (Loading)
Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang
didapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk
memuat data adalah dengan menjalankan SQL script secara periodik.
2.3
Data Mining
Data mining merupakan proses pencarian pola-pola yang menarik dan
tersembunyi (hidden pattern) dari suatu kumpulan data yang berukuran besar
yang tersimpan dalam suatu basis data, data warehouse, atau
tempat
penyimpanan data lainnya (Tan dkk, 2006). Menurut Sumanthi dan Sivandham
(2009), data mining juga didefinisikan sebagai bagian dari proses penggalian
16
pengetahuan dalam database yang sering disebut dengan istilah Knowledge
Discovery
in
Database
(KDD).
KDD
merupakan
suatu
area
yang
mengintegrasikan berbagai metode, yang meliputi statistik, basis data, kecerdasan
buatan (Artificial Intelligence), machine learning, pengenalan pola (Pattern
Recognition), pemodelan yang menangani ketidakpastian, visualisasi data,
optimasi, Sistem Informasi Manajemen (SIM), dan sistem berbasis pengetahuan
(knowledge based-system). Sebagai bagian dari proses yang ada di dalam KDD,
maka data mining didahului dengan proses pemilihan data, pembersihan data, preprocessing, dan transformasi data (Sumanthi dan Sivandham, 2009).
Gambar 2.2 Proses KDD (Fayyad dkk, 1996)
Ada tiga tahap penting dalam KDD, yaitu (Tan dkk, 2006) :
1. Data preprocessing
Proses ini bertujuan untuk mentransformasikan data input ke dalam format
yang sesuai untuk kemudian dianalisa. Dalam tahap ini dilakukan proses
penggabungan data dari berbagai sumber, pembersihan data untuk
menghilangkan noise data dan data ganda, serta memilih atribut data yang
diperlukan bagi proses data mining.
17
2. Data mining
Proses ini bertujuan untuk medapatkan pola-pola dan informasi yang
tersembunyi di dalam basis data. Ada beberapa teknik yang dapat digunakan
dalam data mining untuk mendapatkan pola-pola dan informasi tersembunyi,
yaitu classification, neural network, decision tree, genetic algorithm,
clustering, OLAP (Online Analitycal Processing), dan association rules.
3. Postprocessing
Proses ini bertujuan untuk memastikan hanya hasil yang valid dan berguna
yang dapat digunakan oleh pihak yang berkepentingan. Contoh dari proses ini
adalah proses visualisasi, yaitu proses untuk menganalisa dan mengeksplorasi
data dan hasil dari proses data mining dari berbagai sudut pandang.
Gambar 2.3 Tahapan dalam Proses Knowledge Discovery in Database
(Tan dkk, 2006)
2.3.1 Tugas data mining
Tugas data mining secara garis besar dibagi menjadi dua kategori utama,
yaitu (Tan dkk, 2006) :
18
1. Tugas prediktif.
Tujuan utama dari tugas ini adalah untuk memprediksikan nilai dari atribut
tertentu berdasarkan nilai dari atribut lainnya. Atribut yang diprediksi dikenal
sebagai target atau dependent variable, sedangkan atribut yang digunakan
untuk membuat prediksi disebut penjelas atau independent variable.
2. Tugas deskriptif.
Tujuan utama dari tugas ini adalah untuk memperoleh pola (correlation, trend,
cluster, trajectory, anomaly) untuk menyimpulkan hubungan di dalam data.
Tugas deskriptif merupakan tugas data mining yang sering dibutuhkan pada
teknik postprocessing untuk melakukan validasi dan menjelaskan hasil proses
data mining.
Inti dari tugas data mining adalah pemodelan prediktif, analisa asosiasi, analisa
cluster, dan deteksi terhadap anomali (Gambar 2.4).
Gambar 2.4 Empat Tugas Inti Data Mining (Tan dkk, 2006)
Pemodelan prediktif mengacu pada proses membangun model untuk variabel
target sebagai fungsi dari variabel penjelas. Ada dua tipe dari pemodelan prediktif,
19
yaitu klasifikasi (classification) yang digunakan untuk variabel target yang
diskret, dan regresi (regression) yang digunakan untuk variable target yang
kontinyu.
Analisa
asosiasi
digunakan
untuk
menemukan
pola
yang
mendeskripsikan fitur-fitur data yang saling berhubungan. Pola-pola ini biasanya
digambarkan dalam bentuk aturan implikasi. Analisa cluster merupakan proses
untuk mencari kelompok-kelompok data, sedemikian sehingga data yang berada
dalam satu kelompok memiliki kemiripan dibandingkan data yang terletak pada
kelompok lain. Deteksi anomaly merupakan proses identifikasi data yang
memiliki perbedaan karakteristik yang signifikan dengan data yang lain atau yang
dikenal dengan istilah outlier (Tan dkk, 2006).
2.3.2 CRISP-DM
CRISP-DM (CRoss-Industry Standard Process for Data Mining)
merupakan suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa pada
tahun 1996 dan telah ditetapkan sebagai proses standar dalam data mining yang
dapat diaplikasikan di berbagai sektor industri. Gambar 2.5 menjelaskan tentang
siklus hidup pengembangan data mining yang telah ditetapkan dalam CRISP-DM.
20
Gambar 2.5 Siklus Hidup CRISP-DM (Chapman, 2000)
Berikut ini adalah enam tahap siklus hidup pengembangan data mining
(Chapman, 2000) :
1. Business Understanding
Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut pandang
bisnis, kemudian menterjemakan pengetahuan ini ke dalam pendefinisian
masalah dalam data mining. Selanjutnya akan ditentukan rencana dan strategi
untuk mencapai tujuan tersebut.
2. Data Understanding
Tahap ini dimulai dengan pengumpulan data yang kemudian akan dilanjutkan
dengan proses untuk mendapatkan pemahaman yang mendalam tentang data,
mengidentifikasi masalah kualitas data, atau untuk mendeteksi adanya bagian
yang menarik dari data yang dapat digunakan untuk hipotesa untuk informasi
yang tersembunyi.
21
3. Data Preparation
Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data yang
akan diproses pada tahap pemodelan/modeling) dari data mentah. Tahap ini
dapat diulang beberapa kali. Pada tahap ini juga mencakup pemilihan tabel,
record, dan atribut-atribut data, termasuh proses pembersihan dan
transformasi data untuk kemudian dijadikan masukan dalam tahap pemodelan
(modeling).
4. Modeling
Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai teknik
pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan
nilai yang optimal. Secara khusus, ada beberapa teknik berbeda yang dapat
diterapkan untuk masalah data mining yang sama. Di pihak lain ada teknik
pemodelan yang membutuhan format data khusus. Sehingga pada tahap ini
masih memungkinan kembali ke tahap sebelumnya.
5. Evaluation
Pada tahap ini, model sudah terbentuk dan diharapkan memiliki kualitas baik
jika dilihat dari sudut pandang analisa data. Pada tahap ini akan dilakukan
evaluasi terhadap keefektifan dan kualitas model sebelum digunakan dan
menentukan apakah model dapat mencapat tujuan yang ditetapkan pada fase
awal (Business Understanding). Kunci dari tahap ini adalah menentukan
apakah ada masalah bisnis yang belum dipertimbangkan. Di akhir dari tahap
ini harus ditentukan penggunaan hasil proses data mining.
22
6. Deployment
Pada tahap ini, pengetahuan atau informasi yang telah diperoleh akan diatur
dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh
pengguna. Tahap deployment dapat berupa pembuatan laporan sederhana atau
mengimplementasikan proses data mining yang berulang dalam perusahaan.
Dalam banyak kasus, tahap deployment melibatkan konsumen, di samping
analis data, karena sangat penting bagi konsumen untuk memahami tindakan
apa yang harus dilakukan untuk menggunakan model yang telah dibuat.
2.4
Customer Relationship Management (CRM)
Konsumen merupakan aset yang sangat penting bagi suatu perusahaan.
Tidak akan ada prospek bisnis tanpa adanya hubungan antara perusahaan dengan
konsumen yang bersifat loyal. Hal ini adalah alasan mengapa perusahaan harus
merencanakan dan menggunakan strategi yang cukup jelas dalam memperlakukan
konsumen. Customer Relationship Management (CRM) telah berkembang dalam
beberapa dekade belakangan ini untuk merefleksikan peranan utama dari
konsumen untuk pengaturan strategi perusahaan. CRM meliputi seluruh ukuran
untuk memahami konsumen dan proses untuk mengeksploitasi pengetahuan ini
untuk merancang dan mengimplementasikannya pada kegiatan marketing,
produksi, dan rantai supply dari pemasok (supplier). Berikut ini akan
didefenisikan beberapa pengertian CRM yang diambil dari berbagai literatur,
antara lain (Tama, 2009) :
1. Dari sisi yang berkaitan dengan teknologi informasi, CRM adalah sebuah
strategi untuk mengoptimalkan customer lifetime value dengan cara
23
mengetahui lebih banyak mengenai informasi konsumen dan berinteraksi
dengan konsumen secara intensif (Todman, 2001).
2. Dari sisi komunikasi dan manajemen, CRM didefinisikan sebagai sebuah
pendekatan perusahaan untuk memahami dan mempengaruhi perilaku
konsumen melalui komunikasi yang intensif dalam rangka meningkatkan
akuisisi konsumen, mempertahankan konsumen, dan loyalitas konsumen
(Swift, 2000).
3. Definisi CRM jika dilihat dari segi bisnis dapat diartikan sebagai sebuah
strategi bisnis untuk memahami, mengantisipasi dan mengelola kebutuhan
konsumen yang potensial dalam suatu organisasi pada saat sekarang dan yang
akan datang (Brown, 2000).
Dari ketiga definisi di atas dapat ditarik kesimpulan mengenai definisi CRM yaitu
sebuah pendekatan yang komprehensif yang mengintegrasikan setiap bisnis proses
yang berhubungan langsung dengan konsumen, yaitu penjualan, pemasaran dan
layanan konsumen melalui integrasi filosofi, teknologi, dan juga proses (Tama,
2009). Dengan kata lain, CRM dipandang bukanlah sebagai sebuah produk
ataupun sebuah layanan, tetapi sebuah filosofi bisnis yang bertujuan
memaksimalkan nilai konsumen dalam jangka panjang (customer lifetime value).
2.4.1 Teknologi CRM
Sebuah definisi standar mengenai komponen teknologi CRM diberikan
oleh META Group di dalam “The Customer Relationship Management
Ecosystem”. Kategorisasi ini bertujuan untuk lebih memahami bagaimana suatu
strategi CRM dan teknologinya mampu menyediakan seluruh arsitektur secara
24
menyeluruh yang terfokus pada layanan konsumen. Ada tiga tipe utama dari
teknologi CRM yaitu (Tama, 2009) :
1. Operational CRM, yang dikenal sebagai CRM “front office”. Operational
CRM merupakan area dimana terjadi hubungan dengan konsumen secara
langsung. Otomasi dari proses bisnis yang terintegrasi yang melibatkan front
office customer touch points, seperti penjualan, pemasaran, dan layanan
konsumen, termasuk integrasi antara front office dan back office, seperti
manajemen pesanan, dan otomasi pemasaran. Dengan perkembangan
teknologi informasi dan komunikasi yang pesat, operational CRM kemudian
juga dapat dibedakan menjadi dua bagian yaitu e-CRM dan m-CRM.
2. Collaborative CRM, merupakan bentuk perluasan dari CRM tradisional.
Collaborative
CRM
berkaitan
dengan
manajemen
hubungan
antara
stakeholder eksternal, seperti supplier, distributor, dan reseller. Aplikasi
utama dari collaborative CRM adalah enterprise portal yang berbasis pada
infrastruktur ekstranet dan perangkat lunak manajemen hubungan mitra
(partner relationshiop management software) yang memberikan akses kepada
konsumen, reseller, dan mitra bisnis melalui internet.
3. Analytical CRM yang dikenal sebagai CRM “back office” atau “strategic” CRM. Analytical CRM biasanya berhubungan dengan penggunaan data secara efektif, efisien dan strategis sehingga memungkinkan pengambilan keputusan yang tepat bagi pihak manajemen. Pengambilan keputusan dilaksanakan setelah melalui proses analisis, pemodelan, dan evaluasi terhadap data yang tersimpan di basis data untuk menghasilkan sebuah hubungan yang saling menguntungkan antara perusahaan dan 25
konsumennya. Contoh dari Analytical CRM adalah business intelligence seperti data warehouse, OLAP, dan data mining.
Hal yang terpenting dalam memahami perilaku konsumen tidak hanya memahami siapa mereka (dalam hal ini customer
profiling atau segmentation) tetapi juga perilaku mereka dan pola-­‐pola (pattern) yang mereka ikuti. Pemahaman perilaku pelanggan harus ditetapkan sebagai suatu proses yang dinamis dan berkelanjutan (Xu dan Walton, 2005). 2.4.2 Data Mining dalam Kerangka Kerja CRM
Menurut Swift (2001), Parvatiyar dan Sheth (2001), serta Kracklauer,
Mills, dan Seifert (2004), CRM memiliki empat dimensi, yaitu :
1. Identifikasi konsumen (customer identification).
2. Membangun daya tarik terhadap konsumen (customer attraction).
3. Mempertahankan konsumen yang ada (customer retention).
4. Pengembangkan konsumen (customer development).
Keempat dimensi dari CRM tersebut dapat dilihat sebagai siklus tertutup dalam
Customer Management System. Setiap dimensi memiliki tujuan umum yang sama
yaitu untuk membangun pemahaman yang lebih mendalam dari konsumen dan
meningkatkan nilai konsumen (customer value) dari perusahaan. Dalam kaitannya
dengan pencapaian tujuan tersebut, teknik data mining dapat digunakan untuk
menemukan karakteristik dan perilaku konsumen yang tersembunyi dalam
database yang berukuran besar. Untuk menemukan pola karakteristik dan perilaku
konsumen, dapat digunakan metode pemodelan data dalam teknik data mining.
Beberapa metode pemodelan data yang dapat digunakan, yaitu :
26
1. Association
2. Classification
3. Clustering
4. Forecasting
5. Regression
6. Sequence discovery
7. Visualization
Kerangka kerja teknik data mining dalam keempat dimensi CRM dijelaskan
melalui Gambar 2.6.
Gambar 2.6 Kerangka Kerja Teknik Data Mining
dalam CRM (Ngai dkk, 2008)
27
2.5
Himpunan Fuzzy
Teori himpunan fuzzy merupakan titik penting perkembangan konsep
ketidakpastian. Teori himpunan fuzzy diperkenalkan oleh Lotfi A. Zadeh pada
tahun 1965 (Klir dan Yuan, 1995). Dengan diperkenalkannya teori himpunan
fuzzy, maka anggapan bahwa teori probabilitas sebagai satu-satunya alat untuk
memecahkan masalah yang mengandung unsur ketidakpastian, mengalami
perkembangan. Teori himpunan fuzzy merupakan salah satu alat untuk
memecahkan masalah ketidakpastian. Himpunan nonfuzzy (crisp set) A
didefinisikan oleh anggota-anggota himpunan tersebut. Jika a ∈ A, maka nilai
yang berhubungan dengan a adalah 1. Namun, jika a ∉ A, maka nilai yang
berhubungan dengan a adalah 0. Notasi A = {x | P(x)} menunjukkan bahwa
anggota A adalah x dengan P(x) benar. Jika XA merupakan fungsi karakteristik dari
A, maka dapat dikatakan bahwa P(x) benar, jika dan hanya jika XA(x) = 1.
Himpunan fuzzy didasarkan pada gagasan untuk memperluas jangkauan
karakteristik sedemikian hingga fungsi tersebut akan mencakup bilangan riil pada
interval [0,1].
Himpunan fuzzy merupakan himpunan dengan batas-batas keanggotaan
yang tidak dapat ditentukan dengan dipenuhi atau tidak dipenuhinya suatu syarat
keanggotaan. Keanggotaan himpunan fuzzy ditentukan oleh derajat keanggotaan
yang menentukan tingkat kesesuaian setiap anggota dengan fungsi keanggotaan
yang telah ditentukan dalam himpunan fuzzy. Misalkan A adalah himpunan fuzzy
dan x adalah objek tertentu. Dalil “x adalah anggota A” tidak dapat dikatakan
bernilai benar atau salah, seperti yang dinyatakan dalam logika dua nilai. Dalil ini
dapat dikatakan bernilai benar hanya untuk derajat tertentu, yaitu derajat dimana x
28
betul-betul anggota A. Pada umumnya, nilai kebenaran suatu dalil dinyatakan
dengan bilangan riil dalam interval [0,1]. Nilai ini juga mewakili derajat
keanggotaan dalam himpunan fuzzy. Notasi fungsi keanggotaan dari himpunan
fuzzy A yang dilambangkan dengan µA , adalah sebagai berikut :
....................................................(2.1)
Dalam hal ini, setiap fungsi keanggotaan memetakan elemen-elemen himpunan
semesta X ke bilangan riil dalam interval [0,1] .
2.6
Clustering
Pengelompokan (clustering) merupakan teknik yang sudah cukup dikenal
dan banyak digunakan untuk mengelompokkan data/objek ke dalam kelompok
data (cluster) sehingga setiap cluster memiliki data yang mirip dan berbeda
dengan data yang berada dalam cluster lain. Jika diberikan himpunan data yang
berjumlah terhingga, yaitu X, maka permasalahan clustering dalam X adalah
mencari beberapa pusat cluster yang dapat memberikan ciri kepada masingmasing cluster dalam X. Gambar 2.7 menunjukkan contoh sederhana dari proses
clustering, dimana 3 cluster di dalam data dapat teridentifikasi dengan mudah.
Kriteria kemiripan yang digunakan dalam kasus ini adalah jarak (dalam kasus ini
jarak geometris). Proses ini disebut distance-based clustering. Cara lain untuk
melakukan clustering adalah conceptual clustering. Dalam conceptual clustering,
objek dikelompokkan berdasarkan kecocokannya menurut konsep deskriptif.
29
Gambar 2.7. Contoh Proses Clustering (Jansen, 2007)
2.6.1 Hard Clustering dan Fuzzy Clustering
Metode pengelompokan klasik (hard clustering) berdasarkan pada teori
himpunan klasik, yang menentukan bahwa sebuah objek dapat menjadi anggota
atau bukan anggota dari suatu cluster. Fuzzy clustering memperbolehkan suatu
objek untuk menjadi anggota dari beberapa cluster sekaligus dengan derajat
keanggotaan yang berbeda-beda. Derajat keanggotaan berada di antara rentang 0
dan 1. Jadi, dataset X dapat dipartisi menjadi c fuzzy subset. Di dalam situasi riil,
fuzzy clustering memiliki hasil yang lebih natural dibandingkan dengan hard
clustering. Iilustrasi perbedaan antara hard clustering dan fuzzy clustering
ditunjukkan melalui Gambar 2.8 berikut ini.
Gambar 2.8. Hard dan Fuzzy Clustering (Jansen, 2007)
30
2.6.2 Metode Fuzzy C-Means Clustering
Metode Fuzzy C-Means Clustering pertama kali dikenalkan oleh Jim
Bezdek pada tahun 1981 (Jain dkk, 1999). Fuzzy C-Means adalah salah satu
teknik pengelompokkan data yang mana keberadaan tiap titik data dalam suatu
kelompok (cluster) ditentukan oleh derajat keanggotan. Metode Fuzzy C-Means
termasuk metode supervised clustering dimana jumlah pusat cluster ditentukan di
dalam proses clustering. Algoritma dari fuzzy c-means adalah sebagai berikut
(Yan, 1994) :
1. Input data yang akan dikelompokkan, yaitu X, berupa matrix berukuran n x m
(n=jumlah sampel data, m=atribut setiap data). Xij data sampel ke-i
(i=1,2,…n), atribut ke-j (j=1,2,..m).
2. Tentukan jumlah cluster (c), pangkat untuk matriks partisi (w), maksimum
iterasi (MaxIter), error terkecil yang diharapkan (ξ), fungsi objektif awal
(Po=0), dan iterasi awal (t=1).
3. Bangkitkan bilangan random ηik, i=1,2,…n; k=1,2,…c sebagai elemen matrik
partisi awal U.
4. Hitung pusat cluster ke-k:
, dengan k=1,2,…,c; dan j=1,2,…,m,
menggunakan persamaan berikut (Yan, 1994) :
.............................................(2.2)
dengan :
Vkj
= pusat cluster ke-k untuk atribut ke-j
ηik
= derajat keanggotaan untuk data sampel ke-i pada cluster ke-k
31
xij
= data ke-i, atribut ke-j
5. Hitung fungsi objektif pada iterasi ke-t menggunakan persamaan berikut (Yan,
1994) :
.................(2.3)
dengan:
Vkj
= pusat cluster ke-k untuk atribut ke-j
ηik
= derajat keanggotaan untuk data sampel ke-i pada cluster ke-k
xij
= data ke-i, atribut ke-j
Pt
= fungsi objektif pada iterasi ke-t
6. Hitung perubahan matriks partisi menggunakan persamaan berikut (Yan,
1994) :
...................................(2.4)
Dengan I = 1,2,…,n; dan k=1,2,…c.
Dimana :
Vkj
= pusat cluster ke-k untuk atribut ke-j
ηik
= derajat keanggotaan untuk data sampel ke-i pada cluster ke-k
xij
= data ke-i, atribut ke-j
7. Cek Kondisi berhenti:
Jika :
langkah ke-4.
atau
maka berhenti. Jika tidak: t=t+1, ulangi
32
2.6.3 Metode Fuzzy Subtractive Clustering
Dasar dari metode Fuzzy Subtractive Clustering adalah ukuran densitas
(potensi) titik-titik data dalam suatu ruang (variabel). Konsep dasar dari metode
Fuzzy Subtractive Clustering adalah menentukan daerah-daerah dalam suatu
variabel yang memiliki densitas tinggi terhadap titik-titik di sekitarnya. Titik
dengan jumlah tetangga terbanyak akan dipilih untuk menjadi pusat kelompok.
Titik yang sudah dipilih menjadi pusat kelompok ini kemudian akan dikurangi
densitasnya. Selanjutnya akan dipilih titik lain yang menjadi tetangga terbanyak
untuk dijadikan pusat kelompok yang lain. Hal ini akan dilakukan berulang-ulang
sampai semua titik teruji. Metode fuzzy subtractive clustering tergolong metode
unsupervised clustering dimana jumlah pusat cluster tidak diketahui. Metode ini
menggunakan data sebagai kandidat dari pusat cluster, sehingga beban komputasi
tergantung dari jumlah data dan tidak bergantung dari dimensi data. Jumlah pusat
cluster yang dicari ditentukan melalui proses iterasi untuk mencari titik-titik
dengan jumlah tetangga terbanyak.
Apabila terdapat n buah data yaitu x1, x2, ..., xn dan dengan menganggap
bahwa data-data tersebut sudah dalam keadaan normal, maka densitas suatu titik
dapat dihitung dengan persamaan (Gelley, 2000) :
............................(2.5)
Dimana
Dk
= Densitas titik ke-k
xk
= titik ke-k
33
ra
= konstanta positif.
Dengan demikian, suatu titik data akan memiliki densitas yang besar jika titik
tersebut memiliki banyak tetangga. Setelah menghitung densitas tiap-tiap titik,
maka titik dengan densitas tertinggi akan terpilih menjadi pusat kelompok.
Misalkan xc1 adalah titik yang terpilih menjadi pusat kelompok dan Dc1 adalah
ukuran densitasnya, selanjutnya densitas dari titik-titik di sekitarnya akan
dikurangi dengan persamaan (Gelley, 2000) :
............................(2.6)
Dimana rb adalah konstanta positif. Hal ini berarti bahwa titik-titik yang berada
dekat dengan pusat kelompok xc1 akan mengalami pengurangan densitas secara
besar-besaran. Hal ini akan berakibat titik-titik tersebut memiliki kemungkinan
yang kecil untuk menjadi pusat kelompok berikutnya. Nilai rb menunjukkan suatu
lingkungan yang mengakibatkan titik-titik berkurang ukuran densitasnya. Nilai rb
diperoleh dari persamaan :
............................(2.7)
Biasanya squashfactor bernilai 1,5. Dengan demikian rb bernilai lebih besar
dibandingkan ra.
Setelah densitas tiap-tiap titik diperbaiki, selanjutnya akan dicari pusat
kelompok yang kedua, yaitu xc2. Setelah xc2 diperoleh, ukuran densitas tiap titik
data akan diperbaiki kembali. Langkah-langkah ini dilakukan berulang-ulang
sampai semua titik teruji. Pada implementasinya, bisa digunakan 2 bilangan
sebagai faktor pembanding, yaitu accept ratio dan reject ratio. Apabila hasil bagi
antara potensi tertinggi suatu titik data dengan potensi tertinggi yang pertama kali
34
diperoleh pada iterasi pertama lebih besar daripada accept ratio, maka titik data
tersebut diterima sebagai pusat kelompok baru. Apabila hasil bagi antara potensi
tertinggi suatu titik data dengan potensi tertinggi yang pertama kali diperoleh pada
iterasi pertama lebih kecil daripada accept ratio namun lebih besar daripada reject
ratio, maka titik data tersebut baru akan diterima sebagai pusat kelompok yang
baru jika titik tersebut terletak pada jarak yang cukup jauh dengan pusat kelompok
yang lainnya. Namun, jika hasil bagi antara potensi tertinggi suatu titik data
dengan potensi tertinggi yang pertama kali diperoleh pada iterasi pertama lebih
kecil daripada accept ratio maupun reject ratio, maka titik tersebut tidak akan
diperhitungkan lagi untuk menjadi pusat kelompok yang baru.
2.7
Ukuran Validitas Cluster
Sejak konsep himpunan fuzzy diperkenalkan oleh Zadeh pada tahun 1965,
konsep fuzzy clustering banyak dikembangkan dan diterapkan. Dalam konsep
fuzzy clustering, suatu data dapat menjadi anggota dari beberapa cluster sekaligus
menurut derajat keanggotaannya (Wu dan Yang, 2005). Proses clustering dalam
algoritma fuzzy clustering selalu mencari solusi terbaik untuk parameter yang
telah didefinisikan. Namun solusi terbaik ini belum tentu dapat menentukan
deskripsi terbaik dari struktur data. Dalam hal ini jumlah cluster yang ditentukan
atau bentuk cluster mungkin tidak sesuai dengan data. Untuk menentukan jumlah
cluster yang paling optimal dan dapat memvalidasi apakah partisi fuzzy yang
diterapkan dalam proses clustering sesuai dengan data, digunakan indeks
pengukuran validitas cluster (Balasko, ____). Berikut ini adalah beberapa metode
35
pengukuran validitas cluster yang umumnya digunakan untuk algoritma fuzzy
clustering (Wu dan Yang, 2005) :
1. Partition Coefficient
Partition Coefficient (PC) merupakan metode yang mengukur jumlah cluster
yang mengalami overlap. Indeks PC mengukur validitas cluster dengan rumus
sebagai berikut :
............................(2.8)
Dimana :
c
= jumlah cluster
N
= jumlah data
µij
= derajat keanggotaan data ke-j pada cluster ke-i
PC(c) = nilai indeks PC pada cluster ke-c
Nilai PC berada dalam batas
. Pada umumnya jumlah cluster
yang paling optimal ditentukan dari nilai PC yang paling besar
2. Modified Partition Coefficient
Partition
Coefficient cenderung mengalami perubahan yang monoton
terhadap beragam nilai c (jumlah cluster). Modifikasi dari indeks PC
36
(Modified Partition Coefficient/MPC) dapat mengurangi perubahan yang
monoton tersebut. dan didefinisikan dengan rumus berikut:
............................(2.9)
Dimana :
c
= jumlah cluster
MPC(c)
= nilai indeks MPC pada cluster ke-c
Nilai MPC berada dalam batas 0 ≤ PC(c) ≤ 1. Pada umumnya jumlah cluster
yang
optimal
ditentukan
dari
nilai
MPC
yang
paling
besar
.
3. Classification Entropy
Classification Entropy (CE) merupakan metode yang mengukur tingkat
kekaburan (fuzzyness) dari partisi cluster. Indeks CE mengukur validitas
cluster dengan rumus sebagai berikut :
............................(2.10)
Dimana :
c
= jumlah cluster
N
= jumlah data
µij
= derajat keanggotaan data ke-j pada cluster ke-i
CE(c) = nilai indeks CE pada cluster ke-c
Nilai CE berada dalam batas 0 ≤ CE(c) ≤ log2c. Pada umumnya jumlah cluster
yang optimal ditentukan dari nilai PE yang paling kecil
.
37
2.8
Metode Klasifikasi Fuzzy RFM
Analisa RFM terdiri dari tiga dimensi, yaitu (Tsiptsis dan Chorianopoulos,
2009) :
1. Recency, yaitu rentang waktu (dalam satuan hari, bulan, tahun) dari transaksi
terakhir yang dilakukan oleh konsumen sampai saat ini.
2. Frequency, yaitu jumlah total transaksi atau jumlah rata-rata transaksi dalam
satu periode.
3. Monetary, yaitu jumlah rata-rata nilai pembelian konsumen dalam suatu
satuan waktu.
Metode sharp RFM mendeskripsikan atribut recency, frequency, dan monetary
dengan variabel linguistik (Zumstein, 2007). Sebagai contoh, atribut recency
dideskripsikan dengan bahasa natural long ago (lama) dan very recent (baru saja).
Atribut frequency dideskripsikan dengan bahasa natural rare (jarang) dan frequent
(sering). Sedangkan atribut monetary dideskripsikan dengan bahasa natural low
value (rendah) dan high value (tinggi). Konteks dari masing-masing atribut
didefinisikan sebagai berikut :
1. Domain atribut recency didefinisikan dalam rentang [0, 730] hari. Rentang
nilai ini dibagi menjadi dua kelas yang ekuivalen, yaitu [0, 365] hari untuk
variable linguistik very recent dan [366, 730] hari untuk long ago.
2. Domain atribut frequency didefinisikan dalam rentang [0, 100]. Rentang nilai
ini dibagi menjadi dua kelas yang ekuivalen, yaitu [0, 9] untuk variable
linguistik rare dan [10, 100] untuk frequent.
38
3. Domain atribut monetary didefinisikan dalam rentang [0, 200] euro. Rentang
nilai ini dibagi menjadi dua kelas yang ekuivalen, yaitu [0, 99] euro untuk
variable linguistik low value dan [100, 200] euro untuk high value.
Pada Tabel 2.2, delapan kelas (C1 sampai C8) didefinisikan menggunakan atribut
RFM dan variabel linguisik. Untuk setiap kelas ditentukan nilai (score) yang
bergantung dari besarnya nilai recency, frequency, dan monetary. Semakin tinggi
nilai recency, frequency, dan monetary dari konsumen, semakin tinggi juga nilai
(score) yang diperoleh. Pada Tabel 2.3 diberikan contoh nilai recency, frequency,
dan monetary dari empat konsumen. Nilai yang diperoleh oleh masing-masing
konsumen diberikan berdasarkan ketentuan pada Tabel 2.2. Dari hasil Tabel 2.3
terlihat bahwa meskipun Smith dan Brown memiliki nilai monetary yang tidak
jauh berbeda, keduanya diklasifikasikan ke dalam kelas yang berbeda. Di lain
pihak, Miller diklasifikasikan ke dalam kelas yang sama dengan Brown meskipun
unjuk kerja Brown lebih baik daripada Miller. Kekurangan metode sharp RFM
disempurnakan dalam fuzzy RFM menggunakan konsep himpunan fuzzy dan
fungsi keanggotaan (Zumstein, 2007). Dengan klasifikasi menggunakan metode
fuzzy RFM, nilai (score) dari masing-masing konsumen dapat diperhitungkan
dengan lebih akurat dan lebih baik (Tabel 2.4).
BAB III
METODOLOGI DAN RANCANGAN
3.1
Rancangan Penelitian
Rancangan tahapan penelitian mengacu pada enam tahap CRISP-DM, atau
siklus hidup pengembangan data mining sebagai framework dari proyek data
mining (Chapman, 2000).
1. Bussiness Understanding
Pada fase ini ada empat tahap yang dilakukan, yaitu :
a. Pemahaman terhadap tujuan bisnis.
Dalam aplikasinya pada perusahaan retail, perlu didahului dengan
pemahaman terhadap tujuan bisnis yang akan menentukan pola yang akan
dicari dalam proses data mining. Beberapa tujuan bisnis pada perusahaan
retail yang berkaitan dengan proses CRM adalah :
i. Meningkatkan dan mempertahankan jumlah konsumen terutama
konsumen yang berpotensi untuk menjadi konsumen tetap (pelanggan).
ii. Meningkatkan nilai penjualan terhadap melalui kegiatan cross-selling
(menawarkan item barang tambahan yang juga menjadi pelengkap dari
item barang utama yang akan dibeli) dan up-selling (menawarkan item
barang tambahan dengan promo khusus, misalnya adanya discount
atau hadiah jika pembelian mencapai nilai tertentu, sehingga nilai
pembelian dari konsumen akan bertambah).
42
43 b. Penilaian situasi (situation assessment).
UD Fenny merupakan perusahaan retail yang menjual produk bahan kue
dan peralatan kue. Perusahaan ini memiliki lebih dari 10.000 item barang.
Barang-barang tersebut dijual secara grosir dan eceran. Kondisi saat ini
UD Fenny memiliki lebih dari 1.200 konsumen tetap. Omzet penjualan
rata-rata tiap harinya mencapai 300 juta rupiah.
c. Menerjemahkan tujuan bisnis ke dalam tujuan data mining.
Pada tahapan ini dibutuhkan pemahaman terhadap tujuan bisnis dan
menterjemahkannya ke dalam tujuan data mining. Salah satu tujuan dari
data mining untuk mendukung proses CRM adalah membangun customer
segmentation (segmentasi konsumen). Customer segmentation dapat
digunakan oleh pihak manajemen untuk menemukan segmen-segmen
konsumen yang bertujuan untuk :
i. Membangun profil dari konsumen (customer profiling) yang terkait
dengan pola pembelian dan purchase history.
ii. Memahami perilaku konsumen (customer behavior) yang terkait
dengan kecenderungan konsumen untuk membeli produk-produk
tertentu.
2. Data Understanding
Pada proses ini akan dilakukan pemahaman terhadap kebutuhan data terkait
dengan pencapaian tujuan dalam CRM dan data mining. Berikut ini adalah
struktur tabel dan relasi antar tabel yang akan digunakan dalam proses data
mining.
44 Field
KodeCustomer
Nama
Alamat
Telp
Hubungan
MaxKredit
MaxNunggak
Area
Jenis
Tabel 3.1
Tabel Customer
Tipe data
Keterangan
Nvarchar (50)
Kode customer
Nvarchar (50)
Nama customer
Nvarchar (50)
Alamat customer
Nvarchar (50)
Telepon customer
Datetime
Tanggal pertama datang
Decimal (13)
Maksimum kredit
Int (4)
Maksimum lama nunggak
Nvarchar (50)
Daerah geografis customer
Nvarchar (50)
Perorangan/usaha
Sumber : UD. Fenny
Field
KodeBarang
Jenis
Nama
Satuan
Jumlah
StokMinimal
Harga jual
Harga grosir
Kemasan
HargaPokokRata
Tabel 3.2
Tabel Barang
Tipe data
Keterangan
Nvarchar (50)
Kode barang
Nvarchar (50)
Jenis barang
Nvarchar (255)
Nama barang
Nvarchar (50)
Satuan barang
Int
Jumlah barang
Int
Stok minimum
Money
Harga jual
Money
Harga grosir
Nvarchar (50)
Kemasan barang
Money
Harga pokok rata-rata
Sumber : UD. Fenny
Field
NoFaktur
TglFaktur
NoOrder
KodeCustomer
TotalJual
TotalDiskon
TotalItem
TglJatuhTempo
Pengisi
Gudang
Status
Tabel 3.3
Tabel Master Penjualan
Tipe data
Keterangan
Nvarchar (50)
Tanggal transaksi
Datetime
Nomor faktur jual
Nvarchar (50)
Nomor order
Nvarcahr (50)
Kode customer
Money
Total penjualan
Money
Total discount
Int
Total item barang
Datetime
Tanggal jatuh tempo
Nvarcham (50)
Operator
Nvarchar (50)
Gudang pengambilan barang
Smallint
Kas/kredit
Sumber : UD. Fenny
45 Field
KodeTxn
NoFaktur
KodeBarang
JumlahBarang
TotalBiaya
Disc
Tabel 3.4
Tabel Detail Penjualan
Tipe data
Keterangan
Nvarchar (50)
Kode transaksi
Nvarchar (50)
Nomor faktur/nota
Nvarchar (50)
Kode barang
Int
Jumlah barang
Money
Total jumlah dikali harga barang
Money
Diskon
Sumber : UD. Fenny
Field
KodePiutang
TglTxn
NoFaktur
BayarPokok
BayarBunga
Penyesuaian
Status
Tabel 3.5
Tabel Master Piutang
Tipe data
Keterangan
Nvarchar (50)
Kode transaksi piutang
Datetime
Tanggal kredit
Nvarchar (50)
Nomor nota
Money
Pembayaran pokok
Money
Pembayaran bunga
Money
Pembayaran penyesuaian
Smallint
Lunas/belum lunas
Sumber : UD. Fenny
Field
KodeBayar
KodePiutang
Pokok
Bunga
Disc
Penyesuaian
Tabel 3.6
Tabel Detil Piutang
Tipe data
Keterangan
Nvarchar (50)
Kode transaksi piutang
Nvarchar (50)
Kode piutang
Money
Pembayaran pokok piutang
Money
Pembayaran bunga piutang
Money
Pemotongan discount
Money
Pembayaran penyesuaian
Sumber : UD. Fenny
46 Gambar 3.1 Diagram Relasi Antar Tabel
3. Data Preparation
Pada tahap ini struktur basis data akan dipersiapkan sehingga mempermudah
proses mining. Proses preparation ini mencakup tiga hal utama yaitu:
a. Data Selection: Memilih data yang akan digunakan dalam proses data
mining. Dalam proses ini dilakukan juga pemilihan atribut-atribut yang
disesuaikan dengan proses data mining.
b. Data Preprocessing: Memastikan kualitas data yang telah dipilih pada
tahap data selection, pada tahap ini masalah yang harus dihadapi adalah
noisy data dan missing values. Proses pembersihan data (cleansing)
dilakukan dengan melakukan metode-metode query sederhana untuk
47 menemukan anomali-anomali data yang bisa saja masih terdapat pada
sistem.
c.
Data Transformation: Mengelompokkan atribut-atribut atau field-yang
telah terpilih menjadi 1 tabel dengan cara melakukan denormalisasi dari
basis data OLTP.
Berikut ini adalah hasil pemilihan atribut-atribut yang dibutuhkan untuk
proses segmentasi menggunakan metode fuzzy RFM, yaitu atribut-atribut yang
terkait dengan recency, frequency, dan monetary (Tabel 3.7).
Field
KodeCustomer
TglBeliAkhir
FrekuensiBeli
TotalBeli
Tabel 3.7
Data Parsial dari Database UD. Fenny
Keterangan
Kode customer
Menandakan recency, merupakan tanggal transaksi
pembelian terakhir yang dilakukan oleh customer
Menandakan frequency, merupakan jumlah transaksi
selama periode yang ditentukan
Menandakan monetary, merupakan jumlah uang selama
periode yang ditentukan
Dalam proses data preparation dibangun suatu data warehouse untuk
mempermudah proses mining. Data yang akan dilibatkan dalam penelitian ini
adalah data yang berkaitan dengan transaksi penjualan. Skema bintang
penjualan yang dibentuk dalam penelitian ini ditunjukkan pada gambar 3.2.
48 Gambar 3.2 Star Schema Penjualan
Data set yang digunakan dapat disesuaikan selama proses data mining, karena
dimungkinkan untuk kembali ke fase sebelumnya jika ada informasi dan
pengetahuan yang belum terungkap.
4. Modeling
Model yang digunakan dalam penelitian ini adalah model fuzzy clustering.
Metode clustering yang digunakan adalah metode Fuzzy C-Means (FCM) dan
Fuzzy Subtractive Clustering (FS) untuk melakukan proses clustering pada
data. Kedua metode ini memiliki karakteristik yang berbeda karena FCM
Clustering merupakan metode clustering yang terawasi (supervised)
sedangkan FS termasuk metode clustering yang tidak terawasi (unsupervised).
Pada FCM jumlah cluster ditentukan, sedangkan pada FS, jumlah cluster tidak
ditentukan, melainkan diperoleh melalui proses iterasi untuk mencari jumlah
cluster yang paling tepat. Hasil proses data mining menggunakan metode
FCM dan FS akan dibandingkan untuk mengetahui unjuk kerja kedua metode
ini. Hasil dari proses clustering menggunakan kedua metode ini akan
49 digunakan untuk proses segmentasi konsumen. Model yang digunakan untuk
proses segmentasi konsumen adalah model fuzzy RFM. Dalam model fuzzy
RFM variabel recency, frequency, dan monetary, masing-masing dibagi
menjadi 3 himpunan fuzzy :
1. Recency dibagi menjadi 3 himpunan fuzzy, yaitu BARU SAJA, AGAK
LAMA dan LAMA (Gambar 3.3).
2. Frequency dibagi menjadi 3 himpunan fuzzy, yaitu JARANG, AGAK
SERING, dan SERING (Gambar 3.4).
3. Monetary dibagi menjadi 3 himpunan fuzzy, yaitu RENDAH,
SEDANG, dan TINGGI (Gambar 3.5).
Domain himpunan fuzzy untuk variabel recency, frequency, dan monetary
ditunjukkan dalam Tabel 3.8 berikut ini.
Tabel 3.8 Domain nilai untuk masing-masing himpunan fuzzy.
Atribut
Variabel linguistik
Domain nilai
BARU SAJA
0 ≤ r < 21 hari
Recency
AGAK LAMA
7 < r < 44 hari
LAMA
30 hari < r
JARANG
0 ≤ f < 100 transaksi
Frequency
AGAK SERING
40 < f < 200 transaksi
SERING
140 transaksi < f
RENDAH
0 ≤ m < 500 juta rupiah
Monetary
SEDANG
100 juta < m < 1 milyar rupiah
TINGGI
600 juta rupiah < m
50 Gambar 3.3 Himpunan Fuzzy pada Variabel Recency
Gambar 3.4 Himpunan Fuzzy pada Variabel Frequency
Gambar 3.5 Himpunan Fuzzy pada Variabel Monetary
51 Definisi kelas beserta definisi variabel linguistik dan label konsumen yang
diberikan dalam model fuzzy RFM ditunjukkan dalam Tabel 3.9. Proses
segmentasi konsumen akan dilakukan dengan menghitung derajat keanggotaan
pusat cluster dari masing-masing cluster terhadap semua kelas model fuzzy
RFM (K1 sampai K27) menggunakan persamaan (Zumstein, 2007) :
dengan :
= derajat keanggotaan untuk masing-masing kelas
= derajat keanggotaan masing-masing variabel linguistik dalam fuzzy RFM
A = kelas dalam model fuzzy RFM
i
= variabel linguistik dalam fuzzy RFM
x
= pusat cluster
= gamma, biasanya bernilai 0,5
Dari derajat keanggotaan untuk masing-masing yang telah diperoleh, dapat
ditentukan kelas dari cluster, yaitu kelas yang memiliki derajat keanggotaan
paling tinggi. Setiap kelas kelas model fuzzy RFM memiliki label konsumen
yang menyatakan karakteristik dari setiap kelas konsumen.
52 Kelas
K1
K2
K3
K4
K5
K6
K7
K8
K9
K10
K11
K12
K13
K14
K15
K16
K17
K18
K19
K20
K21
K22
K23
K24
K25
K26
K27
Tabel 3.9
Deskripsi variabel linguistik dan Label Konsumen
Deskripsi Variabel Linguistik
Label
Konsumen
Recency
Frequency
Monetary
Baru saja
Jarang
Rendah
Dormant D
Baru saja
Jarang
Sedang
Dormant A
Baru saja
Jarang
Tinggi
Occational A
Baru saja
Agak sering
Rendah
Everyday D
Baru saja
Agak sering
Sedang
Golden D
Baru saja
Agak sering
Tinggi
Superstar D
Baru saja
Sering
Rendah
Everyday A
Baru saja
Sering
Sedang
Golden A
Baru saja
Sering
Tinggi
Superstar A
Agak lama
Jarang
Rendah
Dormant E
Agak lama
Jarang
Sedang
Dormant B
Agak lama
Jarang
Tinggi
Occational B
Agak lama
Agak sering
Rendah
Everyday E
Agak lama
Agak sering
Sedang
Golden E
Agak lama
Agak sering
Tinggi
Superstar E
Agak lama
Sering
Rendah
Everyday B
Agak lama
Sering
Sedang
Golden B
Agak lama
Sering
Tinggi
Superstar B
Lama
Jarang
Rendah
Dormant F
Lama
Jarang
Sedang
Dormant C
Lama
Jarang
Tinggi
Occational C
Lama
Agak sering
Rendah
Everyday F
Lama
Agak sering
Sedang
Golden F
Lama
Agak sering
Tinggi
Superstar F
Lama
Sering
Rendah
Everyday C
Lama
Sering
Sedang
Golden C
Lama
Sering
Tinggi
Superstar C
5. Evaluation
Evaluasi dari model yang digunakan dilakukan dengan cara melakukan proses
mining pada data set dalam 1 periode tertentu (transaksi dalam satu tahun
tertentu). Proses clustering diuji coba dengan berbagai nilai parameter dari
masing-masing algoritma clustering. Hasil clustering diuji tingkat validitasnya
menggunakan metode pengukuran Modified Partition Coefficient dan
53 Classification Entropy untuk menentukan jumlah cluster dan algoritma
clustering yang terbaik. Dengan menggunakan jumlah cluster yang paling
optimal, proses clustering dilakukan untuk data set pada periode tahun yang
lain. Hasil segmentasi cluster yang diperoleh dari hasil clustering algoritma
Fuzzy C-Means dan Fuzzy Subtractive Clustering dibandingkan dengan data
transaksi yang sesungguhnya untuk mengukur kinerja proses mining. Tabel
3.10, 3.11, 3.12, 3.13 dan 3.14 menunjukkan 5 jenis konsumen yang diurutkan
dari tingkat konsumen yang paling potensial sampai yang tidak potensial.
yaitu Superstar, Golden, Everyday, Occational, dan Dormant Customer yang
terbagi lagi menjadi beberapa jenis konsumen berdasarkan Tabel 3.9.
Pembagian 5 jenis konsumen ini akan menjadi acuan dalam proses evaluasi.
Jika belum mampu membaca cluster dengan tepat, maka akan kembali ke
proses modeling untuk memperbaiki struktur model yang digunakan. Tahap
evaluasi dianggap telah selesai jika business understanding telah terjawab
dengan baik.
Kelas
K9
K18
K27
K6
K15
K24
Tabel 3.10
Pembagian Superstar Customer
Deskripsi Variabel Linguistik
Recency
Frequency
Monetary
Baru saja
Sering
Tinggi
Agak lama
Sering
Tinggi
Lama
Sering
Tinggi
Baru saja
Agak sering
Tinggi
Agak lama
Agak sering
Tinggi
Lama
Agak sering
Tinggi
Label
Konsumen
Superstar A
Superstar B
Superstar C
Superstar D
Superstar E
Superstar F
54 Kelas
K8
K17
K26
K5
K14
K23
Tabel 3.11
Pembagian Golden Customer
Deskripsi Variabel Linguistik
Recency
Frequency
Monetary
Baru saja
Sering
Sedang
Agak lama
Sering
Sedang
Lama
Sering
Sedang
Baru saja
Agak sering
Sedang
Agak lama
Agak sering
Sedang
Lama
Agak sering
Sedang
Label
Konsumen
Golden A
Golden B
Golden C
Golden D
Golden E
Golden F
Kelas
K7
K16
K25
K4
K13
K22
Tabel 3.12
Pembagian Everyday Customer
Deskripsi Variabel Linguistik
Recency
Frequency
Monetary
Baru saja
Sering
Rendah
Agak lama
Sering
Rendah
Lama
Sering
Rendah
Baru saja
Agak sering
Rendah
Agak lama
Agak sering
Rendah
Lama
Agak sering
Rendah
Label
Konsumen
Everyday A
Everyday B
Everyday C
Everyday D
Everyday E
Everyday F
Kelas
K3
K12
K21
Tabel 3.13
Pembagian Occational Customer
Deskripsi Variabel Linguistik
Recency
Frequency
Monetary
Baru saja
Jarang
Tinggi
Agak lama
Jarang
Tinggi
Lama
Jarang
Tinggi
Label
Konsumen
Occational A
Occational B
Occational C
Kelas
K2
K11
K20
K1
K10
K19
Tabel 3.14
Pembagian Dormant Customer
Deskripsi Variabel Linguistik
Recency
Frequency
Monetary
Baru saja
Jarang
Sedang
Agak lama
Jarang
Sedang
Lama
Jarang
Sedang
Baru saja
Jarang
Rendah
Agak lama
Jarang
Rendah
Lama
Jarang
Rendah
Label
Konsumen
Dormant A
Dormant B
Dormant C
Dormant D
Dormant E
Dormant F
55 6.
Deployment
Pada tahap ini akan dilakukan pembuatan aplikasi data mining, untuk
menghasilkan laporan data mining hingga melakukan integrasi dengan
sistem informasi yang telah di lapangan. Pada penelitian ini proses
deployment adalah melakukan proses mining pada seluruh database, tidak
dilakukan proses integrasi dengan sistem yang telah ada karena
menggunakan program simulasi dengan MATLAB.
3.2
Tempat dan Waktu Penelitian
Tempat dan waktu penelitian dilakukan di UD Fenny. Nakula No. 17
Denpasar dari bulan November 2010 hingga Desember 2010. Sesuai dengan
rancangan tahapan penelitian CRISP-DM, penelitian di UD Fenny diawali dengan
studi kelayakan (feasibility study) dan pemahaman terhadap prosedur yang sudah
ada (existing procedure).
3.3
Sumber Data
Data yang digunakan berasal dari basis data Sistem Informasi Manajemen
Retail UD. Fenny. Data yang tersimpan adalah data transaksi dari bulan Oktober
2006 hingga Oktober 2010. Data ini memiliki format Microsoft SQL Server 2000
dengan ukuran database sekitar 5 GB dengan jumlah record untuk tabel transaksi
mencapai 3 juta record.
56 3.4
Instrumen Penelitian
Berikut ini adalah instrumen yang digunakan untuk proses penelitian :
1.
Perangkat Lunak
Perangkat lunak yang digunakan dalam perancangan sistem antara lain:
a. Sistem Operasi Windows 7 Home Basic.
b. Perangkat pemrograman MATLAB R2010a dengan bantuan beberapa
toolbox yaitu Fuzzy Logic Toolbox dan Database Toolbox.
c. DBMS (Database Management System) Microsoft SQL Server 2000.
2.
Perangkat Keras
Perangkat keras yang digunakan dalam penelitian adalah komputer dengan
spesifikasi
a. Processor 2.40 GHz
b. 4 GB RAM
c. Hardisk 250 GB
d. VGA 320 MB
3.5
Jadwal Penelitian
Tabel 3.15
Jadwal Penelitian
Kegiatan
Nov
Des
Jan
Feb
Mar
Apr
Mei
Juni
Pengambilan data
Persiapan data
Pembuatan model
Pengujian model
57 Pembuatan laporan
tesis
BAB IV
IMPLEMENTASI
4.1
Implementasi Data Warehouse
Untuk menunjang proses analisis yang dilakukan oleh pengguna, maka
data warehouse yang dirancang perlu dipresentasikan kepada pengguna. Dalam
penelitian ini dibuat suatu aplikasi untuk menampilkan data penjualan yang
dilakukan tiap konsumen berdasarkan recency, frequency, dan monetary. Aplikasi
ini dibuat menggunakan Microsoft Visual Basic 6.0. Aplikasi ini dilengkapi
dengan fasilitas roll-up dan drill-down. Roll-up adalah fitur untuk menampilkan
data ke tingkat rincian yang lebih rendah, sedangkan drill-down adalah fitur untuk
menampilkan data ke tingkat rincian yang lebih tinggi. Gambar 4.1 menunjukkan
tampilan aplikasi data warehouse untuk menampilkan data penjualan per
konsumen.
Gambar 4.1 Tampilan Utama Aplikasi Data Warehouse
57
58 Aplikasi dilengkapi dengan fasilitas drill-down dan roll-up berdasarkan hari,
bulan, quarter, dan tahun (Gambar 4.2). Selain itu, aplikasi dilengkapi juga
dengan fasilitas untuk mengetahui total recency, frequency, monetary, dan
average (rata-rata monetary) setiap konsumen berdasarkan rentang periode yang
dipilih (Gambar 4.3).
Gambar 4.2 Fasilitas Drill-Down dan Roll-Up pada Aplikasi Data Warehouse
59 Gambar 4.3 Fasilitas untuk Mengetahui Total Recency, Frequency, Monetary,
dan Average pada Aplikasi Data Warehouse
4.2
Implementasi Data Mining
Implementasi data mining dibangun berbasis GUI menggunakan
MATLAB versi 7.10.0 dan memanfaatkan beberapa toolbox yaitu Fuzzy Logic
Toolbox dan Database Toolbox. Tools editor yang digunakan untuk perancangan
GUI di dalam MATLAB adalah GUIDE. Gambar 4.4 menunjukkan tampilan
utama dari implementasi data mining yang memiliki 3 menu utama, yaitu Fuzzy
C-Means Clustering, Fuzzy Subtractive Clustering dan Perbandingan Kelas
Konsumen. Menu Fuzzy C-Means Clustering digunakan untuk melakukan proses
clustering menggunakan algoritma Fuzzy C-Means, sedangkan Menu Fuzzy
Subtractive
Clustering
digunakan
untuk
melakukan
proses
clustering
menggunakan algoritma Fuzzy Subtractive. Hasil clustering dari kedua algoritma
60 tersebut akan disegmentasi menggunakan model Fuzzy RFM untuk menghasilkan
kelas konsumen dari setiap cluster. Menu Perbandingan Kelas Konsumen
digunakan untuk menampilkan hasil proses segmentasi untuk uji coba data setiap
periode yang ditentukan (per tahun).
Gambar 4.4 Menu Utama Aplikasi Data Mining
4.2.1 Implementasi Clustering dengan Algoritma Fuzzy C-Means
Gambar 4.5 menunjukkan tampilan dari aplikasi clustering dengan
menggunakan algoritma Fuzzy C-Means Clustering.
61 Gambar 4.5 Tampilan Aplikasi untuk Fuzzy C-Means Clustering
Ketika aplikasi dijalankan, user harus melakukan pengambilan data di dalam basis
data dengan memilih menu File | Load data dan aplikasi akan menjalankan
method LoadMenuItem_Callback(hObject, eventdata, handles). Berikut ini adalah
tahapan dan cuplikan program dari method tersebut :
1. Mendeklarasikan variabel global.
global A x alias;
2. Menghapus axes1 dari objek sehingga dapat digunakan untuk melakukan plot
data baru.
cla(handles.axes1,'reset');
axes(handles.axes1);
3. Mengatur koneksi ke database dengan nama data source ‘UD_Fenny’. Data
source / ODBC terlebih dahulu diatur melalui administrative tools.
Selanjutnya database akan diambil menggunakan perintah SQL dan diatur
62 sehingga format datanya menjadi MATLAB structure yang terdiri dari empat
field, yaitu IdCustomer, Recency, Frequency, dan Monetary.
conn = database('UD_Fenny','','');
p = 'Select * from TbDWH3';
curs = exec(conn,p);
curs = fetch(curs);
setdbprefs('DataReturnFormat','structure');
A=curs.Data;
4. Membuat matriks alias untuk mempermudah proses untuk mengidentifikasi
anggota-anggota tiap cluster setelah melalui proses clustering.
numrows=rows(curs);
x=[1:1:numrows]';
alias=[num2cell(x),A.IdCustomer];
5. Melakukan plot field Recency, Frequency, dan Monetary untuk setiap
konsumen ke dalam ruang tiga dimensi.
plot3(A.Recency,A.Frequency,A.Monetary,'bo');
grid on;
axis square;
xlabel('Recency');
ylabel('Frekuensi');
zlabel('Monetary');
Proses berikutnya adalah proses clustering dengan menggunakan algoritma Fuzzy
C-Means (FCM). Algoritma FCM memerlukan input user untuk menentukan
jumlah cluster yang akan dibentuk. Setelah jumlah cluster diinputkan melalui
komponen
edit
yang
tersedia,
aplikasi
ECluster_Callback(hObject, eventdata, handles)
akan
menjalankan
method
untuk memeriksa apakah
inputnya kosong atau tidak. Berikut adalah cuplikan programnya :
input = str2num(get(hObject,'String'));
if(isempty(input))
set(hObject,'String',0)
end
Aplikasi akan menjalankan method BtCluster_Callback(hObject, eventdata,
handles) untuk menjalankan proses clustering yang diaktifkan melalui komponen
63 pushbutton Cluster. Berikut adalah tahapan beserta cuplikan program dari method
tersebut :
1. Mendeklarasikan variabel global.
global A x alias center n H maks minim;
2. Membersihkan axes1 dari objek sehingga dapat digunakan untuk melakukan
plot data baru.
cla(handles.axes1,'reset');
3. Menyimpan data recency, frequency, monetary dan input jumlah cluster ke
dalam variabel.
n=str2num(get(handles.ECluster,'String'));
Q=[x,A.Recency,A.Frequency,A.Monetary];
4. Proses clustering menggunakan fungsi fcm. Parameter yang berpengaruh
terhadap hasil clustering dalam fungsi ini adalah jumlah cluster. Hasil dari
fungsi fcm adalah berupa koordinat titik pusat cluster, matriks partisi dan nilai
objective function. Koordinat titik pusat cluster akan di-plot di komponen
axes.
[center, U, obj_fcn] = fcm(Q(:,2:4),n);
maxU = max(U);
for i=1:n
plot3(center(i,1),center(i,2),center(i,3),'ko','markes
ize', 15,'LineWidth',2);hold on;
end
5. Mencari anggota dari setiap cluster dan mem-plot data anggota tiap cluster di
komponen axes.
H=[];
maks = num2cell(max(Q(:,2:4)))
minim = num2cell(min(Q(:,2:4)))
s=['go';'b*';'rs';'md';'cx';'k+';'mh';'gh';'b+';'rx';'m0';
'r*';'bs';'gd']
list_legend='';
for i=1:n
index = find(U(i, :) == maxU);
%mencari anggota cluster
64 cust=alias(index,2);
[b,k]=size(cust);
in=[];
for j=1:b
in=cat(1,in,i);
end
Ha=[num2cell(in),cust,num2cell(Q(index,2)),
num2cell(Q(index,3)),num2cell(Q(index,4))];
H=cat(1,H,Ha);
%membuat daftar legend
kata='Cluster ke-';
list1=strcat(kata,num2str(i));
list_legend=strvcat(list_legend,list1);
%plot hasil clustering
plot3(Q(index,2),Q(index,3),Q(index,4),s(i,:));
hold on;
end
grid on;
axis square;
%menampilkan legend sesuai dg jumlah cluster
legend(list_legend,2);
xlabel('Recency');
ylabel('Frekuensi');
zlabel('Monetary');
6. Menghitung indeks validitas Modified Partition Coefficient (MPC) dan
Classification Entropy (CE).
mem_func=U;
jum_mf=sum(sum(mem_func.^2));
PC=jum_mf/drow;
CE=-(sum(sum(mem_func.*(log(mem_func))))/drow);
MPC=1-((n/(n-1))*(1-PC));
set(handles.MPC,'String',MPC);
set(handles.PE,'String',CE);
Daftar anggota tiap-tiap cluster ditampilkan melalui komponen pushbutton Hasil
Clustering. Aplikasi akan memanggil figure HasilClust dan menampilkan daftar
anggota
tiap-tiap
cluster
pada
komponen
uitable
melalui
method
TblHasil_CreateFcn(hObject, eventdata, handles). Tampilan aplikasi ditunjukkan
pada gambar 4.6. Berikut ini adalah cuplikan programnya :
65 global H;
data=H;
colnames = {'Cluster','Kode Customer', 'Recency',
'Frequency', 'Monetary'};
colfmt = {'numeric','char', 'numeric', 'numeric', 'bank'};
coledit = [false false false false false];
colwidth = {60 100 60 60 200};
foregroundColor = [0 0 0];
backgroundColor = [.94 .87 .87];
set(hObject,'Data',data,'Units','normalized',...
'ColumnName',colnames,...
'ColumnFormat',colfmt,...
'ColumnWidth',colwidth,...
'ColumnEditable',coledit,...
'ForegroundColor', foregroundColor,...
'BackgroundColor', backgroundColor,...
'FontSize',9);
Gambar 4.6 Tampilan Aplikasi Daftar Anggota Cluster
Hasil proses clustering selanjutnya akan disegmentasi untuk menentukan kelaskelas konsumen. Proses segmentasi akan diuraikan di sub bab Implementasi
Segmentasi.
4.2.2 Implementasi Clustering dengan Algoritma Fuzzy Subtractive
Gambar 4.7 menunjukkan tampilan dari aplikasi clustering dengan
menggunakan algoritma Fuzzy Subtractive Clustering. Seperti halnya aplikasi
clustering menggunakan algoritma Fuzzy Subtractive Clustering, ketika aplikasi
66 dijalankan, user harus melakukan pengambilan data di dalam basis data dengan
memilih menu File | Load data. Aplikasi akan menjalankan method
LoadMenuItem_Callback(hObject, eventdata, handles). Tahapan dan cuplikan
program dari method LoadMenuItem_Callback(hObject, eventdata, handles) telah
dipaparkan pada sub bab Implementasi Clustering dengan Algoritma Fuzzy CMeans (FCM).
Gambar 4.7 Tampilan Aplikasi untuk Fuzzy Subtractive Clustering
Proses berikutnya adalah proses clustering dengan menggunakan
algoritma Fuzzy Subtractive Clustering. Algoritma ini tidak memerlukan input
user untuk menentukan jumlah cluster yang akan dibentuk karena jumlah cluster
akan ditentukan melalui proses iterasi. Aplikasi akan menjalankan method
BtCluster_Callback(hObject, eventdata, handles) untuk menjalankan proses
clustering yang diaktifkan melalui komponen pushbutton Cluster. Berikut adalah
tahapan beserta cuplikan program dari method tersebut :
1. Mendeklarasikan variabel global.
67 global A x alias center n H maks minim;
2. Membersihkan axes1 dari objek sehingga dapat digunakan untuk melakukan
plot data baru.
cla(handles.axes1,'reset');
3. Menyimpan data recency, frequency, dan monetary ke dalam variabel.
Q=[x,A.Recency,A.Frequency,A.Monetary];
4. Proses
clustering
menggunakan
fungsi
subclust.
Parameter
yang
berpengaruh terhadap hasil clustering dalam fungsi ini adalah nilai radii.
Radii
adalah vektor nilai yang berada dalam rentang 0 sampai 1. Radii
merupakan jarak terjauh dari pusat cluster dengan data. Semakin besar nilai
radii,
semakin besar ukuran cluster. Hasil dari fungsi subclust adalah
berupa matriks koordinat titik pusat cluster (c) dan sigma (σ). Koordinat titik
pusat cluster akan di-plot di komponen axes. Sigma digunakan untuk
menentukan nilai parameter fungsi keanggotaan Gauss seperti yang terlihat
pada gambar 4.8.
Gambar 4.8 Kurva Gauss (Gelley, 2000)
Cuplikan programnya adalah sebagai berikut :
68 [center, S] = subclust(Q(:,2:4),0.5);
plot3(center(:,1),center(:,2),center(:,3),'ko','markersize',
15,'LineWidth',2);
5. Mencari anggota dari setiap cluster dan mem-plot data anggota tiap cluster di
komponen axes. Derajat keanggotaan suatu titik data x pada cluster ke-k
ditentukan dengan kurva Gauss menggunakan rumus (Gelley, 2000) :
dengan :
xk
= titik data pada cluster ke-k
c
= pusat cluster ke-k
σ
= nilai sigma
µk
= derajat keanggotaan suatu titik pada cluster ke-k
Cuplikan programnya adalah sebagai berikut :
[drow dcol]=size(Q(:,2:4))
[crow ccol]=size(center)
maks = num2cell(max(Q(:,2:4)))
minim = num2cell(min(Q(:,2:4)))
hasil=[];
for i=1:drow
hmiu=[];
for j=1:crow
h1=Q(i,2:4)-center(j,:);
h2=2*(S.^2);
h3=((h1.^2)./h2);
h4=h3;
h=(h4(:,1)+h4(:,2)+h4(:,3));
miu=exp(-h);
hmiu=cat(2,hmiu,[miu]);
end
hasil=cat(1,hasil,hmiu)
end
[C,I]=max(hasil,[],2)
Q=cat(2,Q,I)
H=[];
list_legend='';
for i=1:crow
r=find(Q(:,5)==i)
cust=alias(r,2);
[b,k]=size(cust);
69 in=[];
for j=1:b
in=cat(1,in,i);
end
Ha=[num2cell(in),cust,num2cell(Q(r,2)),
num2cell(Q(r,3)),num2cell(Q(r,4))];
H=cat(1,H,Ha)
kata='Cluster ke-';
list1=strcat(kata,num2str(i));
list_legend=strvcat(list_legend,list1)
plot3(Q(r,2),Q(r,3),Q(r,4),s(i,:));hold on;grid on;
end
axis square;
legend(list_legend,2);
xlabel('Recency');
ylabel('Frekuensi');
zlabel('Monetary');
6. Menghitung indeks validitas Modified Partition Coefficient (MPC) dan
Classification Entropy (CE).
mf=hasil;
jum_mf=sum(sum(mf.^2));
PC=jum_mf/drow;
c=crow;
MPC=1-((c/(c-1))*(1-PC));
CE=-(sum(sum(mf.*(log(mf))))/drow);
set(handles.MPC,'String',MPC);
set(handles.PE,'String',CE);
Hasil proses clustering selanjutnya akan disegmentasi untuk menentukan kelaskelas konsumen. Proses segmentasi akan diuraikan di sub bab Implementasi
Segmentasi dengan Model Fuzzy RFM.
4.2.3 Implementasi Segmentasi dengan Model Fuzzy RFM
Gambar 4.9 menunjukkan tampilan dari aplikasi segmentasi menggunakan
model fuzzy RFM untuk menentukan kelas-kelas konsumen dari cluster yang
terbentuk. Proses segmentasi dimulai dengan menentukan himpunan fuzzy untuk
atribut Recency, Frequency, dan Monetary. Setiap atribut dibagi menjadi 3
70 himpunan
fuzzy.
Masing-masing
himpunan
fuzzy
menggunakan
fungsi
keanggotaan trapezoidal.
Gambar 4.9 Tampilan Aplikasi Segmentasi Menggunakan
Model Fuzzy RFM
Variabel linguistik dan domain nilai untuk masing-masing atribut ditentukan
melalui method yang dibangkitkan pada saat 3 komponen edit untuk menampilkan
jangkauan nilai himpunan fuzzy untuk masing-masing atribut. Untuk atribut
Recency, variabel linguistik serta domain nilai ditentukan melalui method
ERecency_CreateFcn(hObject, eventdata, handles). Berikut adalah cuplikan
program dari method tersebut.
global RName RVal maks rmaks;
rmaks=maks(:,1)
rmaks1=cell2mat(rmaks)+50
rv1=[0 0 7 21];
rv2=[7 21 30 44];
rv3=[30 44 rmaks mat2cell(rmaks1)];
RName = {'Baru Saja','Agak Lama','Lama'};
RVal = {mat2str(rv1),mat2str(rv2),mat2str(cell2mat(rv3))}
if ispc && isequal(get(hObject,'BackgroundColor'),
get(0,'defaultUicontrolBackgroundColor'))
set(hObject,'BackgroundColor','white');
end
71 set(hObject, 'String', RVal(:,1));
Untuk atribut Frequency, variabel linguistik serta domain nilai ditentukan melalui
method EFreq_CreateFcn(hObject, eventdata, handles). Berikut adalah cuplikan
program dari method tersebut.
global FName FVal maks fmaks
fmaks=maks(:,2)
fmaks1=cell2mat(fmaks)+50
fv1=[0 0 40 100];
fv2=[40 100 140 200];
fv3=[140 200 fmaks mat2cell(fmaks1)];
FName = {'Jarang','Agak Sering','Sering'};
FVal = {mat2str(fv1),mat2str(fv2),mat2str(cell2mat(fv3))}
if ispc && isequal(get(hObject,'BackgroundColor'),
get(0,'defaultUicontrolBackgroundColor'))
set(hObject,'BackgroundColor','white');
end
set(hObject, 'String', FVal(:,1));
Untuk atribut Monetary, variabel linguistik serta domain nilai ditentukan melalui
method EMoney_CreateFcn(hObject, eventdata, handles). Berikut adalah cuplikan
program dari method tersebut.
global MName MVal maks mmaks
mmaks=maks(:,3);
mmaks1=cell2mat(mmaks)+400000000;
mv1=[0 0 100000000 500000000];
mv2=[100000000 500000000 600000000 1000000000];
mv3=[600000000 1000000000 mmaks mat2cell(mmaks1)];
MName = {'Rendah','Sedang','Tinggi'};
MVal = {mat2str(mv1),mat2str(mv2),mat2str(cell2mat(mv3))}
if ispc && isequal(get(hObject,'BackgroundColor'),
get(0,'defaultUicontrolBackgroundColor'))
set(hObject,'BackgroundColor','white');
end
set(hObject, 'String', MVal(:,1));
Grafik himpunan fuzzy untuk atribut Recency, Frequency, dan Monetary dapat
ditampilkan dalam sebuah figure melalui method BtnGrafik_Callback(hObject,
eventdata, handles) seperti yang terlihat pada gambar 4.10. Berikut adalah
cuplikan program dari method tersebut.
72 global RName RVal rmaks FName FVal fmaks MName MVal mmaks
Rn1 Rn2 Rn3 RV1 RV2 RV3 Fn1 Fn2 Fn3 FV1 FV2 FV3 Mn1 Mn2 Mn3
MV1 MV2 MV3
figure;
RName_1=str2mat(RName);
Rn1 = RName_1(1,:);
Rn2 = RName_1(2,:);
Rn3 = RName_1(3,:);
RVal_1=str2mat(RVal);
RV1 = str2num(RVal_1(1,:));
RV2 = str2num(RVal_1(2,:));
RV3 = str2num(RVal_1(3,:));
a = newfis('myfis');
a = addvar(a,'input','recency',[0 cell2mat(rmaks)]);
a = addmf(a,'input',1,Rn1,'trapmf',RV1);
a = addmf(a,'input',1,Rn2,'trapmf',RV2);
a = addmf(a,'input',1,Rn3,'trapmf',RV3);
getfis(a,'input',1);
subplot(2,2,1);plotmf(a,'input',1);hold on;
FName_1=str2mat(FName);
Fn1 = FName_1(1,:);
Fn2 = FName_1(2,:);
Fn3 = FName_1(3,:);
FVal_1=str2mat(FVal);
FV1 = str2num(FVal_1(1,:));
FV2 = str2num(FVal_1(2,:));
FV3 = str2num(FVal_1(3,:));
a = addvar(a,'input','frequency',[0 cell2mat(fmaks)]);
a = addmf(a,'input',2,Fn1,'trapmf',FV1);
a = addmf(a,'input',2,Fn2,'trapmf',FV2);
a = addmf(a,'input',2,Fn3,'trapmf',FV3);
getfis(a,'input',2);
subplot(2,2,2);plotmf(a,'input',2);hold on;
MName_1=str2mat(MName);
Mn1 = MName_1(1,:);
Mn2 = MName_1(2,:);
Mn3 = MName_1(3,:);
MVal_1=str2mat(MVal);
MV1 = str2num(MVal_1(1,:));
MV2 = str2num(MVal_1(2,:));
MV3 = str2num(MVal_1(3,:));
a = addvar(a,'input','monetary',[0 cell2mat(mmaks)]);
a = addmf(a,'input',3,Mn1,'trapmf',MV1);
a = addmf(a,'input',3,Mn2,'trapmf',MV2);
a = addmf(a,'input',3,Mn3,'trapmf',MV3);
getfis(a,'input',3);
subplot(2,2,3:4);plotmf(a,'input',3);hold on;
73 Gambar 4.10 Hasil Plot Himpunan Fuzzy dengan Fungsi Keanggotaan
Trapezoidal
Proses berikutnya adalah menentukan kelas segmentasi melalui method
BtnFuzzy_Callback(hObject, eventdata, handles). Berikut adalah tahapan dari
method tersebut :
1. Menentukan derajat keanggotaan dari setiap pusat cluster terhadap masingmasing himpunan fuzzy dari atribut Recency, Frequency, dan Monetary.
2. Membentuk 3 matriks yang terdiri dari kombinasi derajat keanggotaan dari
dari atribut Recency, Frequency, dan Monetary. Masing-masing matriks terdiri
dari 27 baris yang didapat dari jumlah himpunan fuzzy masing-masing atribut
dipangkatkan dengan jumlah atribut (33 = 27). Dua puluh tujuh baris matriks
ini mewakili jumlah kelas konsumen dalam model fuzzy RFM.
74 3. Menghitung derajat keanggotaan masing-masing pusat cluster terhadap semua
kelas konsumen dan menentukan derajat keanggotaan terbesar untuk
menentukan kelas konsumen dari masing-masing cluster.
Berikut adalah cuplikan program dari method BtnFuzzy_Callback(hObject,
eventdata, handles).
global center n Rn1 Rn2 Rn3 RV1 RV2 RV3 Fn1 Fn2 Fn3 FV1 FV2
FV3 Mn1 Mn2 Mn3 MV1 MV2 MV3 C
data = center;
C=[];
% Langkah ke-1
for i=1:n
disp(i);
r=data(i,1)
RV=RV1
mr1=trapmf(r,RV1)
mr2=trapmf(r,RV2)
mr3=trapmf(r,RV3)
f=data(i,2)
mf1=trapmf(f,FV1)
mf2=trapmf(f,FV2)
mf3=trapmf(f,FV3)
m=data(i,3)
mm1=trapmf(m,MV1)
mm2=trapmf(m,MV2)
mm3=trapmf(m,MV3)
% Langkah ke-2
Kr=[mr1;mr1;mr1;mr1;mr1;mr1;mr1;mr1;mr1;mr2;mr2;mr2;mr2;
mr2;mr2;mr2;mr2;mr2;mr3;mr3;mr3;mr3;mr3;mr3;mr3;mr3;mr3]
Kf=[mf1;mf1;mf1;mf2;mf2;mf2;mf3;mf3;mf3;mf1;mf1;mf1;mf2;
mf2;mf2;mf3;mf3;mf3;mf1;mf1;mf1;mf2;mf2;mf2;mf3;mf3;mf3]
Km=[mm1;mm2;mm3;mm1;mm2;mm3;mm1;mm2;mm3;mm1;mm2;mm3;mm1;
mm2;mm3;mm1;mm2;mm3;mm1;mm2;mm3;mm1;mm2;mm3;mm1;mm2;mm3]
% Langkah ke-3
miu=Kr(:,1).*Kf(:,1).*Km(:,1)
hasil_1=miu.^0.5
miu_2=(1-Kr).*(1-Kf).*(1-Km)
selisih=1-miu_2
hasil_2=selisih.^0.5
hasil_RFM=hasil_1.*hasil_2
[score,I]=max(hasil_RFM)
kls=strcat('K',num2str(I));
H={kls,Kr(I,1),Kf(I,1),Km(I,1),score}
C=cat(1,C,H)
End
75 Dalam implementasi ini juga ditampilkan uraian, deskripsi variabel linguistik, dan
label konsumen dari masing-masing kelas. Di bawah ini adalah cuplikan program
untuk membentuk matriks yang sesuai dengan Tabel 3.9. Isi matriks tersebut akan
ditampilkan dalam komponen uitable.
KelasLinguistik={'K1',Rn1,Fn1,Mn1,'Dormant B';
'K2',Rn1,Fn1,Mn2,'Dormant A';
'K3',Rn1,Fn1,Mn3,'Occational A';
'K4',Rn1,Fn2,Mn1,'Everyday D';
'K5',Rn1,Fn2,Mn2,'Golden D';
'K6',Rn1,Fn2,Mn3,'Superstar D';
'K7',Rn1,Fn3,Mn1,'Everyday A';
'K8',Rn1,Fn3,Mn2,'Golden A';
'K9',Rn1,Fn3,Mn3,'Superstar A';
'K10',Rn2,Fn1,Mn1,'Dormant D';
'K11',Rn2,Fn1,Mn2,'Dormant C';
'K12',Rn2,Fn1,Mn3,'Occational B';
'K13',Rn2,Fn2,Mn1,'Everyday E';
'K14',Rn2,Fn2,Mn2,'Golden E';
'K15',Rn2,Fn2,Mn3,'Superstar E';
'K16',Rn2,Fn3,Mn1,'Everyday B';
'K17',Rn2,Fn3,Mn2,'Golden B';
'K18',Rn2,Fn3,Mn3,'Superstar B';
'K19',Rn3,Fn1,Mn1,'Dormant F';
'K20',Rn3,Fn1,Mn2,'Dormant E';
'K21',Rn3,Fn1,Mn3,'Occational C';
'K22',Rn3,Fn2,Mn1,'Everyday F';
'K23',Rn3,Fn2,Mn2,'Golden F';
'K24',Rn3,Fn2,Mn3,'Superstar F';
'K25',Rn3,Fn3,Mn1,'Everyday C';
'K26',Rn3,Fn3,Mn2,'Golden C';
'K27',Rn3,Fn3,Mn3,'Superstar C'};
4.2.4 Implementasi Perbandingan Kelas Konsumen
Proses segmentasi dari hasil clustering menggunakan kedua algoritma
fuzzy clustering menentukan label/kelas konsumen untuk setiap konsumen dalam
perusahaan retail. Uji coba data dilakukan per periode tertentu (per tahun) dan
hasilnya disimpan dalam database. Gambar 4.11 dan 4.12 menunjukkan tampilan
aplikasi Perbandingan Kelas Konsumen. Hasil perbandingan kelas konsumen
akan ditampilkan dalam bentuk grafik dan diaktifkan melalui method
BtnPush_Callback(hObject, eventdata, handles) pada komponen push button.
76 Dalam aplikasi ini disediakan 2 macam pilihan grafik yaitu grafik kelas konsumen
yang disajikan dalam bentuk detail, yaitu sesuai dengan pembagian 27 kelas
konsumen pada tabel 3.9 dan general (umum), yaitu sesuai dengan pembagian 5
kelas konsumen (Dormant, Everyday, Occational, Golden, Superstar).
Gambar 4.11 Tampilan Aplikasi Perbandingan Kelas Konsumen dengan
Pilihan Bentuk Grafik General
Gambar 4.12 Tampilan Aplikasi Perbandingan Kelas Konsumen dengan
Pilihan Bentuk Grafik Detail
77 Perbandingan kelas konsumen per periode (tahun) disajikan untuk setiap
konsumen sehingga pihak perusahaan retail mendapatkan gambaran tentang
perilaku konsumennya. Dalam aplikasi ini user diminta untuk menginputkan
nomor konsumen (Customer No.) pada komponen edit dan memilih algoritma
clustering yang digunakan. Selanjutnya program akan menjalankan SQL query
untuk mengekstrak data sesuai dengan input yang diberikan. Berikut ini adalah
cuplikan programnya :
CustNo=get(handles.ECust,'String');
PopAlgoritma = get(handles.PopAlgoritma, 'Value');
switch PopAlgoritma
case 1
algo='FCM';
case 2
algo='FS';
end
conn = database('UD_Fenny','','');
p = ['select * from tbSegmen where CustNo=' '''' CustNo ''''
'and Metode=' '''' algo '''' ];
curs = exec(conn,p)
curs = fetch(curs);
setdbprefs('DataReturnFormat','structure');
A=curs.Data
Proses berikutnya adalah pembentukan grafik perbandingan kelas konsumen.
Berikut adalah cuplikan programnya.
cla(handles.axes1,'reset');
axes(handles.axes1);
UrutanKelas=[3;6;15;9;18;24;12;21;27;2;5;14;8;17;23;11;20;26
;1;4;13;7;16;22;10;19;25];
UrutanKelas1=[1;1;3;2;4;5;2;4;5;1;1;3;2;4;5;2;4;5;1;1;3;2;4;
5;2;4;5];
[b,k]=size(A.Tahun);
levelkelas=[];
for i=1:b
kelas=A.Kelas(i);
if (strcmp(pilihan,'Detail'));
level=UrutanKelas(kelas,1);
else
level=UrutanKelas1(kelas,1);
end
78 H=[A.Tahun(i),A.Kelas(i),level];
levelkelas=cat(1,levelkelas,H);
end
plot(levelkelas(:,1),levelkelas(:,3),'-mo',...
'LineWidth',2,...
'MarkerEdgeColor','k',...
'MarkerFaceColor',[.49 1 .63],...
'MarkerSize',12);
set(gca,'XTick',2006:1:2010);
set(gca,'XTickLabel',{'2006','2007','2008','2009','2010'});
xlabel('Tahun');
if (strcmp(pilihan,'Detail'));
set(gca,'YLim',[1 28]);
set(gca,'YTick',1:1:28);
set(gca,'YTickLabel',{'Dormant F','Dormant E','Dormant
D','Dormant C','Dormant B',...
'Dormant A','Everyday F','Everyday E','Everyday
D','Everyday C','Everyday B',...
'Everyday A','Occational C','Occational B','Occational
A','Golden F','Golden E',...
'Golden D','Golden C','Golden B','Golden A','Superstar
F','Superstar E','Superstar D',...
'Superstar C','Superstar B','Superstar A',' '});
else
set(gca,'YLim',[1 6])
set(gca,'YTick',1:1:6)
set(gca,'YTickLabel',{'Dormant','Everyday','Occational',
'Golden','Superstar',' '});
end
ylabel('Label Konsumen');
grid on;
judul=strcat('Grafik Kelas Konsumen (Customer
No.',CustNo,')');
title(judul);
guidata(hObject,handles);
BAB V
HASIL PENELITIAN DAN PEMBAHASAN
Untuk mengetahui tingkat keberhasilan dari penelitian ini, dapat dilihat
dari hasil kerja sistem yang dibangun. Data yang digunakan dalam penelitian ini
adalah data transaksi dari tahun 2006 sampai 2010 dengan jumlah record pada
tabel transaksi sebanyak 3 juta record. Dalam penelitian ini dilakukan analisa
terhadap hasil clustering dan segmentasi data transaksi dalam periode 1 tahun,
yaitu tahun 2008. Periode 1 tahun dipilih pada proses data mining ini atas
pertimbangan bahwa 1 tahun merupakan periode yang paling tepat untuk
menggambarkan perilaku konsumen. Hasil clustering untuk algoritma Fuzzy CMeans (FCM) dan Fuzzy Subtractive diuji dengan nilai parameter jumlah cluster
(algoritma FCM) dan nilai radii (algoritma Fuzzy Subtractive) yang berbeda-beda.
Untuk menguji validitas cluster dan perbandingan antara kedua algoritma
digunakan indeks Modified Partition Coefficient (MPC) dan Classification
Entropy (CE).
5.1
Hasil Uji Coba
5.1.1 Algoritma Fuzzy C-Means (FCM) Clustering
Proses clustering menggunakan algoritma FCM diuji coba dengan
berbagai jumlah cluster. Proses clustering dilakukan dengan menetapkan nilai
awal sebagai berikut (Yan, 2004) :
1. Jumlah cluster
2. Pangkat
=2
79
80 3. Maksimum iterasi
= 100
4. Error terkecil yang diharapkan
= 10-5
5. Fungsi objektif awal
=0
6. Iterasi awal
=1
Hasil proses clustering dengan 2 cluster menggunakan algoritma FCM
ditunjukkan pada gambar 5.1. Proses clustering dihentikan pada iterasi ke-59
dengan nilai fungsi objektif = 11.644.830.729.424.286.000
Gambar 5.1. Hasil Clustering Menggunakan FCM dengan 2 cluster
Tabel 5.1 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari
proses clustering dan persentase jumlah anggota tiap cluster.
No
Cluster
1
2
Tabel 5.1
Koordinat Titik Pusat Cluster (Jumlah Cluster = 2)
Persentase
Recency
Frequency
Monetary
jumlah
(hari)
(per periode)
(rupiah)
anggota
94,39 %
62,2811
27,2048
64.887.916,46
5,61 %
4,2888
161,3914
1.269.542.546,57
81 Tabel 5.2 menunjukkan kelas konsumen yang ditentukan untuk masing-masing
cluster dan derajat keanggotaan untuk kelas konsumen tersebut. Tampilan hasil
segmentasi ditunjukkan pada gambar 5.2.
Tabel 5.2
Kelas Konsumen Setiap Cluster (Jumlah Cluster = 2)
Fungsi
Fungsi
Fungsi
Fungsi
No
Kelas
Keanggotaan
Keanggotaan Keanggotaan Keanggotaan
Cluster Konsumen
Kelas
Recency
Frequency
Monetary
Konsumen
1
K19
1
1
1
1
2
K6
1
0,6435
1
0,8022
Gambar 5.2. Tampilan Hasil Segmentasi 2 Cluster yang Diperoleh dari FCM
Dari hasil segmentasi dibentuk kelas konsumen berdasarkan nilai recency,
frequency, dan monetary dari masing-masing pusat cluster. Berikut ini adalah
profil dari masing-masing kelas konsumen :
1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah
dalam kelas Dormant Customers. Dormant Customers merupakan konsumen
82 dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain,
karena memiliki tingkat recency, frequency dan monetary yang paling rendah.
2. Cluster ke-2 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Superstar D Customers (urutan keempat dalam kelas Superstar
Customer), yaitu kelas konsumen yang dianggap paling potensial karena
memiliki tingkat recency, frequency, dan monetary yang tinggi.
Hasil proses clustering dengan 3 cluster menggunakan algoritma FCM
ditunjukkan pada gambar 5.3. Proses clustering dihentikan pada iterasi ke-100
dengan nilai fungsi objektif = 5.769.385.842.059.524.100.
Gambar 5.3. Hasil Clustering Menggunakan FCM dengan 3 cluster
Tabel 5.3 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari
proses clustering dan persentase jumlah anggota tiap cluster.
83 No
Cluster
1
2
3
Tabel 5.3
Koordinat Titik Pusat Cluster (Jumlah Cluster = 3)
Persentase
Recency
Frequency
Monetary
jumlah
(hari)
(per periode)
(rupiah)
anggota
8,02 %
4,6819
121,2158
571.827.467,42
2,40 %
5,7893
182,8428
1.607.679.168,46
89,58 %
66,5706
22,8368
43.978.290,07
Tabel 5.4 menunjukkan kelas konsumen yang ditentukan melalui proses
segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas
konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.4.
Tabel 5.4
Kelas Konsumen Setiap Cluster (Jumlah Cluster = 3)
Fungsi
Fungsi
Fungsi
Fungsi
No
Kelas
Keanggotaan
Keanggotaan Keanggotaan Keanggotaan
Cluster Konsumen
Kelas
Recency
Frequency
Monetary
Konsumen
1
K5
1
1
1
1
2
K9
1
0,7140
1
0,8450
3
K19
1
1
1
1
Gambar 5.4. Tampilan Hasil Segmentasi 3 Cluster yang Diperoleh dari FCM
Berikut ini adalah profil dari masing-masing kelas konsumen :
84 1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Golden D Customers (urutan keempat dalam kelas Golden Customer),
yaitu konsumen dengan tingkat monetary dan frequency yang cukup tinggi.
Golden Customer merupakan konsumen yang dianggap potensial setelah
Superstar Customer.
2. Cluster ke-2 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Superstar A Customers (urutan pertama dalam kelas Superstar
Customer), sehingga dapat dikatakan konsumen yang berada dalam kelas ini
merupakan konsumen yang paling potensial.
3. Cluster ke-3 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah
dalam kelas Dormant Customers. Dormant Customers merupakan konsumen
dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain,
karena memiliki tingkat recency, frequency dan monetary yang paling rendah.
Hasil proses clustering dengan 4 cluster menggunakan algoritma FCM
ditunjukkan pada gambar 5.5. Proses clustering dihentikan pada iterasi ke-100
dengan nilai fungsi objektif = 694.012.310.630.939.140.
85 Gambar 5.5. Hasil Clustering Menggunakan FCM dengan 4 cluster
Tabel 5.5 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari
proses clustering dan persentase jumlah anggota tiap cluster.
No
Cluster
1
2
3
4
Tabel 5.5
Koordinat Titik Pusat Cluster (Jumlah Cluster = 4)
Persentase
Recency
Frequency
Monetary
jumlah
(hari)
(per periode)
(rupiah)
anggota
15,23 %
6,3198
74,8598
262.175.001,37
3,81 %
2,4884
149,2276
935.793.370,97
2,00 %
4,8983
212,1149
1.761.409.932,74
78,96 %
74,6464
16,6602
25.895.238,98
Tabel 5.6 menunjukkan kelas konsumen yang ditentukan melalui proses
segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas
konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.6.
86 Tabel 5.6
Kelas Konsumen Setiap Cluster (Jumlah Cluster = 4)
Fungsi
Fungsi
Fungsi
Fungsi
No
Kelas
Keanggotaan
Keanggotaan Keanggotaan Keanggotaan
Cluster Konsumen
Kelas
Recency
Frequency
Monetary
Konsumen
1
K4
1
0,5810
0,5946
0,5877
2
K6
1
0,8462
0,8395
0,8428
3
K9
1
1
1
1
4
K19
1
1
1
1
Gambar 5.6. Tampilan Hasil Segmentasi 4 Cluster yang Diperoleh dari FCM
Berikut ini adalah profil dari masing-masing kelas konsumen :
1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Everyday D Customer (urutan keempat dalam kelas Everyday
Customer).
Kelas konsumen ini merupakan konsumen harian dengan
karakteristik utama frekuensi pembeliannya tinggi tetapi dengan jumlah
nominal pembelian yang rendah (tingkat frequency tinggi tetapi monetary
rendah).
87 2. Cluster ke-2 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Superstar D Customers (urutan keempat dalam kelas Superstar
Customer), yaitu kelas konsumen yang dianggap paling potensial karena
memiliki tingkat recency, frequency, dan monetary yang tinggi.
3. Cluster ke-3 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Superstar A Customers (urutan pertama dalam kelas Superstar
Customer), sehingga dapat dikatakan konsumen yang berada dalam kelas ini
merupakan konsumen yang paling potensial.
4. Cluster ke-4 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah
dalam kelas Dormant Customers. Dormant Customers merupakan konsumen
dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain,
karena memiliki tingkat recency, frequency dan monetary yang paling rendah.
Hasil proses clustering dengan 5 cluster menggunakan algoritma FCM
ditunjukkan pada gambar 5.7. Proses clustering dihentikan pada iterasi ke-100
dengan nilai fungsi objektif = 2.314.452.974.244.296.200
88 Gambar 5.7. Hasil Clustering Menggunakan FCM dengan 5 cluster
Tabel 5.7 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari
proses clustering dan persentase jumlah anggota tiap cluster.
No
Cluster
1
2
3
4
5
Tabel 5.7
Koordinat Titik Pusat Cluster (Jumlah Cluster = 5)
Persentase
Recency
Frequency
Monetary
jumlah
(hari)
(per periode)
(rupiah)
anggota
4,01 %
4,6821
135,7800
592.624.007,05
1,41 %
3,5377
234,7122
1.893.776.868,40
2,60 %
3,6958
135,1146
1.168.380.234,37
16,83 %
7,5097
70,5593
202.953.104,07
75,15 %
77,8566
14,6787
21.290.251,51
Tabel 5.8 menunjukkan kelas konsumen yang ditentukan melalui proses
segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas
konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.8.
89 Tabel 5.8
Kelas Konsumen Setiap Cluster (Jumlah Cluster = 5)
Fungsi
Fungsi
Fungsi
Fungsi
No
Kelas
Keanggotaan
Keanggotaan Keanggotaan Keanggotaan
Cluster Konsumen
Kelas
Recency
Frequency
Monetary
Konsumen
1
K5
1
1
1
1
2
K9
1
1
1
1
3
K6
1
1
1
1
4
K4
0,9636
0,5093
0,7426
0,6023
5
K19
1
1
1
1
Gambar 5.8. Tampilan Hasil Segmentasi 5 Cluster yang Diperoleh dari FCM
Berikut ini adalah profil dari masing-masing kelas konsumen :
1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Golden D Customers (urutan keempat dalam kelas Golden Customer),
yaitu konsumen dengan tingkat monetary dan frequency yang cukup tinggi.
Golden Customer merupakan konsumen yang dianggap potensial setelah
Superstar Customer.
90 2. Cluster ke-2 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Superstar A Customers (urutan pertama dalam kelas Superstar
Customer), sehingga dapat dikatakan konsumen yang berada dalam kelas ini
merupakan konsumen yang paling potensial.
3. Cluster ke-3 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Superstar D Customers (urutan keempat dalam kelas Superstar
Customer), yaitu kelas konsumen yang dianggap paling potensial karena
memiliki tingkat recency, frequency, dan monetary yang tinggi.
4. Cluster ke-4 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Everyday D Customer (urutan keempat dalam kelas Everyday
Customer).
Kelas konsumen ini merupakan konsumen harian dengan
karakteristik utama frekuensi pembeliannya tinggi tetapi dengan jumlah
nominal pembelian yang rendah (tingkat frequency tinggi tetapi monetary
rendah).
5. Cluster ke-5 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah
dalam kelas Dormant Customers. Dormant Customers merupakan konsumen
dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain,
karena memiliki tingkat recency, frequency dan monetary yang paling rendah.
Hasil proses clustering dengan 6 cluster menggunakan algoritma FCM
ditunjukkan pada gambar 5.9. Proses clustering dihentikan pada iterasi ke-100
dengan nilai fungsi objektif = 1.902.089.956.522.725.900
91 Gambar 5.9. Hasil Clustering Menggunakan FCM dengan 6 cluster
Tabel 5.9 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari
proses clustering dan persentase jumlah anggota tiap cluster.
No
Cluster
1
2
3
4
5
6
Tabel 5.9
Koordinat Titik Pusat Cluster (Jumlah Cluster = 6)
Persentase
Recency
Frequency
Monetary
jumlah
(hari)
(per periode)
(rupiah)
anggota
2,40 %
3,7954
132,4681
1.185.546.427,97
16,83 %
11,1267
62,9324
139.419.649,49
69,34 %
82,9895
12,4752
16.151.492,22
6,21 %
5,0828
75,0337
314.373.980,65
3,81 %
3,5138
157,3896
660.645.411,86
1,41 %
2,9526
239,1661
1.849.231.138,50
Tabel 5.10 menunjukkan kelas konsumen yang ditentukan melalui proses
segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas
konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.10.
92 Tabel 5.10
Kelas Konsumen Setiap Cluster (Jumlah Cluster = 6)
Fungsi
Fungsi
Fungsi
Fungsi
No
Kelas
Keanggotaan
Keanggotaan Keanggotaan Keanggotaan
Cluster Konsumen
Kelas
Recency
Frequency
Monetary
Konsumen
1
K6
1
1
1
1
2
K1
0,7052
0,6178
0,9015
0,6232
3
K19
1
1
1
1
4
K5
1
0,5839
0,5359
0,5594
5
K5
1
0,7102
0,8484
0,7762
6
K9
1
1
1
1
Gambar 5.10. Tampilan Hasil Segmentasi 6 Cluster
yang Diperoleh dari FCM
Berikut ini adalah profil dari masing-masing kelas konsumen :
1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Superstar D Customers (urutan keempat dalam kelas Superstar
Customer), yaitu kelas konsumen yang dianggap paling potensial karena
memiliki tingkat recency, frequency, dan monetary yang tinggi.
2. Cluster ke-2 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Dormant D Customers (urutan keempat dalam kelas Dormant
93 Customer), yaitu konsumen dengan tingkat monetary dan frequency yang
yang paling rendah, tetapi tingkat recency yang tinggi.
3. Cluster ke-3 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah
dalam kelas Dormant Customers. Dormant Customers merupakan konsumen
dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain,
karena memiliki tingkat recency, frequency dan monetary yang paling rendah.
4. Cluster ke-4 dan 5 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Golden D Customers (urutan keempat dalam kelas Golden Customer),
yaitu konsumen dengan tingkat monetary dan frequency yang cukup tinggi.
Golden Customer merupakan konsumen yang dianggap potensial setelah
Superstar Customer.
5. Cluster ke-6 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Superstar A Customers (urutan pertama dalam kelas Superstar
Customer), sehingga dapat dikatakan konsumen yang berada dalam kelas ini
merupakan konsumen yang paling potensial.
5.1.2 Algoritma Fuzzy Subtractive (FS) Clustering
Proses clustering menggunakan algoritma Fuzzy Subtractive diuji coba
dengan berbagai nilai jari-jari atau radii. Proses clustering dilakukan dengan
menetapkan nilai awal sebagai berikut (Gelley, 2000) :
1. Jari-jari atau radii, biasanya nilai yang terbaik untuk radii berada antara
0,2 dan 0,5.
2. Acccept ratio
= 0,5
94 3. Reject ratio
= 0,15
4. Squash factor
= 1,25
Uji coba clustering dimulai dengan nilai radii = 0,5 yang menghasilkan 2 cluster.
Hasil proses clustering ditunjukkan pada gambar 5.11.
Gambar 5.11. Tampilan Hasil Clustering Menggunakan FS
dengan Nilai Radii=0,5
Proses clustering dengan nilai radii = 0,5 menghasilkan nilai sigma untuk ketiga
dimensi data, yaitu :
1. sigma recency = 63,1093
2. sigma frequency = 80,7869
3. sigma monetary = 579.230.000
Tabel 5.11 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari
proses clustering dan persentase jumlah anggota tiap cluster.
Tabel 5.11
95 No
Cluster
1
2
Koordinat Titik Pusat Cluster (Radii = 0,5)
Persentase
Recency
Frequency
jumlah
(hari)
(per periode)
anggota
81,96 %
21
24
18,04 %
231
1
Monetary
(rupiah)
71.253.800,00
5.100.000,00
Tabel 5.12 menunjukkan kelas konsumen yang ditentukan melalui proses
segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas
konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.12.
Tabel 5.12
Kelas Konsumen Setiap Cluster (Radii = 0,5 , Jumlah Cluster = 2)
Fungsi
Fungsi
Fungsi
Fungsi
No
Kelas
Keanggotaan
Keanggotaan Keanggotaan Keanggotaan
Cluster Konsumen
Kelas
Recency
Frequency
Monetary
Konsumen
1
K10
1
1
1
1
2
K19
1
1
1
1
Gambar 5.12. Tampilan Hasil Segmentasi 2 Cluster yang Diperoleh dari FS
96 Dari hasil segmentasi dibentuk kelas konsumen berdasarkan nilai recency,
frequency, dan monetary dari masing-masing pusat cluster. Berikut ini adalah
profil dari masing-masing kelas konsumen :
1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Dormant E Customers (urutan kelima dalam kelas Dormant
Customer), yaitu konsumen dengan tingkat recency, monetary dan frequency
yang rendah.
2. Cluster ke-2 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah
dalam kelas Dormant Customers. Dormant Customers merupakan konsumen
dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain,
karena memiliki tingkat recency, frequency dan monetary yang paling rendah.
Kelas konsumen cluster ke-2 memiliki profil yang lebih buruk dibandingkan
cluster ke-1 karena memiliki tingkat recency yang lebih rendah dibandingkan
Dormant E Customer meskipun tingkat frequency dan monetary dari kelas ini
sama dengan Dormant F Customer.
Proses clustering dengan nilai radii = 0,22 menghasilkan 3 cluster. Hasil
proses clustering ditunjukkan pada gambar 5.13.
97 Gambar 5.13. Tampilan Hasil Clustering Menggunakan FS
dengan Nilai Radii=0,22
Proses clustering dengan nilai radii = 0,22 menghasilkan nilai sigma sebagai
berikut :
1. sigma recency = 27,7681
2. sigma frequency = 35,5463
3. sigma monetary = 254.860.000
Tabel 5.13 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari
proses clustering dan persentase jumlah anggota tiap cluster.
No
Cluster
1
2
3
Tabel 5.13
Koordinat Titik Pusat Cluster (Radii = 0,22)
Persentase
Recency
Frequency
Monetary
jumlah
(hari)
(per periode)
(rupiah)
anggota
74,55 %
16
22
69.468.000,00
12,02 %
120
4
954.800,00
13,42 %
228
3
5.230.000,00
98 Tabel 5.14 menunjukkan kelas konsumen yang ditentukan melalui proses
segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas
konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.14.
Tabel 5.14
Kelas Konsumen Setiap Cluster (Radii = 0,22 , Jumlah Cluster = 3)
Fungsi
Fungsi
Fungsi
Fungsi
No
Kelas
Keanggotaan
Keanggotaan Keanggotaan Keanggotaan
Cluster Konsumen
Kelas
Recency
Frequency
Monetary
Konsumen
1
K10
0,6429
1
1
0,8018
2
K19
1
1
1
1
3
K19
1
1
1
1
Gambar 5.14. Tampilan Hasil Segmentasi 3 Cluster yang Diperoleh dari FS
Berikut ini adalah profil dari masing-masing kelas konsumen :
1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Dormant E Customers (urutan kelima dalam kelas Dormant
Customer), yaitu konsumen dengan tingkat recency, monetary dan frequency
yang rendah.
99 2. Cluster ke-2 dan 3 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah
dalam kelas Dormant Customers. Dormant Customers merupakan konsumen
dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain,
karena memiliki tingkat recency, frequency dan monetary yang paling rendah.
Kelas konsumen cluster ke-2 memiliki profil yang lebih buruk dibandingkan
cluster ke-1 karena memiliki tingkat recency yang lebih rendah dibandingkan
Dormant E Customer meskipun tingkat frequency dan monetary dari kelas ini
sama dengan Dormant F Customer.
Proses clustering dengan nilai radii = 0,15 menghasilkan 4 cluster. Hasil proses
clustering ditunjukkan pada gambar 5.15.
Gambar 5.15. Tampilan Hasil Clustering Menggunakan FS
dengan Nilai Radii=0,15
Proses clustering dengan nilai radii = 0,15 menghasilkan nilai sigma sebagai
berikut :
100 1. sigma recency = 18,9328
2. sigma frequency = 24,2361
3. sigma monetary = 173.770.000
Tabel 5.15 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari
proses clustering dan persentase jumlah anggota tiap cluster.
No
Cluster
1
2
3
4
Tabel 5.15
Koordinat Titik Pusat Cluster (Radii = 0,15)
Persentase
Recency
Frequency
Monetary
jumlah
(hari)
(per periode)
(rupiah)
anggota
41,08 %
13
16.0000
59.218.000,00
12,22 %
61
3
16.125.350,00
24,65 %
0
73
156.106.750,00
22,04 %
128
6
9.088.100,00
Tabel 5.16 menunjukkan kelas konsumen yang ditentukan melalui proses
segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas
konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.16.
Tabel 5.16
Kelas Konsumen Setiap Cluster (Radii = 0,15 , Jumlah Cluster = 4)
Fungsi
Fungsi
Fungsi
Fungsi
No
Kelas
Keanggotaan
Keanggotaan Keanggotaan Keanggotaan
Cluster Konsumen
Kelas
Recency
Frequency
Monetary
Konsumen
1
K1
0,5714
1
1
0,7559
2
K19
1
1
1
1
3
K4
1
0,5500
0,8597
0,6876
4
K19
1
1
1
1
Berikut ini adalah profil dari masing-masing kelas konsumen :
101 1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Dormant D Customers (urutan kempat dalam kelas Dormant
Customer), yaitu konsumen dengan tingkat recency, monetary dan frequency
yang rendah.
2. Cluster ke-2 dan 4 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah
dalam kelas Dormant Customers. Dormant Customers merupakan konsumen
dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain,
karena memiliki tingkat recency, frequency dan monetary yang paling rendah.
Kelas konsumen cluster ke-2 memiliki profil yang lebih buruk dibandingkan
cluster ke-1 karena memiliki tingkat recency yang lebih rendah dibandingkan
Dormant E Customer meskipun tingkat frequency dan monetary dari kelas ini
sama dengan Dormant F Customer.
3. Cluster ke-3 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Everyday D Customer (urutan keempat dalam kelas Everyday
Customer). Kelas konsumen ini merupakan konsumen harian dengan
karakteristik utama frekuensi pembeliannya tinggi tetapi dengan jumlah
nominal pembelian yang rendah (tingkat frequency tinggi tetapi monetary
rendah).
102 Gambar 5.16. Tampilan Hasil Segmentasi 4 Cluster yang Diperoleh dari FS
Proses clustering dengan nilai radii = 0,1 menghasilkan 5 cluster. Hasil
proses clustering ditunjukkan pada gambar 5.17. Proses clustering dengan nilai
radii = 0.1 menghasilkan nilai sigma sebagai berikut :
1. sigma recency = 12,6219
2. sigma frequency = 16,1574
3. sigma monetary = 115.850.000
103 Gambar 5.17. Tampilan Hasil Clustering Menggunakan FS
dengan Nilai Radii=0,1
Tabel 5.17 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari
proses clustering dan persentase jumlah anggota tiap cluster.
No
Cluster
1
2
3
4
5
Tabel 5.17
Koordinat Titik Pusat Cluster (Radii = 0,1)
Persentase
Recency
Frequency
Monetary
jumlah
(hari)
(per periode)
(rupiah)
anggota
27,66 %
13
12
32.225.000,00
33,26 %
5
45
103.825.400,00
16,23 %
46
6
3.711.500,00
9,42 %
117
3
989.300,00
13,43 %
231
1
5.100.000,00
Tabel 5.18 menunjukkan kelas konsumen yang ditentukan melalui proses
segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas
konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.18.
104 Tabel 5.18
Kelas Konsumen Setiap Cluster (Radii = 0,1, Jumlah Cluster = 5)
Fungsi
Fungsi
Fungsi
Fungsi
No
Kelas
Keanggotaan
Keanggotaan Keanggotaan Keanggotaan
Cluster Konsumen
Kelas
Recency
Frequency
Monetary
Konsumen
1
K1
0,5714
1
1
0,7559
2
K1
1
0,9167
0,9904
0,9528
3
K19
1
1
1
1
4
K19
1
1
1
1
5
K19
1
1
1
1
Gambar 5.18. Tampilan Hasil Segmentasi 5 Cluster yang Diperoleh dari FS
Berikut ini adalah profil dari masing-masing kelas konsumen :
1. Cluster ke-1 dan 2 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Dormant D Customers (urutan kempat dalam kelas Dormant
Customer), yaitu konsumen dengan tingkat recency, monetary dan frequency
yang rendah.
2. Cluster ke-3, 4 dan 5 : Konsumen yang termasuk ke dalam cluster ini
tergolong sebagai Dormant F Customers, yaitu konsumen dengan tingkatan
terendah dalam kelas Dormant Customers. Dormant Customers merupakan
105 konsumen dengan profil yang paling buruk jika dibandingkan dengan segmen
yang lain, karena memiliki tingkat recency, frequency dan monetary yang
paling rendah. Kelas konsumen cluster ini memiliki profil yang lebih buruk
dibandingkan cluster ke-1 dan 2 karena memiliki tingkat recency yang lebih
rendah dibandingkan Dormant D Customer meskipun tingkat frequency dan
monetary dari kelas ini sama dengan Dormant F Customer.
Proses clustering dengan nilai radii = 0,09 menghasilkan 6 cluster. Hasil proses
clustering ditunjukkan pada gambar 5.19.
Gambar 5.19. Tampilan Hasil Clustering Menggunakan FS
dengan Nilai Radii=0,09
Proses clustering dengan nilai radii = 0,09 menghasilkan nilai sigma sebagai
berikut :
1. sigma recency = 10,0975
2. sigma frequency = 12,9259
106 3. sigma monetary = 92.677.000
Tabel 5.19 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari
proses clustering dan persentase jumlah anggota tiap cluster.
No
Cluster
1
2
3
4
5
6
Tabel 5.20
Koordinat Titik Pusat Cluster (Radii = 0,09)
Persentase
Recency
Frequency
Monetary
jumlah
(hari)
(per periode)
(rupiah)
anggota
24,85 %
13
12
32.225.000,00
12,62 %
40
7
6.360.000,00
34,47 %
4
41
78.688.150,00
6,01 %
69
6
24.097.300,00
13,43 %
230
1
3.250.000,00
8,62 %
117
3
989.300,00
Tabel 5.20 menunjukkan kelas konsumen yang ditentukan melalui proses
segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas
konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.20.
Tabel 5.20
Kelas Konsumen Setiap Cluster (Radii = 0,09, Jumlah Cluster = 6)
Fungsi
Fungsi
Fungsi
Fungsi
No
Kelas
Keanggotaan
Keanggotaan Keanggotaan Keanggotaan
Cluster Konsumen
Kelas
Recency
Frequency
Monetary
Konsumen
1
K1
0,5714
1
1
0,7559
2
K19
0,7143
1
1
0,8452
3
K1
1
0,9833
1
0,9916
4
K19
1
1
1
1
5
K19
1
1
1
1
6
K19
1
1
1
1
107 Gambar 5.20. Tampilan Hasil Segmentasi 6 Cluster yang Diperoleh dari FS
Berikut ini adalah profil dari masing-masing kelas konsumen :
1. Cluster ke-1 dan 3 : Konsumen yang termasuk ke dalam cluster ini tergolong
sebagai Dormant D Customers (urutan kempat dalam kelas Dormant
Customer), yaitu konsumen dengan tingkat recency, monetary dan frequency
yang rendah.
2.
Cluster ke-2, 4, 5 dan 6 : Konsumen yang termasuk ke
dalam cluster ini tergolong sebagai Dormant F Customers, yaitu konsumen
dengan tingkatan terendah dalam kelas Dormant Customers. Dormant
Customers merupakan konsumen dengan profil yang paling buruk jika
dibandingkan dengan segmen yang lain, karena memiliki tingkat recency,
frequency dan monetary yang paling rendah. Kelas konsumen cluster ke-2
memiliki profil yang lebih buruk dibandingkan cluster ke-1 karena memiliki
tingkat recency yang lebih rendah dibandingkan Dormant E Customer
meskipun tingkat frequency dan monetary dari kelas ini sama dengan Dormant
F Customer.
108 5.2
Analisis Cluster
Dari hasil uji coba yang dilakukan menggunakan data transaksi tahun
2008, ada beberapa hal yang dapat dianalisis. Untuk menentukan jumlah cluster
yang memiliki nilai fitness terbaik digunakan indeks pengukuran validitas
Modified Partition Coeficient (MPC) dan Classification Entropy (CE). Tabel 5.21
menunjukkan nilai indeks MPC dan CE untuk setiap jumlah cluster yang diujikan
pada algoritma Fuzzy C-Means (FCM) dan Fuzzy Subtractive (FS) Clustering.
Bentuk grafis nilai indeks MPC dan CE untuk algoritma Fuzzy C-Means dan
Fuzzy Subtractive Clustering ditunjukkan pada Gambar 5.21 dan 5.22.
Tabel 5.21
Indeks MPC dan CE pada Algoritma FCM dan FS Clustering
Jumlah Cluster
2
3
4
5
6
Indeks
FCM
0,9353
0,8981
0,8644
0,8640
0,8309
MPC
FS
0,3194
0,1662
0,2017
0,1829
0,1541
Indeks
FCM
0,0597
0,1280
0,1901
0,2119
0,2777
CE
FS
0,1817
0,2115
0,3432
0,3142
0,2832
Nilai indeks MPC untuk masing-masing jumlah cluster pada algoritma Fuzzy CMeans lebih besar dibandingkan Fuzzy Subtractive Clustering. Sedangkan nilai
indeks CE untuk masing-masing jumlah cluster pada algoritma Fuzzy C-Means
lebih kecil dibandingkan Fuzzy Subtractive Clustering. Dari hasil perbandingan
tersebut algoritma Fuzzy C-Means memiliki kinerja yang lebih baik dibandingkan
algoritma Fuzzy Subtractive Clustering.
109 Gambar 5.21. Grafik Indeks MPC dan CE untuk Algoritma FCM
Gambar 5.22. Grafik Indeks MPC dan CE untuk Algoritma FS
Dari tabel 5.21, indeks MPC yang terbesar pada algoritma Fuzzy C-Means
Clustering maupun algoritma Fuzzy Subtractive Clustering berada pada proses
clustering dengan jumlah cluster = 2. Sehingga berdasarkan indeks MPC, jumlah
110 cluster terbaik adalah 2 untuk kedua algoritma. Indeks CE yang terkecil pada
algoritma Fuzzy C-Means dan Fuzzy Subtractive Clustering berada pada proses
clustering dengan jumlah cluster = 2. Sehingga berdasarkan indeks CE, jumlah
cluster terbaik menurut kedua algoritma tersebut adalah 2.
Data yang digunakan untuk proses mining adalah data transaksi penjualan
dari tahun 2006 sampai 2010. Proses segmentasi konsumen dengan model Fuzzy
RFM menghasilkan kelas konsumen yang berbeda pada setiap tahunnya.
Perbandingan kelas konsumen per tahun ditunjukkan pada Tabel 5.22
Tabel 5.22
Perbandingan Kelas Konsumen Per Tahun
Customer
No.
C0020
C0051
C0061
C0138
C0205
Algoritma
FCM
FS
FCM
FS
FCM
FS
FCM
FS
FCM
FS
2006
Golden D
Dormant E
Dormant F
Dormant E
Golden D
Dormant E
Golden E
Dormant E
Dormant F
Dormant E
2007
Superstar A
Dormant E
Dormant F
Dormant E
Superstar A
Dormant E
Superstar A
Dormant E
Superstar A
Dormant E
Tahun
2008
Superstar D
Dormant E
Dormant F
Dormant E
Superstar D
Dormant E
Superstar D
Dormant E
Superstar C
Dormant E
2009
Superstar D
Dormant E
Superstar D
Dormant E
Superstar D
Dormant E
Superstar D
Dormant E
Superstar C
Dormant E
2010
Superstar E
Dormant E
Superstar E
Dormant E
Dormant F
Dormant E
Superstar E
Dormant E
Dormant F
Dormant E
Gambar 5.23 sampai 5.31 menunjukkan perbandingan hasil segmentasi konsumen
untuk masing-masing konsumen per tahun dalam bentuk grafis. Jumlah cluster
yang digunakan untuk proses clustering menggunakan algoritma Fuzzy C-Means
dan Fuzzy Subtractive adalah 2. Jika dibandingkan, hasil segmentasi konsumen
dari kedua algoritma clustering yang digunakan memberikan hasil yang berbeda.
111 (a)
(b)
Gambar 5.23. Perbandingan Kelas Konsumen Hasil Clustering
Menggunakan Algoritma FCM Clustering (Customer No. = C0020)
dengan Bentuk Grafik (a) General (b) Detail
112 (a)
(b)
Gambar 5.24. Perbandingan Kelas Konsumen Hasil Clustering
Menggunakan Algoritma FS Clustering (Customer No. = C0020)
dengan Bentuk Grafik (a) General (b) Detail
113 (a)
(b)
Gambar 5.25. Perbandingan Kelas Konsumen Hasil Clustering
Menggunakan Algoritma FCM Clustering (Customer No. = C0051)
dengan Bentuk Grafik (a) General (b) Detail
114 (a)
(b)
Gambar 5.26. Perbandingan Kelas Konsumen Hasil Clustering
Menggunakan Algoritma FS Clustering (Customer No. = C0051)
dengan Bentuk Grafik (a) General (b) Detail
115 (a)
(b)
Gambar 5.27. Perbandingan Kelas Konsumen Hasil Clustering
Menggunakan Algoritma FCM Clustering (Customer No. = C0061)
dengan Bentuk Grafik (a) General (b) Detail
116 (a)
(b)
Gambar 5.28. Perbandingan Kelas Konsumen Hasil Clustering
Menggunakan Algoritma FS Clustering (Customer No. = C0061)
dengan Bentuk Grafik (a) General (b) Detail
117 (a)
(b)
Gambar 5.29. Perbandingan Kelas Konsumen Hasil Clustering
Menggunakan Algoritma FCM Clustering (Customer No. = C0138)
dengan Bentuk Grafik (a) General (b) Detail
118 (a)
(b)
Gambar 5.30. Perbandingan Kelas Konsumen Hasil Clustering
Menggunakan Algoritma FS Clustering (Customer No. = C0138)
dengan Bentuk Grafik (a) General (b) Detail
119 (a)
(b)
Gambar 5.31. Perbandingan Kelas Konsumen Hasil Clustering
Menggunakan Algoritma FCM Clustering (Customer No. = C0205)
dengan Bentuk Grafik (a) General (b) Detail
120 (a)
(b)
Gambar 5.32. Perbandingan Kelas Konsumen Hasil Clustering
Menggunakan Algoritma FS Clustering (Customer No. = C0205)
dengan Bentuk Grafik (a) General (b) Detail
121 Grafik perbandingan kelas konsumen ini dapat digunakan oleh pihak
perusahaan retail untuk mengetahui pola-pola pembelian konsumen yang terkait
dengan perilaku konsumen. Grafik perbandingan kelas konsumen yang dapat
digunakan adalah hasil segmentasi yang diperoleh dari hasil clustering dengan
algoritma FCM. Hal ini disebabkan algoritma FCM memiliki kinerja yang lebih
baik dibandingkan FS. Sebagai contoh konsumen dengan nomor C0020 dan
C0138 termasuk konsumen potensial (tergolong Golden dan Superstar Customer)
yang memiliki pola pembelian yang stabil. Konsumen dengan nomor C0051
termasuk konsumen yang memiliki peningkatan grafik kelas konsumen yang
cukup signifikan yaitu dari kelas Dormant pada tahun 2006-2008 menjadi kelas
Superstar pada tahun 2009-2010. Sedangkan konsumen dengan nomor C0061 dan
C0205 mengalami penurunan dari kelas Superstar menjadi kelas Dormant.
Khusus untuk konsumen-konsumen potensial dengan pola pembelian yang stabil
dan cenderung meningkat, pihak manajemen perusahaan retail dapat memberikan
potongan harga (discount) yang lebih tinggi dibandingkan konsumen, untuk
meningkatkan loyalitas konsumen ini pada perusahaan. Kebijakan lain yang dapat
diterapkan
adalah
meningkatkan
layanan
kepada
konsumen,
contohnya
pengiriman barang gratis. Sedangkan untuk konsumen yang mengalami
penurunan kelas konsumen, pihak perusahaan retail dapat melakukan usaha-usaha
untuk meningkatkan nilai pembelian. Proses ini merupakan implementasi dari
penerapan CRM (Customer Relationship Management), yaitu mencakup proses
analisa,
klasifikasi,
dan
segmentasi
konsumen
untuk
mengatur
dan
122 memaksimalkan nilai tambah konsumen, seperti halnya aset-aset lain dalam
perusahaan (Zumstein, 2007).
Anomali ditemukan pada proses segmentasi cluster hasil dari algoritma
Fuzzy Subtractive. Konsumen yang seharusnya tergolong sebagai konsumen
potensial (termasuk kelas Superstar atau Golden), dikelompokkan ke dalam
Dormant Customer, yaitu konsumen dengan tingkat paling rendah. Tabel 5.23
menunjukkan beberapa konsumen yang mengalami anomali dengan nilai recency,
frequency, dan monetary (RFM). Nilai RFM tersebut diambil dari transaksi
periode tahun 2008.
Tabel 5.23
Contoh Konsumen yang Mengalami Anomali
pada Proses Penentuan Kelas Konsumen
Customer No.
C0061
C0138
C0205
Recency
Frequency
0
0
0
289
78
68
Monetary
1,621,323,550.00
1,538,869,000.00
1,078,489,100.00
Kelas
Konsumen
Dormant E
Dormant E
Dormant E
Jika dilihat dari nilai RFM ketiga konsumen tersebut dan berdasarkan domain
nilai himpunan fuzzy pada tabel 3.8, ketiga konsumen tersebut termasuk
konsumen yang potensial (Superstar Customer).
BAB VI
KESIMPULAN DAN SARAN
6.1
Kesimpulan
Dari penelitian yang telah dilakukan, maka dapat ditarik kesimpulan
sebagai berikut :
1. Algoritma Fuzzy Subtractive tidak dapat membentuk cluster yang tergolong
Superstar dan Golden Customer. Sehingga dapat dikatakan algoritma Fuzzy
Subtractive Clustering kurang mendukung proses data mining pada
perusahaan retail untuk mendapatkan konsumen potensial.
2. Dari pengukuran validitas cluster menggunakan indeks Modified Partition
Coefficient (MPC) dan Classification Entropy (CE), algoritma Fuzzy C-Means
Clustering memiliki tingkat validitas lebih tinggi dibandingkan algoritma
Fuzzy Subtractive Clustering. Sehingga dapat dikatakan algoritma Fuzzy CMeans Clustering memiliki kinerja yang lebih baik dibandingkan algoritma
Fuzzy Subtractive Clustering dalam data mining di perusahaan retail. Jumlah
cluster yang terbaik untuk algoritma Fuzzy C-Means Clustering dan Fuzzy
Subtractive Clustering menurut indeks MPC dan CE adalah 2.
6.2
Saran
Pengembangan simulasi aplikasi data mining dengan metode fuzzy ini
dapat dikembangkan dengan metode lain, misalnya dengan metode Jaringan Saraf
Buatan sehingga dapat dibandingkan kinerja dari masing-masing metode untuk
menghasilkan segmentasi konsumen yang terbaik. Dalam aplikasi ini digunakan
123
124 indeks pengukuran validitas cluster Classification Entropy yang menghasilkan
indeks pengukuran yang cenderung monoton untuk setiap perubahan jumlah
cluster. Sehingga, pada pengembangan aplikasi berikutnya dapat ditambahkan
dengan metode pengukuran lain Dunn’s Index, Davies Bouldin’s Index,
Separation Index, dan Fuzzy Hypervolume.
DAFTAR PUSTAKA
Balasko, B., Abonyi, J., Feil, B.______. Fuzzy Clustering and Data Analysis
Toolbox : For Use with Maltab. Department of Process Engineering
University of Veszprem, Veszprem, Hungary.
Berry, M.J.A., Linoff, G.S. 2004. Data Mining Techniques : For Marketing,
Sales, and Customer Relationship Management. Second Edition. Wiley
Publishing, Inc., Indianapolis, Indiana.
Brown, S.A. 2000. Customer Relationship Management : A Strategic
Imperative in the World of e-Business, Jhon Wiley and Sons Ltd, Canada.
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C.,
Wirth, R. 2000. CRISP-DM 1.0 : Step-by-Step Data Mining Guide. Tersedia di
http://www.community.udayton.edu/provost/it/training/documents/SPSS_CRI
SPWPlr.pdf. [diunduh : 10 Desember 2010].
Cox, E. 2005. Fuzzy Modelling and Genetic Algorithms for Data Mining and
Explorations. Elsevier Inc., United States of America.
Crespo, F., Weber, R. A Methodology for Dynamic Data Mining Based on
Fuzzy Clustering. Fuzzy Sets and Systems 150 (2005) 267–284.
CRISP-DM, Tersedia di http://www.crisp-dm.org, [diunduh : 24 Juli 2010].
Fayyad, U, Piatetsky-Shapiro, G. & Smyth, P., 1996, From Data Mining to
Knowledge Discovery in Databases. AI Magazine 17(3), 37–54.
Gelley, N., Jang, R. 2000. Fuzzy Logic Toolbox. Mathwork, Inc., USA.
Hafez, A.M. Knowledge Discovery in Databases. Tersedia di
http://faculty.ksu.edu.sa/ahafez/Selected%20Publications/Knowledge%20Disc
overy%20in%Databases.doc. [diunduh : 1 Juni 2010].
Halkidi, M. Quality Assessment and Uncertainty Handling in Data Mining
Process.
Tersedia
di
http://www.edbt2000.unikonstanz.de/phdworkshop/papers/Halkidi.pdf. [diunduh : 25 Mei 2010].
Hammouda, K., Prof. Karaay, F. 2000. A Comparative Study of Data
Clustering Techniques. University of Waterloo, Ontario, Canada.
126
127 Jain, A. K., Murthy, M. N. & Flynn, P. J. 1999. Data Clustering : A Review.
ACM Computing Surveys, Vol. 31, No. 3.
Jansen, S.M.H. 2007. “Customer Segmentation and Customer Profiling for a
Mobile Telecommunications Company Based on Usage Behavior : A
Vodafone Case Study” (thesis). Maastricht : University of Maastricht.
Kimball, R. 2004. The Data Warehouse ETL Toolkit. Wiley Publishing Inc.
Klawonn, F. 2004. Fuzzy Clustering : Insights and a New Approach.
Mathware & Soft Computing 11 (2004) 125-142.
Klir, G. J., Yuan, B. 1995. Fuzzy Sets and Fuzzy Logic : Theory and
Applications. Prentice-Hall International, Inc. New Jersey, USA.
Kruse, R., Nauck, D., Borgelt, C.________, Data Mining with Fuzzy Methods
: Status and Perspectives. Department of Knowledge Processing and
Language Engineering, Otto-von-Guericke-University of Magdeburg,
Germany
Myatt, G.J. 2007. A Practical Guide to Exploratory Data Analysis and Data
Mining. John Wiley & Sons Inc., United States of America.
Nakkrasae, S., Sophatsathit, P. & Edwards, W. R. Jr. 2004. Fuzzy Substractive
Clustering Based Indexing Approach for Software Components Classification.
International Journal of Computer & Information Science, Vol. 5, No. 1.
Ngai, E.W.T., Xiu, L., Chau, D.C.K., 2008. Application of Data Mining
Techniques in Customer Relationship Management : A Literature Review and
Classification. Expert Systems with Applications 36 (2009) 2592–2602.
Prabhu, S., Venatesan, N. 2007. Data Mining and Warehousing. New Age
International (P) Limited, Publishers.
Rao, V.S., Vidyavathi, S. 2009. Comparative Investigations And Performance
Analysis of FCM and MFPCM Algorithms on Iris Data. Indian Journal of
Computer Science and Engineering Vol 1 No 2, 145-151.
Rokach, L., 2010. Using Fuzzy Logic in Data Mining. In : Maimon, O.,
Rokach, L., editors. Data Mining and Knowledge Discovery Handbook.
Second Edition. London : Springer.
128 Salman, M.A, Ali, S.H. 2007. Knowledge Discovery in Data Mining Using
Fuzzy c-Means Model and Genetic Programming. 4th International
Conference: Sciences of Electronic,Technologies of Information and
Telecommunications, Tunisia.
Sassi, M., Grissa, A., & Ounell, H. 2007 . Interpreting Fuzzy Clustering
Results based on Fuzzy Formal Concept Analysis. IEEE Fuzzy System
Conference.
Simha, J.B., Iyengar, S.S._____. Customer Value Analysis with Fuzzy Data
Mining. Proceedings of the International Conference on Cognition and
Recognition.
Sumathi, S., Sivanandam, S.N. 2006. Introduction to Data Mining and its
Applications. Spinger, Verlag Berlin Heidelberg.
Swift, R.S. 2000. Accelerating Customer Relationships – Using CRM and
Relationship Technologies, Prentice Hall Inc.
Tama, B.A. 2009. Implementasi Teknik Data Mining di dalam Konsep
Customer Relationship Management (CRM). Konferensi Nasional Sistem dan
Informatika 2009, Bali, November 14, 2009. KNS&I09-011.
Tan, P.N., Steinbach, M. & Kumar, V. 2006. Introduction to Data Mining.
Pearson Education, Inc.
Thearling, K. 2000. An Introduction to Data Mining, Tersedia di :
http://www.thearling.com/text/dmwhite/dmwhite.htm.
[diunduh
:
18
Nopember 2010].
Thomas, B., Raju, G., 2009. Fuzzy Clustering Method for Outlier Detection
in Data Mining, International Journal of Recent Trends in Engineering, Vol.1,
No.2.
Todman, C. 2001. Designing a Data Warehouse – Supporting Customer
Relationship Management, Hewlett Packard.
Tsiptsis, K, Chorianopoulos, A. 2009. Data Mining Techniques in CRM.
John Wiley and Sons, Ltd., Publication. United Kingdom.
A
Wu, K., Yang, M. 2005. A Cluster Validity Index for Fuzzy Clustering.
Pattern Recognition Letter 26, pp. 1275-1291.
129 Xu, M., Walton, J. 2005. Gaining Customer Knowledge Through Analytical
CRM, Industrial Management & Data System, Vol.105 No.7. pp 955-977.
Yan, J., Power, J., 1994. Using Fuzzy Logic (Toward Intelligent System).
Prentice Hall, New York.
Zumstein, D. 2007. “Customer Performance Measurement : Analysis of the
Benefit of a Fuzzy Classification Approach in Customer Relationship
Management” (thesis). Switzerland : University of Fribourg.
Download