BAB 2 TINJAUAN PUSTAKA 2.1 Pendahuluan Data Mining atau

advertisement
BAB 2
TINJAUAN PUSTAKA
2.1 Pendahuluan
Data Mining atau pertambangan data adalah suatu aplikasi database yang
memiliki kemampuan pencarian data yang menggunakan statistikal algoritma
untuk menemukan pola dan korelasi dalam data. Data mining dapat
menemukan informasi yang berada di gudang data dalam perusahaan. Data
mining mempunyai pola dan hubungan yang menggambarkan langkahlangkah yang harus diambil untuk memastikan hasil yang tepat. Software
data mining bertujuan untuk
mengetahui bisnis, memahami data dan
membantu analis bisnis untuk menghasilkan hipotesis.
Manajemen hubungan pelanggan atau disebut juga Customer Relationship
Management (CRM) adalah sebuah sistem informasi yang digunakan untuk
merencanakan,
menjadwalkan,
dan
mengendalikan
aktivitas-aktivitas
prapenjualan dan pascapenjualan dalam sebuah organisasi. Hal ini
melingkupi semua aspek perusahaan yang berhubungan dengan calon
pelanggan.
Manajemen hubungan pelanggan juga mencakup pengembangan yang
menawarkan produk untuk dijual pada pelanggan. Dalam penjualan,
perusahaan menggunakan manajemen pemasaran untuk menargetkan
peningkatan efektivitas pemasaran. Tujuan dari manajemen hubungan
pelanggan
adalah
meningkatkan
pertumbuhan
jangka
panjang
dan
profitabilitas perusahaan melalui pengertian terhadap kebiasaan dan perilaku
(behavior) pelanggan. Sumber data manajemen hubungan pelanggan ini dapat
diperoleh melalui survei pelanggan dari pemberian pertanyaan, serta perilaku
data yang terdapat dalam sistem transaksi.
Kemajuan teknologi zaman sekarang membuat hubungan pemasaran lebih
maju, sehingga hubungan perusahaan dengan pelanggan menjadi pusat
Universita Sumatera Utara
masalah bisnis perusahaan dalam konsep pemasaran. Manajemen hubungan
pelanggan ini dapat membantu proses penjual dan pembeli perusahaan untuk
berkomunikasi menawarkan produk yang ditargetkan dan meningkatkan
efisiensi bagi kedua pihak. Untuk itu data mining dapat dipilih sebagai sistem
yang tepat untuk kemajuan perusahaan. Data mining dapat menemukan
informasi yang berada di gudang data perusahaan yang terletak pada
penyimpanan data komputer dan data bisnis tersebut dapat bermanfaat
sebagai informasi dalam setiap langkah pembangunan. Data mining juga
dapat memprediksi keuntungan perusahaan dari pelanggan. Data mining
memainkan peran penting dalam proses manajamen hubungan pelanggan
dengan mencakup interaksi pelanggan dengan data dan perangkat lunak
manajemen. Program manajemen hubungan pelanggan yang menggunakan
data mining dapat mengakibatkan peningkatan nilai pelanggan perusahaan
bila digunakan dengan sistem yang tepat.
2.2
Data Warehouse
Data warehouse merupakan kumpulan data dari berbagai sumber yang
disimpan dalam suatu gudang data ( repository ) dalam kapasitas besar dan
digunakan untuk proses pengambilan keputusan (Prabhu, 2007). Menurut
William Inmon, karakteristik dari data warehouse adalah sebagai berikut :
1.
Subject oriented.
Pada sistem operasional, data disimpan berdasarkan aplikasi.
Set
data
hanya terdiri dari data yang dibutuhkan oleh fungsi yang terkait dan
aplikasinya, sedangkan pada
data warehouse, data
disimpan
bukan
berdasarkan aplikasi, melainkan berdasarkan subjeknya. Misalnya untuk
sebuah perusahaan manufaktur subjek bisnis yang penting, yaitu penjualan,
pengangkutan, dan penyimpanan barang.
Universita Sumatera Utara
2.
Integrated.
Data yang tersimpan dalam data warehouse terdiri dari berbagai system
operasional. Oleh sebab itu terdapat kemungkinan bahwa terjadi beberapa
perbedaan, yaitu dalam konvensi penamaan, representasi kode, atribut data,
dan pengukuran data. Keempat perbedaan tersebut harus disamakan terlebih
dahulu sesuai dengan standar tertentu agar data yang nantinya tersimpan
dalam data warehouse dapat terintegrasi.
3.
Time variant.
Pada data warehouse, data yang tersimpan adalah data historis dalam kurun
waktu tertentu, bukan data terkini. Oleh karena itu data yang tersimpan
mengandung keterangan waktu, misalnya tanggal, minggu, bulan, catur
wulan, dan sebagainya. Karakteristik time variant pada data warehouse
memiliki karakteristik sebagai berikut :
a. Melakukan analisa terhadap hal di masa lalu.
b. Mencari hubungan antara informasi dengan keadaan saat ini.
c. Melakukan prediksi hal yang akan datang.
4
Non-volatile.
Data dalam sistem operasional dapat di-update sesuai transaksi bisnis. Setiap
kali terjadi transaksi bisnis. Namun dalam data warehouse, data tidak dapat
diubah karena bersifat read only.
Arsitektur data warehouse (gambar 2.1)
mencakup proses ETL
(Extraction, Transformation, Loading) untuk memindahkan data dari
operational data source dan sumber data eksternal lainnya ke dalam data
warehouse . Data warehouse dapat dibagi menjadi beberapa data mart,
berdasarkan fungsi bisnisnya (contoh data mart untuk penjualan, pemasaran,
dan keuangan). Data dalam data warehouse dan data mart diatur oleh satu
atau lebih server yang mewakili multidimensional view dari data terhadap
berbagai front end tool, seperti query tools, analysis tools, report writers, dan
data mining tools.
Universita Sumatera Utara
Gambar 2.1 Arsitektur Data Warehouse
Proses ETL (Extraction, Transformation, Loading) merupakan proses yang
harus melalui dalam pembentukan data warehouse (Kimball, 2004).
Berikut adalah penjelasan dari tiap proses.
1.
Ekstraksi Data (Extract)
Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai
sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat
beberapa fungsi ekstraksi data, yaitu :
a. Ekstraksi data secara otomatis dari aplikasi sumber.
b. Penyaringan atau seleksi data hasil ekstraksi.
c. Pengiriman data dari berbagai platform aplikasi ke sumber data.
d. Perubahan format layout data dari format aslinya.
e. Penyimpanan dalam file sementara untuk penggabungan dengan hasil
ekstraksi dari sumber lain.
2.
Transformasi Data (Transformation)
Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi
disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkahlangkah dalam transformasi data adalah sebagai berikut :
Universita Sumatera Utara
a. Memetakan data input dari skema data aslinya ke skema data
warehouse.
b. Melakukan konversi tipe data atau format data.
c. Pembersihan serta pembuangan duplikasi dan kesalahan data.
d. Penghitungan nilai-nilai derivat atau mula-mula.
e. Penghitungan nilai-nilai agregat atau rangkuman.
f. Pemerikasaan integritas referensi data.
g. Pengisian nilai-nilai kosong dengan nilai default.
h. Penggabungan data.
3.
Pengisian Data (Loading)
Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang
di dapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk
memuat data adalah dengan menjalankan SQL script secara periodik.
2.3 Data Mining
Data mining adalah serangkaian proses untuk menggali nilai tambah berupa
informasi yang selama ini tidak diketahui secara manual dari suatu basisdata.
Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan
mengenali pola yang penting atau menarik dari data yang terdapat dalam
basisdata.
Data mining terutama digunakan untuk mencari pengetahuan yang
terdapat dalam data base yang besar sehingga sering disebut Knowledge
Discovery in Databases (KDD).
Proses pencarian pengetahuan ini
menggunakan berbagai teknik-teknik pembelajaran komputer (machine
learning) untuk menganalisis dan mengekstraksikannya. Proses pencarian
bersifat iteratif dan interaktif untuk menemukan pola atau model yang sahih,
baru, bermanfaat, dan dimengerti. Dalam penerapannya data mining
memerlukan berbagai perangkat lunak analisis data untuk menemukan pola
dan relasi data agar dapat digunakan untuk membuat prediksi dengan akurat.
Universita Sumatera Utara
2.3.1
Manfaat Data Mining
Pemanfaatan data mining dapat dilihat dari dua sudut pandang, yaitu sudut
pandang komersial dan sudut pandang keilmuan. Dari sudut pandang
komersial, pemanfaatan data mining dapat digunakan dalam menangani
meledaknya volume data. Bagaimana mana menyimpannya, mengestraknya
serta memanfaaatkannya. Berbagai teknik komputasi
dapat digunakan
menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan menjadi
asset untuk meningkatkan daya saing suatu institusi.
Data mining tidak hanya digunakan untuk menangani persoalan
menumpuknya data / informasi dan bagaimana menggudangkannya tanpa
kehilangan informasi yang penting (warehousing). Data mining juga
diperlukan untuk menyelesaikan permasalahan atau menjawab kebutuhan
bisnis itu sendiri, misalnya:
• Bagaimana mengetahui hilangnya pelanggan karena pesaing
• Bagaimana mengetahui item produk atau konsumen yang memiliki
kesamaan karakteristik
• Bagaimana mengidentifikasi produk-produk yang terjual bersamaan
dengan produk lain.
• Bagaimana memprediski tingkat penjualan
•
Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi
suatu item.
• Bagaimana memprediksi prilaku bisnis di masa yang akan datang
Dari sudut pandang keilmuan, data mining dapat digunakan untuk
mengcapture, menganlisis serta menyimpan data yang bersifat real-time dan
sangat besar, misalnya:
Universita Sumatera Utara
• Remote sensor yang ditempatkan pada suatu satelit
• Telescope yang digunakan untuk memindai langit
• Simulasi saintifik yang membangkitkan data dalam ukuran terrabytes
Data mining merupakan salah satu metode alternatif yang dapat digunakan
untuk mengolah data mentah, ketika metode konvensional tidak fisibel untuk
dilakukan karena besarnya volume data yang diolah. Hal ini dapat terjadi
karena data mining memiliki kemampuan mereduksi data baik melalui teknik
katalogisasi, klasifikasi maupun segementasi.
2.3.2
Tahapan Data Mining
Data mining sesungguhnya merupakan salah satu rangkaian dari proses
pencarian
pengetahuan
pada
database
(Knowledge
Discovery
in
Database/KDD). KDD berhubungan dengan teknik integrasi dan penemuan
ilmiah, interprestasi dan visualisasi dari pola-pola sejumlah kumpulan data.
KDD adalah keseluruhan proses non-trivial untuk mencari dan
mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan
bersifat sah, baru, dapat bermanfaat dan dapat dimengerti. Serangkaian proses
tersebut yang memiliki tahap sebagai berikut (Tan, 2006):
1. Pembersihan data dan integrasi data (cleaning and integration) Proses
ini digunakan untuk membuang data yang tidak konsisten dan bersifat
noise dari data yang terdapat di berbagai basisdata yang mungkin
berbeda format maupun platform yang kemudian diintegrasikan
dalam satu database data warehouse.
2. Seleksi dan transformasi data (selection and transformation) Data
yang terdapat dalam database data warehouse kemudian direduksi
dengan
berbagai
teknik.
Proses
reduksi
diperlukan
untuk
mendapatkan hasil yang lebih akurat dan mengurangi waktu
Universita Sumatera Utara
komputasi terutama utuk masalah dengan skala besar (large scale
problem).
Beberapa cara seleksi, antra lain:
•
Sampling, adalah seleksi subset representatif dari populasi data
yang besar.
•
Denoising, adalah proses menghilangkan noise dari data yang
akan ditransformasikan
•
Feature extraction, adalah proses membuka spesifikasi data yang
signifikan dalam konteks tertentu.
Transformasi data diperlukan sebagai tahap pre-procecing, dimana
data yang diolah siap untuk ditambang. Beberapa cara transformsi,
antara lain (Santoso, 2007):
•
Centering, mengurangi setiap data dengan rata-rata dari setiap
atribut yang ada.
•
Normalisation, membagi setiap data yang dicentering dengan
standar deviasi dari atribut bersangkutan.
•
Scaling, mengubah data sehingga berada dalam skala tertentu.
Gambar 2.2 Tahap-tahap Knowledge Discovery in Database
Universita Sumatera Utara
2.3.3 Penambangan data (data mining)
Data yang telah diseleksi dan ditransformasi ditambang dengan berbagai
teknik.
Proses data mining adalah proses mencari pola atau informasi
menarik dalam data terpilih dengan menggunakan fungsi-fungsi tertentu.
Fungsi atau algoritma dalam data mining sangat bervariasi. Pemilihan fungsi
atau algoritma yang tepat sangat bergantung pada tujuan dan proses
pencaraian pengetahuan secara keseluruhan.
2.3.4 Evaluasi pola dan presentasi pengetahuan
Tahap ini merupakan bagian dari proses pencarian pengetahuan yang
mencakup pemeriksaan apakah pola atau informasi yang ditemukan
bertentangan dengan fakta atau hipotesa yang ada sebelumnya. Langkah
terakhir KDD adalah mempresentasikan pengetahuan dalam bentuk yang
mudah dipahami oleh pengguna.
2.3.5 Fungsi-fungsi
Fungsi-fungsi yang umum diterapkan dalam data mining (Haskett, 2000):
•
Assosiation, adalah proses untuk menemukan aturan assosiatif antara
suatu kombinasi item dalam suatu waktu
•
Secuence, hampir sama dengan association bedanya seccuence
diterapkan lebih dari satu periode.
•
Clastering, adalah proses pengelompokan sejumlah data / obyek ke
dalam kelompok-kelompok data (klaster) sehingga setiap klaster akan
berisi data yang saling mirip.
•
Classification, adalah proses penemuan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data, dengan tujuan
untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak
diketahui.
•
Regretion, adalah proses pemetaam data dalam suatu nilai prediksi.
Universita Sumatera Utara
•
Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan
pola-pola di dalam sekumpulan data
•
Solution, adalah proses penemuan akar masalah dan problem solving
dari persoalan bisnis yang dihadapi atau paling tidak sebagai
informasi pendukung dalam pengambilan keputusan.
2.3.6 Penerapan Data Mining
Sebagai cabang ilmu baru di bidang komputer cukup banyak penerapan yang
dapat dilakukan oleh Data Mining. Apalagi ditunjang ke-kaya-an dan
keanekaragaman berbagai bidang ilmu (artificial intelligence, database,
statistik, pemodelan matematika, pengolahan citra ) membuat penerapan data
mining menjadi makin luas. Berikut beberapa penerapannya
•
Analisa Pasar dan Manajemen
Untuk analisa pasar, banyak sekali sumber data yang dapat
digunakan seperti transaksi kartu kredit, kartu anggota club
tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi
tentang gaya hidup publik.
•
Menembak target pasar
Data mining dapat melakukan pengelompokan (clustering) dari
model model pembeli dan melakukan klasifikasi terhadap setiap
pembeli sesuai dengan karakteristik yang diinginkan seperti
kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan
membeli dan karakteristik lainnya.
•
Melihat pola beli pemakai dari waktu ke waktu
Data mining dapat digunakan untuk melihat pola beli seseorang
dari waktu ke waktu. Sebagai contoh, ketika seseorang menikah
bisa saja dia kemudian memutuskan pindah dari single account ke
joint account (rekening bersama) dan kemudian setelah itu pola
beli-nya berbeda dengan ketika dia masih bujangan.
Universita Sumatera Utara
•
Cross market analisys
Kita dapat memanfaatkan data mining untuk melihat hubungan
antara penjualan satu produk dengan produk lainnya.
•
Profil customer
Data mining dapat membantu
untuk melihat profil customer /
pembeli / nasabah sehingga kita dapat mengetahui kelompok
customer tertentu suka membeli produk apa saja.
•
Identifikasi kebutuhan user
Kita dapat mengidentifikasi produk-produk apa saja yang terbaik
untuk tiap kelompok customer dan menyusun faktor-faktor apa saja
yang kira-kira dapat menarik customer baru untuk bergabung /
membeli.
•
Perencanaan keuangan dan evaluasi asset
Data Mining dapat membantu
untuk melakukan analisis dan
prediksi cash flow serta melakukan contingent claim analysis untuk
mengevaluasi aset. Selain itu juga dapat menggunakannya untuk
analisis trend.
•
Perencanaan sumber daya (Reseource planning)
Dengan
melihat
informasi
ringkas
(summary)
serta
pola
pembelanjaan dan pemasukan dari masing-masing resource, kita
dapat memanfaatkannya untuk melakukan resource planning.
•
Persaingan (competision)
Sekarang ini banyak perusahaan yang berupaya untuk dapat
melakukan competitive intelligence. Data Mining dapat membantu
untuk memonitor pesaing-pesaing
dan melihat market direction
seperti :
 Melakukan
pengelompokan
customer,
memberikan
variasi
harga/layanan/bonus untuk masing-masing grup.
 Menyusun strategi penetapan harga di pasar yang sangat
kompetitif. Hal ini diterapkan oleh perusahaan minyak REPSOL
di Spanyol dalam menetapkan harga jual gas di pasaran.
Universita Sumatera Utara
2.3.7
CRISP-DM
CRISP-DM (CRoss-Industry Standard Process for Data Mining) merupakan
suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa pada tahun
1996 dan telah ditetapkan sebagai proses standar dalam data mining yang
dapat diaplikasikan di berbagai sektor industri. Gambar 2.3 menjelaskan
tentang siklus hidup pengembangan data mining yang telah ditetapkan dalam
CRISP-DM.
Gambar 2.3 Siklus Hidup CRISP-DM (Chapman, 2000)
Berikut ini adalah enam tahap siklus hidup pengembangan data mining
(Chapman, 2000) :
1. Business Understanding
Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut pandang
bisnis, kemudian menterjemakan pengetahuan ini ke dalam pendefinisian
Universita Sumatera Utara
masalah dalam data mining. Selanjutnya akan ditentukan rencana dan strategi
untuk mencapai tujuan tersebut.
2. Data Understanding
Tahap ini dimulai dengan pengumpulan data yang kemudian akan dilanjutkan
dengan proses untuk mendapatkan pemahaman yang mendalam tentang data,
mengidentifikasi masalah kualitas data, atau untuk mendeteksi adanya bagian
yang menarik dari data yang dapat digunakan untuk hipotesa untuk informasi
yang tersembunyi.
3. Data Preparation
Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data
yang akan diproses pada tahap pemodelan/modeling) dari data mentah. Tahap
ini dapat diulang beberapa kali. Pada tahap ini juga mencakup pemilihan
tabel, record, dan atribut-atribut data, termasuh proses pembersihan dan
transformasi data untuk kemudian dijadikan masukan dalam tahap pemodelan
(modeling).
4. Modeling
Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai teknik
pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan
nilai yang optimal. Secara khusus, ada beberapa teknik berbeda yang dapat
diterapkan untuk masalah data mining yang sama. Di pihak lain ada teknik
pemodelan yang membutuhan format data khusus. Sehingga pada tahap ini
masih memungkinan kembali ke tahap sebelumnya.
5. Evaluation
Pada tahap ini, model sudah terbentuk dan diharapkan memiliki kualitas baik
jika dilihat dari sudut pandang analisa data. Pada tahap ini akan dilakukan
evaluasi terhadap keefektifan dan kualitas model sebelum digunakan dan
menentukan apakah model dapat mencapat tujuan yang ditetapkan pada fase
awal (Business Understanding). Kunci dari tahap ini adalah menentukan
apakah ada masalah bisnis yang belum dipertimbangkan. Di akhir dari tahap
ini harus ditentukan penggunaan hasil proses data mining.
Universita Sumatera Utara
6. Deployment
Pada tahap ini, pengetahuan atau informasi yang telah diperoleh akan diatur
dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh
pengguna. Tahap deployment dapat berupa pembuatan laporan sederhana atau
mengimplementasikan proses data mining yang berulang dalam perusahaan.
Dalam banyak kasus, tahap deployment melibatkan konsumen, di samping
analis data, karena sangat penting bagi konsumen untuk memahami tindakan
apa yang harus dilakukan untuk menggunakan model yang telah dibuat.
2.4 Customer Relationship Management (CRM) / Manajemen Hubungan
Pelanggan
Konsumen merupakan aset yang sangat penting bagi suatu perusahaan. Tidak
akan ada prospek bisnis tanpa adanya hubungan antara perusahaan dengan
konsumen yang bersifat loyal. Hal ini adalah alasan mengapa perusahaan
harus merencanakan dan menggunakan strategi yang cukup jelas dalam
memperlakukan konsumen. Customer Relationship Management (CRM)
telah
berkembang
dalam
beberapa
dekade
belakangan
ini
untuk
merefleksikan peranan utama dari konsumen untuk pengaturan strategi
perusahaan. CRM meliputi seluruh ukuran untuk memahami konsumen dan
proses untuk mengeksploitasi pengetahuan ini untuk merancang dan
mengimplementasikannya pada kegiatan marketing, produksi, dan rantai
supply dari pemasok (supplier). Berikut ini akan didefenisikan beberapa
pengertian CRM yang diambil dari berbagai literatur, antara lain (Tama,
2009) :
1. Dari sisi yang berkaitan dengan teknologi informasi, CRM adalah
sebuah strategi untuk mengoptimalkan customer lifetime value
dengan cara mengetahui lebih banyak mengenai informasi konsumen
dan berinteraksi dengan konsumen secara intensif (Todman, 2001).
Universita Sumatera Utara
2. Dari sisi komunikasi dan manajemen, CRM di definisikan sebagai
sebuah pendekatan perusahaan untuk memahami dan mempengaruhi
perilaku konsumen melalui komunikasi yang intensif dalam rangka
meningkatkan akuisisi konsumen, mempertahankan konsumen, dan
loyalitas konsumen (Swift, 2001).
3. Definisi CRM jika dilihat dari segi bisnis dapat diartikan sebagai
sebuahstrategi bisnis untuk memahami, mengantisipasi dan mengelola
kebutuhan konsumen yang potensial dalam suatu organisasi pada saat
sekarang dan yang akan datang (Brown, 2000).
Dari ketiga definisi di atas dapat ditarik kesimpulan mengenai definisi CRM
yaitu sebuah pendekatan yang komprehensif yang mengintegrasikan setiap
bisnis proses yang berhubungan langsung dengan konsumen, yaitu penjualan,
pemasaran dan layanan konsumen melalui integrasi filosofi, teknologi, dan
juga proses (Tama, 2009). Dengan kata lain, CRM dipandang bukanlah
sebagai sebuah produk ataupun sebuah layanan, tetapi sebuah filosofi bisnis
yang bertujuan memaksimalkan nilai konsumen dalam jangka panjang
(customer lifetime value).
2.4.1
Teknologi CRM
Sebuah definisi standar mengenai komponen teknologi CRM diberikan oleh
META Group di dalam “The Customer Relationship Management
Ecosystem”. Kategorisasi ini bertujuan untuk lebih memahami bagaimana
suatu strategi CRM dan teknologinya mampu menyediakan seluruh arsitektur
secara menyeluruh yang terfokus pada layanan konsumen. Ada tiga tipe
utama dari teknologi CRM yaitu (Tama, 2009) :
1. Operational CRM, yang dikenal sebagai CRM “front office”. Operational
CRM merupakan area dimana terjadi hubungan dengan konsumen secara
langsung. Otomasi dari proses bisnis yang terintegrasi yang melibatkan
Universita Sumatera Utara
front office customer touch points, seperti penjualan, pemasaran, dan
layanan konsumen, termasuk ntegrasi. Dengan perkembangan teknologi
informasi dan komunikasi yang pesat, operational CRM kemudian juga
dapat dibedakan menjadi dua bagian yaitu e-CRM dan m-CRM. antara
front office dan back office, seperti manajemen pesanan, dan otomasi
pemasaran
2. Collaborative CRM, merupakan bentuk perluasan dari CRM tradisional.
Collaborative CRM berkaitan dengan manajemen hubungan antara
stakeholder eksternal, seperti supplier, distributor, dan reseller. Aplikasi
utama dari collaborative CRM adalah enterprise portal yang berbasis
pada infrastruktur ekstranet dan perangkat lunak manajemen hubungan
mitra (partner relationshiop management software) yang memberikan
akses kepada konsumen, reseller, dan mitra bisnis melalui internet.
2
Analytical CRM yang dikenal sebagai CRM “ Back office” atau strategic
CRM. Analytical CRM biasanya berhubungan dengan penggunaan data
secara
efective,
efisien
dan
strategis
sehingga
memungkinkan
pengambilan keputusan yang tepat bagi pihak manajemen. Pengambilan
keputusan dilaksanakan setelah melalui proses analisis, pemodelan, dan
evaluasi terhadap data yang tersimpan didata base untuk menghasilkan
sebuah hubungan yang saling menguntungkan antara perusahaan dan
konsumennya . Contoh dari Analytical CRM adalah business intelegence
seperti data warehaouse, OLAP, dan data mining.
Hal yang terpenting dalam memahami perilaku konsumen tidak hanya
memahami siapa mereka (dalam hal ini customer profiling atau segmentation)
tetapi juga perilaku mereka dan pola-pola (pattern) yang mereka ikuti.
Pemahaman perilaku pelanggan harus ditetapkan sebagai suatu proses yang
dinamis dan berkelanjutan (Xu dan Walton, 2005).
Universita Sumatera Utara
2.4.2
Data Mining Dalam Kerangka Kerja CRM
Menurut Swift, dkk (2001), CRM memiliki empat dimensi, yaitu :
1. Identifikasi konsumen (customer identification).
2. Membangun daya tarik terhadap konsumen (customer attraction).
3. Mempertahankan konsumen yang ada (customer retention).
4. Pengembangkan konsumen (customer development).
Keempat dimensi dari CRM tersebut dapat dilihat sebagai siklus tertutup
dalam Customer Management System. Setiap dimensi memiliki tujuan umum
yang sama yaitu untuk membangun pemahaman yang lebih mendalam dari
konsumen dan meningkatkan nilai konsumen (customer value) dari
perusahaan. Dalam kaitannya dengan pencapaian tujuan tersebut, teknik data
mining dapat digunakan untuk menemukan karakteristik dan perilaku
konsumen yang tersembunyi dalam database yang berukuran besar. Untuk
menemukan pola karakteristik dan perilaku konsumen, dapat digunakan
metode pemodelan data dalam teknik data mining.
Beberapa metode pemodelan data yang dapat digunakan, yaitu :
1. Association
2. Classification
3. Clustering
4. Forecasting
5. Regression
6. Sequence discovery
7. Visualization
Universita Sumatera Utara
Kerangka kerja teknik data mining dalam keempat dimensi CRM dijelaskan
melalui Gambar 2.4.
Gambar 2.4 Kerangka Kerja Teknik Data Mining dalam CRM (Ngai dkk 2008)
2.5 Clustering
Clustering adalah salah satu teknik unsupervised machine learning, yang
tidak terdapat fase pembelajaran dalam prosesnya. Teknik ini bertujuan untuk
mengelompokkan suatu himpunan obyek menjadi kelas-kelas yang terdiri
dari obyek-obyek yang sama atau pengelompokkan berdasarkan kesamaan
karakteristik diantara obyek-obyek tersebut Kesamaan dan pembagian
didasarkan melalui kriteria jumlah kuadrat kesalahan yang minimal. Kriteria
ini sangat sensitif dengan keberadaan data outlier, oleh karena itu dikoreksi
dengan membagi suatu kelompok besar ke ukuran yang lebih kecil (Berkhin
2002)
Universita Sumatera Utara
2.5.1 Algoritma Klasifikasi K-Means
Algoritma K-Means merupakan metode clustering berbasis jarak yang
mempartisi data ke sejumlah kelompok dan bekerja pada atribut numerik.
Algoritma ini dimulai dengan pemilihan jumlah kelompok (K) secara acak
serta pengambilan sebagian populasi sejumlah K untuk dijadikan sebagai titik
pusat awal. Salah satu metode perhitungan jarak yang bisa digunakan adalah
Euclidean Distance. Perhitungan jarak menggunakan metode Euclidean
dinyatakan sebagai berikut :
(2.1)
Dimana
x : obyek ke-1
y : obyek ke-2
n : banyaknya atribut obyek ke-1 dan ke-2
Prosedur dasar clustering K-Means adalah sebagai berikut(Johnson &
Wicherin 2002):
1. Menentukan k sebagai jumlah cluster yang ingin dibentuk
2. Membangkitkan k centroids (titik pusat cluster) awal secara random
3. Menghitung jarak setiap data ke masing-masing centroids
4. Setiap data memilih centroid yang terdekat
5. Menentukan posisi centroids baru dengan cara menghitng nilai rata-rata
dari data-data yang berada pada centroids yang sama
6. Kembali ke langkah 3 jika posisi centroids baru dengan centroids lama
tidak sama
Universita Sumatera Utara
2.5.2 Clustering Hirarkhi (Hierarchical clustering)
Clustering hierarchi membangun sebuah hirarki cluster atau dengan kata lain
sebuah pohon cluster yang juga dikenal sebagai dendogram. Setiap node
cluster mengandung cluster anak, cluster-cluster saudara yang membagi point
yang ditutupi oleh induk mereka. Metode-metode clustering hirarki
dikatagorikan kedalam agglomeratif (bawah atas) dan divisive (atas bawah)
(Jain & Murthy, 1999);, Kaufman & Rouseeuw 1990). Clustering
agglomeratif dimulai dengan cluster satu point (singleton) dan secara
berulang-ulang menggabungkan dua atau lebih cluster yang paling tepat.
Cluster divisive dimulai dengan satu cluster dari semua point data dan secara
berulang-ulang melindungi cluster yang paling tepat. Proses erbut berlanjut
hingga kriteria penghentian (seringkali, jumlah k yang diperlukan dari
cluster) dicapai. Kelebihan cluster hirarki meliputi :
(I)
Fleksibilitas yang tertanam mengenai level granaularitas
(II)
Kemudahan menangani bentuk-bentuk kesamaan atau jarak
(III)
Pada akhirnya, daya pakai pada tpe-tipe atribut apapun.
Kelemahan dari clustering hirarki berhubungan dengan :
(I)
Ketidakjelasan kriteria terminasi
(II)
Terhadap perbaikan perbaikan hasil clustering, sebagian besar
algoritma hirarki tidak mengunjungi kembali cluster-clusternya
yang telah dikonstruksi.
Untuk clustering hirarki, menghubungkan atau memisahkan subset dari pointpoint dan bukan point-point individual, jarak antara point-point individu
harus digenelarikan terhadap jarak antara subset.
Ukuran kedekatan yang diperoleh disebut metrik berhubungan. Tipe mertik
hubungan yang digunakan secara signifikan memperoleh algoritma hisrarki,
karena merefleksikan konsep tertentu dari kedekatan dan konektivitas. Metrik
Universita Sumatera Utara
hubungan antar cluster utama (Murtagh 1985, Olson 1995) termasuk
hubungan tunggal, hubungan rata-rata, dan hubungan sempurna.
Algoritma clustering hirarki populer untuk data katagorikal COBWEB
(Fisher, 1987) memiliki dua kualitas yang sangat penting, Pertama
menggunakan pembelajaran incrementasl. Daripada mengikuti pendekatan
diviseve
atau
aggglomerative,
secara
dinamis
membangun
sebuah
dendrogram melalui pengolahan satu point data pada suatu waktu. Kedua
COBWEB termasuk pada pembelajaran berdasarkan konseptualatau model,
Ini berarrti bahwa setiap cluster dianggap sebagai sebuah model yang dapat
dijelaskan secara intrinsik, dan bukan sebagai sebuah kumpulan point yang
ditentukan terhadapnya.
Dendogram COBWEB disebut pohon klasifikasi. Setiap node pohon C,
sebuah cluster berhubungan dengan probabilitas kondisional untuk pasanganpasangan nilai-nilai atribut, yakti :
Pr(Xi=vip \ C), I = 1; d.p=I\A1
(2,2)
2.5.3 Clustering Partisional (Partisional Clustering)
Dengan mengetahui objek-objek database n, sebuah algoritma clustering
partisional membentuk k bagian dari data, dimana setiap cluster
mengoptimalkan kriteria clustering, seperti minimasi jumlah jarak kuadrat
dari rata-rata dalam setiap cluster.
Salah satu isu dengan algortima-algoritma tersebut adalah kompleksitas
tinggi, karena menyebutkan semua pengelompokan yang memungkinkan dan
berusaha mencari optimum global. Bahkan untuk jumlah objek yang kecil,
jumlah partisi adalah besar, itulah sebabnya mengapa solusi-solusi umum
dimulai dengan sebuah partisi awal, biasanya acak, dan berlanjut dengan
penyempurnaannya.
Universita Sumatera Utara
2.6
Metode Klasifikasi Fuzzy RFM
Analisa RFM terdiri dari tiga dimensi, yaitu (Tsiptsis dan Chorianopoulos,
2009) :
1. Recency, yaitu jenis layanan yang diigunakan para pelanggan untuk
bertransaksi. Terdapat 8 jenis layanan yang ditawarkan kepada pelanggan.
2. Frequency, yaitu jumlah total transaksi atau jumlah rata-rata transaksi
dalam satu periode.
3. Monetary, yaitu jumlah rata-rata nilai pembelian konsumen dalam suatu
satuan waktu.
Metode sharp RFM mendeskripsikan atribut recency, frequency, dan
monetary dengan variabel linguistik (Zumstein, 2007). Sebagai contoh,
atribut recency dideskripsikan dengan 8 jenis layanan yang digunakan seperti
layanan suratpos (SB), surat kilat (SK), surat kilat khusus (SKH), surat
tercatat (ST), pos express (PE), ems (EMS), city curir (CC), paketpos (PK).
Atribut frequency dideskripsikan dengan bahasa natural sedikit, agak banyak,
dan banyak. Sedangkan atribut monetary dideskripsikan dengan rendah,
sedang, tinggi. Konteks dari masing-masing atribut didefinisikan sebagai
berikut :
1. Domain atribut recency didefinisikan dalam transaksi harian, dengan
memilih 8 jenis layanan. Pelanggan dapat menggunakan lebih dari satu
jenis layanan
2. Domain atribut frequency didefinisikan dalam range frequency sedikit <
1.000 transaksi / tahun, frequency agak banyak < 7.000,- transaksi /
tahun, frequency banyak > 7.000,- transaksi / tahun.
3. Domain atribut monetary didefinisikan dalam range rendah < 15.000.000,per tahun, range sedang < 20.000.000 per tahun, range tinggi >=
20.000.000,-
Universita Sumatera Utara
Untuk setiap kelas ditentukan nilai (score) yang bergantung dari besarnya
nilai frequency, dan monetary. Semakin tinggi nilai frequency, dan monetary
dari konsumen, semakin tinggi juga nilai (score) yang diperoleh.
Dengan klasifikasi menggunakan metode fuzzy RFM, nilai (score) dari
masing-masing konsumen dapat diperhitungkan dengan lebih akurat dan lebih
baik
2.7
Riset-Riset Terkait
Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti berkaitan
dengan model segmentasi pelanggan dengan data mining seperti yang akan
dijelaskan dibawah ini :
Penelitian yang dilakukan oleh Jansen (2007) untuk menerapkan
konsep data mining dalam proses segmentasi konsumen (customer
segmentation) dan mendefinisikan profil konsumen (customer profiling) serta
hubungan antara keduanya. Jansen menggunakan algoritma K-Means, KMedoid, Fuzzy C-Means, Gustafson Kessel dan Gath Geva Clustering untuk
melakukan proses segmentasi konsumen. Studi kasus dalam penelitian ini
adalah konsumen pengguna jasa telekomunikasi Vodafone. Segmentasi
konsumen didasarkan pada perilaku konsumen yang diukur berdasarkan
jumlah panggilan masuk dan panggilan keluar yang dilakukan oleh
konsumen. Customer profiling dibangun melalui informasi yang berasal
dari data warehouse, seperti umur, jenis kelamin, dan informasi daerah
tempat tinggal. Dengan menggunakan teknik data mining, yaitu Support
Vector Machine (SVM), segmentasi konsumen dapat diperkirakan melalui
profil konsumen. Dalam penelitian ini diperoleh hasil bahwa dengan
menggunakan SVM, dapat dibentuk empat segmen konsumen dari data profil
konsumen yang ada dengan tingkat keakuratan 80,3%. Sedangkan jika jumlah
segmen yang dibentuk berjumlah 6, maka tingkat keakuratan klasifikasinya
adalah 78,5%.
Universita Sumatera Utara
Cao, Zhu, dan Hou (2009) menggunakan metode FFCHC (Fuzzy
Fisher Criterion Based Hierarchical Clustering Algorithm) untuk melakukan
segmentasi konsumen. Metode FFHC memadukan algoritma FFC (Fuzzy
Fisher Criterion)
sebagai algoritma untuk melakukan clustering dan
clustering validity function
untuk mencari jumlah cluster yang paling
optimal. Metode ini diterapkan pada
dataset konsumen pada suatu
perusahaan pasar modal.
Penelitian tentang perbandingan algoritma Fuzzy C-Means dan Fuzzy
Subtractive Clustering juga pernah dilakukan sebelumnya. Collazo-Cuevas
(2010) melakukan perbandingan terhadap dua metode clustering yaitu Fuzzy
C-Means dan Fuzzy Substracttive Clustering. Kedua metode ini diterapkan
untuk melakukan clustering terhadap data polusi udara di Liverpool. Dalam
penelitian ini dibangun algoritma identifikasi model fuzzy sebagai dasar dari
motode estimasi. Hasil dari proses clustering adalah pemodelan hubungan
antara suhu udara, kelembaman udara, dan kosentrasi PM 10 di Liperpool
Inggris.
Hammouda dan Karaay (2000) dalam penelitiannya melakukan
perbandingan terhadap empat metode clustering yaitu F-Means, Fuzzy CMeans, Mountain, dan Fuzzy Substractive clustering. Keempat metode
clustering ini diterapkan untuk melakukan proses clustering terhadap data
medis. Selanjutnya, hasil dari proses data clustering tersebut digunakan untuk
membantu proses diagnosa terhadap penyakit hati, perbandingan terhadap
keempat metode clustering dilakukan menggunakan parameter keakuratan
hasil clustering, waktu yang dibutuhkan untuk melakukan proses clustering.
Root mean square error, dan kemiringan garis regresi (regression line slope).
Dari hasil perbandingan diperoleh hasil bahwa Mountain Clustering kurang
baik untuk digunakan pada data dengan jumlah dimensi besar.
Pendekatan algoritma yang lebih baik adalah menggunakan Fuzzy
Substractive clustering karena membutuhkan waktu pemrosesan yang lebih
cepat dibandingkan Mountain Clustering untuk memproses data dengan 13
dimensi. Algoritma K-Means dan Fuzzy C-Means kinerja yang lebih baik
Universita Sumatera Utara
dibandingkan Mountain Clustering dan Fuzzy Substractive Clustering ,
namun membutuhkan informasi tentang jumlah cluster yang harus dibentuk.
Penelitian tentang metode fuzzy RFM dilakukan oleh Zumstein (2007)
dalam thesisnya, Zumstein meneliti tentang klasifikasi fuzzy sebagai metode
analisa dan manajemen data multidimensi. Meotode Klasifikasi fuzzy sesuai
untuk digunakan dalam proses CRM dan membangun hubungan dengan
konsumen yang menguntungkan. Metode fuzzy dipadukan dengan metode
klasifikasi seperti metode analisa SWOT, analisa portofolio, analisa ABC,
serta metode penilaian (scoring method) untuk memperoleh hasil segmentasi
konsumen yang lebih baik. Dalam penelitian ini, metode fuzzy yang juga
dipadukan dengan metode RFM, yaitu metode untuk menentukan segmensegmen konsumen berdasarkan recency, frequency dan monetary. Metode
fuzzy FRM juga dibandingkan terhadap metode fuzzy RFM memberikan hasil
segmentasi konsumen yang lebih baik, sehingga dapat membantu perusahaan
untuk memahami perilaku konsumen dengan lebih baik.
Berikut ini adalah daftar penelitian mengenai data mining yang dilakukan
sebelumnya dilakukan disajikan dalam table 2.1
Tabel 2.1
Penelitian Yang Telah Dilakukan
No.
1.
2.
Peneltian
Jansen (2007)
Metode
K-Means,
KMedoid, Fuzzy cMeans, Gustafson,
Keseel dan Gath
Geva Clustering
Cao, Zhu dan FFCHC(Fuzzy
Hou (2009)
Fisher
Criterion
Based Hierarchical
Clustering
Algorithm)
Deskripsi
Mencari segmentasi dan
profil
konsumen
pada
perusahaan Telekomunikasi
Vodafone
Mencari
segmentasi
konsumen
pada
suatu
perisahaan pasar modal
Universita Sumatera Utara
Tabel 2.1
Penelitian Yang Telah Dilakukan
No.
3.
4.
5.
2.8
Peneltian
CaollazoCuevas
dkk(2010)
Metode
Fuzzy C-Means dan
Fuzzy Substractive
Clustering
Deskripsi
Melakukan
perbandingan
terhadap Fuzzy C-MENAS
DAN Fuzzy Substractive
Clustering untuk data polusi
udara
Hammouda dan K-Means, Fuzzy C- Melakukan
perbandingan
Karaay (2000)
Means,
Mountain keempat algoritma clustering
Clustering,
dengan menggunakan data
Substractive
medis untuk mendiagnosa
Clustering
penyakit hati
Zumstein
Fuzzy Classification Melakukan
studi
fuzzy RFM
perbandinan
metode
klasifikasi klasik dengan
metode kleasifikasi yang
dipadukan dengan metode
fuzzy
Persamaan dengan Riset-Riset lain
Yohana Nugraheni (2011) dalam penelitiannya menjelaskan data mining
dengan metode fuzzy untuk customer relationship management (CRM) pada
perusahaan Retail.
Cen (2007) menggunakan teknik data mining untuk menemukan pola dan
trend dari data konsumen dalam kaitannya dengan konsep CRM. Proses
clustering dilakukan terhadap data konsumen C-Company, yaitu perusahaan
yang bergerak dibidang industry elektronik.
Universita Sumatera Utara
2.9 Perbedaan dengan Riset-Rise lain
Dari beberapa riset yang dilakukan peneliti sebelumnya, terdapat beberapa
titik perbedaan dengan riset yang akan dilakukan ini :
Analisa pemodelan segmentasi pelanggan dengan data mining berbasis
customer relationship management (CRM) risetnya dilakukan di kantor pos
Medan. Riset yang dilakukan penulis untuk membuat model berdasarkan
Recency, Frequency, Monetary.
Pada penelitian ini hasil akhir yang diharapkan dengan model
segmentasi pelanggan dengan data mining berbasis Customer Relationship
Management dapat diketahui pelanggan – pelanggan yang potensial,
2.10
Kontribusi Riset
Penelitian ini memberikan kontribusi pada pemahaman kita tentang hubungan
Recency, Frequency, Monetary dalam menentukan pelanggan terbaik dan
potensial berdasarkan clustering yang telah ditentukan.
Pembuat keputusan bisa menggunakan model segmentasi pelanggan
dengan data mining untuk meningkatkan kualitas pengambilan keputusan.
Universita Sumatera Utara
Download