BAB 2 TINJAUAN PUSTAKA 2.1 Pendahuluan Data Mining atau pertambangan data adalah suatu aplikasi database yang memiliki kemampuan pencarian data yang menggunakan statistikal algoritma untuk menemukan pola dan korelasi dalam data. Data mining dapat menemukan informasi yang berada di gudang data dalam perusahaan. Data mining mempunyai pola dan hubungan yang menggambarkan langkahlangkah yang harus diambil untuk memastikan hasil yang tepat. Software data mining bertujuan untuk mengetahui bisnis, memahami data dan membantu analis bisnis untuk menghasilkan hipotesis. Manajemen hubungan pelanggan atau disebut juga Customer Relationship Management (CRM) adalah sebuah sistem informasi yang digunakan untuk merencanakan, menjadwalkan, dan mengendalikan aktivitas-aktivitas prapenjualan dan pascapenjualan dalam sebuah organisasi. Hal ini melingkupi semua aspek perusahaan yang berhubungan dengan calon pelanggan. Manajemen hubungan pelanggan juga mencakup pengembangan yang menawarkan produk untuk dijual pada pelanggan. Dalam penjualan, perusahaan menggunakan manajemen pemasaran untuk menargetkan peningkatan efektivitas pemasaran. Tujuan dari manajemen hubungan pelanggan adalah meningkatkan pertumbuhan jangka panjang dan profitabilitas perusahaan melalui pengertian terhadap kebiasaan dan perilaku (behavior) pelanggan. Sumber data manajemen hubungan pelanggan ini dapat diperoleh melalui survei pelanggan dari pemberian pertanyaan, serta perilaku data yang terdapat dalam sistem transaksi. Kemajuan teknologi zaman sekarang membuat hubungan pemasaran lebih maju, sehingga hubungan perusahaan dengan pelanggan menjadi pusat Universita Sumatera Utara masalah bisnis perusahaan dalam konsep pemasaran. Manajemen hubungan pelanggan ini dapat membantu proses penjual dan pembeli perusahaan untuk berkomunikasi menawarkan produk yang ditargetkan dan meningkatkan efisiensi bagi kedua pihak. Untuk itu data mining dapat dipilih sebagai sistem yang tepat untuk kemajuan perusahaan. Data mining dapat menemukan informasi yang berada di gudang data perusahaan yang terletak pada penyimpanan data komputer dan data bisnis tersebut dapat bermanfaat sebagai informasi dalam setiap langkah pembangunan. Data mining juga dapat memprediksi keuntungan perusahaan dari pelanggan. Data mining memainkan peran penting dalam proses manajamen hubungan pelanggan dengan mencakup interaksi pelanggan dengan data dan perangkat lunak manajemen. Program manajemen hubungan pelanggan yang menggunakan data mining dapat mengakibatkan peningkatan nilai pelanggan perusahaan bila digunakan dengan sistem yang tepat. 2.2 Data Warehouse Data warehouse merupakan kumpulan data dari berbagai sumber yang disimpan dalam suatu gudang data ( repository ) dalam kapasitas besar dan digunakan untuk proses pengambilan keputusan (Prabhu, 2007). Menurut William Inmon, karakteristik dari data warehouse adalah sebagai berikut : 1. Subject oriented. Pada sistem operasional, data disimpan berdasarkan aplikasi. Set data hanya terdiri dari data yang dibutuhkan oleh fungsi yang terkait dan aplikasinya, sedangkan pada data warehouse, data disimpan bukan berdasarkan aplikasi, melainkan berdasarkan subjeknya. Misalnya untuk sebuah perusahaan manufaktur subjek bisnis yang penting, yaitu penjualan, pengangkutan, dan penyimpanan barang. Universita Sumatera Utara 2. Integrated. Data yang tersimpan dalam data warehouse terdiri dari berbagai system operasional. Oleh sebab itu terdapat kemungkinan bahwa terjadi beberapa perbedaan, yaitu dalam konvensi penamaan, representasi kode, atribut data, dan pengukuran data. Keempat perbedaan tersebut harus disamakan terlebih dahulu sesuai dengan standar tertentu agar data yang nantinya tersimpan dalam data warehouse dapat terintegrasi. 3. Time variant. Pada data warehouse, data yang tersimpan adalah data historis dalam kurun waktu tertentu, bukan data terkini. Oleh karena itu data yang tersimpan mengandung keterangan waktu, misalnya tanggal, minggu, bulan, catur wulan, dan sebagainya. Karakteristik time variant pada data warehouse memiliki karakteristik sebagai berikut : a. Melakukan analisa terhadap hal di masa lalu. b. Mencari hubungan antara informasi dengan keadaan saat ini. c. Melakukan prediksi hal yang akan datang. 4 Non-volatile. Data dalam sistem operasional dapat di-update sesuai transaksi bisnis. Setiap kali terjadi transaksi bisnis. Namun dalam data warehouse, data tidak dapat diubah karena bersifat read only. Arsitektur data warehouse (gambar 2.1) mencakup proses ETL (Extraction, Transformation, Loading) untuk memindahkan data dari operational data source dan sumber data eksternal lainnya ke dalam data warehouse . Data warehouse dapat dibagi menjadi beberapa data mart, berdasarkan fungsi bisnisnya (contoh data mart untuk penjualan, pemasaran, dan keuangan). Data dalam data warehouse dan data mart diatur oleh satu atau lebih server yang mewakili multidimensional view dari data terhadap berbagai front end tool, seperti query tools, analysis tools, report writers, dan data mining tools. Universita Sumatera Utara Gambar 2.1 Arsitektur Data Warehouse Proses ETL (Extraction, Transformation, Loading) merupakan proses yang harus melalui dalam pembentukan data warehouse (Kimball, 2004). Berikut adalah penjelasan dari tiap proses. 1. Ekstraksi Data (Extract) Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat beberapa fungsi ekstraksi data, yaitu : a. Ekstraksi data secara otomatis dari aplikasi sumber. b. Penyaringan atau seleksi data hasil ekstraksi. c. Pengiriman data dari berbagai platform aplikasi ke sumber data. d. Perubahan format layout data dari format aslinya. e. Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari sumber lain. 2. Transformasi Data (Transformation) Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkahlangkah dalam transformasi data adalah sebagai berikut : Universita Sumatera Utara a. Memetakan data input dari skema data aslinya ke skema data warehouse. b. Melakukan konversi tipe data atau format data. c. Pembersihan serta pembuangan duplikasi dan kesalahan data. d. Penghitungan nilai-nilai derivat atau mula-mula. e. Penghitungan nilai-nilai agregat atau rangkuman. f. Pemerikasaan integritas referensi data. g. Pengisian nilai-nilai kosong dengan nilai default. h. Penggabungan data. 3. Pengisian Data (Loading) Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang di dapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk memuat data adalah dengan menjalankan SQL script secara periodik. 2.3 Data Mining Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basisdata. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata. Data mining terutama digunakan untuk mencari pengetahuan yang terdapat dalam data base yang besar sehingga sering disebut Knowledge Discovery in Databases (KDD). Proses pencarian pengetahuan ini menggunakan berbagai teknik-teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksikannya. Proses pencarian bersifat iteratif dan interaktif untuk menemukan pola atau model yang sahih, baru, bermanfaat, dan dimengerti. Dalam penerapannya data mining memerlukan berbagai perangkat lunak analisis data untuk menemukan pola dan relasi data agar dapat digunakan untuk membuat prediksi dengan akurat. Universita Sumatera Utara 2.3.1 Manfaat Data Mining Pemanfaatan data mining dapat dilihat dari dua sudut pandang, yaitu sudut pandang komersial dan sudut pandang keilmuan. Dari sudut pandang komersial, pemanfaatan data mining dapat digunakan dalam menangani meledaknya volume data. Bagaimana mana menyimpannya, mengestraknya serta memanfaaatkannya. Berbagai teknik komputasi dapat digunakan menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan menjadi asset untuk meningkatkan daya saing suatu institusi. Data mining tidak hanya digunakan untuk menangani persoalan menumpuknya data / informasi dan bagaimana menggudangkannya tanpa kehilangan informasi yang penting (warehousing). Data mining juga diperlukan untuk menyelesaikan permasalahan atau menjawab kebutuhan bisnis itu sendiri, misalnya: • Bagaimana mengetahui hilangnya pelanggan karena pesaing • Bagaimana mengetahui item produk atau konsumen yang memiliki kesamaan karakteristik • Bagaimana mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain. • Bagaimana memprediski tingkat penjualan • Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi suatu item. • Bagaimana memprediksi prilaku bisnis di masa yang akan datang Dari sudut pandang keilmuan, data mining dapat digunakan untuk mengcapture, menganlisis serta menyimpan data yang bersifat real-time dan sangat besar, misalnya: Universita Sumatera Utara • Remote sensor yang ditempatkan pada suatu satelit • Telescope yang digunakan untuk memindai langit • Simulasi saintifik yang membangkitkan data dalam ukuran terrabytes Data mining merupakan salah satu metode alternatif yang dapat digunakan untuk mengolah data mentah, ketika metode konvensional tidak fisibel untuk dilakukan karena besarnya volume data yang diolah. Hal ini dapat terjadi karena data mining memiliki kemampuan mereduksi data baik melalui teknik katalogisasi, klasifikasi maupun segementasi. 2.3.2 Tahapan Data Mining Data mining sesungguhnya merupakan salah satu rangkaian dari proses pencarian pengetahuan pada database (Knowledge Discovery in Database/KDD). KDD berhubungan dengan teknik integrasi dan penemuan ilmiah, interprestasi dan visualisasi dari pola-pola sejumlah kumpulan data. KDD adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti. Serangkaian proses tersebut yang memiliki tahap sebagai berikut (Tan, 2006): 1. Pembersihan data dan integrasi data (cleaning and integration) Proses ini digunakan untuk membuang data yang tidak konsisten dan bersifat noise dari data yang terdapat di berbagai basisdata yang mungkin berbeda format maupun platform yang kemudian diintegrasikan dalam satu database data warehouse. 2. Seleksi dan transformasi data (selection and transformation) Data yang terdapat dalam database data warehouse kemudian direduksi dengan berbagai teknik. Proses reduksi diperlukan untuk mendapatkan hasil yang lebih akurat dan mengurangi waktu Universita Sumatera Utara komputasi terutama utuk masalah dengan skala besar (large scale problem). Beberapa cara seleksi, antra lain: • Sampling, adalah seleksi subset representatif dari populasi data yang besar. • Denoising, adalah proses menghilangkan noise dari data yang akan ditransformasikan • Feature extraction, adalah proses membuka spesifikasi data yang signifikan dalam konteks tertentu. Transformasi data diperlukan sebagai tahap pre-procecing, dimana data yang diolah siap untuk ditambang. Beberapa cara transformsi, antara lain (Santoso, 2007): • Centering, mengurangi setiap data dengan rata-rata dari setiap atribut yang ada. • Normalisation, membagi setiap data yang dicentering dengan standar deviasi dari atribut bersangkutan. • Scaling, mengubah data sehingga berada dalam skala tertentu. Gambar 2.2 Tahap-tahap Knowledge Discovery in Database Universita Sumatera Utara 2.3.3 Penambangan data (data mining) Data yang telah diseleksi dan ditransformasi ditambang dengan berbagai teknik. Proses data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan fungsi-fungsi tertentu. Fungsi atau algoritma dalam data mining sangat bervariasi. Pemilihan fungsi atau algoritma yang tepat sangat bergantung pada tujuan dan proses pencaraian pengetahuan secara keseluruhan. 2.3.4 Evaluasi pola dan presentasi pengetahuan Tahap ini merupakan bagian dari proses pencarian pengetahuan yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya. Langkah terakhir KDD adalah mempresentasikan pengetahuan dalam bentuk yang mudah dipahami oleh pengguna. 2.3.5 Fungsi-fungsi Fungsi-fungsi yang umum diterapkan dalam data mining (Haskett, 2000): • Assosiation, adalah proses untuk menemukan aturan assosiatif antara suatu kombinasi item dalam suatu waktu • Secuence, hampir sama dengan association bedanya seccuence diterapkan lebih dari satu periode. • Clastering, adalah proses pengelompokan sejumlah data / obyek ke dalam kelompok-kelompok data (klaster) sehingga setiap klaster akan berisi data yang saling mirip. • Classification, adalah proses penemuan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. • Regretion, adalah proses pemetaam data dalam suatu nilai prediksi. Universita Sumatera Utara • Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan pola-pola di dalam sekumpulan data • Solution, adalah proses penemuan akar masalah dan problem solving dari persoalan bisnis yang dihadapi atau paling tidak sebagai informasi pendukung dalam pengambilan keputusan. 2.3.6 Penerapan Data Mining Sebagai cabang ilmu baru di bidang komputer cukup banyak penerapan yang dapat dilakukan oleh Data Mining. Apalagi ditunjang ke-kaya-an dan keanekaragaman berbagai bidang ilmu (artificial intelligence, database, statistik, pemodelan matematika, pengolahan citra ) membuat penerapan data mining menjadi makin luas. Berikut beberapa penerapannya • Analisa Pasar dan Manajemen Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik. • Menembak target pasar Data mining dapat melakukan pengelompokan (clustering) dari model model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan karakteristik lainnya. • Melihat pola beli pemakai dari waktu ke waktu Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single account ke joint account (rekening bersama) dan kemudian setelah itu pola beli-nya berbeda dengan ketika dia masih bujangan. Universita Sumatera Utara • Cross market analisys Kita dapat memanfaatkan data mining untuk melihat hubungan antara penjualan satu produk dengan produk lainnya. • Profil customer Data mining dapat membantu untuk melihat profil customer / pembeli / nasabah sehingga kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja. • Identifikasi kebutuhan user Kita dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok customer dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer baru untuk bergabung / membeli. • Perencanaan keuangan dan evaluasi asset Data Mining dapat membantu untuk melakukan analisis dan prediksi cash flow serta melakukan contingent claim analysis untuk mengevaluasi aset. Selain itu juga dapat menggunakannya untuk analisis trend. • Perencanaan sumber daya (Reseource planning) Dengan melihat informasi ringkas (summary) serta pola pembelanjaan dan pemasukan dari masing-masing resource, kita dapat memanfaatkannya untuk melakukan resource planning. • Persaingan (competision) Sekarang ini banyak perusahaan yang berupaya untuk dapat melakukan competitive intelligence. Data Mining dapat membantu untuk memonitor pesaing-pesaing dan melihat market direction seperti : Melakukan pengelompokan customer, memberikan variasi harga/layanan/bonus untuk masing-masing grup. Menyusun strategi penetapan harga di pasar yang sangat kompetitif. Hal ini diterapkan oleh perusahaan minyak REPSOL di Spanyol dalam menetapkan harga jual gas di pasaran. Universita Sumatera Utara 2.3.7 CRISP-DM CRISP-DM (CRoss-Industry Standard Process for Data Mining) merupakan suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa pada tahun 1996 dan telah ditetapkan sebagai proses standar dalam data mining yang dapat diaplikasikan di berbagai sektor industri. Gambar 2.3 menjelaskan tentang siklus hidup pengembangan data mining yang telah ditetapkan dalam CRISP-DM. Gambar 2.3 Siklus Hidup CRISP-DM (Chapman, 2000) Berikut ini adalah enam tahap siklus hidup pengembangan data mining (Chapman, 2000) : 1. Business Understanding Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut pandang bisnis, kemudian menterjemakan pengetahuan ini ke dalam pendefinisian Universita Sumatera Utara masalah dalam data mining. Selanjutnya akan ditentukan rencana dan strategi untuk mencapai tujuan tersebut. 2. Data Understanding Tahap ini dimulai dengan pengumpulan data yang kemudian akan dilanjutkan dengan proses untuk mendapatkan pemahaman yang mendalam tentang data, mengidentifikasi masalah kualitas data, atau untuk mendeteksi adanya bagian yang menarik dari data yang dapat digunakan untuk hipotesa untuk informasi yang tersembunyi. 3. Data Preparation Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data yang akan diproses pada tahap pemodelan/modeling) dari data mentah. Tahap ini dapat diulang beberapa kali. Pada tahap ini juga mencakup pemilihan tabel, record, dan atribut-atribut data, termasuh proses pembersihan dan transformasi data untuk kemudian dijadikan masukan dalam tahap pemodelan (modeling). 4. Modeling Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai teknik pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan nilai yang optimal. Secara khusus, ada beberapa teknik berbeda yang dapat diterapkan untuk masalah data mining yang sama. Di pihak lain ada teknik pemodelan yang membutuhan format data khusus. Sehingga pada tahap ini masih memungkinan kembali ke tahap sebelumnya. 5. Evaluation Pada tahap ini, model sudah terbentuk dan diharapkan memiliki kualitas baik jika dilihat dari sudut pandang analisa data. Pada tahap ini akan dilakukan evaluasi terhadap keefektifan dan kualitas model sebelum digunakan dan menentukan apakah model dapat mencapat tujuan yang ditetapkan pada fase awal (Business Understanding). Kunci dari tahap ini adalah menentukan apakah ada masalah bisnis yang belum dipertimbangkan. Di akhir dari tahap ini harus ditentukan penggunaan hasil proses data mining. Universita Sumatera Utara 6. Deployment Pada tahap ini, pengetahuan atau informasi yang telah diperoleh akan diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh pengguna. Tahap deployment dapat berupa pembuatan laporan sederhana atau mengimplementasikan proses data mining yang berulang dalam perusahaan. Dalam banyak kasus, tahap deployment melibatkan konsumen, di samping analis data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang harus dilakukan untuk menggunakan model yang telah dibuat. 2.4 Customer Relationship Management (CRM) / Manajemen Hubungan Pelanggan Konsumen merupakan aset yang sangat penting bagi suatu perusahaan. Tidak akan ada prospek bisnis tanpa adanya hubungan antara perusahaan dengan konsumen yang bersifat loyal. Hal ini adalah alasan mengapa perusahaan harus merencanakan dan menggunakan strategi yang cukup jelas dalam memperlakukan konsumen. Customer Relationship Management (CRM) telah berkembang dalam beberapa dekade belakangan ini untuk merefleksikan peranan utama dari konsumen untuk pengaturan strategi perusahaan. CRM meliputi seluruh ukuran untuk memahami konsumen dan proses untuk mengeksploitasi pengetahuan ini untuk merancang dan mengimplementasikannya pada kegiatan marketing, produksi, dan rantai supply dari pemasok (supplier). Berikut ini akan didefenisikan beberapa pengertian CRM yang diambil dari berbagai literatur, antara lain (Tama, 2009) : 1. Dari sisi yang berkaitan dengan teknologi informasi, CRM adalah sebuah strategi untuk mengoptimalkan customer lifetime value dengan cara mengetahui lebih banyak mengenai informasi konsumen dan berinteraksi dengan konsumen secara intensif (Todman, 2001). Universita Sumatera Utara 2. Dari sisi komunikasi dan manajemen, CRM di definisikan sebagai sebuah pendekatan perusahaan untuk memahami dan mempengaruhi perilaku konsumen melalui komunikasi yang intensif dalam rangka meningkatkan akuisisi konsumen, mempertahankan konsumen, dan loyalitas konsumen (Swift, 2001). 3. Definisi CRM jika dilihat dari segi bisnis dapat diartikan sebagai sebuahstrategi bisnis untuk memahami, mengantisipasi dan mengelola kebutuhan konsumen yang potensial dalam suatu organisasi pada saat sekarang dan yang akan datang (Brown, 2000). Dari ketiga definisi di atas dapat ditarik kesimpulan mengenai definisi CRM yaitu sebuah pendekatan yang komprehensif yang mengintegrasikan setiap bisnis proses yang berhubungan langsung dengan konsumen, yaitu penjualan, pemasaran dan layanan konsumen melalui integrasi filosofi, teknologi, dan juga proses (Tama, 2009). Dengan kata lain, CRM dipandang bukanlah sebagai sebuah produk ataupun sebuah layanan, tetapi sebuah filosofi bisnis yang bertujuan memaksimalkan nilai konsumen dalam jangka panjang (customer lifetime value). 2.4.1 Teknologi CRM Sebuah definisi standar mengenai komponen teknologi CRM diberikan oleh META Group di dalam “The Customer Relationship Management Ecosystem”. Kategorisasi ini bertujuan untuk lebih memahami bagaimana suatu strategi CRM dan teknologinya mampu menyediakan seluruh arsitektur secara menyeluruh yang terfokus pada layanan konsumen. Ada tiga tipe utama dari teknologi CRM yaitu (Tama, 2009) : 1. Operational CRM, yang dikenal sebagai CRM “front office”. Operational CRM merupakan area dimana terjadi hubungan dengan konsumen secara langsung. Otomasi dari proses bisnis yang terintegrasi yang melibatkan Universita Sumatera Utara front office customer touch points, seperti penjualan, pemasaran, dan layanan konsumen, termasuk ntegrasi. Dengan perkembangan teknologi informasi dan komunikasi yang pesat, operational CRM kemudian juga dapat dibedakan menjadi dua bagian yaitu e-CRM dan m-CRM. antara front office dan back office, seperti manajemen pesanan, dan otomasi pemasaran 2. Collaborative CRM, merupakan bentuk perluasan dari CRM tradisional. Collaborative CRM berkaitan dengan manajemen hubungan antara stakeholder eksternal, seperti supplier, distributor, dan reseller. Aplikasi utama dari collaborative CRM adalah enterprise portal yang berbasis pada infrastruktur ekstranet dan perangkat lunak manajemen hubungan mitra (partner relationshiop management software) yang memberikan akses kepada konsumen, reseller, dan mitra bisnis melalui internet. 2 Analytical CRM yang dikenal sebagai CRM “ Back office” atau strategic CRM. Analytical CRM biasanya berhubungan dengan penggunaan data secara efective, efisien dan strategis sehingga memungkinkan pengambilan keputusan yang tepat bagi pihak manajemen. Pengambilan keputusan dilaksanakan setelah melalui proses analisis, pemodelan, dan evaluasi terhadap data yang tersimpan didata base untuk menghasilkan sebuah hubungan yang saling menguntungkan antara perusahaan dan konsumennya . Contoh dari Analytical CRM adalah business intelegence seperti data warehaouse, OLAP, dan data mining. Hal yang terpenting dalam memahami perilaku konsumen tidak hanya memahami siapa mereka (dalam hal ini customer profiling atau segmentation) tetapi juga perilaku mereka dan pola-pola (pattern) yang mereka ikuti. Pemahaman perilaku pelanggan harus ditetapkan sebagai suatu proses yang dinamis dan berkelanjutan (Xu dan Walton, 2005). Universita Sumatera Utara 2.4.2 Data Mining Dalam Kerangka Kerja CRM Menurut Swift, dkk (2001), CRM memiliki empat dimensi, yaitu : 1. Identifikasi konsumen (customer identification). 2. Membangun daya tarik terhadap konsumen (customer attraction). 3. Mempertahankan konsumen yang ada (customer retention). 4. Pengembangkan konsumen (customer development). Keempat dimensi dari CRM tersebut dapat dilihat sebagai siklus tertutup dalam Customer Management System. Setiap dimensi memiliki tujuan umum yang sama yaitu untuk membangun pemahaman yang lebih mendalam dari konsumen dan meningkatkan nilai konsumen (customer value) dari perusahaan. Dalam kaitannya dengan pencapaian tujuan tersebut, teknik data mining dapat digunakan untuk menemukan karakteristik dan perilaku konsumen yang tersembunyi dalam database yang berukuran besar. Untuk menemukan pola karakteristik dan perilaku konsumen, dapat digunakan metode pemodelan data dalam teknik data mining. Beberapa metode pemodelan data yang dapat digunakan, yaitu : 1. Association 2. Classification 3. Clustering 4. Forecasting 5. Regression 6. Sequence discovery 7. Visualization Universita Sumatera Utara Kerangka kerja teknik data mining dalam keempat dimensi CRM dijelaskan melalui Gambar 2.4. Gambar 2.4 Kerangka Kerja Teknik Data Mining dalam CRM (Ngai dkk 2008) 2.5 Clustering Clustering adalah salah satu teknik unsupervised machine learning, yang tidak terdapat fase pembelajaran dalam prosesnya. Teknik ini bertujuan untuk mengelompokkan suatu himpunan obyek menjadi kelas-kelas yang terdiri dari obyek-obyek yang sama atau pengelompokkan berdasarkan kesamaan karakteristik diantara obyek-obyek tersebut Kesamaan dan pembagian didasarkan melalui kriteria jumlah kuadrat kesalahan yang minimal. Kriteria ini sangat sensitif dengan keberadaan data outlier, oleh karena itu dikoreksi dengan membagi suatu kelompok besar ke ukuran yang lebih kecil (Berkhin 2002) Universita Sumatera Utara 2.5.1 Algoritma Klasifikasi K-Means Algoritma K-Means merupakan metode clustering berbasis jarak yang mempartisi data ke sejumlah kelompok dan bekerja pada atribut numerik. Algoritma ini dimulai dengan pemilihan jumlah kelompok (K) secara acak serta pengambilan sebagian populasi sejumlah K untuk dijadikan sebagai titik pusat awal. Salah satu metode perhitungan jarak yang bisa digunakan adalah Euclidean Distance. Perhitungan jarak menggunakan metode Euclidean dinyatakan sebagai berikut : (2.1) Dimana x : obyek ke-1 y : obyek ke-2 n : banyaknya atribut obyek ke-1 dan ke-2 Prosedur dasar clustering K-Means adalah sebagai berikut(Johnson & Wicherin 2002): 1. Menentukan k sebagai jumlah cluster yang ingin dibentuk 2. Membangkitkan k centroids (titik pusat cluster) awal secara random 3. Menghitung jarak setiap data ke masing-masing centroids 4. Setiap data memilih centroid yang terdekat 5. Menentukan posisi centroids baru dengan cara menghitng nilai rata-rata dari data-data yang berada pada centroids yang sama 6. Kembali ke langkah 3 jika posisi centroids baru dengan centroids lama tidak sama Universita Sumatera Utara 2.5.2 Clustering Hirarkhi (Hierarchical clustering) Clustering hierarchi membangun sebuah hirarki cluster atau dengan kata lain sebuah pohon cluster yang juga dikenal sebagai dendogram. Setiap node cluster mengandung cluster anak, cluster-cluster saudara yang membagi point yang ditutupi oleh induk mereka. Metode-metode clustering hirarki dikatagorikan kedalam agglomeratif (bawah atas) dan divisive (atas bawah) (Jain & Murthy, 1999);, Kaufman & Rouseeuw 1990). Clustering agglomeratif dimulai dengan cluster satu point (singleton) dan secara berulang-ulang menggabungkan dua atau lebih cluster yang paling tepat. Cluster divisive dimulai dengan satu cluster dari semua point data dan secara berulang-ulang melindungi cluster yang paling tepat. Proses erbut berlanjut hingga kriteria penghentian (seringkali, jumlah k yang diperlukan dari cluster) dicapai. Kelebihan cluster hirarki meliputi : (I) Fleksibilitas yang tertanam mengenai level granaularitas (II) Kemudahan menangani bentuk-bentuk kesamaan atau jarak (III) Pada akhirnya, daya pakai pada tpe-tipe atribut apapun. Kelemahan dari clustering hirarki berhubungan dengan : (I) Ketidakjelasan kriteria terminasi (II) Terhadap perbaikan perbaikan hasil clustering, sebagian besar algoritma hirarki tidak mengunjungi kembali cluster-clusternya yang telah dikonstruksi. Untuk clustering hirarki, menghubungkan atau memisahkan subset dari pointpoint dan bukan point-point individual, jarak antara point-point individu harus digenelarikan terhadap jarak antara subset. Ukuran kedekatan yang diperoleh disebut metrik berhubungan. Tipe mertik hubungan yang digunakan secara signifikan memperoleh algoritma hisrarki, karena merefleksikan konsep tertentu dari kedekatan dan konektivitas. Metrik Universita Sumatera Utara hubungan antar cluster utama (Murtagh 1985, Olson 1995) termasuk hubungan tunggal, hubungan rata-rata, dan hubungan sempurna. Algoritma clustering hirarki populer untuk data katagorikal COBWEB (Fisher, 1987) memiliki dua kualitas yang sangat penting, Pertama menggunakan pembelajaran incrementasl. Daripada mengikuti pendekatan diviseve atau aggglomerative, secara dinamis membangun sebuah dendrogram melalui pengolahan satu point data pada suatu waktu. Kedua COBWEB termasuk pada pembelajaran berdasarkan konseptualatau model, Ini berarrti bahwa setiap cluster dianggap sebagai sebuah model yang dapat dijelaskan secara intrinsik, dan bukan sebagai sebuah kumpulan point yang ditentukan terhadapnya. Dendogram COBWEB disebut pohon klasifikasi. Setiap node pohon C, sebuah cluster berhubungan dengan probabilitas kondisional untuk pasanganpasangan nilai-nilai atribut, yakti : Pr(Xi=vip \ C), I = 1; d.p=I\A1 (2,2) 2.5.3 Clustering Partisional (Partisional Clustering) Dengan mengetahui objek-objek database n, sebuah algoritma clustering partisional membentuk k bagian dari data, dimana setiap cluster mengoptimalkan kriteria clustering, seperti minimasi jumlah jarak kuadrat dari rata-rata dalam setiap cluster. Salah satu isu dengan algortima-algoritma tersebut adalah kompleksitas tinggi, karena menyebutkan semua pengelompokan yang memungkinkan dan berusaha mencari optimum global. Bahkan untuk jumlah objek yang kecil, jumlah partisi adalah besar, itulah sebabnya mengapa solusi-solusi umum dimulai dengan sebuah partisi awal, biasanya acak, dan berlanjut dengan penyempurnaannya. Universita Sumatera Utara 2.6 Metode Klasifikasi Fuzzy RFM Analisa RFM terdiri dari tiga dimensi, yaitu (Tsiptsis dan Chorianopoulos, 2009) : 1. Recency, yaitu jenis layanan yang diigunakan para pelanggan untuk bertransaksi. Terdapat 8 jenis layanan yang ditawarkan kepada pelanggan. 2. Frequency, yaitu jumlah total transaksi atau jumlah rata-rata transaksi dalam satu periode. 3. Monetary, yaitu jumlah rata-rata nilai pembelian konsumen dalam suatu satuan waktu. Metode sharp RFM mendeskripsikan atribut recency, frequency, dan monetary dengan variabel linguistik (Zumstein, 2007). Sebagai contoh, atribut recency dideskripsikan dengan 8 jenis layanan yang digunakan seperti layanan suratpos (SB), surat kilat (SK), surat kilat khusus (SKH), surat tercatat (ST), pos express (PE), ems (EMS), city curir (CC), paketpos (PK). Atribut frequency dideskripsikan dengan bahasa natural sedikit, agak banyak, dan banyak. Sedangkan atribut monetary dideskripsikan dengan rendah, sedang, tinggi. Konteks dari masing-masing atribut didefinisikan sebagai berikut : 1. Domain atribut recency didefinisikan dalam transaksi harian, dengan memilih 8 jenis layanan. Pelanggan dapat menggunakan lebih dari satu jenis layanan 2. Domain atribut frequency didefinisikan dalam range frequency sedikit < 1.000 transaksi / tahun, frequency agak banyak < 7.000,- transaksi / tahun, frequency banyak > 7.000,- transaksi / tahun. 3. Domain atribut monetary didefinisikan dalam range rendah < 15.000.000,per tahun, range sedang < 20.000.000 per tahun, range tinggi >= 20.000.000,- Universita Sumatera Utara Untuk setiap kelas ditentukan nilai (score) yang bergantung dari besarnya nilai frequency, dan monetary. Semakin tinggi nilai frequency, dan monetary dari konsumen, semakin tinggi juga nilai (score) yang diperoleh. Dengan klasifikasi menggunakan metode fuzzy RFM, nilai (score) dari masing-masing konsumen dapat diperhitungkan dengan lebih akurat dan lebih baik 2.7 Riset-Riset Terkait Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti berkaitan dengan model segmentasi pelanggan dengan data mining seperti yang akan dijelaskan dibawah ini : Penelitian yang dilakukan oleh Jansen (2007) untuk menerapkan konsep data mining dalam proses segmentasi konsumen (customer segmentation) dan mendefinisikan profil konsumen (customer profiling) serta hubungan antara keduanya. Jansen menggunakan algoritma K-Means, KMedoid, Fuzzy C-Means, Gustafson Kessel dan Gath Geva Clustering untuk melakukan proses segmentasi konsumen. Studi kasus dalam penelitian ini adalah konsumen pengguna jasa telekomunikasi Vodafone. Segmentasi konsumen didasarkan pada perilaku konsumen yang diukur berdasarkan jumlah panggilan masuk dan panggilan keluar yang dilakukan oleh konsumen. Customer profiling dibangun melalui informasi yang berasal dari data warehouse, seperti umur, jenis kelamin, dan informasi daerah tempat tinggal. Dengan menggunakan teknik data mining, yaitu Support Vector Machine (SVM), segmentasi konsumen dapat diperkirakan melalui profil konsumen. Dalam penelitian ini diperoleh hasil bahwa dengan menggunakan SVM, dapat dibentuk empat segmen konsumen dari data profil konsumen yang ada dengan tingkat keakuratan 80,3%. Sedangkan jika jumlah segmen yang dibentuk berjumlah 6, maka tingkat keakuratan klasifikasinya adalah 78,5%. Universita Sumatera Utara Cao, Zhu, dan Hou (2009) menggunakan metode FFCHC (Fuzzy Fisher Criterion Based Hierarchical Clustering Algorithm) untuk melakukan segmentasi konsumen. Metode FFHC memadukan algoritma FFC (Fuzzy Fisher Criterion) sebagai algoritma untuk melakukan clustering dan clustering validity function untuk mencari jumlah cluster yang paling optimal. Metode ini diterapkan pada dataset konsumen pada suatu perusahaan pasar modal. Penelitian tentang perbandingan algoritma Fuzzy C-Means dan Fuzzy Subtractive Clustering juga pernah dilakukan sebelumnya. Collazo-Cuevas (2010) melakukan perbandingan terhadap dua metode clustering yaitu Fuzzy C-Means dan Fuzzy Substracttive Clustering. Kedua metode ini diterapkan untuk melakukan clustering terhadap data polusi udara di Liverpool. Dalam penelitian ini dibangun algoritma identifikasi model fuzzy sebagai dasar dari motode estimasi. Hasil dari proses clustering adalah pemodelan hubungan antara suhu udara, kelembaman udara, dan kosentrasi PM 10 di Liperpool Inggris. Hammouda dan Karaay (2000) dalam penelitiannya melakukan perbandingan terhadap empat metode clustering yaitu F-Means, Fuzzy CMeans, Mountain, dan Fuzzy Substractive clustering. Keempat metode clustering ini diterapkan untuk melakukan proses clustering terhadap data medis. Selanjutnya, hasil dari proses data clustering tersebut digunakan untuk membantu proses diagnosa terhadap penyakit hati, perbandingan terhadap keempat metode clustering dilakukan menggunakan parameter keakuratan hasil clustering, waktu yang dibutuhkan untuk melakukan proses clustering. Root mean square error, dan kemiringan garis regresi (regression line slope). Dari hasil perbandingan diperoleh hasil bahwa Mountain Clustering kurang baik untuk digunakan pada data dengan jumlah dimensi besar. Pendekatan algoritma yang lebih baik adalah menggunakan Fuzzy Substractive clustering karena membutuhkan waktu pemrosesan yang lebih cepat dibandingkan Mountain Clustering untuk memproses data dengan 13 dimensi. Algoritma K-Means dan Fuzzy C-Means kinerja yang lebih baik Universita Sumatera Utara dibandingkan Mountain Clustering dan Fuzzy Substractive Clustering , namun membutuhkan informasi tentang jumlah cluster yang harus dibentuk. Penelitian tentang metode fuzzy RFM dilakukan oleh Zumstein (2007) dalam thesisnya, Zumstein meneliti tentang klasifikasi fuzzy sebagai metode analisa dan manajemen data multidimensi. Meotode Klasifikasi fuzzy sesuai untuk digunakan dalam proses CRM dan membangun hubungan dengan konsumen yang menguntungkan. Metode fuzzy dipadukan dengan metode klasifikasi seperti metode analisa SWOT, analisa portofolio, analisa ABC, serta metode penilaian (scoring method) untuk memperoleh hasil segmentasi konsumen yang lebih baik. Dalam penelitian ini, metode fuzzy yang juga dipadukan dengan metode RFM, yaitu metode untuk menentukan segmensegmen konsumen berdasarkan recency, frequency dan monetary. Metode fuzzy FRM juga dibandingkan terhadap metode fuzzy RFM memberikan hasil segmentasi konsumen yang lebih baik, sehingga dapat membantu perusahaan untuk memahami perilaku konsumen dengan lebih baik. Berikut ini adalah daftar penelitian mengenai data mining yang dilakukan sebelumnya dilakukan disajikan dalam table 2.1 Tabel 2.1 Penelitian Yang Telah Dilakukan No. 1. 2. Peneltian Jansen (2007) Metode K-Means, KMedoid, Fuzzy cMeans, Gustafson, Keseel dan Gath Geva Clustering Cao, Zhu dan FFCHC(Fuzzy Hou (2009) Fisher Criterion Based Hierarchical Clustering Algorithm) Deskripsi Mencari segmentasi dan profil konsumen pada perusahaan Telekomunikasi Vodafone Mencari segmentasi konsumen pada suatu perisahaan pasar modal Universita Sumatera Utara Tabel 2.1 Penelitian Yang Telah Dilakukan No. 3. 4. 5. 2.8 Peneltian CaollazoCuevas dkk(2010) Metode Fuzzy C-Means dan Fuzzy Substractive Clustering Deskripsi Melakukan perbandingan terhadap Fuzzy C-MENAS DAN Fuzzy Substractive Clustering untuk data polusi udara Hammouda dan K-Means, Fuzzy C- Melakukan perbandingan Karaay (2000) Means, Mountain keempat algoritma clustering Clustering, dengan menggunakan data Substractive medis untuk mendiagnosa Clustering penyakit hati Zumstein Fuzzy Classification Melakukan studi fuzzy RFM perbandinan metode klasifikasi klasik dengan metode kleasifikasi yang dipadukan dengan metode fuzzy Persamaan dengan Riset-Riset lain Yohana Nugraheni (2011) dalam penelitiannya menjelaskan data mining dengan metode fuzzy untuk customer relationship management (CRM) pada perusahaan Retail. Cen (2007) menggunakan teknik data mining untuk menemukan pola dan trend dari data konsumen dalam kaitannya dengan konsep CRM. Proses clustering dilakukan terhadap data konsumen C-Company, yaitu perusahaan yang bergerak dibidang industry elektronik. Universita Sumatera Utara 2.9 Perbedaan dengan Riset-Rise lain Dari beberapa riset yang dilakukan peneliti sebelumnya, terdapat beberapa titik perbedaan dengan riset yang akan dilakukan ini : Analisa pemodelan segmentasi pelanggan dengan data mining berbasis customer relationship management (CRM) risetnya dilakukan di kantor pos Medan. Riset yang dilakukan penulis untuk membuat model berdasarkan Recency, Frequency, Monetary. Pada penelitian ini hasil akhir yang diharapkan dengan model segmentasi pelanggan dengan data mining berbasis Customer Relationship Management dapat diketahui pelanggan – pelanggan yang potensial, 2.10 Kontribusi Riset Penelitian ini memberikan kontribusi pada pemahaman kita tentang hubungan Recency, Frequency, Monetary dalam menentukan pelanggan terbaik dan potensial berdasarkan clustering yang telah ditentukan. Pembuat keputusan bisa menggunakan model segmentasi pelanggan dengan data mining untuk meningkatkan kualitas pengambilan keputusan. Universita Sumatera Utara