1. Pendahuluan 1.1 Latar belakang Data merupakan sesuatu yang sangat tidak ternilai harganya karena dari data, informasi yang berharga dapat diperoleh. Data harus diolah sedemikian rupa untuk menghasilkan informasi yang dicari. Data sendiri memiliki pengertian yang beraneka ragam. Pada referensi [3], disebutkan bahwa data merupakan sekumpulan fakta, angka-angka, ataupun teks yang dapat diproses oleh komputer. Pada tugas akhir kali ini, data yang diambil atau diolah adalah data transaksi yang menyimpan informasi tentang pengguna, baik itu pengguna jaringan, ataupun pengguna jasa telekomunikasi (dalam bentuk calling data record (CDR)). Data tersebut, akan diolah untuk menghasilkan profil pelanggan (customer profile). Yang dimaksud dengan profil pelanggan disini adalah kumpulan data yang menyimpan informasi tentang pelanggan (customer) berdasarkan id-nya masing-masing dimana pelanggan-pelanggan tersebut dikelompokkan menjadi beberapa grup/klaster sesuai dengan aktivitas pemanggilan yang telah dilakukannya. Profil pelanggan memiliki peranan yang sangat penting. Dalam dunia telekomunikasi misalnya, profil pelanggan perusahaan telekomunikasi berguna sebagai bahan pertimbangan dalam masalah penentuan target pemasaran, sebagai bahan masukkan dalam mendeteksi kecurangan (fraud detection), ataupun untuk memprediksi kemungkinan seorang pelanggan akan berpindah ke perusahaan jasa telekomunikasi yang lainnya (churn prediction). Pembentukkan profil pelanggan dapat dilakukan dengan berbagai cara. Salah satunya adalah dengan menerapkan metode klasterisasi pada data mining. Klasterisasi merupakan salah satu masalah yang penting dalam aplikasi data mining. Tujuan dari klasterisasi adalah untuk mengelompokan data berdasarkan kemiripan yang dimiliki oleh data-data tersebut. Metode-metode klasterisasi yang ada saat ini, selalu berhubungan dengan datadata yang bersifat pasti ataupun tegas (crisp). Data tegas menyatakan bahwa hanya ada dua kemungkinan nilai keanggotaan pada data yaitu 0 atau 1. Padahal jika diperhatikan lebih lanjut, interaksi dengan data-data yang memiliki nilai keanggotaan antara 0 s.d. 1 lebih sering dilakukan. Contohnya pada variabel usia, seseorang dikatakan muda antara usia 0 hingga 45 tahun, dikatakan parobaya antara usia 35 hingga 55 tahun, dan dikatakan tua pada usia 45 tahun keatas. Pada contoh ini, dapat diketahui bahwa pada usia 37 tahun, seseorang dapat menjadi anggota dari 2 kelas dengan nilai keanggotaan yang berbeda-beda. pengelompokan objek yang demikian ini disebut sebagai pengelompokan objek dengan menggunakan pendekatan fuzzy. Penggunaan teknik/pendekatan fuzzy mengijinkan prediksi nilai suatu atribut diasosiasikan dengan derajat keanggotaan. Jadi, terdapat kemungkinan suatu objek menjadi anggota lebih dari satu klaster[20]. Literatur yang sama menyebutkan bahwa dari penelitian yang dilakukan di universitas politeknik hongkong menunjukkan bahwa penggolongan atau pengklasifikasian data menggunakan pendekatan fuzzy memiliki tingkat akurasi yang lebih tinggi dibandingkan dengan algoritma clustering yang lainnya. Hasil perbandingan ditunjukkan pada tabel berikut ini: 1 Tabel 1-1: Hasil Perbandingan Pendekatan Fuzzy Terhadap Metode Lain Database Persentase keakuratan Fuzzy Approach C4.5 CBA FID Credit card 88.9% 82.6% 85.0% 58.0% Diabetes 77.6% 73.8% 74.4% 62.0% Social 85.9% 85.4% 84.2% 23.6% Average 84.1% 80.6% 81.2% 47.9% Proses pengelompokan data dengan menggunakan pendekatan fuzzy ini akan coba diterapkan untuk menentukan klaster-klaster pelanggan berdasarkan nilai keanggotaan yang dimiliki oleh pelanggan-pelanggan tersebut. Sehingga tidak menutup kemungkinan seorang pelanggan dapat menjadi anggota lebih dari satu klaster. 1.2 Perumusan masalah Dalam data mining, clustering merupakan salah satu fungsionalitas yang penting. Berbagai macam metode dapat diterapkan untuk kategorisasi data. Pada TA kali ini, akan dicoba untuk menerapkan pendekatan fuzzy berdasarkan derajat keanggotaan masing-masing atribut untuk menemukan kelas data (cluster) yang belum diketahui dengan asumsi bahwa satu objek memiliki kemungkinan untuk menjadi anggota lebih dari satu kelas. Selain itu, data yang akan digunakan dibatasi selama 1 bulan transaksi dengan catatan bahwa proses feature selection atau preprocessing data tidak dilakukan karena fitur-fitur yang akan diambil sudah ditentukan terlebih dahulu sesuai dengan referensi [4]. Permasalahan yang harus dihadapi dalam penelitian ini adalah bagaimana membentuk cluster dari data yang ada menggunakan pendekatan fuzzy clustering sehingga diperoleh nilai keanggotaan masing-masing objek terhadap clustercluster tersebut. 1.3 Tujuan Menerapkan teknik klasterisasi data mining menggunakan pendekatan fuzzy untuk: 1. Membentuk fuzzy cluster dari data. Data yang digunakan sebagai data masukkan adalah data CDR tanpa class label. Sedangkan data yang digunakan untuk menilai kebenaran cluster adalah data dengan class label. 2. Menunjukkan nilai keanggotaan untuk tiap objek/item data terhadap masingmasing cluster yang telah terbentuk. 3. Membandingkan pengaruh nilai m (fuzzifier) dalam proses clustering. 4. Meneliti pengaruh dari nilai persentase aktivitas pemanggilan yang dilakukan pada jam-jem kerja jika dikaitkan dengan rata-rata durasi pemanggilan yang dilakukan terhadap pengelompokkan pelanggan. 2 1.4 Metodologi penyelesaian masalah 1. Studi Literatur Mengumpulkan dan mempelajari semua bahan materi yang berkaitan dengan data mining terutama clustering dan konsep logika fuzzy. 2. Pencarian dan Pengumpulan Data Pencarian dan pengumpulan data ditujukan untuk memperoleh data mentah yang akan digunakan sebagai bahan penelitian. Data yang diperoleh sebagai bahan pengerjaan TA adalah data CDR (Call Detail Record) milik PT Telkom, Tbk. 3. Implementasi metode terhadap data dan pembangunan perangkat lunak Pada tahap ini, implementasi Clustering dengan pendekatan fuzzy akan diterapkan terhadap data dimana field-field yang akan diproses sudah ditentukan terlebih dahulu. Dari data CDR, terdapat 5 (lima) kolom data yang akan diambil sebagai data input dari system Klasterisasi fuzzy. Kelima kolom data tersebut akan diterangkan lebih lanjut pada bab-bab selanjutnya. Sistem yang dibangun dalam TA ini menggunakan pendekatan terstruktur. 4. Evaluasi Untuk tahap akhir, akan dilakukan evaluasi terhadap hasil yang diperoleh. 3