1. Pendahuluan - Repository

advertisement
1. Pendahuluan
1.1
Latar belakang
Data merupakan sesuatu yang sangat tidak ternilai harganya karena dari data,
informasi yang berharga dapat diperoleh. Data harus diolah sedemikian rupa
untuk menghasilkan informasi yang dicari. Data sendiri memiliki pengertian yang
beraneka ragam. Pada referensi [3], disebutkan bahwa data merupakan
sekumpulan fakta, angka-angka, ataupun teks yang dapat diproses oleh komputer.
Pada tugas akhir kali ini, data yang diambil atau diolah adalah data transaksi yang
menyimpan informasi tentang pengguna, baik itu pengguna jaringan, ataupun
pengguna jasa telekomunikasi (dalam bentuk calling data record (CDR)).
Data tersebut, akan diolah untuk menghasilkan profil pelanggan (customer
profile). Yang dimaksud dengan profil pelanggan disini adalah kumpulan data
yang menyimpan informasi tentang pelanggan (customer) berdasarkan id-nya
masing-masing dimana pelanggan-pelanggan tersebut dikelompokkan menjadi
beberapa grup/klaster sesuai dengan aktivitas pemanggilan yang telah
dilakukannya.
Profil pelanggan memiliki peranan yang sangat penting. Dalam dunia
telekomunikasi misalnya, profil pelanggan perusahaan telekomunikasi berguna
sebagai bahan pertimbangan dalam masalah penentuan target pemasaran, sebagai
bahan masukkan dalam mendeteksi kecurangan (fraud detection), ataupun untuk
memprediksi kemungkinan seorang pelanggan akan berpindah ke perusahaan jasa
telekomunikasi yang lainnya (churn prediction).
Pembentukkan profil pelanggan dapat dilakukan dengan berbagai cara. Salah
satunya adalah dengan menerapkan metode klasterisasi pada data mining.
Klasterisasi merupakan salah satu masalah yang penting dalam aplikasi data
mining. Tujuan dari klasterisasi adalah untuk mengelompokan data berdasarkan
kemiripan yang dimiliki oleh data-data tersebut.
Metode-metode klasterisasi yang ada saat ini, selalu berhubungan dengan datadata yang bersifat pasti ataupun tegas (crisp). Data tegas menyatakan bahwa
hanya ada dua kemungkinan nilai keanggotaan pada data yaitu 0 atau 1. Padahal
jika diperhatikan lebih lanjut, interaksi dengan data-data yang memiliki nilai
keanggotaan antara 0 s.d. 1 lebih sering dilakukan. Contohnya pada variabel usia,
seseorang dikatakan muda antara usia 0 hingga 45 tahun, dikatakan parobaya
antara usia 35 hingga 55 tahun, dan dikatakan tua pada usia 45 tahun keatas. Pada
contoh ini, dapat diketahui bahwa pada usia 37 tahun, seseorang dapat menjadi
anggota dari 2 kelas dengan nilai keanggotaan yang berbeda-beda.
pengelompokan objek yang demikian ini disebut sebagai pengelompokan objek
dengan menggunakan pendekatan fuzzy.
Penggunaan teknik/pendekatan fuzzy mengijinkan prediksi nilai suatu atribut
diasosiasikan dengan derajat keanggotaan. Jadi, terdapat kemungkinan suatu
objek menjadi anggota lebih dari satu klaster[20].
Literatur yang sama menyebutkan bahwa dari penelitian yang dilakukan di
universitas politeknik hongkong
menunjukkan bahwa penggolongan atau
pengklasifikasian data menggunakan pendekatan fuzzy memiliki tingkat akurasi
yang lebih tinggi dibandingkan dengan algoritma clustering yang lainnya. Hasil
perbandingan ditunjukkan pada tabel berikut ini:
1
Tabel 1-1: Hasil Perbandingan Pendekatan Fuzzy Terhadap Metode Lain
Database
Persentase keakuratan
Fuzzy Approach
C4.5
CBA
FID
Credit card
88.9%
82.6%
85.0%
58.0%
Diabetes
77.6%
73.8%
74.4%
62.0%
Social
85.9%
85.4%
84.2%
23.6%
Average
84.1%
80.6%
81.2%
47.9%
Proses pengelompokan data dengan menggunakan pendekatan fuzzy ini
akan coba diterapkan untuk menentukan klaster-klaster pelanggan berdasarkan
nilai keanggotaan yang dimiliki oleh pelanggan-pelanggan tersebut. Sehingga
tidak menutup kemungkinan seorang pelanggan dapat menjadi anggota lebih dari
satu klaster.
1.2
Perumusan masalah
Dalam data mining, clustering merupakan salah satu fungsionalitas yang penting.
Berbagai macam metode dapat diterapkan untuk kategorisasi data. Pada TA kali
ini, akan dicoba untuk menerapkan pendekatan fuzzy berdasarkan derajat
keanggotaan masing-masing atribut untuk menemukan kelas data (cluster) yang
belum diketahui dengan asumsi bahwa satu objek memiliki kemungkinan untuk
menjadi anggota lebih dari satu kelas. Selain itu, data yang akan digunakan
dibatasi selama 1 bulan transaksi dengan catatan bahwa proses feature selection
atau preprocessing data tidak dilakukan karena fitur-fitur yang akan diambil
sudah ditentukan terlebih dahulu sesuai dengan referensi [4].
Permasalahan yang harus dihadapi dalam penelitian ini adalah bagaimana
membentuk cluster dari data yang ada menggunakan pendekatan fuzzy clustering
sehingga diperoleh nilai keanggotaan masing-masing objek terhadap clustercluster tersebut.
1.3
Tujuan
Menerapkan teknik klasterisasi data mining menggunakan pendekatan fuzzy
untuk:
1. Membentuk fuzzy cluster dari data. Data yang digunakan sebagai data
masukkan adalah data CDR tanpa class label. Sedangkan data yang digunakan
untuk menilai kebenaran cluster adalah data dengan class label.
2. Menunjukkan nilai keanggotaan untuk tiap objek/item data terhadap masingmasing cluster yang telah terbentuk.
3. Membandingkan pengaruh nilai m (fuzzifier) dalam proses clustering.
4. Meneliti pengaruh dari nilai persentase aktivitas pemanggilan yang dilakukan
pada jam-jem kerja jika dikaitkan dengan rata-rata durasi pemanggilan yang
dilakukan terhadap pengelompokkan pelanggan.
2
1.4
Metodologi penyelesaian masalah
1. Studi Literatur
Mengumpulkan dan mempelajari semua bahan materi yang berkaitan
dengan data mining terutama clustering dan konsep logika fuzzy.
2. Pencarian dan Pengumpulan Data
Pencarian dan pengumpulan data ditujukan untuk memperoleh data
mentah yang akan digunakan sebagai bahan penelitian. Data yang
diperoleh sebagai bahan pengerjaan TA adalah data CDR (Call Detail
Record) milik PT Telkom, Tbk.
3. Implementasi metode terhadap data dan pembangunan perangkat lunak
Pada tahap ini, implementasi Clustering dengan pendekatan fuzzy akan
diterapkan terhadap data dimana field-field yang akan diproses sudah
ditentukan terlebih dahulu.
Dari data CDR, terdapat 5 (lima) kolom data yang akan diambil sebagai
data input dari system Klasterisasi fuzzy. Kelima kolom data tersebut akan
diterangkan lebih lanjut pada bab-bab selanjutnya. Sistem yang dibangun
dalam TA ini menggunakan pendekatan terstruktur.
4. Evaluasi
Untuk tahap akhir, akan dilakukan evaluasi terhadap hasil yang diperoleh.
3
Download