DATA MINING Pengertian Data Mining Data mining atau Knowledge Discovery in Database (KDD) dapat didefinisikan yaitu : • Data mining merupakan serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini belum dapat diketahui jika melalui cara manual. • Data mining merupakan analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola (pattern) atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya. • Data mining merupakan pengambilan informasi yang tersembunyi, dimana informasi tersebut sebelumnya tidak dikenal dan berpotensi bermanfaat. Proses ini meliputi pendekatan-pendekatan teknis, seperti clustering, data summarization, learning classification rules. Berdasarkan pengertian diatas, maka dapat diambil kesimpulan yaitu data mining merupakan suatu proses ekstraksi informasi yang berguna dan potensial dari sekumpulan data yakni dalam data warehouse untuk mendapatkan suatu informasi yang bernilai yang belum ditemukan sebelumnya, dimana informasi ini dapat digunakan dalam manajemen, pengambilan keputusan, dll. Beberapa solusi yang diberikan data mining antara lain : 1. Menebak target pasar Data mining dapat mengelompokkan (clustering) model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli dan melakukan klasifikasi terhadap setiap pemebeli sesuai dengan karakteristik yang diinginkan. 2. Melihat pola beli dari waktu ke waktu Data mining dapat digunakan untuk melihat pola beli dari waktu ke waktu. 3. cross-market analysis Data mining dapat dimanfaatkan untuk melihat hubungan antara satu produk dengan produk lainnya. 4. Profil pelanggan Data mining bisa membantu pengguna untuk melihat profil pembeli sehingga dapat diketahui kelompok pembeli tertentu cenderung kepada suatu produk apa saja. 5. Informasi summary Data mining dapat membuat laporan summary yang bersifat multi dimensi dan dilengkapi dengan informasi statistik lainnya. Proses Data Mining Dalam proses data mining untuk mendapatkan informasi, ada beberapa tahap yang dilalui yaitu data cleaning, data integration, data transformation, penerapan algoritma data mining, evaluasi pattern, dan presentasi knowledge. 1. Data Cleaning Proses pertama dari data mining yaitu data cleaning dimana dilakukan pembersihan bagi datadata yang tidak konsisten, noise, redundancy, dll dalam database. Kesalahan-kesalahan yang bisa ditemukan antara lain: missing values, thypographical error, atau kesalahan informasi dalam record. Pada umumnya, data cleaning terdiri atas beberapa fase : - Data analysis : dalam mendeteksi jenis dari kesalahan dan ketidakkonsistensian yang terjadi, maka perlu adanya rincian data analysis. Dalam melakukannya, perlu digunakan program analisis untuk memperoleh metadata tentang properti data dan mendeteksi masalah kualitas data. - Definition of transformation workflow and mapping rules : tahapan ini tergantung dari jumlah data source yang ada. 2. Data Integration Pada proses ini, data source yang berasal dari beberapa database diintegrasikan menjadi suatu uniform data interface dari data analisis. Data integration ini merupakan suatu mekanisme yang digunakan untuk mengurangi ketidak-pastian (uncertainty). Hasil dari data integration biasanya menghasilkan suatu entitas data yang baru atau atribut baru yang nantinya dapat dengan mudah dimengerti dan diakses oleh user. 3. Data Transformation Proses data transformation adalah proses untuk mengubah hasil dari data integration menjadi suatu bentuk data warehouse yang utuh sehingga sudah dapat dilakukan mining. 4. Penerapan teknik data mining Pada proses ini, pada data warehouse yang ada, dilakukan pengaplikasian teknik-teknik atau algoritma data mining. Ada beberapa teknik yang sudah umum dipakai, misalnya algoritma C4.5, K-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, CART, dll. Proses ini menghasilkan sejumlah pattern informasi yang akan dievaluasi selanjutnya. 5. Evaluasi pattern Pada proses evaluasi pattern, dilakukan evaluasi untuk menemukan pattern yang bernilai melalui knowledge base. Pada evaluasi ini akan diidentifikasi pattern yang benar-benar menarik dari data mining. 6. Presentasi knowledge Tahap terakhir dari data mining yaitu menampilkan pattern informasi yang dihasilkan dari proses data mining sehingga mudah dimengerti dan dapat digunakan. Pengelompokan pada Data Mining 1. Cluster Proses pengelompokan berdasarkan cluster merupakan proses pengelompokan objek berdasarkan perilaku dan karakteristik yang serupa. Cluster sendiri adalah kumpulan objek data yang mirip satu sama lain dalam kelompok yang sama dan berbeda dengan objek data di kelompok lain. Tujuan dari analisis cluster adalah untuk menghasilkan pengelompokan objek yang mirip satu sama lain dalam kelompok-kelompok. Adapun analisis cluster ini menemukan pattern dari data dengan tidak memanfaaatkan label yang sudah ada sebelumnya. Algoritma clustering secara umum dapat diklasifikasikan menjadi dua algoritma, yaitu hierarchical clustering, dan non-hierarchical clustering. Hierarchical clustering merupakan metode hierarkis yang mengatur seluruh objek dalam sebuah pohon untuk melihat hubungan antara setiap objek. Semakin tinggi urutan simpul dari pohon, maka semakin rendah tingkat kemiripan antar objek. Non-hierarchical clustering, atau partitional clustering memberikan sejumlah n objek dan k yang merupakan jumlah dari cluster yang terbentuk. Algoritma ini mengolah objek ke dalam k-kelompok berdasarkan kriteria optimasi tertentu, dimana setiap kelompok merupakan representasi sebuah cluster. Contoh algoritma partitional clustering yaitu K-Means. 2. Klasifikasi Klasifikasi data merupakan suatu proses yang menemukan properti-properti yang sama pada sebuah himpunan objek di dalam sebuah basis data, dan mengklasifikasikannya ke dalam kelas-kelas yang berbeda menurut model klasifikasi yang diterapkan. Pada proses klasifikasi pengelompokan objek dilakukan dengan memanfaatkan label yang sudah ada sebelumnya. Salah satu jenis klasifikasi data adalah klasifikasi teks. Klasifikasi atau kategorisasi teks adalah proses penempatan suatu dokumen ke suatu kategori atau kelas sesuai dengan karakteristik dari dokumen tersebut. Ada beberapa algoritma klasifikasi teks yang sering digunakan. Diantaranya sebagai berikut : 1. Algoritma Naive Bayes Algoritma ini yaitu menghitung probabilitas dari suatu dokumen untuk ikut ke suatu kategori berdasarkan pada kehadiran dari kata yang sama di dalam dokumen lain yang telah ada di dalam kategori tersebut. 2. Algoritma Rocchio Algoritma Rocchio membandingkan dokumen terhadap suatu daftar term positif dan negatif bagi setiap kategori dan mengklasifikasi sesuai dengan kehadiran atau bobot dari term-term tersebut. 3. k-Nearest Neighbor Metode k-Nearest Neighbor akan mencari sebanyak k dokumen paling mirip dan menempatkan dokumen ke kategori di mana k dokumen tersebut ditempatkan sebelumnya. 4. Decision Tree Pada algoritma decision tree, dokumen-dokumen akan dipisahkan secara hirarki di dalam struktur pohon, di mana setiap node merupakan term yang relevan dan ujung setiap cabang adalah kategori. 5. Support Vector Machines Algoritma support vector machines menggambar antara term yang berkontribusi dan tidak terhadap suatu dokumen yang akan ditempatkan ke suatu kategori tertentu. Kategori didasarkan pada kehadiran dari term yang berkontribusi. Sumber : http://repository.upi.edu/operator/upload/s_d545_0608534_chapter2.pdf http://www.lamsade.dauphine.fr/~gold/Cours%20et%20pr%E9sentations/Stefanowski1.pdf http://www2.gbif.org/DataCleaning.pdf http://www.scribd.com/document_downloads/direct/36244527? extension=pdf&ft=1308642374&lt=1308645984&uahk=RnV3i6P/3xTKVdWc2NCAV/HXY/Y http://husni.trunojoyo.ac.id/wp-content/uploads/2010/03/Husni-IR-dan-Klasifikasi.pdf http://komputasi.files.wordpress.com/2010/01/umsirclassification.pdf