DATA MINING Pengertian Data Mining Data mining atau Knowledge

advertisement
DATA MINING
Pengertian Data Mining
Data mining atau Knowledge Discovery in Database (KDD) dapat didefinisikan yaitu :
•
Data mining merupakan serangkaian proses untuk menggali nilai tambah dari suatu kumpulan
data berupa pengetahuan yang selama ini belum dapat diketahui jika melalui cara manual.
•
Data mining merupakan analisa otomatis dari data yang berjumlah besar atau kompleks dengan
tujuan untuk menemukan pola (pattern) atau kecenderungan yang penting yang biasanya tidak
disadari keberadaannya.
•
Data mining merupakan pengambilan informasi yang tersembunyi, dimana informasi tersebut
sebelumnya tidak dikenal dan berpotensi bermanfaat. Proses ini meliputi pendekatan-pendekatan
teknis, seperti clustering, data summarization, learning classification rules.
Berdasarkan pengertian diatas, maka dapat diambil kesimpulan yaitu data mining merupakan suatu
proses ekstraksi informasi yang berguna dan potensial dari sekumpulan data yakni dalam data warehouse
untuk mendapatkan suatu informasi yang bernilai yang belum ditemukan sebelumnya, dimana informasi
ini dapat digunakan dalam manajemen, pengambilan keputusan, dll.
Beberapa solusi yang diberikan data mining antara lain :
1. Menebak target pasar
Data mining dapat mengelompokkan (clustering) model-model pembeli dan melakukan
klasifikasi terhadap setiap pembeli dan melakukan klasifikasi terhadap setiap pemebeli sesuai
dengan karakteristik yang diinginkan.
2. Melihat pola beli dari waktu ke waktu
Data mining dapat digunakan untuk melihat pola beli dari waktu ke waktu.
3. cross-market analysis
Data mining dapat dimanfaatkan untuk melihat hubungan antara satu produk dengan produk
lainnya.
4. Profil pelanggan
Data mining bisa membantu pengguna untuk melihat profil pembeli sehingga dapat diketahui
kelompok pembeli tertentu cenderung kepada suatu produk apa saja.
5. Informasi summary
Data mining dapat membuat laporan summary yang bersifat multi dimensi dan dilengkapi dengan
informasi statistik lainnya.
Proses Data Mining
Dalam proses data mining untuk mendapatkan informasi, ada beberapa tahap yang dilalui yaitu data
cleaning, data integration, data transformation, penerapan algoritma data mining, evaluasi pattern, dan
presentasi knowledge.
1. Data Cleaning
Proses pertama dari data mining yaitu data cleaning dimana dilakukan pembersihan bagi datadata yang tidak konsisten, noise, redundancy, dll dalam database. Kesalahan-kesalahan yang bisa
ditemukan antara lain: missing values, thypographical error, atau kesalahan informasi dalam record.
Pada umumnya, data cleaning terdiri atas beberapa fase :
-
Data analysis : dalam mendeteksi jenis dari kesalahan dan ketidakkonsistensian yang terjadi,
maka perlu adanya rincian data analysis. Dalam melakukannya, perlu digunakan program
analisis untuk memperoleh metadata tentang properti data dan mendeteksi masalah kualitas
data.
-
Definition of transformation workflow and mapping rules : tahapan ini tergantung dari jumlah
data source yang ada.
2. Data Integration
Pada proses ini, data source yang berasal dari beberapa database diintegrasikan menjadi suatu
uniform data interface dari data analisis. Data integration ini merupakan suatu mekanisme yang
digunakan untuk mengurangi ketidak-pastian (uncertainty). Hasil dari data integration biasanya
menghasilkan suatu entitas data yang baru atau atribut baru yang nantinya dapat dengan mudah
dimengerti dan diakses oleh user.
3. Data Transformation
Proses data transformation adalah proses untuk mengubah hasil dari data integration menjadi
suatu bentuk data warehouse yang utuh sehingga sudah dapat dilakukan mining.
4. Penerapan teknik data mining
Pada proses ini, pada data warehouse yang ada, dilakukan pengaplikasian teknik-teknik atau
algoritma data mining. Ada beberapa teknik yang sudah umum dipakai, misalnya algoritma C4.5,
K-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, CART, dll. Proses ini
menghasilkan sejumlah pattern informasi yang akan dievaluasi selanjutnya.
5. Evaluasi pattern
Pada proses evaluasi pattern, dilakukan evaluasi untuk menemukan pattern yang bernilai melalui
knowledge base. Pada evaluasi ini akan diidentifikasi pattern yang benar-benar menarik dari data
mining.
6. Presentasi knowledge
Tahap terakhir dari data mining yaitu menampilkan pattern informasi yang dihasilkan dari proses
data mining sehingga mudah dimengerti dan dapat digunakan.
Pengelompokan pada Data Mining
1. Cluster
Proses pengelompokan berdasarkan cluster merupakan proses pengelompokan objek berdasarkan
perilaku dan karakteristik yang serupa. Cluster sendiri adalah kumpulan objek data yang mirip satu
sama lain dalam kelompok yang sama dan berbeda dengan objek data di kelompok lain. Tujuan dari
analisis cluster adalah untuk menghasilkan pengelompokan objek yang mirip satu sama lain dalam
kelompok-kelompok. Adapun analisis cluster ini menemukan pattern dari data dengan tidak
memanfaaatkan label yang sudah ada sebelumnya.
Algoritma clustering secara umum dapat diklasifikasikan menjadi dua algoritma, yaitu
hierarchical clustering, dan non-hierarchical clustering.
Hierarchical clustering merupakan metode hierarkis yang mengatur seluruh objek dalam sebuah
pohon untuk melihat hubungan antara setiap objek. Semakin tinggi urutan simpul dari pohon, maka
semakin rendah tingkat kemiripan antar objek.
Non-hierarchical clustering, atau partitional clustering memberikan sejumlah n objek dan k yang
merupakan jumlah dari cluster yang terbentuk. Algoritma ini mengolah objek ke dalam k-kelompok
berdasarkan kriteria optimasi tertentu, dimana setiap kelompok merupakan representasi sebuah
cluster. Contoh algoritma partitional clustering yaitu K-Means.
2. Klasifikasi
Klasifikasi data merupakan suatu proses yang menemukan properti-properti yang sama pada
sebuah himpunan objek di dalam sebuah basis data, dan mengklasifikasikannya ke dalam kelas-kelas
yang berbeda menurut model klasifikasi yang diterapkan. Pada proses klasifikasi pengelompokan
objek dilakukan dengan memanfaatkan label yang sudah ada sebelumnya. Salah satu jenis klasifikasi
data adalah klasifikasi teks.
Klasifikasi atau kategorisasi teks adalah proses penempatan suatu dokumen ke suatu kategori atau
kelas sesuai dengan karakteristik dari dokumen tersebut.
Ada beberapa algoritma klasifikasi teks yang sering digunakan. Diantaranya sebagai berikut :
1. Algoritma Naive Bayes
Algoritma ini yaitu menghitung probabilitas dari suatu dokumen untuk ikut ke suatu kategori
berdasarkan pada kehadiran dari kata yang sama di dalam dokumen lain yang telah ada di
dalam kategori tersebut.
2. Algoritma Rocchio
Algoritma Rocchio membandingkan dokumen terhadap suatu daftar term positif dan negatif
bagi setiap kategori dan mengklasifikasi sesuai dengan kehadiran atau bobot dari term-term
tersebut.
3. k-Nearest Neighbor
Metode k-Nearest Neighbor akan mencari sebanyak k dokumen paling mirip dan
menempatkan dokumen ke kategori di mana k dokumen tersebut ditempatkan sebelumnya.
4. Decision Tree
Pada algoritma decision tree, dokumen-dokumen akan dipisahkan secara hirarki di dalam
struktur pohon, di mana setiap node merupakan term yang relevan dan ujung setiap cabang
adalah kategori.
5. Support Vector Machines
Algoritma support vector machines menggambar antara term yang berkontribusi dan tidak
terhadap suatu dokumen yang akan ditempatkan ke suatu kategori tertentu. Kategori
didasarkan pada kehadiran dari term yang berkontribusi.
Sumber :
http://repository.upi.edu/operator/upload/s_d545_0608534_chapter2.pdf
http://www.lamsade.dauphine.fr/~gold/Cours%20et%20pr%E9sentations/Stefanowski1.pdf
http://www2.gbif.org/DataCleaning.pdf
http://www.scribd.com/document_downloads/direct/36244527?
extension=pdf&ft=1308642374&lt=1308645984&uahk=RnV3i6P/3xTKVdWc2NCAV/HXY/Y
http://husni.trunojoyo.ac.id/wp-content/uploads/2010/03/Husni-IR-dan-Klasifikasi.pdf
http://komputasi.files.wordpress.com/2010/01/umsirclassification.pdf
Download