bab ii landasan teori - Perpustakaan Universitas Mercu Buana

advertisement
BAB II
LANDASAN TEORI
1.1
Data Mining
Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan
buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi yang bermanfaat
dan pengetahuan yang terkait dari berbagai database besar.
Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk
mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik
dari bidang bidang ilmu yang sudah mapan terlebih dahulu.
1.2
Data Warehouse
Data warehouse adalah suatu konsep dan kombinasi teknologi yang memfasilitasi organisasi
untuk mengelola dan memelihara data historis yang diperoleh dari sistem atau aplikasi operasional.
Pemakaian teknologi data warehouse hampir dibutuhkan oleh semua organisasi ,tidak terkecuali
perpustakaan. Data warehouse memungkinkan integrasi berbagai macam jenis data dari berbagai
macam aplikasi atau sistem. Hal ini menjamin mekanisme akses “satu pintu bagi manajemen untuk
memperoleh informasi, dan menganalisisnya untuk pengambilan keputusan”.
1.3
Metode Klasifikasi
Klasifikasi merupakan metode analisis data yang digunakan untuk membentuk model yang
mendeskripsikan kelas data yang penting, atau model data yang memprediksikan trend data.
Klasifikasi digunakan untuk memprediksikan kelas data yang bersifat categorial, sedangkan prediksi
untuk memodelkan fungsi yang mempunyai nilai continous. Klasifikasi juga merupakan proses
pembelajaran secara terbimbing (supervised learning). Terbimbing karena kategori (class label) dari
setiap training sampel diketahui. Untuk melakukan klasifikasi, training set sebagai data pembelajaran
harus ada. Attribut dari sampel baru (unclassified sample) sama dengan atribut dari setiap sampel
dalam training set hanya saja class label-nya belum diketahui. Metode klasifikasi ada empat yaitu:
1.3.1
Naive Bayesian Classification
4
http://digilib.mercubuana.ac.id/
Adalah metode klasifikasi yang berakar pada teorema Bayes atau metode pengklasifikasian
dengan menggunakan metode probabilitas dan statistik yaitu memprediksi peluang dimasa depan
berdasarkan pengalaman dimasa sebelumnya.
1.3.2
K-Nearest Neighbor (K-NN) Classification
Adalah metode sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data
pembelajaran yang jaraknya paling dekat dengan objek tersebut. Algoritma k-NN adalah suatu metode
yang menggunakan algoritma supervised. Yaitu algoritma yang bertujuan untuk menemukan pola
baru dalam data dengan menghubungkan pola data yang sudah ada dengan data yang baru.
2.4.3
Association Rules
Association rule adalah salah satu model data mining yang digunakan untuk mendapatkan
hubungan ketergantungan antara item pada sekumpulan record. Di dalam aplikasi WEKA,
Association Rules disebut juga OneR. Metode association rule mining juga merupakan metode dalam
pencarian kondisi terjadinya nilai atribut dari data yang muncul bersama-sama. Metode ini melakukan
pencarian pada hubungan yang memiliki nilai dalam kumpulan data.
2.4.4
Metode Decision Tree
Decision tree adalah model prediksi menggunakan struktur pohon atau struktur
berhirarki. Konsep dari decision tree adalah mengubah data menjadi pohon keputusan dan aturanaturan keputusan. Manfaat utama dari penggunaan decision tree adalah kemampuannya untuk membreak down proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga pengambil
keputusan akan lebih menginterpretasikan solusi dari permasalahan. Di dalam aplikasi WEKA,
decison tree juga disebut sebagai metode J48.
Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang
merepresentasikan aturan. Pohon keputusan juga berguna untuk mengekplorasi data, menemukan
hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. Data
dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Ada
beberapa kelebihan dan kekurangan dari metode Decision Tree ini:
1. Kelebihan dari metode decision tree adalah:
a. Daerah pengambilan keputusan yang sbelumnya kompleks dan sangat global, dapat
diubah menjadi lebih simple dan spesifik.
5
http://digilib.mercubuana.ac.id/
b. Mengeliminasi perhitungan-perhitungan yang tidak perlu.
c. Fleksibel untuk memilih fitur dari internal node yang berbeda, fitur yang terpilih akan
membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang sama.
2. Kekurangan dari metode decision tree adalah:
a. Terjadi overlap terutama ketika kelsa-kelas dan kriteria yang digunakan jumlahnya
sangat banyak.
b. Pengakumulasian jumlah error dari setiap tingkat dalam sebuah decision tree yang
besar.
c. Kesulitan dalam mendesain decision tree yang optimal.
d. Hasil kualitas keputusan yang didapatkan dari metode decision tree sangat tergantung
pada bagaimana pohon tersebut didesain.
1.4
Pengertian Analisis Asosiasi
Analasisi Asosiasi adalah teknik data mining untuk menemukan aturan assosiatif antara suatu
kombinasi item. Analisis asosiasi dikenal juga sebagai salah satu teknik data mining yang menjadi
dasar dari berbagai teknik data mining lainnya.
1.5
Pengertian Algoritma Apriori
Algoritma apriori adalah algoritma pengambilan data dengan aturan asosiatif (Association
rule ) untuk menentukan hubungan asosiatif suatu kombinasi item. Association Rule yang dimaksud
dilakukan melalui mekanisme penghitungan support dan confidence dari suatu hubungan item.
1.6
Metode Regresi
Analisis regresi merupakan salah satu analisis yang bertujuan untuk mengetahui pengaruh
suatu variabel terhadap variabel lain. Dalam analisis regresi, variabel yang mempengaruhi disebut
Independent Variable (variabel bebas) dan variabel yang dipengaruhi disebut Dependent Variable
(variabel terikat). Jika dalam persamaan regresi hanya terdapat satu variabel bebas dan satu variabel
terikat, maka disebut sebagai persamaan regresi sederhana, sedangkan jika variabel bebasnya lebih
dari satu, maka disebut sebagai persamaan regresi berganda.
1.7
Metode Clustering
6
http://digilib.mercubuana.ac.id/
Clustering adalah metode penganalisaan data yang sering dimasukan sebagai satu metode
Data Mining, yang tujuannya adalah untuk mengelompokan data dengan karakteristik yang sama ke
suatu wilayah yang sama dan data dengan karakteristik yang berbeda ke wilayah yang lain.
1.8
Aplikasi WEKA
Weka adalah aplikasi data mining open source berbasis Java. Weka terdiri dari koleksi
algoritma machine learning yang dapat digunakan untuk melakukan generalisasi / formulasi dari
sekumpulan data sampling. Pada penelitian ini, penulis menggunkaan aplikasi Weka versi 3-7-4.
Gambar 2.1 Tampilan Awal WEKA
Empat tombol diatas dapat digunakan untuk menjalanankan Aplikasi :
1. Explorer digunkan untuk menggali lebih jauh data dengan aplikasi WEKA
2. Experimenter digunakan untuk melakukan percobaan dengan pengujian statistic skema
belajar
3. Knowledge Flow digunakan untuk pengetahuan pendukung
4. Simple CLI antar muka dengan menggunakan tampilan command-line yang memungkinkan
langsung mengeksekusi perintah weka untuk Sistem Operasi yg tidak menyediakan secara
langsung
1.9
Notepad++
7
http://digilib.mercubuana.ac.id/
Notepad ++ adalah suatu text editor yang berjalan pada Operating System(OS) Windows.
Notepad++ disini menggunakan komponen-komponen Scintilla agar dapat menampilkan dan
menyunting text dan berkas source code berbagai bahasa pemrograman.
8
http://digilib.mercubuana.ac.id/
Download