BAB II LANDASAN TEORI 1.1 Data Mining Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar. Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang bidang ilmu yang sudah mapan terlebih dahulu. 1.2 Data Warehouse Data warehouse adalah suatu konsep dan kombinasi teknologi yang memfasilitasi organisasi untuk mengelola dan memelihara data historis yang diperoleh dari sistem atau aplikasi operasional. Pemakaian teknologi data warehouse hampir dibutuhkan oleh semua organisasi ,tidak terkecuali perpustakaan. Data warehouse memungkinkan integrasi berbagai macam jenis data dari berbagai macam aplikasi atau sistem. Hal ini menjamin mekanisme akses “satu pintu bagi manajemen untuk memperoleh informasi, dan menganalisisnya untuk pengambilan keputusan”. 1.3 Metode Klasifikasi Klasifikasi merupakan metode analisis data yang digunakan untuk membentuk model yang mendeskripsikan kelas data yang penting, atau model data yang memprediksikan trend data. Klasifikasi digunakan untuk memprediksikan kelas data yang bersifat categorial, sedangkan prediksi untuk memodelkan fungsi yang mempunyai nilai continous. Klasifikasi juga merupakan proses pembelajaran secara terbimbing (supervised learning). Terbimbing karena kategori (class label) dari setiap training sampel diketahui. Untuk melakukan klasifikasi, training set sebagai data pembelajaran harus ada. Attribut dari sampel baru (unclassified sample) sama dengan atribut dari setiap sampel dalam training set hanya saja class label-nya belum diketahui. Metode klasifikasi ada empat yaitu: 1.3.1 Naive Bayesian Classification 4 http://digilib.mercubuana.ac.id/ Adalah metode klasifikasi yang berakar pada teorema Bayes atau metode pengklasifikasian dengan menggunakan metode probabilitas dan statistik yaitu memprediksi peluang dimasa depan berdasarkan pengalaman dimasa sebelumnya. 1.3.2 K-Nearest Neighbor (K-NN) Classification Adalah metode sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. Algoritma k-NN adalah suatu metode yang menggunakan algoritma supervised. Yaitu algoritma yang bertujuan untuk menemukan pola baru dalam data dengan menghubungkan pola data yang sudah ada dengan data yang baru. 2.4.3 Association Rules Association rule adalah salah satu model data mining yang digunakan untuk mendapatkan hubungan ketergantungan antara item pada sekumpulan record. Di dalam aplikasi WEKA, Association Rules disebut juga OneR. Metode association rule mining juga merupakan metode dalam pencarian kondisi terjadinya nilai atribut dari data yang muncul bersama-sama. Metode ini melakukan pencarian pada hubungan yang memiliki nilai dalam kumpulan data. 2.4.4 Metode Decision Tree Decision tree adalah model prediksi menggunakan struktur pohon atau struktur berhirarki. Konsep dari decision tree adalah mengubah data menjadi pohon keputusan dan aturanaturan keputusan. Manfaat utama dari penggunaan decision tree adalah kemampuannya untuk membreak down proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan. Di dalam aplikasi WEKA, decison tree juga disebut sebagai metode J48. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Pohon keputusan juga berguna untuk mengekplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Ada beberapa kelebihan dan kekurangan dari metode Decision Tree ini: 1. Kelebihan dari metode decision tree adalah: a. Daerah pengambilan keputusan yang sbelumnya kompleks dan sangat global, dapat diubah menjadi lebih simple dan spesifik. 5 http://digilib.mercubuana.ac.id/ b. Mengeliminasi perhitungan-perhitungan yang tidak perlu. c. Fleksibel untuk memilih fitur dari internal node yang berbeda, fitur yang terpilih akan membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang sama. 2. Kekurangan dari metode decision tree adalah: a. Terjadi overlap terutama ketika kelsa-kelas dan kriteria yang digunakan jumlahnya sangat banyak. b. Pengakumulasian jumlah error dari setiap tingkat dalam sebuah decision tree yang besar. c. Kesulitan dalam mendesain decision tree yang optimal. d. Hasil kualitas keputusan yang didapatkan dari metode decision tree sangat tergantung pada bagaimana pohon tersebut didesain. 1.4 Pengertian Analisis Asosiasi Analasisi Asosiasi adalah teknik data mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Analisis asosiasi dikenal juga sebagai salah satu teknik data mining yang menjadi dasar dari berbagai teknik data mining lainnya. 1.5 Pengertian Algoritma Apriori Algoritma apriori adalah algoritma pengambilan data dengan aturan asosiatif (Association rule ) untuk menentukan hubungan asosiatif suatu kombinasi item. Association Rule yang dimaksud dilakukan melalui mekanisme penghitungan support dan confidence dari suatu hubungan item. 1.6 Metode Regresi Analisis regresi merupakan salah satu analisis yang bertujuan untuk mengetahui pengaruh suatu variabel terhadap variabel lain. Dalam analisis regresi, variabel yang mempengaruhi disebut Independent Variable (variabel bebas) dan variabel yang dipengaruhi disebut Dependent Variable (variabel terikat). Jika dalam persamaan regresi hanya terdapat satu variabel bebas dan satu variabel terikat, maka disebut sebagai persamaan regresi sederhana, sedangkan jika variabel bebasnya lebih dari satu, maka disebut sebagai persamaan regresi berganda. 1.7 Metode Clustering 6 http://digilib.mercubuana.ac.id/ Clustering adalah metode penganalisaan data yang sering dimasukan sebagai satu metode Data Mining, yang tujuannya adalah untuk mengelompokan data dengan karakteristik yang sama ke suatu wilayah yang sama dan data dengan karakteristik yang berbeda ke wilayah yang lain. 1.8 Aplikasi WEKA Weka adalah aplikasi data mining open source berbasis Java. Weka terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan generalisasi / formulasi dari sekumpulan data sampling. Pada penelitian ini, penulis menggunkaan aplikasi Weka versi 3-7-4. Gambar 2.1 Tampilan Awal WEKA Empat tombol diatas dapat digunakan untuk menjalanankan Aplikasi : 1. Explorer digunkan untuk menggali lebih jauh data dengan aplikasi WEKA 2. Experimenter digunakan untuk melakukan percobaan dengan pengujian statistic skema belajar 3. Knowledge Flow digunakan untuk pengetahuan pendukung 4. Simple CLI antar muka dengan menggunakan tampilan command-line yang memungkinkan langsung mengeksekusi perintah weka untuk Sistem Operasi yg tidak menyediakan secara langsung 1.9 Notepad++ 7 http://digilib.mercubuana.ac.id/ Notepad ++ adalah suatu text editor yang berjalan pada Operating System(OS) Windows. Notepad++ disini menggunakan komponen-komponen Scintilla agar dapat menampilkan dan menyunting text dan berkas source code berbagai bahasa pemrograman. 8 http://digilib.mercubuana.ac.id/