BAB II TINJAUAN TEORITIS 2.1 DATA MINING Data mining terdiri dari berbagai metode. Berbagai metode mempunyai tujuan yang berbeda, masing-masing menawarkan metode yang memiliki kelebihan dan kekurangan. Namun, penambangan data metode yang umum digunakan untuk review ini adalah kategori klasifikasi sebagai teknik prediksi. Dalam data mining, klasifikasi adalah salah satu tugas yang paling penting. Tujuan klasifikasi adalah untuk membangun sebuah classifier yang didasarkan pada beberapa kasus dengan beberapa atribut untuk menggambarkan benda atau satu atribut untuk menggambarkan kelompok objek. Kemudian, classifier digunakan untuk memprediksi kelompok atribut kasus baru dari domain yang didasarkan pada nilai-nilai lain atribut. Metode yang umum digunakan untuk tugas-tugas klasifikasi data mining dapat diklasifikasikan menjadi kelompok sebagai berikut: (Han, 2001) - Decision Tree - Support Vector Machine - Genetic Algorithm - Fuzzy Sets - Neural Network - Rough Sets Metode data mining diambil dari berbagai literatur, termasuk penambangan data dan pembelajaran mesin, psikometri dan bidang statistik, informasi visualisasi, dan pemodelan komputasi. Han dan Kamber (2001) mengkategorikan pekerjaan dalam data mining ke dalam kategori sebagai berikut: • Statistik dan visualisasi • Penambangan web - Klustering, klasifikasi, dan deteksi outlier Universitas Sumatera Utara - Penambangan aturan asosiai dan penambangan pola sekuensial - Penambangan teks Istilah Knowlegde Discovery Database (KDD) dan Data Mining sering digunakan secara bergantian. KDD adalah proses untuk mengubah data low-level menjadi pengetahuan tingkat tinggi. Oleh karena itu, KDD mengacu pada trivial ekstraksi informasi implisit, yang sebelumnya tidak dikenal dan berpotensi berguna dari data dalam database. Sedangkan penambangan data dan KDD sering diperlakukan sebagai kata-kata yang sama tetapi dalam data mining yang sebenarnya merupakan langkah penting dalam KDD proses. (Gupta et al., 2011) Proses knowledge discovery dalam Database terdiri dari beberapa langkah terkemuka dari koleksi data mentah ke beberapa bentuk pengetahuan baru. (Osmar, 2011) Proses iteratif terdiri dari langkah-langkah berikut: (1) Data cleaning (pencucian data): juga dikenal sebagai pembersihan data itu adalah fase di mana kebisingan data dan data yang tidak relevan dikeluarkan dari koleksi. (2) Data integration (integrasi data): pada tahap ini, sumber data yang sering heterogen, dapat dikombinasikan dalam sumber umum. (3) Data selection (pemilihan data): pada langkah ini, data yang relevan untuk dianalisis dipilih untuk diambil dari koleksi data. (4) Data transformasi: juga dikenal sebagai konsolidasi data, itu adalah tahap di mana data yang dipilih diubah menjadi bentuk yang sesuai untuk prosedur pertambangan. (5) Data mining: itu adalah langkah penting di mana teknik pintar diterapkan untuk mengekstrak pola berpotensi berguna. (6) Evaluasi Pola: langkah ini, benar-benar pola yang menarik mewakili pengetahuan diidentifikasi berdasarkan pada langkah-langkah yang diberikan. (7) Representasi Pengetahuan: adalah fase terakhir di mana pengetahuan ditemukan adalah visual diwakili kepada pengguna. Dalam langkah ini teknik visualisasi yang digunakan untuk membantu pengguna memahami dan menafsirkan data hasil pertambangan. Universitas Sumatera Utara 2.2 METODE KLASIFIKASI Klasifikasi data yang paling umum diterapkan dalam teknik mining, yang mengolah satu set pra-diklasifikasikan contoh untuk mengembangkan model yang dapat mengklasifikasikan populasi pada umumnya. Penipuan deteksi dan creditrisk aplikasi sangat cocok untuk pohon keputusan atau jenis analisis. Pendekatan ini sering menggunakan algoritma klasifikasi berbasis jaringan saraf tiruan. Proses klasifikasi data melibatkan belajar dan klasifikasi. Dalam Pembelajaran data pelatihan dianalisis dengan algoritma klasifikasi. Dalam klasifikasi data uji digunakan untuk memperkirakan ketepatan aturan klasifikasi. Jika ketepatan akan diterima aturan dapat diterapkan pada tupel data baru. Untuk aplikasi deteksi penipuan, ini akan termasuk catatan lengkap dari kedua kegiatan penipuan dan berlaku ditentukan berdasarkan catatan-oleh-record. Algoritma classifier-pelatihan menggunakan contohcontoh ini pra-diklasifikasikan untuk menentukan set parameter diperlukan untuk diskriminasi yang tepat. Algoritma ini kemudian encode parameter ini ke dalam model yang disebut classifier. (Bharati, 2006) Jenis-jenis model klasifikasi: Classification by decision tree induction Bayesian Classification Neural Networks Support Vector Machines (SVM) Classification Based on Associations 2.2.1 Klasifikasi oleh Induksi Pohon Keputusan Induksi pohon keputusan adalah pembelajaran pohon keputusan dari kelas tupel pelatihan berlabel. Sebuah pohon keputusan adalah diagram alir seperti struktur pohon, di mana setiap node internal (nonleaf node) menunjukkan tes pada atribut, setiap cabang merupakan hasil tes dan setiap node daun (atau node terminal) memegang label kelas. Simpul yang paling atas dalam pohon adalah node root (Han, 2006). Universitas Sumatera Utara Age? youth Middle_age student? no no senior Credit rating? yes yes yes fair excellent no yes Gambar 2.1 Konsep pohon keputusan untuk membeli komputer (Han, 2006) Sebuah jenis pohon keputusan ditunjukkan dalam gambar 2.1 yang merupakan konsep membeli komputer, yaitu, untuk memprediksi apakah semua pelanggan di toko elektronik cenderung untuk membeli komputer. Simpul dalam ditandai dengan empat persegi panjang dan node daun dinotasikan dengan oval. Beberapa algoritma pohon keputusan hanya menghasilkan pohon biner (di mana setiap cabang simpul dalam untuk dua simpul lain dengan tepat) sedangkan yang lain dapat menghasilkan pohon non biner. 2.3 MACHINE LEARNING Machine learning adalah bagian dari kecerdasan buatan yang menjelaskan bagaimana membuat program atau mesin pembelajaran. Dalam Data Mining, machine learning sering digunakan untuk prediksi atau klasifikasi, dengan machine learning komputer membuat suatu prediksi dan kemudian pembelajaran (Dunham, 2003). Universitas Sumatera Utara 2.4 SUPPORT VECTOR MACHINE (SVM) Support Vector Machines (SVM) adalah satu kumpulan teknik klasifikasi dan regresi, yang merupakan pengembangan algoritma non-linear dan dikembangkan di Rusia pada tahun enam puluhan. Seperti yang telah diuraikan, SVM dapat digunakan baik untuk klasifikasi atau regresi, yang membatasi perhatian untuk sisa pekerjaan ini. Dalam berikut ini, ikhtisar singkat teori di balik menggunakan SVM untuk estimasi fungsi, memperkenalkan pada saat yang sama dan waktu yang paling relevan pengertian dan parameter, dengan khusus memperhatikan parameter yang dampaknya diselidiki di kemudian hari. Dalam arti, ikhtisar ini untuk memahami kinerja bagian evaluasi, tetapi untuk cakupan yang lebih menyeluruh dari SVM merujuk pada survei pembaca yang sangat baik. (Bermolen, 2008) SVM adalah suatu algoritma yang mencoba menemukan pemisah linear (hyperplane) antara titik data dari dua kelas dalam ruang multidimensi. SVM cocok untuk berurusan dengan interaksi antara fitur dan fitur berlebihan. (Gupta et al., 2011) 2.5 SUPPORT VECTOR REGRESSION (SVR) SVR merupakan penerapan support vector machine (SVM) untuk kasus regresi. Dalam kasus regresi output berupa bilangan riil atau kontinue. SVR merupakan metode yang dapat mengatasi overfitting, sehingga akan menghasilkan performansi yang bagus (Smola dan Scholkopf, 2004). Misalnya ada λ set data training, (x j. ,y j ) dimana j = 1,2,… λ dengan input x = { x1 , x2 , x3 } ⊆ ℜ N dan output yang bersangkutan y = { y i ,....., y λ } ⊆ ℜ . Dengan SVR, akan ditemukan suatu fungsi f(x) yang mempunyai deviasi paling besar ε dari target aktual y i untuk semua data training. Maka dengan SVR, manakala ε sama dengan 0 akan didapatkan regresi yang sempurna. Misalnya kita mempunyai fungsi berikut sebagai garis regresi f ( x) = wT ϕ ( x) + b (1) Universitas Sumatera Utara dimana φ(x) menunjukkan suatu titik didalam feature space F hasil pemetaan x di dalam input space. Koefisien w dan b diestimasi dengan cara meminimalkan fungsi resiko (risk function) yang didefinisikan dalam persamaan (2) min 1 2 1 λ w + C ∑ L∈ ( y i , f ( xi )) 2 λ i =1 (2) Subject to y i − wϕ ( x i ) − b ≤ ε wϕ (xi ) − y i + b ≤ ε , i = 1,2,..., λ Dimana y i − f ( xi ) − ε y i − f ( xi ) ≥ 0 Lε ( y i , f (xi )) = 0, untuk yang lain Faktor w 2 dinamakan reguralisasi. Meminimalkan w (3) 2 akan membuat suatu fungsi setipis mungkin, sehingga bisa mengontrol kapasitas fungsi. Faktor kedua dalam fungsi tujuan adalah kesalahan empirik (empirical error) yang diukur dengan εinsensitive loss function. Menggunakan ide ε-insensitive loss function harus meminimalkan norm dari w agar mendapatkan generalisasi yang baik untuk fungsi regresi f. Karena itu perlu menyelesaikan problem optimasi berikut: min 1 w 2 2 (4) Subject to y i − wϕ ( x i ) − b ≤ ε wϕ ( xi ) − y i + b ≤ ε , i = 1,2,..., λ ∑e 2 ∑ (y −ŷ) = ∑ (y − (b = 2 0 + b1 x)) 2 Asumsikan bahwa ada suatu fungsi f yang dapat mengaproksimasi semua titik ( xi , y i ) dengan presisi ε. Dalam kasus ini diasumsikan bahwa semua titik ada dalam Universitas Sumatera Utara rentang f ± ε (feasible). Dalam hal ketidaklayakan (infeasible), dimana mungkin ada beberapa titik yang mungkin keluar dari rentang f ± ε , bisa ditambahkan variabel slack ξ, ξ* untuk mengatasi masalah pembatas yang tidak layak (infeasible constraint) dalam problem optimasi. Selanjutnya problem optimasi di atas bisa diformulasikan sebagai berikut: min 1 2 1 λ w + C ∑ ξ i , ξ i* 2 λ i =1 ( ) (5) Subject to y i − wT ϕ ( xi ) − b − ξ i ≤∈, i = 1,2,..., λ wϕ ( xi ) − y i + b − ξ i* ≤∈, i = 1,2,..., λ ξ i , ξ i* ≥ 0 Konstanta C>0 menentukan tawar menawar (trade off) antara ketipisan fungsi f dan batas atas deviasi lebih dari ε masih ditoleransi. Semua deviasi lebih besar daripada ε akan dikenakan pinalty sebesar C. Dalam SVR, ε ekuivalen dengan akurasi dari aproksimasi terhadap data training. Nilai ε yang kecil terkait dengan nilai yang tinggi pada variabel slack ξ i(*) dan akurasi aproksimasi yang tinggi. Sebaliknya, nilai yang tinggi untuk ε berkaitan dengan nilai ξ i(*) yang kecil dan aproksimasi yang rendah. Menurut persamaan (5) nilai yang tinggi untuk variabel slack akan membuat kesalahan empirik mempunyai pengaruh yang besar terhadap faktor regulasi. Dalam SVR, support vector adalah data training yang terletak pada dan diluar batas f dari fungsi keputusan, karena itu jumlah support vector menurun dengan naiknya ε. Dalam formulasi dual, problem optimisasi dari SVR adalah sebagai berikut: 1 max − 2 ∑∑ (α −α )α λ λ * i i i =1 j =1 ∑ (α − α )y − ∈ ∑ (α λ λ * i i i =1 i i j * − α j K xi , x j + + α i* ) (6) i =1 Subject to Universitas Sumatera Utara λ ∑ (α i =1 i ) − α i* = 0 0 ≤ α i ≤ C , i = 1,2,..., λ 0 ≤ α i* ≤ C , i = 1,2,..., λ Dimana C didefinisikan oleh user, didefinisikan sebagai K xi , x j adalah dot-product kernel yang K xi , x j = ϕ T ( xi )ϕ (x j ) . Dengan menggunakan langrange multiplier dan kondisi optimalitas, fungsi regresi secara eksplisit dirumuskan sebagai berikut: λ ( ) f ( x ) = ∑ α i − α i* K ( xi , x ) + b (7) i =1 2.6 POHON KEPUTUSAN Sebuah model pohon keputusan terdiri dari satu set aturan untuk membagi suatu populasi heterogen besar menjadi lebih kecil, kelompok yang lebih homogen dengan memperhatikan suatu variabel target tertentu (Larose, 2005). Sebuah pohon keputusan adalah pohon di mana setiap simpul non-terminal merupakan tes atau keputusan pada item data dipertimbangkan. Pilihan cabang tertentu tergantung pada hasil tes. Untuk mengklasifikasikan item data tertentu, Mulai dari akar simpul dan mengikuti asersi bawah sampai mencapai node terminal (atau daun). Sebuah keputusan dibuat ketika terminal node didekati. Pohon Keputusan juga dapat diartikan sebagai bentuk khusus dari suatu set aturan, yang ditandai oleh organisasi hirarkis mereka aturan (Gupta et al., 2011). Banyak algoritma dikembangkan untuk melakukan membuat pohon keputusan, diantaranya ID3, CART dan C4.5. Algoritma C4.5 merupakan pengembangan dari algoritma ID3 (Larose, 2005). Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut (Craw, 2005): a. Pilih atribut sebagai root b. Buat cabang untuk masing-masing nilai Universitas Sumatera Utara c. Bagi kasus dalam cabang d. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama. CART (Classification and Regression Tree) adalah algoritma data-eksplorasi dan prediksi mirip dengan C4.5, yang merupakan algoritma konstruksi pohon (Breiman et al. 1984). Klasifikasi dan pohon regresi, pada entropi informasi, memperkenalkan ukuran node yang dibuang. Hal ini digunakan pada berbagai masalah yang berbeda, seperti deteksi klorin dari data yang terdapat dalam spektrum massa. Meskipun pohon keputusan mungkin bukan metode terbaik untuk akurasi klasifikasi. Menggunakan lingkaran sebagai node keputusan dan sebuah persegi sebagai node terminal. Setiap node keputusan mempunyai kondisi yang diwakili oleh fungsi F, dan parameter adalah titik pemecahan atribut split. Setiap node terminal memiliki label kelas C, nilai yang mewakili sebuah kelas. Hal ini jelas bahwa adalah mudah digunakan pohon keputusan untuk menafsirkan pohon aturan, dari analisa yang bisa kita lakukan, dan mudah untuk menafsirkan representasi dari pemetaan input-output nonlinier. Pada setiap node dari pohon, C4.5 memilih satu atribut data yang paling efektif membagi himpunan dari sampel ke subset diperkaya dalam satu kelas atau yang lain. Kriteria adalah keuntungan informasi dinormalisasi (perbedaan entropi) yang hasil dari pemilihan atribut untuk membelah data. Atribut dengan information gain tertinggi dinormalisasi dipilih untuk membuat keputusan. Algoritma C4.5 kemudian recurses pada sublists lebih kecil. Algoritma ini memiliki beberapa kasus dasar. Semua sampel dalam daftar ini termasuk ke dalam kelas yang sama. Ketika ini terjadi, itu hanya menciptakan node daun untuk pohon mengatakan keputusan untuk memilih kelas tersebut. Tidak ada fitur yang memberikan keuntungan informasi. Dalam hal ini, keputusan C4.5 menciptakan node lebih tinggi pohon dengan menggunakan nilai yang diharapkan dari kelas. Instance dari kelas sebelumnya-tak terlihat yang dihadapi. Sekali lagi, keputusan C4.5 menciptakan node lebih tinggi pohon menggunakan nilai yang diharapkan (Quinlan, 1993). Universitas Sumatera Utara