Decision Tree i ii Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis Decision Tree iii DATAMI NING: Teknik Pemanfaatan Data untuk Keperluan Bisnis Oleh : Budi Santosa Edisi Pertama Cetakan Pertama, 2007 Hak Cipta © 2007 pada penulis, Hak Cipta dilindungi undang-undang. Dilarang memperbanyak atau memindahkan sebagian atau seluruh isi buku ini dalam bentuk apa pun, secara elektronis maupun mekanis, termasuk memfotokopi, merekam, atau dengan teknik perekaman lainnya, tanpa izin tertulis dari penerbit. Candi Gebang Permai Blok R/6 Yogyakarta 55511 Telp. : 0274-882262; 0274-4462135 Fax. : 0274-4462136 E-mail : [email protected] Santosa, Budi DATA MINING: Teknik Pemanfaatan Data untuk Keperluan Bisnis/Budi Santosa -Edisi Pertama Yogyakarta; Graha Ilmu, 2007 xxii + 240 hlm, 1 Jil. : 26 cm. ISBN: 978-979-756-224-3 1. Komputer iv I. Judul Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis Untuk Lina, Ardi, Shima dan Raissa Kata Pengantar v vi Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis Kata Pengantar M ungkin belum banyak buku tentang Data Mining atau sebelumnya sering juga disebut dengan nama Pattern Recognition yang ditulis dalam Bahasa Indonesia. Sementara itu, buku dengan topik ini sangat dibutuhkan oleh berbagai kalangan seperti dosen, mahasiswa SI, mahasiswa pasca sarjana maupun praktisi di bidang manajemen, meteorologi, kedokteran, mikrobiologi dan lain-lain dalam rangka memahami dan mengimplementasikannya. Dalam konteks inilah motivasi penulisan buku ini mendapatkan tempatnya. Topik yang dibahas di dalam buku ini semakin hari semakin penting karena semakin dibutuhkan dalam menyelesaikan masalah-masalah nyata baik di dalam dunia keilmuan, rekayasa, industri, finansial dan cuaca. Apalagi dengan perkembangan teknologi pengumpulan data saat ini, dimana jumlah data yang dikumpulkan per unit waktu semakin besar dengan kecepatan yang berlipat. Dalam dunia bisnis maupun teknologi, semakin banyak transaksi-transaksi yang dilakukan secara otomatis baik yang on­line melalui internet maupun lewat jaringan elektronik. Di bidang cuaca, data yang ditangkap oleh radar per satuan waktu juga mencapai jumlah yang sangat besar. Hal ini menambah volume data yang tersimpan dan harus diolah semakin membesar. Peningkatan volume data yang besar memerlukan metode yang bisa bekerja cepat dan terotomatisasi untuk mengolah dan mengambil kesimpulan dari data tersebut. Buku ini memuat metode-metode tradisional yang sudah sering dipelajari dalam bukubuku statistik maupun data mining hingga metode-metode mutakhir yang dikembangkan dalam sepuluh tahun terakhir dimana penulis aktif mengikuti, mengimplementasikan dan memberi sedikit kontribusi pengembangan. Sengaja metode-metode tradisional dimasukkan dalam buku ini agar pembaca bisa membandingkan perbedaannya dengan metode-metode mutakhir yang dikembangkan dalam sepuluh tahun terakhir. Buku ini dibagi dalam beberapa bab. Penjelasan singkat dalam setiap bab adalah sebagai berikut: Kata Pengantar vii • • • • • • • • • • • • • viii Bab 1 memberi pengantar bagi pembaca untuk memperoleh gambaran akan isi buku ini. Bab 2 berisi beberapa konsep dasar yang harus dimengerti pembaca seperti konsep supervised dan unsupervised learning, konsep klasifikasi dan regresi, klasifikasi dua kelas dan klasifikasi multi kelas, konsep jarak, teori tentang fungsi convex, set convex dan teori matriks. Bab 3 akan membahas mengenai teknik klasifikasi unsupervised yang cukup populer yaitu klastering. Akan dibahas beberapa teknik yang sering dipakai dan prosedur pemakaiannya, serta diberikan contoh implementasi menggunakan Matlab. Bab 4 membahas teknik klasifikasi supervised yang cukup terkenal yaitu analisis diskriminan. Dalam bab ini dibahas analisis diskriminan untuk kasus dua kelas dan multi kelas disertai beberapa contoh. Bab 5 membahas mengenai Teorema Bayes dan aplikasinya dalam klasifikasi obyek. Bab 6 akan membahas mengenai decision tree, pembahasan meliputi karakteristik masalah seperti apa yang sesuai diselesaikan dengan decision tree, kriteria-kriteria pembuaan decision tree dan jenis-jenis decision tree. Dalam Bab 7 akan dibahas teknik supervised yang masuk dalam kategori artificial neural networks (ANN) yaitu back-propagasi. Dalam bab ini akan dijelaskan ide dasarnya, prosedure dan algoritma. Dalam Bab 8 akan dibahas teknik supervised yang masuk dalam kategori metode kernel yaitu Support Vector Machine. Dalam bab ini akan dijelaskan ide dasarnya, formulasi matematik, metode kernel beserta contoh pemakaian untuk kasus yang sederhana. Dalam bahasan ini hanya memuat kasus klasifikasi dua kelas. Dalam Bab 9 akan dibahas teknik Support Vector Machine untuk kasus klasifikasi multi kelas. Dalam bab ini akan dijelaskan ide dasarnya, formulasi matematik, contoh sederhana pemakaian prosedurnya. Dalam Bab 10 akan dibahas teknik tradisonal yang sudah sangat populer yaitu regresi linier sederhana, regresi linier multiple dan regresi logistik. Dalam Bab 11 akan dibahas teknik Support Vector Machine untuk kasus regresi. Dalam bab ini akan dijelaskan ide dasarnya, formulasi matematik, contoh sederhana pemakaian prosedurnya, serta diberikan contoh implementasi menggunakan Matlab. Sebelumnya akan didahului dengan review regresi linear dan regresi logistik untuk mengantarkan pembaca memahami persoalan regresi. Bab ini dilengkapi juga dengan varian dari metode kernel dalam kasus klasifikasi. Dalam Bab 12 akan dibahas teknik seleksi variabel. Dalam bab ini akan dijelaskan teknik dasar pengurangan dimensi data dan applikasi SVM untuk pemilihan variabel. Dalam Bab 13 dibahas mengenai teknik-teknik yang menggunakan metode kernel. Teknikteknik yang dibahas adalah teknik-teknik tradisional yang dikembangkan dalam kerangka metode kernel. Juga dibahas mengenai pemilian model untuk prediksi. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis • Dalam Bab 14 dibahas mengenai aturan asosiasi dalam analisis market basket. Contoh diberikan untuk penerapan aturan asosiasi ini dalam database transaksi. Dalam setiap bab diusahakan untuk disertai dengan implementasi menggunakan paket software Matlab. Software ini cukup mudah dipelajari dan sangat umum digunakan dalam komunitas machine learning dan data mining. Dengan penyertaan implementasi diharapkan para pembaca akan dapat menerapkan teknik-teknik yang dipelajari untuk kasus nyata sesudah membaca buku ini. Buku ini mencakup hanya sebagian kecil dari bahasan data mining yang area cakupannya sangat luas. Pada kesempatan ini, saya ingin mengucapkan terima kasih pada teman-teman di Jurusan Teknik Industri-ITS, Surabaya. Terima kasih juga untuk teman-teman di kelompok diskusi milis Soft-Computing (scina) yang tidak bisa saya sebutkan satu per satu. Terima kasih untuk temanteman di milis data mining (indo-dm). Juga untuk Dr Mauridhi, ITS, atas masukannya untuk perbaikan buku ini. Tidak lupa saya ucapkan terima kasih ke istri saya, Karlina, atas pengertian dan dukungannya sehingga saya mempunyai cukup waktu untuk menyelesaikan buku ini. Terima kasih saya ucapkan kepada Direktorat Penelitian dan Pengabdian Kepada Masyarakat Direktorat Jenderal Pendidikan Tinggi (DP2M Dikti) atas dukungan dana untuk penulisan buku ini. Masukan dan umpan balik dari para pembaca sangat diharapkan untuk lebih memperbaiki isi buku ini. Mudah-mudahan buku ini bisa bermanfaat bagi para pembaca sekalian. Surabaya, 4 Maret 2007 Budi Santosa [email protected] Kata Pengantar ix x Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis