Decision Tree i

advertisement
Decision Tree
i
ii
Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis
Decision Tree
iii
DATAMI NING: Teknik Pemanfaatan Data untuk Keperluan Bisnis
Oleh : Budi Santosa
Edisi Pertama
Cetakan Pertama, 2007
Hak Cipta © 2007 pada penulis,
Hak Cipta dilindungi undang-undang. Dilarang memperbanyak atau memindahkan
sebagian atau seluruh isi buku ini dalam bentuk apa pun, secara elektronis maupun mekanis,
termasuk memfotokopi, merekam, atau dengan teknik perekaman lainnya, tanpa izin tertulis
dari penerbit.
Candi Gebang Permai Blok R/6
Yogyakarta 55511
Telp.
: 0274-882262; 0274-4462135
Fax.
: 0274-4462136
E-mail : [email protected]
Santosa, Budi
DATA MINING: Teknik Pemanfaatan Data untuk Keperluan Bisnis/Budi
Santosa
-Edisi Pertama – Yogyakarta; Graha Ilmu, 2007
xxii + 240 hlm, 1 Jil. : 26 cm.
ISBN:
978-979-756-224-3
1. Komputer
iv
I. Judul
Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis
Untuk
Lina, Ardi, Shima dan Raissa
Kata Pengantar
v
vi
Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis
Kata Pengantar
M
ungkin belum banyak buku tentang Data Mining atau sebelumnya sering juga disebut
dengan nama Pattern Recognition yang ditulis dalam Bahasa Indonesia. Sementara
itu, buku dengan topik ini sangat dibutuhkan oleh berbagai kalangan seperti dosen,
mahasiswa SI, mahasiswa pasca sarjana maupun praktisi di bidang manajemen, meteorologi,
kedokteran, mikrobiologi dan lain-lain dalam rangka memahami dan mengimplementasikannya.
Dalam konteks inilah motivasi penulisan buku ini mendapatkan tempatnya. Topik yang dibahas
di dalam buku ini semakin hari semakin penting karena semakin dibutuhkan dalam menyelesaikan masalah-masalah nyata baik di dalam dunia keilmuan, rekayasa, industri, finansial dan
cuaca. Apalagi dengan perkembangan teknologi pengumpulan data saat ini, dimana jumlah
data yang dikumpulkan per unit waktu semakin besar dengan kecepatan yang berlipat. Dalam
dunia bisnis maupun teknologi, semakin banyak transaksi-transaksi yang dilakukan secara
otomatis baik yang on­line melalui internet maupun lewat jaringan elektronik. Di bidang cuaca,
data yang ditangkap oleh radar per satuan waktu juga mencapai jumlah yang sangat besar.
Hal ini menambah volume data yang tersimpan dan harus diolah semakin membesar. Peningkatan volume data yang besar memerlukan metode yang bisa bekerja cepat dan terotomatisasi
untuk mengolah dan mengambil kesimpulan dari data tersebut.
Buku ini memuat metode-metode tradisional yang sudah sering dipelajari dalam bukubuku statistik maupun data mining hingga metode-metode mutakhir yang dikembangkan dalam
sepuluh tahun terakhir dimana penulis aktif mengikuti, mengimplementasikan dan memberi
sedikit kontribusi pengembangan. Sengaja metode-metode tradisional dimasukkan dalam buku
ini agar pembaca bisa membandingkan perbedaannya dengan metode-metode mutakhir yang
dikembangkan dalam sepuluh tahun terakhir. Buku ini dibagi dalam beberapa bab. Penjelasan
singkat dalam setiap bab adalah sebagai berikut:
Kata Pengantar
vii
•
•
•
•
•
•
•
•
•
•
•
•
•
viii
Bab 1 memberi pengantar bagi pembaca untuk memperoleh gambaran akan isi buku ini.
Bab 2 berisi beberapa konsep dasar yang harus dimengerti pembaca seperti konsep supervised
dan unsupervised learning, konsep klasifikasi dan regresi, klasifikasi dua kelas dan klasifikasi
multi kelas, konsep jarak, teori tentang fungsi convex, set convex dan teori matriks.
Bab 3 akan membahas mengenai teknik klasifikasi unsupervised yang cukup populer yaitu
klastering. Akan dibahas beberapa teknik yang sering dipakai dan prosedur pemakaiannya, serta diberikan contoh implementasi menggunakan Matlab.
Bab 4 membahas teknik klasifikasi supervised yang cukup terkenal yaitu analisis diskriminan. Dalam bab ini dibahas analisis diskriminan untuk kasus dua kelas dan multi kelas
disertai beberapa contoh.
Bab 5 membahas mengenai Teorema Bayes dan aplikasinya dalam klasifikasi obyek.
Bab 6 akan membahas mengenai decision tree, pembahasan meliputi karakteristik masalah
seperti apa yang sesuai diselesaikan dengan decision tree, kriteria-kriteria pembuaan decision
tree dan jenis-jenis decision tree.
Dalam Bab 7 akan dibahas teknik supervised yang masuk dalam kategori artificial neural
networks (ANN) yaitu back-propagasi. Dalam bab ini akan dijelaskan ide dasarnya, prosedure
dan algoritma.
Dalam Bab 8 akan dibahas teknik supervised yang masuk dalam kategori metode kernel
yaitu Support Vector Machine. Dalam bab ini akan dijelaskan ide dasarnya, formulasi
matematik, metode kernel beserta contoh pemakaian untuk kasus yang sederhana. Dalam
bahasan ini hanya memuat kasus klasifikasi dua kelas.
Dalam Bab 9 akan dibahas teknik Support Vector Machine untuk kasus klasifikasi multi kelas.
Dalam bab ini akan dijelaskan ide dasarnya, formulasi matematik, contoh sederhana
pemakaian prosedurnya.
Dalam Bab 10 akan dibahas teknik tradisonal yang sudah sangat populer yaitu regresi
linier sederhana, regresi linier multiple dan regresi logistik.
Dalam Bab 11 akan dibahas teknik Support Vector Machine untuk kasus regresi. Dalam
bab ini akan dijelaskan ide dasarnya, formulasi matematik, contoh sederhana pemakaian
prosedurnya, serta diberikan contoh implementasi menggunakan Matlab. Sebelumnya akan
didahului dengan review regresi linear dan regresi logistik untuk mengantarkan pembaca
memahami persoalan regresi. Bab ini dilengkapi juga dengan varian dari metode kernel
dalam kasus klasifikasi.
Dalam Bab 12 akan dibahas teknik seleksi variabel. Dalam bab ini akan dijelaskan teknik
dasar pengurangan dimensi data dan applikasi SVM untuk pemilihan variabel.
Dalam Bab 13 dibahas mengenai teknik-teknik yang menggunakan metode kernel. Teknikteknik yang dibahas adalah teknik-teknik tradisional yang dikembangkan dalam kerangka
metode kernel. Juga dibahas mengenai pemilian model untuk prediksi.
Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis
•
Dalam Bab 14 dibahas mengenai aturan asosiasi dalam analisis market basket. Contoh
diberikan untuk penerapan aturan asosiasi ini dalam database transaksi.
Dalam setiap bab diusahakan untuk disertai dengan implementasi menggunakan paket
software Matlab. Software ini cukup mudah dipelajari dan sangat umum digunakan dalam
komunitas machine learning dan data mining. Dengan penyertaan implementasi diharapkan
para pembaca akan dapat menerapkan teknik-teknik yang dipelajari untuk kasus nyata sesudah
membaca buku ini. Buku ini mencakup hanya sebagian kecil dari bahasan data mining yang
area cakupannya sangat luas.
Pada kesempatan ini, saya ingin mengucapkan terima kasih pada teman-teman di Jurusan
Teknik Industri-ITS, Surabaya. Terima kasih juga untuk teman-teman di kelompok diskusi milis
Soft-Computing (scina) yang tidak bisa saya sebutkan satu per satu. Terima kasih untuk temanteman di milis data mining (indo-dm). Juga untuk Dr Mauridhi, ITS, atas masukannya untuk
perbaikan buku ini. Tidak lupa saya ucapkan terima kasih ke istri saya, Karlina, atas pengertian
dan dukungannya sehingga saya mempunyai cukup waktu untuk menyelesaikan buku ini.
Terima kasih saya ucapkan kepada Direktorat Penelitian dan Pengabdian Kepada Masyarakat
Direktorat Jenderal Pendidikan Tinggi (DP2M Dikti) atas dukungan dana untuk penulisan buku
ini. Masukan dan umpan balik dari para pembaca sangat diharapkan untuk lebih memperbaiki
isi buku ini. Mudah-mudahan buku ini bisa bermanfaat bagi para pembaca sekalian.
Surabaya, 4 Maret 2007
Budi Santosa
[email protected]
Kata Pengantar
ix
x
Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis
Download