BAB 2 TINJAUAN PUSTAKA 2.1 Data Mining Data mining adalah

advertisement
BAB 2
TINJAUAN PUSTAKA
2.1 Data Mining
Data mining adalah eksplorasi dan analisis data dalam jumlah besar untuk
menemukan pola yang berarti dan beraturan. Tujuan data mining adalah untuk
meningkatkan pemasaran, penjualan, dan operasi dukungan pelanggan melalui teknik
data mining, Berry & Linoff (2004).Berdasarkan tugas yang dapat dilakukan Data
Mining dibagi menjadi beberapa kelompok, Berry & Linoff (2004):
a. Klasifikasi
Merupakan salah satu proses data mining yang paling umum, untuk
memahami database kita harus mengklasifikasikan, mengekategorikan, dan
grading dengan tujuan untuk membangun model dari beberapa jenis yang
dapat diterapkan pada data unclassified mis:

Menentukan apakah suatu transaksi kartu kredit merupakan
transaksi yang curang atau bukan

Memperkirakan apakah suatu pengajuan hipotek oleh nasabah
merupakan suatu kredit yang baik atau buruk.

Mendiagnosis penyakit seorang pasien untuk mendapatkan
termasuk kategori penyakit apa
b. Estimasi
Estimasi sama dengan klasifikasi, hanya estimasi sering digunakan untuk
melakukan tugas klasifikasi nilai variabel yang bertujuan untuk membangun
model untuk menyediakan nilai dari variabel target sebagai nilai prediksi.
Contoh:
 Memperkirakan jumlah anak dalam keluarga
 Memperkirakan total pendapatan rumah tangga
 Memperkirakan nilai seumur hidup pelanggan
 Memperkirakan probabilitas bahwa seseorang akan menanggapi
keseimbangan.
c. Prediksi
Prediksi adalah sama dengan klasifikasi atau estimasi, kecuali bahwa catatan
diklasifikasi menurut beberapa prilaku masa depan diprediksi atau
diperkirakan nilai masa depan.Tugas prediksi memeriksa akurasi klasifikasi
dalam pemodelan prediktif, masalah tambahan mengenai hubungan temporal
(data historis) variabel masukan atau prediktor terhadap variabel
sasaran.contoh:
 Data historis digunakan untuk membangun sebuah model yang
menjelaskan saat ini perilaku yang diamati
 Memprediksi ukuran keseimbangan yang akan ditransfer jika
prospek kartu kredit menerima keseimbangan mentransfer
menawarkan, memprediksi pelanggan yang akan meninggalkan
dalam 6 bulan kedepan.
d. Clustering
Culstering adalah tugas segmentasi populasi yang heterogen menjadi
berapa subkelompok yang lebih homogen disebut dengan cluster, yang
membedakan pengelompokan dari klasifikasi. Pengelompokan tidak
bergantung pada kelas yang telah ditetapkan. Inclassification, setiap record
diberikan kelas
yang telah ditetapkan berdasarkan model yang
dikembangkan melalui preclassified.clustering sering dilakukan sebagai
awal untuk bentuk dari data mining atau modeling.contoh:
 Membagi basis pelanggan ke cluster atau orang-orang dengan
kebiasaan membeli yang sama, dan kemudian timbul pertanyaan
apa jenis promosi yang terbaik untuk setiap cluster
e. Profile
profile adalah merupakan gambaran yang sedang terjadi di database.
Contoh:
 Deskripsi sederhana: “perempuan mendukung demokrat dalam
jumlah yang lebih besar daripada laki-laki” dapat
memprovokasi sejumlah besar bunga dan studi lanjut pada
bagian dari wartawan,
 sosiolog, ekonom, dan ilmuwan politik. Belum lagi calon untuk
jabatan publik. Deskripsi dari pola ini kecendrungan sering
memberikan kemungkinan penjelasan untuk suatu pola atau
kecendrungan.
2.2 Algoritma Apriori
Algoritma Apriori adalah salah satu algoritma pada data mining untuk mencari
frequent item/itemset pada transaksional database. Algoritma apriori pertama kali
diperkenalkan oleh R.Agarwal dan R Srikant untuk mencari frequent tertinggi dari
suatu database, Kaur et al (2014). Penggunaan bottom-up pendekatan berulang. Untuk
menentukan asosiasi rule mining sebuah transaksi database, diperlukan waktu dalam
melakukan proses frequent item set, menghasilkan kombinasi data yang cukup t
banyak, Abdullah (2011). Proses ini dilakukan untuk mencari minimum nilai support
dan minimum nilai confidence .
Algoritma apriori sangat mudah dipahami, tetapi ada beberapa kekurangan pada
algortima tersebut:
1.
Database Scanning: Database transaksi perlu dipindai berulang kali untuk
menemukan frequent itemset. Jika ada n item dalam database,
membutuhkan minimal n kali memindai database.
2.
Pengaturan minimal frequent item/itemset untuk menentukan nilai
support minimum.
3.
Aturan Asosiasi rule mining dalam mendapatkan nilai minimum
confidence
Langkah-langkah algoritma apriori sebagai berikut:
1.
Join(penggabungan).
Pada proses ini setiap item dikombinasikan dengan item yang lainnya
sampai tidak terbentuk kombinasi lagi.
2.
Prune(pemangkasan).
Pada proses ini, hasil dari item yang telah dikombinasikan tadi lalu
dipangkas dengan menggunakan minimum support yang telah ditentukan.
Dua proses utama tersebut merupakan langkah yang akan dilakukan untuk mendapat
frequent itemset pada algoritma Apriori.
Gambar 2.1 Proses Algoritma Apriori
Gambar 2.2 Generasi proses frequent item/itemset
Sumber : Kaur (2014)
2.2.1 Analisis Asosiasi Rule Mining
Aturan asosiasi merupakan dalam data mining yang menemukan frequent itemset
pada database. Asosiasi aturan data mining adalah mekanisme dalam data mining
dalam aturan asosiasi, ekspresi implikasi dari bentuk X → Y di mana X adalah Y.
Anteseden dan konsekuen ditetapkan item domain I. pendahuluan dan konsekuen
adalah seperangkat item dari domain I. Dengan demikian X∩Y = Φ. Dukungan dari
set item didefinisikan sebagai rasio jumlah transaksi yang mengandung item diatur
pada jumlah total transaksi. Kepercayaan aturan asosiasi X → Y adalah probabilitas
bahwa Y transaksi mengandung algoritma association rule mining X ,Rupinder
(2014). Rumus untuk mencari nilai support dan confidence adalah :
a.
Support
Support (A
b.
Jumlah Transaksi Mengandung A dan B
B)=
Jumlah Total Transaksi
(2.1)
Confidence
Jumlah Transaksi Mengandung A dan B
Support (A
B) =
(2.2)
Jumlah Total Transaksi
Analisis asosiasi didefenisikan suatu proses untuk menemukan semua aturan asosiasi
yang memenuhi syarat minimum untuk support (minimum support) dan syarat
minimum untuk confidence (minimum confidence).
2.3 FP-Growth
Frequent Pattern Growth (FP-Growth) adalah salah satu algoritma alternatif untuk
mengatasi Frequent Pattern pada algoritma apriori. FP-growth berfungsi untuk
menentukan item/itemset yang sering muncul (frequent item/itemset) dalam sebuah
database, Moriwal (2014).
Mining tanpa melakukan candidate generation adalah teknik FP-Growth
dengan menggunakan struktur data FP-tree, Han et al (2000). Dengan menggunakan
cara ini scan database hanya dilakukan dua kali saja, tidak perlu berulang-ulang. Data
akan direpresentasekan dalam bentuk FP-Tree. Setelah FP-Tree terbentuk, maka
struktur data yang baik sekali untuk Frequent itemset akan diperoleh. FP-Tree
merupakan struktur data yang baik sekali untuk frequent Pattern mining, Han et al
(2000.) Struktur ini memberikan informasi yang lengkap untuk membentuk Frequent
Pattern. Item-item yang tidak frequent (infrequent) sudah tidak ada dalam
penggunaan FP-tree, Han et al (2000).
Pembangunan FP-Tree dari sekumpulan
data transaksi, akan diterapkan
algoritma FP-Growth untuk mencari Frequent itemset yang signifikan, Han et al
(2000). Algoritma FP-tree dibagi menjadi tiga langkah utama, yaitu:
Tahap Pembangkitan Conditional Pattern Base Conditional Pattern Base merupakan
subdatabase yang berisi prefix path (linasan e:1 prefix) dan pattern
1. (pola akhiran). Pembangkitan conditioanl pattern base didapatkan melalui FP-
tree yang telah dibangun sebelumnya.
2. Tahap Pembangkitan Conditional FP-tree pada tahap ini, support count dari
setiap item pada setiap conditional pattern base dijumlahkan, lalu setiap item
yang memiliki jumlah support count lebih besar sama dengan minimum
support count akan dibangkitkan dengan conditional FP-tree.
3. Tahap Pencarian frequent itemset apabila conditional FP-tree merupakan
lintasan tunggal(single path), maka didapatkan frequent itemset dengan
melakukan kombinasi item untuk setiap conditonal FP-tree. Jika bukan
lintasan tunggal, maka dilakukan pembangkitan FP-growth secara rekursif.
Ketiga tahap tersebut merupakan langkah yang akan dilakukan untuk
mendapatkan frequent itemset.
Dengan menggunakan FP-Growth, kita dapat melakukan Pettern Frequent itemset
dengan tidak membutuhkan waktu yang cukup lama.
Gambar 2.3 Proses FP_Growth
Sumber: Han (2000)
Gambar 2.4 Deskripsi FP-Growth
Sumber: Han (2000)
Pada gambar 2.4 proses FP-Growth untuk pembacaan TID = 1 yaitu {a,b} dimulai
mengerjakan fp-tree a1,b2, dilanjutkan dengan pembacaan TID=2 yaitu {b,c,d} yang
dihasilkan a1,b2,c1,d1, dilanjutkan kemudian pembacaan TID =3 yaitu {a,c,d,e} yang
dihasilkan a2,b2,c2,d2,e1, dilanjutkan dengan pembacaan sampai dengan proses TID
= 10 yaitu {b,c,e}
yang dihasilkan a2,b7,c5,d5,e3 sehingga perolehan frequent
item/itemset untuk keseluruhan TID pada gambar 2.4 diatas adalah a=8, b=7, c=6,
d=5 dan e = 3
Tabel 2.1 Conditional Pattern Base
Sumber: Han (2000)
Pada tebel 2.1 di atas memperlihatkan jumlah setiap frequent item yang muncul untuk
setiap transaksinya adalah I2, I3, dan I5
2.4 Grafik Mining
Grafik Mining menjadi semakin penting dalam pemodelan rumit struktur, seperti:
sirkuit, gambar, senyawa kimia, struktur protein, jaringan biologis, sosial jaringan,
Web, alur kerja, dan dokumen XML, Kavi & Joshi
(2014) Banyak algoritma
pencarian grafik telah dikembangkan dalam informatika kimia, visi komputer, video
pengindeksan, dan pengambilan teks. Dengan meningkatnya permintaan pada analisis
data dalam jumlah besar dan terstruktur, graph data mining selalu digunakan, Kumar
& Rukmani(2010). Di antara berbagai jenis pola grafik, grafik adalah pola yang sangat
dasar yang dapat ditemukan di koleksi grafik, yang berguna untuk mengklasifikasi dan
klastering grafik, membangun indeks grafik, dan memfasilitasi pencarian kesamaan
dalam database grafik. Penelitian terbaru telah mengembangkan beberapa metode
graph mining dan diterapkan ke penemuan pola yang menarik dalam berbagai
aplikasi, Kavi & Joshi (2014) Misalnya, ada laporan tentang penemuan struktur kimia
aktif dalam dataset HIV-screening oleh con-trasting dukungan sering grafik antara
kelas yang berbeda. Ada pejantan-ies pada penggunaan struktur sering seperti fitur
untuk mengklasifikasikan senyawa kimia, teknik pertambangan grafik sering untuk
mempelajari keluarga struktural protein, pada deteksi subpathways cukup besar sering
terjadi di jaringan metabolisme, dan pada penggunaan grafik, pola grafik
pengindeksan dan pencarian kesamaan dalam database grafik.
Penelitian yang telah dilakukan berkaitan dengan
algoritma apriori tentang
frequent itemset: Penelitian Kaur et al (2014) desain dan implementasi efesien pada
algoritma apriori, dimana penelitian ini dilakukan penganalisaan tentang efesiensi
penggunaan pada algoritma apriori, sedangkan penelitiana yang dilakukan Heena et al
(2014) menganalisis frequent pattern dalam perpindahan objek pada algoritma apriori
dan Penelitian Kavi & Joshi (2014) telah mencoba A Survey on Enhancing Data
Processing of Positive and Negative Association Rule Mining hasil penelitian yang
dilakukan dapat dilihat pada tabel 2.2 di bawah ini:
Tabel 2.2 Algoritma Apriori dengan FP-Growth
Kavi & Joshi (2014)
ALGORITHM
ADVANTAGES
DISADVANTAGES
APRIORI
-Easy to implement
-Too many scans on
-New pruning tech.
database high CPU
-Avoids wastage of counting
usage
candidate
which are infrequent
FP GROWTH
-Only two passes on database
-FP Tree is difficult to
-No candidate generation
use in an interactive
-Faster than Apriori
mining system
-Computation cost decreased
-FP Tree is not
-FP Tree construction
suitable for
incremental mining
WEIGHTED FP
-Good scalability
-Extra burden of
GROWTH
-Generates more concise and
defining proper weight
important
ranges
weighted frequent item sets.
-Reduction in memory
consumption
Berdasarkan penelitian diatas, maka perlu dilakukan penelitian pada algoritma
apriori untuk menemukan teknik baru dalam mengatasi masalah frequent item/itemset
dalam pembentukan asosiasi rule mining untuk mendapatakan nilai support dan nilai
confidence dalam pada database yang cukup besar, sehingga tanpa melakukan
candidate generation dapat menghasilkan asosiasi rule mining.
Download