2.2 Data Mining

advertisement
BAB 2
LANDASAN TEORI
2.1 Database
Database (Connoly dan Begg, 2010 : 54-66) adalah suatu pembagian
kumpulan data yang berisi secara logika, dan keterangan dari masing-masing
data yang didesain untuk mendapatkan informasi yang dibutuhkan sebuah
organisasi. Database system adalah kumpulan program aplikasi yang
berinteraksi dengan basis data bersama dengan Database Management System
(DBMS) dan basis data itu sendiri, sedangkan Database Management System
(DBMS) adalah merupakan sistem perangkat lunak yang memungkinkan
pengguna untuk mendefinisikan, membuat, memelihara dan kontrol ke akses
database.
Database (Mcleod, 2007 : 124), adalah kumpulan dari semua data
berbasis komputer pada suatu perusahaan.
Dari teori-teori tersebut dapat disimpulkan bahwa Database adalah
sejumlah data yang terorganisasi dengan record dan field-nya yang terstruktrur
dan saling terhubung untuk menyediakan informasi yang dibutuhkan oleh
perusahaan.
8
9
2.2 Data Mining
2.2.1 Definisi Data Mining
Data mining (Connolly dan Begg, 2010) adalah suatu proses
ekstraksi atau penggalian data yang belum diketahui sebelumnya,
namun dapat dipahami dan berguna dari database yang besar serta
digunakan untuk membuat suatu keputusan bisnis yang sangat penting.
Data mining (Segall et.all, 2008) biasa juga disebut dengan
“Data atau knowledge discovery” atau menemukan pola tersembunyi
pada data. Data mining adalah proses dari menganalisa data dari
prespektif yang berbeda dan menyimpulkannya ke dalam informasi
yang berguna.
Data mining (Han dan Kamber, 2006 : 5) didefinisikan
sebagai proses mengekstrak atau
menambang pengetahuan yang
dibutuhkan dari sejumlah data besar.
Pada prosesnya data mining akan mengekstrak informasi yang
berharga dengan cara menganalisis adanya pola-pola ataupun
hubungan keterkaitan tertentu dari data-data yang berukuran besar.
Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti
Database System, Data Warehousing, Statistic, Machine Learning,
Information Retrieval, dan Komputasi Tingkat Tinggi. Selain itu data
mining didukung oleh ilmu lain seperti Neural Network, Pengenalan
Pola, Spatial Data Analysis, Image Database, Signal Processing.
10
Beberapa survey tentang proses pemodelan dan metodologi
menyatakan bahwa, “Data mining digunakan sebagai penunjuk,
dimana data mining menyajikan intisari atas sejarah, deskripsi dan
sebagai standar petunjuk mengenai masa depan dari sebuah proses
model data mining”(Mariscal, Marba’n dan Ferna’ndes, 2010)
Karakteristik data mining sebagai berikut:
a. Data mining berhubungan dengan penemuan sesuatu yang
tersembunyi dan pola data tertentu yang tidak diketahui
sebelumnya.
b. Data mining biasa menggunakan data yang sangat besar.
Biasanya data yang besar digunakan untuk membuat hasil lebih
dapat dipercaya.
c. Data mining berguna untuk membuat keputusan kritis.
Berdasarkan beberapa pengertian tersebut dapat ditarik
kesimpulan bahwa Data Mining adalah suatu teknik menggali
informasi berharga yang terpendam atau tersembunyi pada suatu
koleksi data (database) yang sangat besar sehingga ditemukan suatu
pola yang menarik yang sebelumnya tidak diketahui.
2.2.2 Fungsi Data Mining
Teknik – teknik data mining telah digunakan untuk menemukan pola
yang tersembunyi dan meprediksi tren masa depan. Dan keuntungan kompetitif
dari data mining termasuk dengan meningkatnya pendapatan, berkurangnya
pengeluaran, dan kemampuan pemasaran yang meningkat. (Pujari et. All,
2012)
11
Data mining dibagi menjadi dua kategori utama (Han dan Kamber,
2006 : 21- 29) yaitu:
A. Prediktif
Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari
atribut tertentu berdasarkan pada nilai atribut-atribut lain. Atribut yang
diprediksi umumnya dikenal sebagai target atau variable tak bebas,
sedangkan atribut-atribut yang digunakan untuk membuat prediksi
dikenal sebagai explanatory atau variable bebas.
B. Deskriptif
Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola
(korelasi, trend, cluster, teritori, dan anomali) yang meringkas
hubungan yang pokok dalam data. Tugas data mining deskriptif sering
merupakan penyelidikan dan seringkali memerlukan teknik postprocessing untuk validasi dan penjelasan hasil.
Fungsi dari data mining juga ada dalam dunia kesehatan,
dimana data mining telah digunakan untuk untuk meningkatkan
diagnosis dan pengobatan atau lebih mengerti perilaku dari pasien.
(Sandra et all, 2009)
Data mining juga memiliki beberapa fungsionalitas yaitu
Concept/Class Description: Characterization and Discrimination,
Mining
Frequent
Patterns,
Associations,
and
Correlations,
Classification and Prediction, Cluster Analysis, Outlier analysis, dan
Evolution analysis. (Han dan Kamber, 2006 : 21 – 27)
Berikut adalah penjelasan dari masing-masing fungsi diatas:
12
1.
Concept/Class Description: Characterization
and Discrimination
Data characterization adalah ringkasan dari
semua karakteristik atau fitur dari data yang
telah
diperoleh dari target kelas. Data yang sesuai dengan
kelas yang telah ditentukan oleh pengguna biasanya
dikumpulkan di dalam database. Misalnya, untuk
mempelajari karakteristik produk perangkat lunak
dimana pada tahun lalu seluruh penjualan telah
meningkat sebesar 10%, data yang terkait dengan
produk-produk tersebut dapat dikumpulkan dengan
menjalankan sebuah query SQL. Sedangkan, data
discrimination adalah perbandingan antara fitur umum
objek data target kelas dengan fitur umum objek dari
satu atau satu set kelas lainnya. target diambil melalui
query database. Misalnya, pengguna mungkin ingin
membandingkan fitur umum dari produk perangkat
lunak yang pada tahun lalu penjualannya meningkat
sebesar 10% tetapi selama periode yang sama seluruh
penjualan juga menurun setidaknya 30%.
2. Mining
Frequent
Patterns,
Associations,
and
Correlations
Frequent Patterns adalah pola yang sering
terjadi di dalam data. Ada banyak jenis dari frequent
patterns, termasuk di dalamnya pola, sekelompok item
13
set, sub-sequence, dan sub-struktur. Sebuah frequent
patterns biasanya mengacu pada satu set item yang
sering muncul bersama-sama dalam suatu kumpulan
data transaksional, misalnya seperti susu dan roti.
Associations Analysis adalah pencarian aturanaturan asosiasi yang menunjukan kondisi-kondisi nilai
atribut yang sering terjadi bersama-sama dalam
sekumpulan data. Analisis asosiasi sering digunakan
untuk menganalisa Market Basket Analysis dan data
transaksi.
3. Classification and Prediction
Klasifikasi adalah proses untuk menemukan
model
atau
fungsi
yang
menggambarkan
dan
membedakan kelas data atau konsep dengan tujuan
memprediksikan kelas untuk data yang tidak diketahui
kelasnya. Model yang diturunkan didasarkan pada
analisis dari training data (yaitu objek data yang
memiliki label kelas yang diketahui). Model yang
diturunkan dapat direpresentasikan dalam berbagai
bentuk seperti If-then klasifikasi, decision tree, dan
sebagainya.
Teknik
classification
bekerja
dengan
mengelompokkan data berdasarkan data training dan
nilai atribut klasifikasi. Aturan pengelompokan tersebut
akan digunakan untuk klasifikasi data baru ke dalam
14
kelompok
yang
ada.
Classification
dapat
direpresentasikan dalam bentuk pohon keputusan
(decision tree). Setiap node dalam pohon keputusan
menyatakan
suatu
tes
terhadap
atribut
dataset,
sedangkan setiap cabang menyatakan hasil dari tes
tersebut. Pohon keputusan yang terbentuk dapat
diterjemahkan menjadi sekumpulan aturan dalam
bentuk IF condition THEN outcome. (Mewati Ayub,
2007 : 7).
Dalam
banyak
kasus,
pengguna
ingin
memprediksikan nilai-nilai data yang tidak tersedia
atau hilang (bukan label dari kelas). Dalam kasus ini
nilai data yang akan diprediksi merupakan data
numeric. Disamping itu, prediksi lebih menekankan
pada identifikasi trend dari distribusi berdasarkan data
yang tersedia.
4. Cluster Analysis
Cluster adalah kumpulan objek data yang mirip
satu sama lain dalam kelompok yang sama dan berbeda
dengan objek data di kelompok lain. Sedangkan,
Clustering
atau
Analisis
Custer
adalah
proses
pengelompokkan satu set benda-benda fisik atau
abstrak kedalam kelas objek yang sama. Tujuannya
adalah untuk menghasilkan pengelompokan objek yang
mirip satu sama lain dalam kelompok-kelompok.
15
Semakin besar kemiripan objek dalam suatu cluster
dan semakin besar perbedaan tiap cluster maka kualitas
analisis cluster semakin baik.
Dari tugas – tugas data mining yang telah di jelaskan ,
perbandingan antara Classification dan Clustering menurut Han dan
Kamber (2006) lebih spesifik digambarkan sebagai berikut :
Tabel 2.1 Perbandingan Classification dan Clustering
Classification
1. Menganalisis label
Clustering
kelas dari 1. menganalisis data objek tanpa
data objek.
ada label kelas.
2. Label kelas ada atau terlihat 2.label kelas tidak ada atau tidak
jelas pada training data.
terlihat pada training data.
3. Bertujuan
untuk 3.bertujuan
untuk
mengelompokan pada kelas –
mengelompokan
kelas yang telah ditentukan.
menentukan label kelas dari tiap
dan
cluster yang telah terbentuk
4. Proses klasifikasi berdasarkan 4. Proses Clustering berdasarkan
pada menemukan sebuah model
pada prinsip: objek yang ada di
atau
yang
dalam satu cluster memiliki
dan
kemiripan yang tinggi dari pada
fungsi
menggambarkan
membedakan data kelas atau
yang
konsep, dengan tujuan untuk
berbeda dengan objek yang ada
dapat
pada cluster lainnya.
menggunakan
model
untuk memprediksi objek kelas
yang
kelas
diketahui.
label
Model
nya
blm
tersebut
berdasarkan pada analisis dari
training data (data objek yang
kelas label nya telah diketahui.)
lainnya,
tetapi
sangat
16
5. Outlier analysis
Outlier merupakan objek data yang tidak
mengikuti perilaku umum dari data. Outlier dianggap
sebagai noise atau pengecualian. Analisis data outlier
dapat dianggap sebagai noise atau pengecualian.
Analisis data outlier dinamakan Outlier Mining.
Teknik ini berguna dalam fraud detection dan rare
events analysis.
6.
Evolution analysis
Analisis
evolusi
data
menjelaskan
dan
memodelkan trend dari objek yang memiliki perilaku
yang berubah setiap waktu. Teknik ini dapat meliputi
karakterisasi, diskriminasi, asosiasi, klasifikasi, atau
clustering dari data yang berkaitan dengan waktu.
2.2.3 Tujuan Data Mining
Tujuan dari data mining (Hoffer, Prescott, dan McFadden,
2007) adalah:
1. Explanatory
Untuk menjelaskan beberapa kondisi penelitian, seperti
mengapa penjualan truk pick-up meningkat di Colorado.
2. Confirmatory
Untuk mempertegas hipotesis, seperti halnya dua kali
pendapatan keluarga lebih suka dipakai untuk membeli
peralatan keluarga dibandingkan dengan satu kali pendapatan
keluarga.
17
3. Exploratory
Untuk menganalisa data yang memiliki hubungan yang baru.
Misalnya, pola apa yang cocok untuk kasus penggelapan kartu
kredit.
2.2.4 Arsitektur Data Mining
Data mining merupakan proses pencarian pengetahuan yang
menarik dari data berukuran besar yang disimpan dalam basis data, data
warehouse atau tempat penyimpanan informasi lainnya. Dengan
demikian arsitektur sistem data mining memiliki komponen-komponen
utama (Han dan Kamber, 2006) yaitu:
a. Database, data warehouse, World Wide Web, atau tempat
penyimpanan informasi lainnya: bisa berbentuk satu atau
banyak database, data warehouse, spreadsheet, ataupun
tempat penyimpanan informasi lainnya. Data Cleaning, Data
Integration dan Data Selection dapat dijalankan pada data
tersebut.
b. Database dan data warehouse server. Komponen ini
bertanggung jawab dalam pengambilan data yang relevan,
berdasarkan permintaan pengguna.
c. Knowledge
Based.
Komponen
ini
merupakan
domain
knowledge yang digunakan untuk memandu pencarian atau
mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut
meliput
hirarki
konsep
yang
digunakan
untuk
mengorganisasikan atribut atau nilai atribut kedalam level
18
abstraksi yang berbeda. Pengetahuan tersebut juga dapat
berupa kepercayaan pengguna (user belief), yang dapat
digunakan
untuk
menentukan
kemenarikan
pola
yang
diperoleh.
d. Data mining engine. Bagian ini merupakan komponen penting
dalam arsitektur sistem data mining. Komponen ini terdiri dari
modul-modul
fungsional
seperti
karakterisasi,
asosiasi,
klasifikasi, dan analisis cluster.
e. Ghrapical user interface (GUI). Modul ini berkomunikasi
dengan pengguna dan data mining. Melalui komponen ini,
pengguna berinteraksi dengan sistem menggunakan query.
Gambar 2.1Arsitektur sistem data mining
19
2.2.5 Klasifikasi Sistem Data Mining
Data Mining (Han dan Kamber, 2006 : 29) merupakan suatu
pendekatan dalam pemecahan masalah dengan menggunakan tinjauan
berbagai sudut pandang ilmu secara terpadu yaitu, database system,
statistics, machine learning, visualization, dan information system.
(Gambar 2.2)
Gambar 2.2 Data mining merupakan irisan dari berbagai disiplin
2.2.6 Knowledge Discovery In Databases
Han dan Kamber (2006 : 7), lebih spesifik menyatakan istilah
Data Mining dan Knowledge Discovery in Databases (KDD) secara
bergantian untuk menjelaskan proses penggalian informasi tersembunyi
dalam suatu kumpulan data yang besar. Akan tetapi kedua istilah
tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain
dan salah satu tahap dalam proses KDD adalah data mining.
Data mining adalah salah satu langkah dalam proses KDD
secara keseluruhan. Secara umum, data mining digunakan oleh banyak
peneliti sebagai sinonim dari proses KDD. Akhir-akhir ini, data mining
20
dan knowledge discovery telah diusulkan sebagai nama yang paling
memadai untuk keseluruhan proses KDD. Knowledge Discovery in
Databases berkaitan dengan proses penemuan pengetahuan yang
diterapkan pada database. Hal ini juga didefinisikan sebagai proses nontrivial untuk identifikasi data yang valid, baru, berpotensi bermanfaat,
dan akhirnya memiliki pola yang dapat dimengerti. (Kurgan dan
Musilek, 2006)
Knowledge discovery sering terhalang karena tantangan dalam
integrasi dan navigasi dari data yang berbeda. Selain itu, karena jumlah
dimensi di dalam data meningkat, pendekatan baru untuk penemuan
pola sangat diperlukan. (Zhiyuan Chen, 2007).
Berdasarkan pengertian beberapa pengertian tersebut dapat
ditarik kesimpulan bahwa Knowledge Discovery in Database (KDD)
adalah proses yang bertujuan untuk menggali dan menganalisis
sejumlah besar himpunan data dan mengekstrak informasi serta
pengetahuan yang berguna.
Langkah penting dalam proses KDD dapat dilihat pada gambar 2.3
yang terdiri dari tahapan-tahapan sebagai berikut:
1) Data cleaning
Data cleaning merupakan proses membuang duplikasi
data, memeriksa data yang tidak konsisten, dan memperbaiki
kesalahan pada data, seperti kesalahan penulisan. Pada
umumnya data yang diperoleh baik dari database suatu
perusahaan maupun hasil eksperimen, memiliki isi yang tidak
21
sempurna seperti data yang hilang, data yang tidak valid atau
juga hanya sekedar salah ketik. Selain itu, ada juga atributatribut data yang tidak relevan dengan hipotesa data mining
yang dimiliki. Data cleaning juga akan mempengaruhi hasil
informasi dari teknik data mining karena data yang ditangani
akan berkurang jumlah dan kompleksitasnya.
2) Data integration
Proses menambah data yang sudah ada dengan data atau
informasi lain yang relevan atau bisa disebut juga merupakan
penggabungan data dari berbagai database kedalam satu
database baru yang dibutuhkan oleh KDD.
Tahapan
cleaning
dan
integration
pada
KDD
mengasumsikan bahwa integrator data harus menghapus noise
dari data awal secara paralel dengan mengintegrasikan
beberapa data set. (M. Brian Blake, 2009)
22
Gambar 2.3 Data mining sebagai tahapan dalam proses
KDD
3) Data selection
Pemilihan data yang relevan dan dapat dilakukan analisis
dari data operasional. Data hasil pemilihan disimpan dalam
database yang terpisah.
4) Data transformation
Proses tranformasi data kedalam bentuk format tertentu
sehingga data tersebut sesuai untuk proses data mining.
Sebagai contoh beberapa metode standar seperti analisis
asosiasi dan clustering hanya bisa menerima input data
kategorikal.
5) Data mining
23
Proses mencari pola atau informasi menarik dengan
menggunakan teknik, metode atau algoritma tertentu.
6) Pattern evaluation
Mengidentifikasi pola-pola yang benar-benar menarik dari
hasil data mining. Dalam tahap ini hasil dari teknik data
mining berupa pola-pola yang khas maupun model prediksi
dievaluasi untuk menilai apakah hipotesa yang ada memang
tercapai atau tidak.
7) Knowledge presentation
Menampilkan pola informasi yang dihasilkan dari proses
data mining, visualisasi ini membantu mengkomunikasikan
hasil data mining dalam bentuk yang mudah dimengerti.
2.2.7 Teori Khusus – Classification and Prediction
Classification (Han dan Kamber, 2006 : 285) adalah sebuah
model dalam data mining dimana, classifier dikonstruksi untuk
memprediksi categorical label, seperti “aman ” atau “beresiko” untuk
data aplikasi peminjaman uang; “ya” atau “tidak ” untuk data
marketing; atau “treatment A”, “treatment B” atau “treatment C”
untuk data medis. Kategori tersebut dapat direpresentasikan dengan
nilai yang sesuai dengan kebutuhannya, dimana pengaturan dari nilai
tersbut tidak memiliki arti tertentu.
Classification dan Association rule discovery merupakan tugas
yang sama dalam data mining, dengan pengecualian bahwa tujuan
utama dari klasifikasi adalah prediksi label kelas, sedangkan asosiasi
24
aturan penemuan menggambarkan korelasi antara item dalam
database transaksional. (Fadi Thabtah, 2007)
Proses data klasifikasi memiliki dua tahapan, yang pertama
adalah
Learning:
dimana
training
data
dianalisa
dengan
menggunakan sebuah algoritma klasifikasi. Dan yang kedua adalah
Classification: dimana pada tahap ini test data digunakan untuk
mengestimasi ketepatan dari classification rules. Jika keakuratan yang
dikondisikan dan yang diperkirakan dapat diterima, rule tersebut
dapat diaplikasikan pada klasifikasi lainya dari tuple data yang baru.
Vladimir Nikulin (2008) lebih spesifik mengatakan bahwa,
classification hanya bisa diterapkan pada data training yang sangat
kuat di mana diasumsikan bahwa kelas "positif" sudah mewakili
minoritas tanpa kehilangan atribut umum.
Klasifikasi dalam data mining memiliki 3 (tiga) metode yaitu,
Classification by decision tree induction, Bayes Classification, dan
Rule-based Classification.
1. Classification by Decision Tree Induction
Decision Tree Induction adalah pengetahuan dalam bentuk
pohon keputusan yang training tuple nya telah diberi label kelas.
Decision Tree bisa disebut juga alat non-parametrik analisis
diskriminan, yang dirancang untuk mewakili aturan keputusan
dalam bentuk yang disebut pohon biner (Vladimir Nikulin, 2008).
Sebuah Decision Tree seperti sebuah flowchart dengan berstruktur
pohon,
dimana
setiap
internal
node
(non-leaf
node)
mendenotasikan sebuah tes pada sebuah atribut, setiap cabang
25
merepresentasikan sebuah hasil dari tes, dan setiap leaf node (atau
terminal node) memegang sebuah label kelas.
Namsik dan Olivia (2008) lebih spesifik mengatakan bahwa,
Decision tree adalah struktur rekursif sederhana untuk mewakili
prosedur keputusan di mana sebuah instance ditugaskan untuk
salah satu dari serangkaian kelas hasil yang telah ditentukan
sebelumnya.
Attribute Selection Measures
Sebuah attribute selection measure adalah sebuah heuristis
untuk memilih dari pembelahan kriteria yang terbaik dipisahkan
dengan menggunakan data partition, D, dari training tuple yang
kelas-nya telah diberi label ke dalam kelas individual.
Information Gain
Information Gain digunakan sebagai atribut pemilih ukuran.
Atribut dengan information gain tertinggi dipilih sebagai atribut
pemisah untuk node N. Atribut ini meminimalisasi informasi yang
dibutuhkan untuk mengklasifikasi tuple dalam memberikan hasil
pembelahan dan menrefleksikan nilai acak yang paling sedikt
“kesalahannya” pada kelas partisi tersebut.
Dan rumus pecarian information gain adalah:
Gain(A)  Info(D)  InfoA(D)
Dimana Info D adalah:
Informasi yang diperkirakan (entropy) yang dibutuhkan
untuk mengklasifikasikan sebuah tuple pada D.
m
Info( D)   pi log 2 ( pi )
i 1
26
Dan Info A adalah:
Informasi yang dibutukan (setelah menggunakan A untuk
membagi D kedalam partisi V) untuk mengklasifikasi D.
v
| Dj |
j 1
|D|
InfoA ( D)  
 I (D j )
Gain Ratio
Pengukuran Information Gain berat sebelah terhadap tes
dengan berbagai hasil. Sehinga hasilnya lebih memilih atribut
yang memiliki sebuah angka dengan nilai besar.
v
| Dj |
j 1
|D|
SplitInfo A ( D)  
 log 2 (
| Dj |
|D|
)
2. Bayesian Classification
Bayesian Classifier adalah pengklasifikasi statistik. Bayesian
Classfier dapat memperkirakan probabilitas keanggotaan kelas,
seperti kemungkinan bahwa sebuah tuple yang diberikan telah
dimiliki oleh sebuah kelas tertentu lainnya.
Naïve Bayesian Classification
Naïve Bayesian classifer, atau Simple Bayesian classifier, bekerja
seperti dibawah:
1. Biarkan X menjadi sampel data ("bukti"): label kelas tidak
diketahui
2. Biarkan H menjadi hipotesis bahwa X milik kelas C
3. Klasifikasi adalah untuk menentukan P (H | X), (posteriori
probabilitas), probabilitas bahwa hipotesis memegang data
sampel yang diberikan dan diamati X
4. P (H) (prior), probabilitas awal
27
a. Misalnya, X akan membeli komputer, tanpa memandang
usia dan pendapatan
5. P (X): probabilitas bahwa data sampel yang diamati
6. P (X | H) (kelemahan berupa), probabilitas mengamati sampel
X, memberikan data yang dipegang hipotesis
a. Misalnya, Mengingat bahwa X akan membeli komputer,
probabilitas bahwa X adalah 31 .. 40, pendapatan menengah
7. Data pelatihan yang diberikan X, posteriori probabilitas
hipotesis H, P (H | X), mengikuti teorema Bayes
P(H | X)  P(X | H )P(H )
P(X)
8. Secara informal, hal ini dapat ditulis sebagai
posteriori = kemungkinan x sebelum / bukti
9. Prediksi X milik C2 IFF probabilitas P (Ci | X) adalah yang
tertinggi di antara semua P (Ck | X) untuk semua kelas K
10. Kesulitan praktis: memerlukan pengetahuan awal dengan
probabilitas yang banyak, biaya komputasi yang signifikan.
3. Rule-Based Classfication
Menggunakan IF-THEN Rules untuk Klasifikasi
Sebuah rule-based classifier digunakan sebagai sekumpulan
dari rule IF-THEN untuk klasifikasi. Sebuah aturan IF-THEN
dengan form,
IF kondisi THEN hasil.
Contoh dari Rule IF-THEN (R1).
R1: IF umur = muda AND pelajar = ya THEN beli_komputer
= ya.
28
a. Assessment dari sebuah rule: coverage and accuracy
– ncovers = # tuple yang di-cover oleh R
– ncorrect = # tuple yang secara tepat diklasifikasikan oleh
R
coverage(R) = ncovers /|D| /* D: kumpulan training data */
accuracy(R) = ncorrect / ncovers
operator logika  (AND),  (OR),  (NOT).
b. Jika lebih dari satu aturan yang dipicu, maka diperlukan
sebuah resolusi konflik
c. Ukuran pemesanan: menetapkan prioritas tertinggi dengan
aturan memicu yang memiliki "terberat" persyaratan (yaitu,
dengan tes atribut yang paling)
d.
Kelas berbasis memesan: urutan penurunan biaya prevalensi
atau kesalahan klasifikasi per kelas
Peraturan-berbasis memesan (daftar keputusan): aturan
akan disusun dalam satu daftar prioritas jangka, menurut
beberapa ukuran kualitas peraturan atau oleh para ahli.
2.3 Classifier Accuracy Measurables
Classifier Accuracy Measures (Han dan Kamber, 2006 : 360) adalah
metode klasifikasi yang dilakukan berdasarkan tingkat akurasi model dalam
melakukan prediksi. Hal ini dilakukan karena keakuratan dalam mengolah data
merupakan salah satu hal yang penting.
Metode yang digunakan untuk menguji tingkat akurasi model klasifikasi
ini adalah metode hold out. Dalam metode ini, data asli dipartisi menjadi dua
29
himpunan yang saling terpisah yang dinamakan training set dan test set. Model
klasifikasi kemudian dibangun berdasarkan training set dan hasilnya kemudian
dievaluasi dengan menggunakan testing set. Akurasi dari masing-masing metode
klasifikasi dapat diestimasi berdasarkan akurasi yang diperoleh dari test set.
Proporsi antara training set dan test set tidak mengikat tetapi agar variansi dalam
model tidak terlalu besar maka dapat ditentukan bahwa proporsi training set
lebih besar daripada test set-nya. Biasanya 2/3 dari data dijadikan training set
dan 1/3 lagi dijadikan testing set.
Ukuran dari tingkat akurasi sebuah classifier dapat ditentukan dengan
menggunakan perhitungan-perhitungan Classifier Accuracy Measurables, yaitu
sebagai berikut:
Sensivity =
Specificity =
Precision =
Accuracy = sensivity
+ specifity
t_pos adalah jumlah true positive yaitu jumlah data yang berhasil di
prediksi oleh classifier dengan benar (misalkan jumlah data kelas “yes” dari
sampel yang secara benar dapat di prediksi sebagaimana mestinya oleh model
klasifikasi), pos adalah jumlah sampel data positives (“yes”), t_neg adalah
jumlah true negatives yaitu adalah kebalikan dari true positive (misalkan jumlah
data kelas “no” dari sampel yang benar dapat diprediksi sebagaimana mestinya
oleh model klasifikasi), neg adalah jumlah total sampel negatives (“no” ), dan
30
f_pos adalah false positives yaitu jumlah data yang salah di prediksi oleh
classifier (“no” diprediksi sebagai “yes”).
Sensivity adalah ukuran tingkatan derajat classifier dapat mengenal
positives samples (“yes”) berdasarkan jumlah true positives yang dapat
diprediksi secara benar jika yang diberikan adalah sampel positives.
Specificity adalah ukuran tingkatan derajat classifier dapat mengenal
negatives samples (“no”) berdasarkan true negatives yang dapat diprediksi
secara benar jika yang diberikan adalah sampel negatives.
Precision adalah besarnya presentase classifier dalam menebak dengan
tepat kelas true positives (“yes”) dengan melihat perbandingan true positive
yang dapat diprediksi dengan penjumlahan true positive dan false positive.
Accuracy adalah derajat ukuran yang merupakan fungsi dari Sensivity
dan Specificity model klasifikasi dalam melakukan prediksi.
Download