Makalah

advertisement
2014
Makalah
DATA MINING
UNIVERSITAS MUHAMMADIYAH SIDOARJO
TITIS FITRIA 6B PAGI
3/11/2014
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Bab 1. Data Mining
1.1 Pengertian Data Mining
Data Mining adalah kegiatan yang meliputi pengumpulan dan penggunaan
database untuk menentukan suatu pola pada data set yang jumlahnya banyak..
Perangkat lunak ini mampu menemukan pola-pola tersembunyi maupun
hubungan-hubungan yang terdapat dalam basis data yang besar dan
menghasilkan aturan-aturan yang digunakan untuk memperkirakan perilaku di
masa mendatang.
Data mining sering dikatakan berurusan dengan “penemuan pengetahuan” dalam
basis data.
1.2 Konsep dasar
a. Bagaimana Data Mining Bekerja
 Data mining bekerja untuk menemukan pola-pola tertentu dalam data.
 Data mining cerdas menghasilkan informasi dari datawarehouse yang tidak
dapat divisualisasikan oleh laporan-laporan dan query.
b. Dimana langkah-langkah untuk melakukan data mining adalah sebagai
berikut :
2
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
-Data cleaning (untuk menghilangkan noise data yang tidak konsisten) Data integration
(di mana sumber data yang terpecah dapat disatukan)
- Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke
dalam database)
- Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat
untuk menambang dengan ringkasan performa atau operasi agresi)
- Data mining (proses esensial di mana metode yang intelejen digunakan untuk
mengekstrak pola data)
- Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang
mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)
- Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan
digunakan untuk memberikan pengetahuan yang telah ditambang kpada user).
Arsitektur dari data mining yang khas memiliki beberapa komponen utama yaitu :
- Database, data warehouse, atau tempat penyimpanan informasi lainnya.
- Server database atau data warehouse.
- Knowledge base
- Data mining engine.
- Pattern evolution module.
- Graphical user interface.
Bab 2. Web Mining
2.1 Pengertian
Web mining adalah sebuah integrasi beberapa teknologi, seperti data mining,
statistik, informatika, dan sebagainya (Jicheng, 1999). Web mining adalah suatu
aktifitas untuk menidentifikasi pola p yang terkandung dalam sebuah koleksi dokumen
C, yang dapat dituliskan sebagai pemetaan . Definisi tersebut di atas menunjukkan
bahwa Web mining mempunya kemiripan dengan data mining. Tetapi Web mining
memiliki karakteristik khusus, antara lain adalah sumber yang digunakan adalah
dokumen web. Selain itu pola yang dapat diperoleh dari Web mining adalah isi dari
dokumen web atau struktur dari Web, sebab sebuah dokumen Web berisi informasi dan
hyperlink.
3
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
2.2 Konsep Dasar
Penelitian web mining terintegrasi dengan berbagai macam penelitian disiplin
ilmu pengetahuan lainnya seperti DataBase (DB), Data Mining, Information Retrieval
(IR), Machine Learning (ML), Natural Language Process (NLP). Web mining dapat
dibagi menjadi tiga kategori utama, yaitu: content mining, usage mining, dan structure
mining.
:
4
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Bab 3. Text Mining
3.1 Pengertian Text Mining
Text mining adalah salah satu bidang khusus dari data mining. Sesuai dengan
buku The Text Mining Handbook, text mining dapat didefinisikan sebagai suatu proses
menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen
menggunakan tools analisis yang merupakan komponenkomponen dalam data mining
yang salah satunya adalah kategorisasi. Tujuan dari text mining adalah untuk
mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data
yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang
tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text mining
antara lain yaitu pengkategorisasian teks (text categorization) dan pengelompokan teks
(text clustering).
3.2 Konsep Dasar text mining
Permasalahan yang dihadapi pada text mining sama dengan permasalahan yang
terdapat pada data mining, yaitu jumlah data yang besar, dimensi yang tinggi, data dan
struktur yang terus berubah, dan data noise. Perbedaan di antara keduanya adalah pada
data yang digunakan. Pada data mining, data yang digunakan adalah structured data,
sedangkan pada text mining, data yang digunakan text mining pada umumnya adalah
unstructured data, atau minimal semistructured. Hal ini menyebabkan adanya tantangan
tambahan pada text mining yaitu struktur text yang complex dan tidak lengkap, arti
yang tidak jelas dan tidak standard, dan bahasa yang berbeda ditambah translasi yang
tidak akurat.
Koleksi Dokumen
Salah satu elemen kunci dari text mining adalah kumpulan dokumen yang
berbasis teks. Pada prakteknya, text mining ditujukan untuk menemukan pola dari
sekumpulan dokumen yang jumlahnya sangat besar dan bisa mencapai jumlah ribuan
bahkan sampai jutaan. Koleksi dokumen bisa statis, dimana dokumen tidak berubah,
atau dinamis, dimana dokumen selalu diupdate sepanjang waktu.
 Representasi feature pada dokumen
5
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan
perhitungan hanya pada dokumen, tetapi pada juga feature. Empat macam feature yang
sering digunakan:
1. Character, merupakan komponan individual, bisa huruf, angka, karakter spesial dan
spasi, merupakan block pembangun pada level paling tinggi pembentuk semantik
feature, seperti kata,term dan concept.Pada umumnya, representasi character-based ini
jarang digunakan pada beberapa teknik pemrosesan teks.
2. Words.
3. Terms merupakan single word dan frasa multiword yang terpilih secara langsung dari
corpus. Representasi term-based dari dokumen tersusun dari subset term dalam
dokumen.
4. Concept, merupakan feature yang di-generate dari sebuah dokumen secara manual,
rule-based, atau metodologi lain. Pada tugas akhir ini, concept di-generate dari
argument atau verb yang sudah diberi label pada suatu dokumen.
 Text Preprocessing
Struktur data yang baik dapat memudahkan proses komputerisasi secara otomatis.
Pada text mining, informasi yang akan digali berisi informasi-informasi yang
strukturnya sembarang. Oleh karena itu, diperlukan proses pengubahan bentuk menjadi
data yang terstruktur sesuai kebutuhannya untuk proses dalam data mining, yang
biasanya akan menjadi nilai-nilai numerik. Proses ini sering disebut Text Preprocessing.
Setelah data menjadi data terstruktur dan berupa nilai numerik maka data dapat
dijadikan sebagai sumber data yang dapat diolah lebih lanjut.
 Ekstraksi Dokumen
6
Makalah Data Mining / Universitas Muhammadiyah siidoarjo

Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil.
Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf dihilangkan dan
dianggap delimiter. Tahap tokenizing / parsing adalah tahap pemotongan string input
berdasarkan tiap kata yang menyusunnya. Contoh dari tahap ini adalah sebagai berikut:
Tahap filtering adalah tahap mengambil kata - kata penting dari hasil token. Bisa
menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist
(menyimpan kata penting). Stoplist / stopword adalah katakata yang tidak deskriptif
yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”,
“dan”, “di”, “dari” dan seterusnya. Contoh dari tahapan ini adalah sebagai berikut:
7
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap
ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi
yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit
diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa Indonesia tidak
memiliki rumus bentuk baku yang permanen. Contoh dari tahapan ini pada teks
berbahasa inggris adalah sebagai berikut:
Bab 4. Sistem Pakar
4.1 Pengertian sistem pakar menurut para ahli
Menurut Martin dan Oxman "
Sistem pakar adalah sistem berbasis computer yang menggunakan pengetahuan,
fakta, dan teknik penalaran dalam memecahkan masalah, yang biasanya hanya dapat
diselesaikan oleh seorang pakar dalam bidang tertentu.
Menurut Ignizio "
Sistem pakar merupakan bidang yang dicirikan oleh system berbasis
pengetahuan (Knowledge Base System), memungkinkan adanya komponen untuk
berpikir dan mengambil kesimpulan dari sekumpulan kaidah
4.2 Konsep dasar Sistem Pakar
Menurut Efraim Turban, konsep dasar sistem pakar mengandung beberapa hal yang
di antaranya:
a) Keahlian
Merupakan suatu kelebihan penguasaan pengetahuan di bidang tertentu yang diperoleh
dari pelatihan, membaca atau pengalaman. Contoh bentuk pengetahuan ; Strategistrategi global untuk menyelesaikan masalah
b) Ahli (Pakar)
8
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Merupakan seseorang yang memiliki pengetahuan, penilaian, pengalaman, metode
tertentu, serta mampu menerapkan keahlian dalam memberikan advise untuk
pemecahan persoalan, serta mampu menjelaskan suatu tanggapan, mempelajari hal-hal
baru seputar topik permasalahan, mengenali & merumuskan permasalahan, menyusun
kembali pengetahuan jika dipandang perlu, memecah aturan-aturan jika dibutuhkan, dan
mampu menentukan relevan tidaknya keahlian mereka.
c) Pengalihan Keahlian
Merupakan pengalihan keahlian dari para ahli ke komputer untuk kemudian dialihkan
lagi ke orang lain yang bukan ahli, dimana pengetahuan yang disimpan di komputer ini
disebut dengan nama basis pengetahuan. Ada 2 tipe pengetahuan, yaitu: fakta dan
prosedur (biasanya berupa aturan).
d)
Inferensi
Kemampuan untuk melakukan penalaran dengan menggunakan pengetahuan yang ada
untuk menghasilkan suatu kesimpulan atau hasil akhir. dengan menggunakan motor
interafe yang merupakan permodelan proses berfikir dan bernalar layaknya manusia.
e) Aturan
Sebagian besar sistem pakar dibuat dalam bentuk rule-based system, dimana
pengetahuan disimpan dalam bentuk aturan-aturan yang biasanya berbentuk IF-THEN
f) Kemampuan Menjelaskan
Kemampuan untuk menjelaskan dan merekomendasi, yang membedakan sistem pakar
dengan sistem konvensional.
Diagram Struktur Sistem Pakar
9
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Bab 5. Decision Tree
5.1 Pengertian Decision Tree
Decision tree (pohon keputusan) adalah alat pendukung keputusan yang
menggunakan pohon. Seperti grafik atau model keputusan dan kemungkinan
konsekuensi mereka, termasuk hasil peristiwa kebetulan, biaya sumber daya, dan utilitas.
Decision tree biasanya digunakan dalam operations research (penelitian operasional),
khususnya
dalam
decision
analysis
(analisis
keputusan),
untuk
membantu
mengidentifikasi strategi yang paling mungkin untuk mencapai tujuan. Lain yang
menggunakan decision tree adalah sebagai alat deskriptif untuk menghitung probabilitas
kondisional.
5.2 Konsep dasar
Dalam analisis keputusan, sebuah “Decision tree” digunakan sebagai visual dan
alat pendukung keputusan analisis, di mana nilai-nilai yang diharapkan (atau utilitas
yang diharapkan) dari alternatif bersaing dihitung.
Decision Tree terdiri dari 3 jenis node:
10
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
1.
Decision
2.
Chance
3.
End
nodes
nodes
nodes
–
umum
–
–
diwakili
oleh
kuadrat
diwakili
oleh
kalangan
diwakili
oleh
segitiga
Ditarik dari kiri ke kanan, Decision Tree hanya burst nodes (membelah jalan) tapi tidak
ada sink nodes (konvergen jalan). Oleh karena itu, digunakan secara manual, mereka
dapat tumbuh sangat besar dan kemudian sering kali sulit untuk menarik sepenuhnya
dengan tangan.
Bab 6. Clustering
6.1 Pengertian
Clustering merupakan teknik yang umum digunakan dalam menganalisa data
statistik untuk berbagai bidang, misalnya machine learning, pattern analysis , image
analysis, information retrieval dan bio informatika.
6.2 Konsep dasar
Clustering Dengan Pendekatan Partisi
K-Means
Salah satu metode yang banyak digunakan dalam melakukan clustering dengan partisi
ini adalah metode k-means. Secara umum metode k-means ini melakukan proses
pengelompokan dengan prosedur sebagai berikut:

Tentukan jumlah cluster

Alokasikan data secara random ke cluster yang ada

Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya

Alokasikan kembali semua data ke cluster terdekat
11
Makalah Data Mining / Universitas Muhammadiyah siidoarjo

Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan yang terjadi
masih sudah di bawah treshold
 Clustering dengan Pendekatan Hirarki
Clustering dengan pendekatan hirarki mengelompokkan data yang mirip dalam
hirarki yang sama dan yang tidak mirip di hirarki yang agak jauh. Ada dua metode yang
sering diterapkan yaitu agglomerative hieararchical clustering dan divisive hierarchical
clustering. Agglomerative melakukan proses clustering dari N cluster menjadi satu
kesatuan cluster, dimana N adalah jumlah data, sedangkan divisive melakukan proses
clustering yang sebaliknya yaitu dari satu cluster menjadi N cluster.
Beberapa metode hierarchical clustering yang sering digunakan dibedakan
menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang menggunakan
Single Linkage, Complete Linkage, Average Linkage, Average Group Linkage dan lainlainnya. Seperti juga halnya dengan partition-based clustering, kita juga bisa memilih
jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data.
Salah satu cara untuk mempermudah pengembangan dendogram untuk hierarchical
clustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan
antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai
macam cara seperti dengan Euclidean Distance Space. Berangkat dari similarity matrix
ini, kita bisa memilih lingkage jenis
mana
yang akan digunakan untuk
mengelompokkan data yang dianalisa.
Bab 7. Association
7.1 pengertian Association
Teknik Association adalah metode data mining digunakan secara luas dan
mengarah ke penemuan yang menarik hubungan antara variabel-variabel seperti yang
ditemukan di gudang data di bawah pemeriksaan. Data penambang menetapkan formula
yang disebut "aturan asosiasi". Dia kemudian memprediksi model masa depan dan
bertindak berdasarkan model untuk mendapatkan informasi penting. Sebagai contoh
mengambil kasus gelar akademik untuk spesialisasi. Jika seorang mahasiswa opt-in
12
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
untuk program tertentu maka mungkin ada probabilitas tinggi bahwa ia juga dapat
memilih spesialisasi yang relevan di masa depan untuk meningkatkan peluang karirnya.
7.2 Konsep Dasar Association
Bentuk Dasar Association Rule
Ada beberapa simbol yang akan membantu untuk menerapkan association rule, yaitu:
Association rule: implikasi yang dimisalkan dengan bentuk X -> Y, dimana X dan Y
saling disjoin (X ⋂ Y)
Support count(σ(X)): jumlah transaksi yang memuat itemset tertentu
Support (s(X->Y)): tingkat intensitas kemunculan gabungan rule(X U Y) pada
association rule pada seluruh data set
Confidence(c(X->Y)): tingkat intensitas kemunculan item Y pada transaksi yang
memuat X
Rumus support dan confidence:
Kegunaan dari support itu sendiri adalah untuk mengukur tingkat intensitas
kemunculan suatu rule, dimana jika support yang dimiliki rendah, maka akan besar
kemungkinan rendah juga tingkat keuntungan yang didapatkan dari item-item yang ada
pada rule tersebut.
Sedangkan kegunaan dari confidence adalah untuk mengukur tingkat
kebenaran(reability) dari kesimpulan yang diambil oleh rule yang dibuat. Pada implikasi
X->Y, jika nilai confidence rendah maka kemungkinan munculnya Y yang memuat X
semakin rendah pula.
Bab 8. Classification
8.1 pengertian
13
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Classification adalah metode yang paling umum pada data mining. Persoalan
bisnis sperti Churn Analysis, dan Risk Management biasanya melibatkan metode
Classification.
Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan.
Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode
ini butuh untuk menemukan sebuah model yang dapat menjelaskan class attribute itu
sebagai fungsi dari input attribute.
Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No,
perhatikan ini.
Sebuah Classification Model akan menggunakan atribut lain dari kasus tersebut (input
attribut; yaitu kolom IQ, Gender, ParentIncome, dan ParentEncouragement) untuk
dapat menentukan pola (pattern) class (Output Attribute; yaitu Kolom CollegePlans
yang berisi Yes atau No).
Algoritma Data Mining yang membutuhkan variabel target untuk belajar (sampai
mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan dengan
sebuthan dengan Supervised Algorithm.
Bab 9. Algoritma Bayes
9.1 Pengertian
Naïve Bayes adalah salah satu algoritma pembelajaran induktif yang paling
efektif dan efisien untuk machine learning dan data mining. Klasifikasi adalah tugas
yang penting dalam data mining, dalam klasifikasi, sebuah pengklasifikasi dibuat dari
sekumpulan data latih dengan kelas yang telah ditemukan sebelumnya.
9.2 Konsep dasar
A. Konsep Dasar dan Definisi Metode Bayes
Metode Find-S tidak dapat digunakan untuk data yang tidak konsisten dan data
yang bias, sehingga untuk bentuk data semacam ini salah satu metode sederhana yang
dapat digunakan adalah metode bayes.
Metode Bayes merupakan pendekatan statistic untuk melakukan inferensi
induksi pada persoalan klasifikasi. Pertama kali dibahas terlebih dahulu tentang konsep
14
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
dasar dan definisi pada Teorema Bayes, kemudian menggunkan teorema ini untuk
melakukan klasifikasi dalam Data Mining.
Metode Bayes menggunakan propabilitas bersyarat sebagai dasarnya. Dalam
ilmu probabilitas bersyarat dinyatakan sebagai:
Probabilitas X di dalam Y adalah probabilitas inteseksi X dan Y dari
probabilitas Y, atau dengan bahasa lain P(X|Y) adalah prosentase banyaknya X di
dalam Y. Probabilitas bersyarat dalam data diilustrasikan pada contoh berikut.
Banyaknya data berolah-raga=ya adalah 4 dari 6 data maka dituliskan P(olahraga)= 4/6.
15
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Banyaknya data cerah dan berolah-raga adalah 4 dari 6 data, maka dituliskan
P(cuaca=cerah dan Olahraga=ya)= 4/6. Dari informasi tersebut, maka probabilitas cuaca
cerah pada saat olahraga adalah:
Bab 10 Algoritma Apriori
10.1 Pengertian
Algoritma Apriori adalah algoritma paling terkenal untuk menemukan pola
frekuensi tinggi. Pola frekuensi tinggi adalah pola-pola item di dalam suatu database
yang memiliki frekuensi atau support di atas ambang batas tertentu yang disebut dengan
istilah minimum support.
10.2 Konsep dasar
Algoritma Apriori dibagi menjadi beberapa tahap yang disebut iterasi atau pass.
Tiap iterasi menghasilkan pola frekuensi tinggi dengan panjang yang sama dimulai dari
pass pertama yang menghasilkan pola frekuensi tinggi dengan panjang satu.
Iterasi kedua menghasilkan 2-itemset yang tiap set-nya memiliki dua item.
Pertama dibuat kandidat 2-itemset dari kombinasi semua 1-itemset. Lalu untuk tiap
kandidat 2-itemset ini dihitung support-nya dengan men-scan database. Support disini
artinya jumlah transaksi dalam database yang mengandung kedua item dalam kandidat
2-itemset. Setelah support dari semua kandidat 2-itemset didapatkan, kandidat 2-itemset
yang memenuhi syarat minimum support dapat ditetapkan sebagai 2-itemset yang juga
merupakan pola frekuensi tinggi dengan panjang 2.
Untuk selanjutnya pada iterasi ke-k dapat dibagi lagi menjadi beberapa bagian :
1. Pembentukan kandidat itemset, Kandidat k-itemset dibentuk dari kombinasi (k-1)itemset yang didapat dari iterasi sebelumnya. Satu ciri dari algoritma Apriori adalah
adanya pemangkasan kandidat k-itemset yang subset-nya yang berisi k-1 item tidak
termasuk dalam pola frekuensi tinggi dengan panjang k-1
2. Penghitungan support dari tiap kandidat k-itemset. Support dari tiap kandidat
k-itemset didapat dengan men-scan database untuk menghitung jumlah transaksi yang
16
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
memuat semua item di dalam kandidat k-itemset tsb. Ini adalah juga ciri dari algoritme
Apriori dimana diperlukan penghitungan dengan scan seluruh database sebanyak kitemset terpanjang.
3. Tetapkan pola frekuensi tinggi. Pola frekuensi tinggi yang memuat k item
atau k-itemset ditetapkan dari kandidat k-itemset yang support-nya lebih besar dari
minimum support.
4. Bila tidak didapat pola frekuensi tinggi baru maka seluruh proses dihentikan.
Bila tidak, maka k ditambah satu dan kembali ke bagian 1.
Pseudocode dari algoritma Apriori dapat dilihat di Gambar berikut :
Bab 11 Algoritma K-Means
11.1 Pengertian
K-Means merupakan metode klasterisasi yang paling terkenal dan banyak
digunakan di berbagai bidang karena sederhana, mudah diimplementasikan, memiliki
kemampuan untuk mengklaster data yang besar, mampu menangani data outlier, dan
kompleksitas waktunya linear O(nKT) dengan n adalah jumlah dokumen, K adalah
jumlah kluster, dan T adalah jumlah iterasi. K-means merupakan metode pengklasteran
secara partitioning yang memisahkan data ke dalam kelompok yang berbeda. Dengan
partitioning secara iteratif, KMeans mampu meminimalkan rata-rata jarak setiap data ke
klasternya. Metode ini dikembangkan oleh Mac Queen pada tahun 1967.
11.2 Konsep dasar
17
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Dasar algoritma K-means adalah sebagai berikut :
1. Tentukan nilai k sebagai jumlah klaster yang ingin dibentuk.
2. Bangkitkan k centroid (titik pusat klaster) awal secara random.
3. Hitung jarak setiap data ke masing-masing centroid menggunakan rumus korelasi
antar dua objek yaitu Euclidean Distance dan kesamaan Cosine.
4. Kelompokkan setiap data berdasarkan jarak terdekat antara data dengan centroidnya.
5. Tentukan posisi centroid baru ( k C ) dengan cara menghitung nilai rata-rata dari
data-data yang ada pada centroid yang sama.
Dimana k n adalah jumlah dokumen dalam cluster k dan i d adalah dokumen dalam
cluster k.
6. Kembali ke langkah 3 jika posisi centroid baru dengan centroid lama tidak sama.
Adapun karakteristik dari algoritma K-Means salah satunya adalah sangat
sensitif dalam penentuan titik pusat awal klaster karena K-Means membangkitkan titik
pusat klaster awal secara random. Pada saat pembangkitan awal titik pusat yang random
tersebut mendekati solusi akhir pusat klaster, K-Means mempunyai posibilitas yang
tinggi untuk menemukan titik pusat klaster yang tepat. Sebaliknya, jika awal titik pusat
tersebut jauh dari solusi akhir pusat klaster, maka besar kemungkinan ini menyebabkan
hasil pengklasteran yang tidak tepat. Akibatnya K-Means tidak menjamin hasil
pengklasteran yang unik. Inilah yang menyebabkan metode K-Means sulit untuk
mencapai optimum global, akan tetapi hanya minimum lokal. Selain itu, algoritma KMeans hanya bisa digunakan untuk data yang atributnya bernilai numeric.
Bab 12. Sequential Pattern
12.1 pengertian
•
•
Terdapat:
–
Database sequence
–
Minimum menetapkan user yang mendukung(support), minsup
Task:
18
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
–
Menemukan semua subsequence dengan user yang mendukup ≥ minsup
12.2 Konsep dasar
Contoh
:
Sequential Pattern Mining
Object
A
A
A
B
B
C
C
C
D
D
D
E
E
Timestamp
1
2
3
1
2
1
2
3
1
2
3
1
2
Events
1,2,4
2,3
5
1,2
2,3,4
1, 2
2,3,4
2,4,5
2
3, 4
4, 5
1, 3
2, 4, 5
19
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
20
Download