Text dan Web Mining

advertisement
Text dan Web Mining
Budi Susanto
Teknik Informatika UKDW
Yogyakarta
Deskripsi
Matakuliah ini secara prinsip menekankan tentang teknik-teknik
yang perlu diketahui mahasiswa dalam mengelola kumpulan
dokumen teks dan atau web dalam skala cukup besar.
Pengelolaan tidak hanya terkait tentang bagaimana mengatur
penyimpanan, namun juga terkait dengan pemanfaatannya,
antara lain untuk menunjang pencarian dokumen dengan
menggunakan teknik information retrieval, penerapan konsep
data mining pada kumpulan dokumen teks/web.
Kompetensi Matakuliah
Setelah mengikuti matakuliah ini, mahasiswa dapat memahami
tentang:
● konsep umum text mining
● algoritma data mining dasar
● pembentukan vektor dokumen
● supervised
● unsupervised
● information retrieval
● link analysis dan web crawling.
Silabus
● Pengantar Text Mining dan Intelligent Web
● Metode-metode dasar
● Dasar-dasar Data Mining: Association Rules
● Dasar-dasar Data Mining: Supervised Learning
● Dasar-dasar Data Mining: Unsupervised Learning
● Pembentukan Vektor Dokumen
● Information Retrieval: Indexing
● Retrieval Strategy (2 kali)
● Link Analysis
● Web Crawling
Komposisi Nilai
● Tugas : 50% (ada 5 tugas yang terkait dengan struktur data
dan algoritma)
● TTS : 20%
● TAS : 30%
Referensi
1. Marmanis, H., Babenko, D. (2009). Algorithms of the
intelligent web. Manning Publication Co.
2. Grossman, D.A., Frieder, O. (2004). Information retrieval:
Algorithms and Heuristics, 2nd edition. Springer.
3. Konchady, M. (2006). Text mining application programming.
Charles River Media.
4. Liu, B. (2007). Web data mining: Exploring hyperlinks,
contents, and usage data. Springer.
5. Weiss, S. M., Indurkhya, N., Zhang, T., Damerau, F. J.
(2005). Text mining: Predictive methods for analyzing
unstructured information. Springer.
6. Wittern, I.H., Frank, E. (2005). Data mining: Practical
machine learning tools and techniquues. Elsevier Inc.
Pengantar Text Mining dan
Intelligent Web
budi susanto
Data Warehouse
● Data warehouse merupakan suatu rekaman dari informasi
transaksional dan operasional yang telah lalu yang
disimpan dalam suatu database yang dirancang agar dapat
melakukan pelaporan dan analisis data yang efisien.
● Data warehouse tidak diperuntukkan untuk data yang
sedang digunakan saat ini.
● Data warehouse seringkali menyimpan informasi dalam
jumlah besar yang terkadang juga dibagi menjadi unit-unit
logika yang lebih kecil yang disebut dependent data mart.
Pembuatan Data Warehouse
● menggabungkan data dari struktur database yang tersebar
dan berbeda yang dapat memberikan fasilitas gambaran
global dan analisis komprehensif dalam data warehouse;
● memisahkan antara data yang digunakan dalam operasi
sehari-hari dengan data yang digunakan dalam data
warehouse untuk tujuan pelaporan, pendukung keputusan,
analisis dan pengendalian.
Blok Proses Datawarehouse
Data Mining
● Data mining adalah suatu proses yang secara otomatis
mencari atau menemukan informasi yang bermanfaat dari
suatu kumpulan data yang besar.
● Tidak semua tugas penemuan informasi disebut sebagai
data mining.
○ Sebagai contoh, pencarian data pribadi dengan
menggunakan sebuah sistem manajemen basis data,
atau
○ pencarian suatu halaman web tertentu dengan cara
melakukan query pada search engine di Internet.
○ Pekerjaan-pekerjaan seperti itu merupakan bidang
Information Retrieval.
Tahapan Data Mining
Data Mining lebih dekat pada bidang pencarian pengetahuan
dalam basis data (knowledge discovery in database / KDD),
yang merupakan proses konversi dari data mentah menjadi
informasi yang bermanfaat.
Kelompok Data Mining
Data mining dibagi dalam dua kelompok jenis tugas analisis
data:
● predictive task
○ bertugas untuk memprediksi nilai sebuah atribut tertentu
(target) didasarkan pada nilai atribut lain (explanatory)
● descriptive task
○ bertugas mendapatkan pola analisis asosiasi
(association analysis), pengelompokan (clustering),
penyimpangan (anomaly detection) yang meringkas
hubungan-hubungan dalam data.
Text Mining
● Text mining merupakan penerapan konsep dan teknik data
mining untuk mencari pola dalam teks, yaitu proses
penganalisisan teks guna menyarikan informasi yang
bermanfaat untuk tujuan tertentu.
● Berdasarkan ketidakteraturan struktur data teks, maka
proses text mining memerlukan beberapa tahap awal yang
pada intinya adalah mempersiapkan agar teks dapat diubah
menjadi lebih terstruktur.
Tahapan Text Mining
Masalah Umum yang ditangani
● Klasifikasi Dokumen
● Information Retrieval
● Pengorganisasian dan Clustering Dokumen
● Information Extraction
Clustering Dokumen
Analisis Cluster
● Analisis cluster adalah pengorganisasian kumpulan pola ke
dalam cluster (kelompok-kelompok) berdasar atas
kesamaannya.
● Pola-pola dalam suatu cluster akan memiliki kesamaan
ciri/sifat daripada pola-pola dalam cluster yang lainnya.
Analisis Cluster
● Clustering bermanfaat untuk melakukan analisis pola-pola
yang ada, mengelompokkan, membuat keputusan dan
machine learning, termasuk data mining, document
retrieval, segmentasi citra, dan klasifikasi pola.
● Metodologi clustering lebih cocok digunakan untuk
eksplorasi hubungan antar data untuk membuat suatu
penilaian terhadap strukturnya.
Information Retrieval
Information Retrieval
Konsep dasar dari IR adalah pengukuran kesamaan
● sebuah perbandingan antara dua dokumen, mengukur
sebearapa mirip keduanya.
Setiap input query yang diberikan, dapat dianggap sebagai
sebuah dokumen yang akan dicocokan dengan dokumendokumen lain.
Pengukuran kemiripan serupa dengan metode klasifikasi yang
disebut metode nearest-neighbour.
Information Extraction
Information Extraction
● Information Extraction bermanfaat untuk menggali struktur
informasi dari sekumpulan dokumen.
● Dalam menerapkan IE, perlu sekali dilakukan pembatasan
domain problem.
● IE sangat memerlukan NLP untuk mengetahui gramatikal
dari setiap kalimat yang ada.
● Sebagai contoh:
○ “Indonesia dan Singapore menandatangani MoU
kerjasama dalam bidang informasi dan komunikasi.”
○ KerjaSama(Indonesia, Singapore, TIK)
Information Extraction
● Dengan IE, kita dapat menemukan:
○ concepts (CLASS)
○ concept inheritance (SUBCLASS-OF)
○ concept instantiation (INSTANCE-OF)
○ properties/relations (RELATION)
○ domain and range restrictions (DOMAIN/RANGE)
○ equivalence
Web Mining: Karakteristik Web
● jumlah data/informasi di web sangat besar dan terus
bertambah.
● tipe data beragam
● informasi pada web sangat beragam.
● informasi-informasi di web saling terhubung.
● informasi di web sangat "kotor".
● web juga merupakan service.
● web dinamis
● web merupakan sarana komunitas sosial virtual.
Web Mining
Web Mining bertujuan untuk menemukan informasi atau
pengetahuan dari
● Web hyperlink structure
○ contoh:
■ menemukan halaman web terpenting
■ menemukan komunitas pemakai yang berbagi
ketertarikan topik yang sama
● page content
● usage data.
○ contoh:
■ menemukan pola akses pemakai terhadap web,
melalaui click stream.
Sekian!
Download