Text dan Web Mining Budi Susanto Teknik Informatika UKDW Yogyakarta Deskripsi Matakuliah ini secara prinsip menekankan tentang teknik-teknik yang perlu diketahui mahasiswa dalam mengelola kumpulan dokumen teks dan atau web dalam skala cukup besar. Pengelolaan tidak hanya terkait tentang bagaimana mengatur penyimpanan, namun juga terkait dengan pemanfaatannya, antara lain untuk menunjang pencarian dokumen dengan menggunakan teknik information retrieval, penerapan konsep data mining pada kumpulan dokumen teks/web. Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami tentang: ● konsep umum text mining ● algoritma data mining dasar ● pembentukan vektor dokumen ● supervised ● unsupervised ● information retrieval ● link analysis dan web crawling. Silabus ● Pengantar Text Mining dan Intelligent Web ● Metode-metode dasar ● Dasar-dasar Data Mining: Association Rules ● Dasar-dasar Data Mining: Supervised Learning ● Dasar-dasar Data Mining: Unsupervised Learning ● Pembentukan Vektor Dokumen ● Information Retrieval: Indexing ● Retrieval Strategy (2 kali) ● Link Analysis ● Web Crawling Komposisi Nilai ● Tugas : 50% (ada 5 tugas yang terkait dengan struktur data dan algoritma) ● TTS : 20% ● TAS : 30% Referensi 1. Marmanis, H., Babenko, D. (2009). Algorithms of the intelligent web. Manning Publication Co. 2. Grossman, D.A., Frieder, O. (2004). Information retrieval: Algorithms and Heuristics, 2nd edition. Springer. 3. Konchady, M. (2006). Text mining application programming. Charles River Media. 4. Liu, B. (2007). Web data mining: Exploring hyperlinks, contents, and usage data. Springer. 5. Weiss, S. M., Indurkhya, N., Zhang, T., Damerau, F. J. (2005). Text mining: Predictive methods for analyzing unstructured information. Springer. 6. Wittern, I.H., Frank, E. (2005). Data mining: Practical machine learning tools and techniquues. Elsevier Inc. Pengantar Text Mining dan Intelligent Web budi susanto Data Warehouse ● Data warehouse merupakan suatu rekaman dari informasi transaksional dan operasional yang telah lalu yang disimpan dalam suatu database yang dirancang agar dapat melakukan pelaporan dan analisis data yang efisien. ● Data warehouse tidak diperuntukkan untuk data yang sedang digunakan saat ini. ● Data warehouse seringkali menyimpan informasi dalam jumlah besar yang terkadang juga dibagi menjadi unit-unit logika yang lebih kecil yang disebut dependent data mart. Pembuatan Data Warehouse ● menggabungkan data dari struktur database yang tersebar dan berbeda yang dapat memberikan fasilitas gambaran global dan analisis komprehensif dalam data warehouse; ● memisahkan antara data yang digunakan dalam operasi sehari-hari dengan data yang digunakan dalam data warehouse untuk tujuan pelaporan, pendukung keputusan, analisis dan pengendalian. Blok Proses Datawarehouse Data Mining ● Data mining adalah suatu proses yang secara otomatis mencari atau menemukan informasi yang bermanfaat dari suatu kumpulan data yang besar. ● Tidak semua tugas penemuan informasi disebut sebagai data mining. ○ Sebagai contoh, pencarian data pribadi dengan menggunakan sebuah sistem manajemen basis data, atau ○ pencarian suatu halaman web tertentu dengan cara melakukan query pada search engine di Internet. ○ Pekerjaan-pekerjaan seperti itu merupakan bidang Information Retrieval. Tahapan Data Mining Data Mining lebih dekat pada bidang pencarian pengetahuan dalam basis data (knowledge discovery in database / KDD), yang merupakan proses konversi dari data mentah menjadi informasi yang bermanfaat. Kelompok Data Mining Data mining dibagi dalam dua kelompok jenis tugas analisis data: ● predictive task ○ bertugas untuk memprediksi nilai sebuah atribut tertentu (target) didasarkan pada nilai atribut lain (explanatory) ● descriptive task ○ bertugas mendapatkan pola analisis asosiasi (association analysis), pengelompokan (clustering), penyimpangan (anomaly detection) yang meringkas hubungan-hubungan dalam data. Text Mining ● Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaitu proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk tujuan tertentu. ● Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur. Tahapan Text Mining Masalah Umum yang ditangani ● Klasifikasi Dokumen ● Information Retrieval ● Pengorganisasian dan Clustering Dokumen ● Information Extraction Clustering Dokumen Analisis Cluster ● Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. ● Pola-pola dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam cluster yang lainnya. Analisis Cluster ● Clustering bermanfaat untuk melakukan analisis pola-pola yang ada, mengelompokkan, membuat keputusan dan machine learning, termasuk data mining, document retrieval, segmentasi citra, dan klasifikasi pola. ● Metodologi clustering lebih cocok digunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya. Information Retrieval Information Retrieval Konsep dasar dari IR adalah pengukuran kesamaan ● sebuah perbandingan antara dua dokumen, mengukur sebearapa mirip keduanya. Setiap input query yang diberikan, dapat dianggap sebagai sebuah dokumen yang akan dicocokan dengan dokumendokumen lain. Pengukuran kemiripan serupa dengan metode klasifikasi yang disebut metode nearest-neighbour. Information Extraction Information Extraction ● Information Extraction bermanfaat untuk menggali struktur informasi dari sekumpulan dokumen. ● Dalam menerapkan IE, perlu sekali dilakukan pembatasan domain problem. ● IE sangat memerlukan NLP untuk mengetahui gramatikal dari setiap kalimat yang ada. ● Sebagai contoh: ○ “Indonesia dan Singapore menandatangani MoU kerjasama dalam bidang informasi dan komunikasi.” ○ KerjaSama(Indonesia, Singapore, TIK) Information Extraction ● Dengan IE, kita dapat menemukan: ○ concepts (CLASS) ○ concept inheritance (SUBCLASS-OF) ○ concept instantiation (INSTANCE-OF) ○ properties/relations (RELATION) ○ domain and range restrictions (DOMAIN/RANGE) ○ equivalence Web Mining: Karakteristik Web ● jumlah data/informasi di web sangat besar dan terus bertambah. ● tipe data beragam ● informasi pada web sangat beragam. ● informasi-informasi di web saling terhubung. ● informasi di web sangat "kotor". ● web juga merupakan service. ● web dinamis ● web merupakan sarana komunitas sosial virtual. Web Mining Web Mining bertujuan untuk menemukan informasi atau pengetahuan dari ● Web hyperlink structure ○ contoh: ■ menemukan halaman web terpenting ■ menemukan komunitas pemakai yang berbagi ketertarikan topik yang sama ● page content ● usage data. ○ contoh: ■ menemukan pola akses pemakai terhadap web, melalaui click stream. Sekian!