Text Mining dan Knowledge Discovery

advertisement
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
Text Mining dan Knowledge Discovery
Igg Adiwijaya Ph.D.
EMC Corporation
[email protected]
Abstract
Pesatnya pengunaan dan adopsi Internet telah memacu pertumbuhan dan pertukaran informasi yang sangat
pesat dibandingkan era sebelumnya. Sebagai akibatnya, jumlah informasi terus meningkat secara
exponensial. Walau perkembangan ini memungkinan informasi untuk di akses penguna dengan mudah,
jumlah yang terkendalikan ini telah menimbulkan isu and tantangan yang besar. Tidak hanya di Internet,
jumlah informasi, terutama dalam bentuk dokumen atau text, juga di hasilkan, di koleksi, dan di konsumsi
dalam jumlah yang tidak kalah besar di berbagai institusi dan perusahaan. Akses dan pengunaan akan
informasi text yang tidak lagi di dominasi oleh ahli riset, spesialis analisa dan informasi, dan librarian
seperti di era sebelumnya telah membuat tantangan menjadi lebih komplex.
Untuk e-Kolokium text mining ini, saya akan memberikan gambaran secara garis besar terhadap bidang
text mining yang sedang berkembang. Didalamnya, saya akan diskusikan issue dan tantangan yang di
hadapi di bidang text mining. Untuk setiap tantangan, saya akan presentasikan solusi-solusi yang telah di
hasilkan oleh ahli-ahli riset di dunia dan kekurangannya. Pada akhir makalah, saya akan ulas issue dan
tantangan text mining yang saya hadapi sekarang, khususnya di bidang “knowledge discovery”.
1 Introduksi
Pesatnya pengunaan dan adopsi Internet telah
memacu pertumbuhan dan pertukaran informasi
yang sangat pesat dibandingkan era sebelumnya.
Sebagai akibatnya, jumlah informasi terus
meningkat secara exponensial, - lebih dari 550
triliun dokumen saat ini. 7.3 juta Internet page
baru tiap hari nya. Walau perkembangan ini
memungkinan informasi untuk di akses penguna
dengan mudah, jumlah yang terkendalikan ini
telah menimbulkan isu and tantangan yang besar.
Tidak hanya di Internet, jumlah informasi,
terutama dalam bentuk dokumen atau text, juga
di hasilkan, di koleksi, dan di konsumsi dalam
jumlah yang tidak kalah besar di berbagai
institusi dan perusahaan. Sebagai contoh, survey
yang di selengarakan oleh “Database Trend and
Application” dan “QL2 Sofware” di awal tahun
2006 menunjukan 86% lebih informasi yang di
hasilkan dan dikonsumsikan oleh staff
perusahaan besar di Amerika Utara dan Eropa
adalah dalam bentuk “unstructured text”. 8085% dari total data di dalam database ada dalam
bentuk text[2]. 80% dari knowledge di bidang
biology dan medical ditemukan di paper riset.
Format file yang populer termasuk MS Word,
MS Excel, MS PPT, Email, PDF, dan Txt. Ini
menunjukan akses dan pengunaan akan
informasi text yang tidak lagi di dominasi oleh
ahli riset, spesialis analisa dan informasi, dan
librarian seperti di era sebelumnya. Pencarian
dan konsumsi informasi text telah menjadi
sesuatu yang umum untuk semua tipe pengguna
dengan kepentingan yang berbeda.
Situasi saat ini telah menghasilkan 'success
story' di bidang solusi dan tool untuk membantu
penguna mencari dan mengorganisasi informasi
dalam jumlah besar, mulai dari AltaVista
sampai
Google
sekarang.
Dikarenakan
kemampuan penguna untuk menerima dan
mencerna informasi yang terbatas, “search
engines” disisi lain telah mempersulit kita untuk
mencerna informasi dengan cepat dan efektif.
“Push technology” dan mudahnya kita
mendapatkan informasi melalui search engine,
hanya dengan menekan beberapa tombol
komputer, telah membuat penguna terus
berlomba mengikuti informasi, perkembangan
berita, dan events yang terbaru. Informasi
overload seperti ini adalah salah satu isu yang di
jawab oleh Text Mining.
Text mining bisa dibilang subyek riset yang
tergolong baru. text mining memberikan solusi
pada masalah-masalah dalam memproses,
mengorganisasi, dan menganalisa unstructured
text dalam jumlah besar. Dalam memberikan
solusi,
text
mining
mengadopsi
dan
mengembangkan banyak teknik dan solusi dari
1
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
bidang lain, seperti Data Mining, Information
Retrieval, Statistik dan Matematik, Machine
Learning, Linguistic, Natural Language
processing, dan Visualization. Kegiatan riset
untuk text mining terdiri dari ekstraksi dan
penyimpanan text, “preprocessing” akan konten
text, pengumpulan data statistik dan indexing,
analisa konten, dan presentasi. Organisasi eKolokium ini adalah sebagai berikut. Sesi 2
akan mendiskusikan definisi dan tujuan text
timing yang lebih dalam. Sub-aktivitas text
mining yang berbeda di jabarkan di sesi ke 3. Di
sesi ke 4, saya akan diskusikan riset saya di
bidang “Knowledge Discovery” dan Integrasi.
Sesi 5 adalah sesi penutup.
2 Text Mining: Definisi
Apa sih arti text mining yang sebenarnya?
Definisi akan text mining sudah sering di
berikan oleh banyak ahli riset dan praktisi [1, 2,
3]. Seperti hal nya data mining, text mining
adalah proses penemuan akan informasi atau
trend baru yang sebelumnya tidak terungkap
dengan memproses dan menganalisa data dalam
jumlah besar. Dalam menganalisa sebagian atau
keseluruhan unstructured text, text mining
mencoba untuk mengasosiasikan satu bagian
text dengan yang lainnya berdasarkan aturanaturan tertentu. Hasil yang di harapkan adalah
informasi baru atau “insight” yang tidak
terungkap jelas sebelumnya. Wikipedia [37]
mendefinisikan text mining sebagai berikut.
“Text mining, also known as intelligent text
analysis, text data mining , unstructured data
management, or knowledge discovery in text …,
refers generally to the process of extracting
interesting and non-trivial information and
knowledge (usually converted to metadata
elements) from unstructured text (i.e. free text)
stored in electronic form.”
Seperti halnya data mining, text mining juga
menghadapi masalah yang sama, termasuk
jumlah data yang besar, dimensi yang tinggi,
data dan struktur yang terus berubah, dan data
“noise.” Berbeda dengan data mining yang
utamanya memproses structured data, data yang
digunakan text mining pada umumnya dalam
bentuk unstructured, atau minimal semistructured, text. Akibatnya, text mining
mempunyai tantangan tambahan yang tidak di
temui di data mining, seperti struktur text yang
complex dan tidak lengkap, arti yang tidak jelas
dan tidak standard, dan bahasa yang berbeda
ditambah translasi yang tidak akurat.
Dikarenakan structured data ditujukan agar
mudah di proses komputer secara automatic,
pre-process data di data mining jauh lebih
mudah dilakukan dari pada pada unstructured
text. Text di ciptakan bukan untuk di gunakan
oleh mesin, tapi untuk dikonsumsi manusia
langsung. Karena itu, pada umumnya “Natural
Language
Processor”
digunakan
untuk
memproses unstructured text. Hearst [1]
mempertanyakan pengunaan kata ‘mining’ di
data mining dan text mining. Kata ‘mining’
memberikan arti dimana fakta-fakta atau relasirelasi baru dihasilkan dari proses me-‘mining’
data. Dia mengklaim bahwa aktivitas data
mining lebih memfocuskan pada penemuan
trend dan pattern yang sebenarnya sudah ada.
Sedangkan ahli text mining yang lain
beranggapan bahwa text mining adalah proses
penemuan kembali relasi dan fakta yang
terkubur didalam text, dan tidak harus baru.
Ulasan di berikutnya sedikit mengikuti definisi
text mining oleh Hearst. Seperti di sebutkan
sebelumnya, Text mining telah mengadopsi
teknik yang di gunakan di bidang natural
language processing
dan
computational
linguistics. Walaupun teknik di computational
linguistics bisa dibilang maju dan cukup akurat
untuk mengekstrak informasi, tujuan text mining
bukan hanya mengekstrak informasi. Melainkan
untuk menemukan pattern dan informasi baru
yang belum terungkapkan [4], yang sulit
ditemukan tanpa analisa yang dalam. Walau
kemampuan
komputer
untuk
mencapai
kemampuan untuk memproses text seperti
manusia sangat sulit, bila tidak mustahil, telah
banyak teknik-teknik baru di computational
linguistics yang bisa membantu text mining
untuk mencerna text lebih jauh lagi.
Sering kali penguna search engine di Internet
menganggap search engine sebagai salah satu
implementasi text mining. Andil utama search
engine hanyalah menyingkirkan text yang tidak
memiliki kata-kunci yang di cari pengunna. Dan
lagi penguna search engine mengetahui
sebelumnya text seperti apa yang hendak dia
cari. Bisa dibilang kalau pencarian seperti ini
termasuk dalam “Information Retrieval.” Focus
information retreieval adalah menemukan
2
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
dokumen atau text yang memenuhi kriteria
pencari. Text mining lebih memfocuskan pada
relasi dan co-existence dari satu dokumen
dengan yang lainnya. Walaupun text mining
lebih dari information retrieval, text mining
telah mengadopsi information retrieval untuk
menyaring dan mengurangi jumlah informasi
untuk diproses selanjutnya. Methode statistik
juga sudah mulai sering di gunakan dan di
adopsi di computational linguistics dan
information retrieval yang nanti nya bisa
memberikan tool yang lebih baik dan akurat
untuk text mining.
Banyak juga ahli riset yang menkategorikan
document categorization sebagai text mining.
Walau kategorisasi dokumen dapat memberikan
label dan kesimpulan yang akurat pada
dokumen-dokumen
tertentu,
ini
tidak
menghasilkan fakta-fakta atau relasi yang baru.
Tetapi bilamana label-label atau kesimpulankesimpulan yang di hasilkan di analisa dan di
korelasikan lebih lanjut, ini bisa menghasilkan
fakta dan relasi baru antara group-group
dokumen yang berbeda. Kegiatan seperti ini bisa
di masukan dalam text mining.
2.1 Aplikasi text mining
Aplikasi text mining bisa di bagi berdasarkan
tipe unstructured text yang di proses. Untuk
ustructured text dalam bentuk emails, intant
messages, dan blogs, pada umumnya penguna
ingin mencari atau “mine” informasi mengenai
orang (seperti email pengirim, alamat, nama
lengkap, dll), perusahaan (seperti nama lengkap
dan lokasi), organisasi, dan kejadian-kejadian
(seperti penemuan baru, pengumuman penting,
dll). Untuk berita dari berbagai sumber, text
mining bisa di gunakan untuk membandingkan
berita yang sama atau berbeda yang berasal dari
sumber yang berbeda, mungkin dengan bahasa
yang berbeda. Lebih jauh lagi adalah analisa dan
organisasi isi berita berdasarkan waktu publikasi
(atau “temporal analysis”). Text mining juga
bisa membantu untuk proses “deduplication” di
sini. Untuk buku-buku dan artikel-artikel
science, text mining di butuhkan untuk
mendeteksi trend di bidang riset tertentu. Salah
satu cara yang bisa di lakukan adalah dengan
memonitor jumlah publikasi untuk bidang riset
tertentu untuk jangka waktu tertentu. Hasil-hasil
untuk bidang riset yang berbeda bisa di
bandingkan dan di analisa guna memberikan
hasil trend yang berarti.
Untuk technical working paper, documentasi,
dan software specifikasi dokumen, text mining
bisa di gunakan untuk mengekstrak software
requirement dari spesifikasi dokumen secara
otomatis atau mendeteksi ke kurangan antara
source code dan documentasinya secara
otomatis. For web pages, text mining bisa di
gunakan untuk menganalisa website perusahaan,
structur websitenya, perbandingan website
content yang satu dengan site yang lain. Masih
banyak lagi aplikasi text mining yang di
butuhkan.
3. Proses Text Mining
Proses text mining mencakup beberapa sub-task,
seperti information retrieval, categorization,
POS tagging, Clustering, dan lainnya, yang bisa
di
katergorikan
kedalam
framework
“Knowledge Discovery in Databases” (KDD)
[5],
yang
tidak
lain
adalah
proses
mengidentifikasikan pattern di dalam data yang
benar, unik, berguna, dan dimengerti. KDD
proses interaktif, bisa berulang, dan terdiri dari
step Selection, Preprocessing, Transformation,
Data Mining, dan Interpretation/Evaluation.
Dalam sesi ini, proses dan kegiatan text mining
yang beragam akan saya coba assosiasikan
dengan KDD step dan ulas secara singkat.
3.1 Selection
KDD Selection mencakup penseleksian data set
dan sample. Focus nya ada pada tipe discovery
yang ingin di lakukan. Activitas text mining
yang bisa masuk dalam phase ini termasuk
Information Retrieval, Categorization, dan
Clustering. Tujuan information retrieval adalah
untuk mengubah unstructured text menjadi
structured data atau format yang mudah untuk di
proses lebih lanjut nantinya. Contonya, email
body di proses secara automatic untuk
mendapatkan nama, email address, alamat,
telephone, dan information yang relevan lainnya.
Sudah banyak teknik information retrieval untuk
berbagai domain. Freitag et. al. [6] mengadopsi
wrapper teknik, dengan extraction dan engine
rule, to perform information retreival untuk
bagian tertentu di dalam unstructured text.
Wrapper mempunyai kemampuan mesin
3
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
learning. Banyak teknik-teknik information
retrieval untuk web pages telah di propose oleh
beberapa ahli riset, seperti Eikvil [7] dan
Cunningham [8].
KDD Categorization memfocuskan pada proses
peng-“assign”-an documen secara otomatis
terhadap koleksi class yang telah disiapkan
sebelumnya. Teknik categorization yang populer
untuk text mining adalah mengadopsi
information retrieval atau machine learning.
Sub-activitas text categorization mencakup
content representation, seleksi fitur, extraksi
fitur, dan pengunaan machine learning untuk
adaptasi pengklasifikasian secara semi-otomatis.
Sebagian dari peneliti di sub-activitas
categorization termasuk [10, 11, 12, 13, 14, 15].
Survey akan pengunaan machine learning untuk
text categorization dapat di simak di Sebastiani
[9].
Tujuan Clustering adalah untuk memisahkan
sekumpulan dokumen kedalam beberapa group
atau kluster dengan menilai kemiripan antar
dokumen dari segi kontent. Subactivitas
clustering termasuk representasi dokumen,
penurunan dimensi, pengunaan cluster algorithm,
dan evaluasi. Riset di text clustering ini sudah
banyak dikerjakan, termasuk oleh [16, 17, 18,
19].
3.2 Preprocessing
KDD Preprocessing memfocuskan pada data
cleaning & cleansing, termasuk menghilangkan
noise di data, atau mengadaptasi noise, dan
mengatasi informasi yang hilang atau tidak
komplit. Text mining activitas seperti POS (Part
of Speech) Tagging dan Disambiguation bisa
dimasukan dalam phase KDD preprocessing.
POS Tagging bisa dikatakan sebagai aktivitas
yang tujuannya memberikan label pada setiap
kata dalam kalimat dan mengasosiasikan dengan
“speech” yang relevan. Tambah banyak tag
dipakai untuk label, tambah complex dan rendah
performance. Beberapa teknik POS Tagging
telah di kemukakan, termasuk Markov Models
oleh [20], Hidden markov Models oleh [21], dan
Transformation-based [22]. Manning et.al. [23]
survey memberikan ulasan luas aka POS
Tagging.
Disambiguation
adalah
activitas
untuk
menentukan arti atau sense akan kata-kata yang
tidak jelas atau ambiguos. Kata ‘Cold’ adalah
contoh yang mudah. Cold bisa berarti suhu yang
dingin, atau bisa juga berarti penyakit “flu”
tergantung akan kontex yang dibicarakan.
Disambiguation cocok sebagai “intermediate”
step untuk selanjutnya di teruskan ke machine
learning, information extraction, term clustering,
atau spelling correction. Dictionary atau training
rule bisa digunakan sebagai solusi terhadap
disambiguation.
Manning
et.al.
[23]
memberikan
survey
akan
riset
pada
disambiguation.
3.3 Transformation
Tranformation step bertujuan untuk menemukan
fitur-fitur yang tersimpan di dalam data yang
penting berdasarkan kebutuhan yang diperlukan.
Proses ini juga bertujuan untuk mengurangi
jumlah variabel dan data yang tidak terlalu di
perlukan. Disambiguation dan Term Clustering
termasuk dalam kategori ini. Disambiguation
telah di jelaskan sebelumnya. Sedangkan Term
Clustering adalah activitas untuk menciptakan
model yang bisa digunakan untuk meng-index
dokumen pada tahap yang berbeda. Tehnik
disini termasuk pembentukan thesaurus atau
ontology secara otomatis dan mengunakan index
semantic. Thesaurus atau ontology terdiri dari
konsep atau terminology dan relationship antar
konsep. Riset awal di term clustering di mulai
dari information retrieval. Teknik untuk
document clustering sering kali di pakai untuk
term clustering [26 and 23].
Saya sendiri melakukan riset di Automatic
Ontology Integration. Tambah lengkap kosakata dan relationship antar kata, tambah lebih
akurat hasil dari transformation activitas.
Idealnya kita memerlukan ontology selengkap
mungkin. Tapi kadang ontology yang tersedia
sangat terbatas. Salah satu cara untuk
mendapatkan ontology yang lebih lengkap
adalah dengan mengabungkan ontology dari
berbagai sumber untuk domain yang sama atau
berhubungan. Contohnya, medical ontology.
Medical ontology versi Inggris bisa di dapat
dari MeSH (Medical Subject Heading),
SNOMED, UMLS, dan yang lainnya. Tantangan
yang dihadapi disini adalah menyediakan
mekanisme integrasi yang otomatis, atau
4
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
minimal semi-otomatis. Salah satu cara yang
telah saya berhasil capai adalah dengan
mengekploitasi tipe relasi antar konsep yang
tersedia, di bantu dengan memberikan sample
“matching” konsep antara dua ontology yang
berbeda. Sebagai contoh, UMLS terdiri lebih
dari 900,000 konsep, 1.7 juta terminology, dan
sekitar 125 semantic dan hierarchy relationship.
Saya dan kawan riset saya berhasil
mengintegrasi dan menyesuaikan lebih dari 60%
dari total terminology antara UMLS dengan
MeSH secara otomatis hanya dengan
membandingkan
125
relationships
dan
memberikan beberapa sample konsep yang
sebanding antara ke dua ontology.
3.4 Data Mining
Process Data Mining bertujuan untuk
menghasilkan patterns yang berguna dari
koleksi text. Activitas text mining untuk step
data mining terdiri dari pemilihan mining teknik
yang benar, penentuan mining model dan
parameters. Term Clustering dan Parsial Parsing
bisa dimasuk dalam step ini. Parsial parsing atau
robust parsing bertujuan untuk mengidentifikasi
relationship yang lebih dalam antar kata-kata
dalam kalimat. Parsial parsing memerlukan hasil
dari POS Tagging dan biasanya di gunakan
secara bersamaan. Teknik pengunaan rule based
system, memory based system, statistical
method, atau kombinasi antar teknik banyak di
gunakan untuk parsial parsing. Survey dan riset
yang lebih detail bisa di simak di [27, 28].
3.5 Interpretation/Evaluation
Kegiatan Text mining yang bisa dikategorikan
di tahap Interpretation/Evaluation adalah text
Summarization. Tujuan text summarization
adalah untuk mengidentifikasikan key content
dari berbagai sumber data dimana key content
ini bisa merepresentatikan keseluruhan text
secara akurat. Text summarization bisa juga
disamakan dengan text classification. Sering kali
hasil dari text summarization di gunakan untuk
menjelaskan seluruh kontent text dengan
mengekstrak hanya keyword yang penting,
untuk menghidari membaca seluruh text, atau
untuk membantu proses text searching supaya
lebih cepat dan akurat dengan memfocuskan
hanya
pada
keyword
penting.
Text
summarization bisa dilakukan pada tiap-tiap
kata-kunci atau kalimat [29]. Teknik untuk text
summarization berdasarkan kalimat sering kali
diterapkan juga untuk text summarization
berdasarkan kata-kunci.
4 Knowledge Discovery and Mapping
4.1 Knowledge Discovery
Di sesi ini, saya ulas kegiatan riset saya di
bidang text mining (dan data mining), terutama
di field Knowledge Discovery dan Knowledge
Mapping. Di karenakan tehnologi yang terus
berkembang pesat, concept, terminology, dan
relationship baru dihasilkan dalam jumlah yang
cukup dan dengan frequensi yang cukup pesat.
Sebagai contoh, di bidang pharmasi dan
biotechnologi, product baru dengan brandname,
generic name, code name, dan synonym, terus di
hasilkan. Indication, symptom, therapy area,
mechanim of action, dan relationship antar
mereka yang baru terus di kembangkan. Di
bidang genomic, sequence dan nama protein
yang baru terus di hasilkan. Ini terindikasikan
dari terus bertambahnya data yang di simpan di
genomic data bank seperti GenBank, PDB, dan
SWISSProt.
Namun, seperti yang telah saya utarakan
sebelumnya, lebih dari 80% riset di science di
publikasikan melalu article, - unstructured text.
Untuk industri pharmasi dan biotech, organisasi
sering kali mengumumkan product dan
penemuan baru mereka di mas media.
Akibatnya,
penemuan
dan
terminology/relationship yang baru ini tidak
secepatnya di diseminasikan ke ahli-ahli yang
bersangkutan. Sering kali di butuhkan ekstraksi
terminology dan arti yang baru secara manual.
Sudah umum bilamana banyak informasi baru
yang tak terpakai atau hilang. Pentingnya
knowledge discovery akan terminology yang
baru ini juga sangat berarti dan dibutuhkan oleh
analis di bidang marketing, sales, investment,
business aquisisi, finance, dan lainnya. Investor
yang ketinggalan berita akan product launch
baru di media akan kehilangan kesempatan
untuk menanamkan modalnya semaksimal
mungkin di perusahaan yang bersangkutan.
Tantangan text mining disini tidak hanya
menemukan terminology dan relatioship baru di
dalam unstructured text, tapi juga hubungan
5
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
terminology/konsep yang baru itu dengan
knowledge base yang sudah terkumpul.
Contohnya, peneliti di “Alliance Corporation”
mengumumkan penemuan ‘Compound’ (atau
product
awal)
baru
dengan
nama
“Octafluoropropane” untuk mechanism yang
baru “Ultrasound contrast agent” di online masmedia. Ahli-ahli lain yang berkecimpung di
bidang yang sama sudah tentu ingin mengetahui
compound yang baru ini. Mereka ingin
mengetahui tidak hanya nama compound yang
baru, tapi juga siapa yang memproduksi, apa
symptom dan penyakit yang akan di tangulangi
compound baru ini, bila mechanim nya baru,
apa hubungannya dengan mechanim yang sudah
ada, apa status perkembangan product ini, siapa
yang akan me marketkan product ini nantinya,
apa tanggapan ahli-ahli lainnya, dan sebagainya.
Untuk menghadapi tantangan ini, diperlukan
kemampuan untuk menganalisa text yang
komprehensif, menciptakan summary text yang
akurat, dan juga mengklasifikasi unstructured
text. Hasil riset saya saat ini masih preliminari.
Untuk tantangan ini, saya mengadopsi dan
meningkatkan statistical inference teknik dengan
bayesian sequential analysis untuk meng-“infer”
relationships antara terminologi baru dan yang
sudah ada lainnya, terutama scientific
terminologi, dengan jarak sedekat mungkin di
dalam unstructured text yang bersangkutan.
Untuk meningkatkan akurasi hasil, saya
memakai domain-specific medical ontology
yang terdiri dari MeSH, UMLS, dan
SNOWMED. Automatic integration teknik yang
saya utarakan sebelumnya saya pakai untuk
menghasilkan lebih dari 1.7 juta terminologi dan
lebih dari 900 ribu konsep dengan
relationshipnya. Ontology yang comprehensive
seperti ini telah banyak membantu dalam
menentukan atau “infer” arti dan relationship
terminology yang baru [33,35].
4.2 Knowledge Mapping
Sering kali data yang sama disimpan di sumber
yang berbeda. Berita yang sama di sebarkan
oleh lebih dari satu siaran TV dan banyak online
media. Sering kali informasi yang sama dari
berbagai sumber sangat peting bagi penguna.
Salah satu tujuannya agar tidak salah informasi,
tidak kehilangan sebagian kecil pun data, dan
untuk perbandingan. Misalnya, market analis
memerlukan semua informasi akan perusahaan
tertentu, termasuk news, informasi stok,
informasi management, product, sales, revenue,
dan lainnya yang datang dari berbagai sumber.
Ahli pharmasi akan memerlukan seluruh data
untuk product, misalnya, “Octafluoropropane”,
termasuk produsen, indicasi, mechanism,
development status, negara, comment, dan
lainnya.
Sebagian tantangan yang di hadapi dalam
mengkoleksi informasi yang dibutuhkan dari
berbagai sumber adalah sebagai berikut
[30,31,32,33]. 1) jumlah data yang besar
menyebabkan pencarian yang memakan waktu.
Dan ini tergantung akan kecepatan dan
kemampuan masing-masing source servers. 2)
informasi yang tidak semuanya lengkap. 3)
Sumber data tidak selalu menyimpan data secara
konsisten dengan sumber yang lain. Ini
membuat “matching” informasi yang sama
menjadi susah. Di sesi ini saya akan focuskan
pada tantangan ke 3 dan akan saya ulas perlunya
text mining untuk menjawab tantangan ini.
Sebagai contoh, misalkan seorang peneliti ingin
meng-ekstrak
informasi
untuk
obat
“Octafluoropropane” dan informasi di simpan di
dua sumber data. Bila nama obat yang di pakai
di dua sumber data sama persis atau hampir
mirip, kedua informasi obat bisa di cocokan atau
di “map” dengan mudah. Bila tidak, attribute
yang sama persis bisa di bandingkan dan bila
sama persis, bisa di ambil kesimpulan bahwa
kedua obat itu sama dan bisa di cocokan. Sering
kali informasi yang sama di tempat yang
berbeda tidak di simpan semudah ini dan
ketidak cocokan sering kali terjadi untuk
informasi yang sama [34,36]. Contoh nyatanya,
gambar di bawah menunjukan hasil dari dua
sumber data untuk informasi obat yang sama.
6
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
Figure: Compound obat yang sama di dua sumber data yang berbeda
Seperti terlihat pada gambar diatas, compound
name tidak mirip sama sekali. Ini mungkin
dikarenakan salah satu sumber telat merubah
informasi. Attribute obat tidak mempunyai
schema yang sama, seperti company. Sumber
pertama hanya punya satu attribute, sedangkan
sumber kedua terbagi akan Originator,
Developer, dan Licensee. Granularity akan
attribute value juga berbeda. Contohnya, sumber
pertama memakai UK (negara) sebagai region,
sumber kedua memakai Europe (region). Masih
terdapat beberapa isu yang lainnya.
Dikarenakan pentingnya data seperti ini, tidak
hanya untuk peneliti, tapi juga market analysis,
investor, dan merger/acquisition department,
usaha untuk mencocokan informasi obat secara
otomatis atau semi-otomatis telat dilakukan oleh
database vendor yang utama. Drug database
vendor utama termasuk Thomson IDdb, Nielson
IMS Health, WolterKluwer Adis, dan
Pharmaprojects. Tiap-tiap database mempunyai
sedikitnya lebih dari 15,000 obat dari berbagai
dunia. Sebagai benchmark, hasil terbaik
menghasilkan sekitar 60% “matching”!
Saya dan ahli riset lain telah mencoba untuk
meningkatkan
hasil
matching
dengan
mengikutsertakan attribute values secara
semantic. Tiap-tiap attribute mempunyai
kepentingan yang berbeda untuk tujuan
matching. Contohnya, matching Highest Phase
lebih penting dari matching Country. Matching
yang cocok untuk Synonym bisa menghasilkan
‘incorrect” matching data. Semantic seperti ini
kita berikan ranking dan nilai semestinya.
Tantangan matching telah menjadi tantangan
memberikan total nilai matching dan ranking
untuk permbandingan 2 informasi obat. Kita
berhasil meningkatkan hasil matching obat
menjadi lebih dari 70%.
70% ini masih dibawah yang diharapkan. Salah
satu cara untuk meningkat hasil matching adalah
dengan menganalisa text summary data dan
articles (lihat gambar). Banyak informasi
penting dan berguna yang disimpan dalam
bentuk text. Tantangan disini menjadi
bagaimana jalan membandingkan 2 ustructured
text yang berbeda dan bagaimana kita bisa
menilai level kesamaan dua text tersebut.
Contohnya, Text A lebih mirip dengan Text B,
7
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
dibandingkan dengan Text A dan Text C.
Kegiatan riset saya masih dalam tahap awal
disini. Saya condong mengunakan text
summarization berdasarkan kata-kunci dengan
dibantu oleh pengunaan ontology.
5 Konklusi
Dengan terus meningkatnya jumlah “digitized
textual media” di Internet dan di organisasi
menunjukan
nyatanya
tantangan
akan
“overload” akan informasi dan pentingnya
bidang text mining. Kita memerlukan tak hanya
text mining system, tapi juga knowledge
management system di bantu dengan robust text
mining
software
untuk
mengekstrak,
memprocess, me-mine, mengorganisasi, dan
memonitor textual data dalam jumlah besar.
Solusi text mining harus lebih dari sekedar
efektif search, akurat natural language processor,
dan text summization. Design dan pembuatan
text mining tool harus mengikutsertakan tidak
hanya untuk peneliti, tapi juga penguna dari
bidang dan level tehnical yang beragam. Text
mining harus memiliki kemampuan untuk
menemukan fakta dan relationship yang baru
yang sulit di dapat tanpa text mining, “A real
Text Mining” [1].
Referensi
[1] Marti A. Hearst. Untangling Text Data
Mining. Proceeding of ACL’99 Maryland,
June 20-26, 1999
[2] Dunja Mladenic and Marko Grobelnik.
Text Mining: What if your data made of
words. ECML/PKDD-2001, Freiburg,
Germany, September 7, 2001
[3] Jürgen Franke, Gholamreza Nakhaeizadeh,
and Ingrid Renz. Text Mining: Theoretical
Aspects and Applications
[4] M. Craten, D. DiPasquo, D. Freitag, A.
McCallum, T. Michell, K. Nigam, and S.
Slattery. 1998. Learning to extract
symbolic knowledge from the world wide
web. In Proceeding of AAAI.
[5] Usama Fayyad, Gregory Shapiro, dan
Padhraic Smyth, 1996. Knowledge
Discovery and Data Mining: Towards a
Unifying Framework. In Proceeding of The
Second International Conference on
Knowledge Discovery and Data Mining,
pages 82-88.
[6] Freitag, D. & Kushmerick, N. (2000).
Boosted wrapper induction. AAAI-00
(Austin), pp. 577-583.
[7] Line Eikvil: Information Extraction from
World Wide Web - A Survey Rapport Nr.
945, July, 1999. ISBN 82-539-0429-0
[8] H. Cunningham. Information Extraction: a
User Guide (revised version). Department
of Computer Science, University of
Sheffield, May, 1999
[9] Fabrizio Sebastiani. Machine learning in
automated text categorization. ACM
Computing Surveys, 2002
[10] Lewis D D, 1992. Representation and
Learning in Information Retrieval. Ph.D.
dissertation, University of Massachusetts.
[11] Tzeras,K.and Hartmann,S.1993.Automatic
indexing based on Bayesian inference
networks. In Proceedings of SIGIR-93,16th
ACM
International
Conference
on
Research and Development in Information
Retrieval (Pittsburgh, US, 1993), pp.22 –34.
[12] Mladenic, D., Grobelnik, M. (1998)
Feature selection for clasification based on
text hierarchy. Working notes of Learning
from Text and the Web, Conference on
Automated Learning and Discovery
CONALD-98.
[13] Giuseppe Attardi, Antonio Gullí and
Fabrizio Sebastiani, Automatic Web Page
Categorization by Link and Context
Analysis. In Proceedings of THAI-99, 1st
European Symposium on Telematics,
Hypermedia and Artificial Intelligence, pp.
105-119, 1999.
[14] Robert E. Schapire and Yoram Singer.
BoosTexter: A boostingbased system for
text categorization. Machine Learning,
39(2/3):135-168, 2000.
[15] Gómez Hidalgo, J.M. Evaluating CostSensitive
Unsolicited
Bulk
Email
Categorization. ACM Symposium on
Applied Computing, 2002.
[16] Wu, M., Michael Fuller, and Ross
Wilkinson.
Using
Clustering
and
Classification Approaches in Interactive
Retrieval. In Information Processing &
Management, pp. 459-484, 37(3), 2001
[17] Baldonado, M.Q.W., and Winograd, T.
SenseMaker: An Information-Exploration
Interface Supporting the Contextual
Evaluation of a User's Interest, In
proceedings of CHI '97, Atlanta, GA
8
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
[18] A.K. Jain, M.N. Murty and P.J. Flynn. Data
Clustering: A Review. ACM Computing
Surveys, Vol. 31, No. 3, September 1999
[19] Rüger, S.M. and S E Gauch: Feature
Reduction for Document Clustering and
Classification. DTR 2000/8, Department of
Computing, Imperial College London,
September 2000.
[20] Church, K. (1988) “A Stochastic Parts
Program and Noun Phrase Parser for
Unrestricted Text,” Second Conference on
Applied Natural Language Processing,
Austin, Texas, pp. 136-143
[21] D. Cutting, J. Kupiec, J. Pedersen, and P.
Sibun. A Practical Part-of- Speech Tagger,
Proceedings of the Third Conference on
Applied Natural Language Processing,
April 1992
[22] Eric Brill, Transformation-Based ErrorDriven Learning and Natural Language
Processing: A Case Study in Part of Speech
Tagging, Computational Linguistics, Vol
21, No 4, 1995
[23] Christopher D. Manning and Hinrich
Schütze. 1999. Foundations of Statistical
Natural Language Processing. Cambridge,
MA: MIT Press
[24] Ted Pedersen. Evaluating the Effectiveness
of Ensembles of Decision Trees in
Disambiguating Senseval Lexical Samples.
Proceedings of the Workshop on Word
Sense Disambiguation: Recent Successes
and Future Directions. July 11, 2002,
Philadelphia
[25] M. Stevenson, Y. Wilks. Combining Weak
Knowledge
Sources
for
Sense
Disambiguation. Proceedings of the
International
Joint
Conference for
Artificial
Intelligence
(IJCAI-99).
Stockholm. (1999)
[26] G. Salton and M. J. McGill. Introduction to
Modern Information Retrieval, McGraw
Hill Com- puter Science Series, New York,
1983
[27] Erik F. Tjong Kim Sang and Sabine
Buchholz, Introduction to the CoNLL-2000
[28]
[29]
[30]
[31]
[32]
[33]
[34]
[35]
[36]
[37]
Shared Task: Chunking. In: Proceedings of
CoNLL-2000 and LLL 2000, Lisbon,
Portugal, 2000
Jacques Vergne. Trends in Robust Parsing.
A tutorial presented in Coling 2000
Hahn, Udo & Mani, Inderjeet (2000). The
challenges of automatic summarization. In:
Computer, 33 (11), pp. 29-36
N. Adam, V. Atluri, and I. Adiwijaya,
“System Integration in Digital Library,”
The Special Section of System Integration Communication of the ACM, 2000
N. Adam, I. Adiwijaya, and Y. Chung,
“The Implementation of a DW System in a
Heterogeneous
Environment”,
International Conference on System
Integration Technology and Applications
1997, South Korea
Doan AH, Domingos P, Halevy A.
Reconciling schemas of disparate data
sources: a machine-learning approach. In:
Proc ACM SIGMOD Conf, pp. 509–520,
2001
Doan A, Madhavan J, Domingos P, and
Halevy A. Learning to map between
ontologies on the semantic web. In The
Eleventh International WWW Conference,
Hawaii, US, 2002
Flesca, S, Manco, G,,Masciari, E, Pontieri,
L, Pugliese, A. Detecting Structural
Similarities between XML Document. Fifth
International Workshop on the Web and
Databases (WebDB 2002) Madison,
Wisconsin - June 6-7, 2000.
Gal, A Modica, G and Jamil HM.
Improving web search with automatic
ontology
matching.
Submitted
for
publication. Available upon request from
avigal @ie.technion.ac.il, 2003
S. Nestorov and S. Abiteboul and R.
Motwani,
“Inferring
Structure
in
Semistructured Data,” Proceedings of the
Workshop
on
Management
of
Semistructured Data, May 1997
Wikipedia
online
http://www.wikipedia.com
9
Download