babi pendahuluan

advertisement
BABI
PENDAHULUAN
1.1
Latar Belakang
Named entity recognition(NER) merupakan salah satu bagian domain
Information Extraction(IE) pada sistem Natural Language Processing(NLP).
Sistem NER bertujuan untuk menyelesaikan identifikasi dan klasifikasi entitas
secara kontekstual. Klasifikasi umum pada sistem NER meliputi: organisasi,
person/orang, lokasi, tanggal, waktu, mata uang, persentase, fasilitas dan geo
political entities(GPE)[1].
Salah satu contoh aplikasi NER dalam melakukan klasifikasi berdasarkan
konteksnya ialah pada dua kalimat bahasa Indonesia berikut. “Gadjah Mada
seorang patih dari kerajaan Majapahit” Pada kalimat pertama ini frase “Gadjah
Mada” diklasifikasikan sebagai person/orang. “Gadjah Mada merupakan salah
satu universitas tertua di Indonesia” pada kalimat kedua frase “Gadjah Mada”
diklasifikasikan sebagai organisasi.
Penelitian NER bahasa Indonesia yang ada saat ini telah mengadopsi
pendekatan berbasis tradisional berupa rule-based maupun statistical method serta
pendekatan machine learning(ML). Salah satu penelitian NER berbahasa
Indonesia dengan konsep rule-based ialah penelitian yang dilakukan oleh Budi
[2]. Pada penelitiannya ia mengembangkan system NER dengan konsep rulebased. Dari penelitian Budi didapatkan hasil yang lebih menonjol pada akurasi
klasifikasi saja, bukan pada jumlah entitas yang ditemukan.
Pendekatan machine-learning terutama pada model supervised learning
ditemui pada penelitian yang dilakukan oleh Lutfi [3]. Penelitian yang dilakukan
ialah membentuk mesin klasifikasi NER dengan menggunakan support vector
machine (SVM) dan data berlabel dari DBPedia. Hasil klasifikasi NER yang
dikembangkan menunjukkan nilai yang mendekati skor 90% untuk nilai recall
dan precision.
1
Pengembangan sistem NER yang berbasis supervised learning cenderung
memberikan hasil yang lebih baik, namun memiliki kendala harus memiliki data
berlabel dalam jumlah yang ideal. Data berlabel yang dibutuhkan merupakan data
yang memiliki tag atau label dan cenderung membutuhkan “cost” atau “effort”
dalam mengumpulkannya karena harus mendapatkan bantuan dari expert. Dilain
pihak data tanpa label sangat banyak sekali tersedia dan dapat dengan mudah
dikumpulkan melalui internet dengan teknik web mining atau text mining[4], [5].
Data tanpa label dalam bahasa Indonesia dapat didapatkan secara mudah
seperti melalui text mining atau data mining dari situs-situs berita nasional. Data
tersebut dapat digunakan menjadi sebuah kumpulan data tanpa label.
Permasalahan yang dihadapi ialah apabila sistem NER yang dikembangkan
menggunakan konsep supervised learning yang mensyaratkan data training
merupakan data yang berlabel maka data ini menjadi tidak bermakna, sedangkan
jumlahnya ada sangat banyak.
Pendekatan ML dengan model pembelajaran semi-supervised learning
memungkinkan
penggunaan
data
tanpa
label
untuk
membantu
proses
pembelajaran. Pada tahun 1998 Blum dan Mitchell mengembangkan sebuah
gagasan mengenai penggunaan unlabeled data untuk meningkatkan performa
dalam sistem kalasifikasi mereka. Hasil klasifikasi menunjukkan hasil tingkat
akurasi sebesar 95% untuk 788 halaman web yang menjadi uji coba[5].
Penelitian yang dilakukan oleh Gerrish dkk [6] mengenai pengujian
kombinasi algoritme Bayesian dan K-Nearest Neighbor (KNN) dengan cotraining memberikan hasil peningkatan dibanding dengan menggunakan
algoritme asli Bayesian atau KNN saja. Pierce dkk [7] melakukan penelitian yang
berjudul “Limitations of Co-Training for natural Language Learning from Large
Datasets”. Dalam penelitian tersebut terindikasi co-training merupakan salah satu
metode yang effisien untuk pembelajaran “bracketing” dengan jumlah data
berlabel yang sedikit.
Memanfaatkan konsep pembelajaran semi-supervised learning, peneliti
mencoba untuk memanfaatkan data tanpa label dengan menggunakan pendekatan
2
semi-supervised learning untuk meningkatkan kemampuan sistem NER bahasa
Indonesia. Pembelajaran dilakukan dengan menggabungkan data berlabel yang
diambil dari DBPedia Indonesia (dengan jumlah terbatas) dengan data tanpa label
yang didapatkan dari artikel situs-situs berita nasional di Indonesia.
Penelitian
ini
melakukan
improvisasi
dengan
mengkombinasikan
algoritme co-training dan algoritme klasifikasi SVM. Pemanfaatan data tanpa
label dalam penelitian ini diharapkan dapat meninkatkan performa sistem NER
bahasa Indonesia. Pengembangan sistem ini juga diharapkan dapat mengurangi
cost atau effort dalam pengembangan sistem NER dengan memanfaatkan data
tanpa label yang banyak tersedia.
1.2
Perumusan masalah
Berdasarkan uraian latar belakang masalah dalam permasalahan Named
Entity Recognition, maka diperoleh permasalahan sebagai berikut.
1.
Banyak tersedianya data tanpa label berbahasa Indonesia yang
berupa unstructured text dari situs-situs berita nasional di Indonesia.
2.
Belum adanya penelitian mengenai penyelesaian permasalahan NER
berbahasa Indonesia dengan memanfaatkan data tanpa label dalam
membantu proses klasifikasi entitas.
1.3
Keaslian penelitian
Hingga saat ini belum banyak pengembangan sistem NER berbahasa
Indonesia dengan penyelesaian berbasis machine learning. Beberapa penelitian
menunjukan bahwa penyelesaian sistem NER masih diselesaikan dengan metode
rule-based dan basis data. Penelitian yang dilakukan oleh Budi [2] dalam sistem
NER yang dibangun menggunakan association rules. Menurut Budi, sistem NER
yang dikembangkan sesuai untuk penyelesaian klasifikasi yang mementingkan
tingkat akurasi pada kualitas klasifikasi dibandingkan dengan quantity result.
Pada tahun berikutnya Budi dkk [8] mengembangkan kembali sistem NER
dengan pendekatan yang lebih baru yang dinamakan InNER (Indonesian Named
3
Entity Recognition). InNER menggunakan set aturan dalam menangkap konteks,
morfologi dan part of speech yang diperlukan dalam klasifikasi entitas pada teks
berbahasa Indonesia. Rules atau set aturan yang digunakan pada InNER sendiri
dikembangkan dari knowledge yang dimiliki oleh expert. Hasil pengujian dari
sistem InNER sendiri memiliki nilai 63,43% dan 71,84% untuk nilai “yield
recall” dan “precision”. Menurut Budi dkk, hasil yang dicapai lebih tinggi
dibandingkan dengan penelitian mereka sebelumnya terkait pengembangan NER
dengan metode rule-based NER yang mereka kembangkan pada tahun 2003.
Perkembangan penelitian klasifikasi NER hingga saat ini pada umumnya
menggunakan SVM sebagai algoritme mesin klasifikasinya. Seperti penelitian
yang dilakukan oleh Suwarningsih dkk [9] yang melakukan penelitian terhadap
pengembangan sistem NER untuk kebutuhan medical named entity berbahasa
Indonesia. Suwarningsih memiliki tujuan untuk mengembangkan sistem medical
NER dengan sumber daya bahasa Indonesia yang tersedia. SVM digunakan
sebagai mesin klasifikasi dalam penelitian ini. Hasil yang dicapai oleh sistem
medical NER berbahasa Indonesia ini mencapai hampir 90% untuk nilai
akurasinya.
Luthfi dkk [3] pada tahun 2014 melakukan pengembangan sistem NER
dengan menggunakan basis data Wikipedia dan DBPedia sebagai data training.
Sistem NER yang mereka gunakan sendiri menggunakan Stanford-NER. Stanford
NER merupakan sistem NER yang menggunakan Support Vector Machine(SVM)
sebagai mesin klasifikasinya. Pada awal penelitiannya sistem NER yang
dikembangkan ini berfokus pada tiga entitas yaitu person/orang, place/lokasi dan
organization/organisasi. Hasil evaluasi sistem NER yang dikembangkan oleh
Lutfi dkk memiliki tingkat persentase diatas 90% untuk nilai precision dan recall.
Penyelesian permasalahan klasifikasi NER mulai mengadopsi konsep
machine learning sebagai pendukung penyelesaian permasalahannya. Namun
adanya keterbatasan data berlabel untuk proses pembelajaran mesin klasifikasi
NER terutama pada model supervised learning menjadikan beberapa peneliti
mencoba konsep pembelajaran semi-supervised learning pada mesin klasifikasi
4
NER. Penggunaan pembelajaran co-training sendiri diawali dengan riset
mengenai text classification dengan algoritme tersebut. Penelitian email
classification dengan algoritme co-training yang dilakukan oleh Kiritchenko dkk
[10] mengemukakan pada gagasan awal bahwa terjadi kekurangan dalam data
berlabel. Kekurangan data berlabel ini menjadi masalah utama yang dihadapi oleh
mesin klasifikasi secara umum. Hal ini berkaitan pula dengan pengumpulan data
berlabel yang sifatnya “costly” atau membutuhkan effort. Konsep pembelajaran
semi-supervised learning memanfaatkan data tanpa label untuk meningkatkan
performa data berlabel yang jumlahnya terbatas. Hasil percobaan klasifikasi email
yang didapatkan sendiri bervariasi, tergantung dengan algoritme apa yang
dugunakan untuk melakukan klasifikasi. Dalam kesimpulan penelitian disebutkan
bahwa algoritme SVM memberikan performa lebih baik dibandingkan algoritme
Bayesian dalam penelitian mereka dengan pendekatan semi-supervised.
Pada tahun 2009 Liao dkk [11] melakukan sebuah penelitian aplikasi
pembelajaran semi-supervised pada klasifikasi NER. Penelitian ini menggunakan
metode klasifikasi conditional random fields (CRFs) yang digunakan untuk
menginduksi data tanpa label, dengan memberikan label yang memiliki presisi
tinggi ke kumpulan data tanpa label. Hasil pengujian memberikan peningkatan 12
poin pada nilai recall dan 4 poin pada nilai precission dibandingkan dengan
pembelajaran supervised.
Penggunaan pembelajaran semi-supervised dan SVM dikenalkan pula
dalam penelitian yang dilakukan oleh Park Seong-Bae dkk [12]. Penelitian ini
melakukan pendekatan untuk melakukan klasifikasi teks tidak terstruktur dalam
skala besar. Pembelajaran co-training dan algoritme SVM digunakan untuk
melakukan training data baik data berlabel dan data tanpa label. Hasil penelitian
menunjukkan pembelajaran co-training memberikan peningkatan performa dari
sistem klasifikasi dokumen yang mereka kembangkan baik untuk lexical dan
syntactic information.
Rangkuman penelitian pada bidang klasifikasi entitas atau NER ynag telah
dilakukan oleh peneliti terdahulu ialah seperti pada Tabel 1.1.
5
1.4
Tujuan Penelitian
Tujuan pengembangan sistem NER untuk bahasa Indonesia dengan
metode pembelajaran semi-supervised ini ialah sebagai berikut.
a. Rancang bangun sistem NER bahasa Indonesia dengan pendekatan
pembelajaran semi-supervised co-training, dengan memanfaatkan data tanpa
label untuk meningkatkan performa sistem klasifikasi NER.
b. Melakukan evaluasi unjuk kerja sistem NER yang dikembangkan dengan
pendekatan pembelajaran semi-supervised co-training.
1.5
Manfaat Penelitian
Penelitian pengembangan sistem NER untuk bahasa Indonesia dengan
pendekatan
metode
pembelajaran
semi-supervised
ini
diharapkan
dapat
meningkatkan performa sistem NER dengan keterbatasan data initial (data
berlabel) dengan memanfaatkan data tanpa label yang berasal dari artikel situssitus berita nasional di Indonesia.
6
Table 1.1 Penelitian klasifikasi entitas yang telah ada
Peneliti
Judul
Tahun Objek
Budi Indra
Association Rules Mining for Name Entity 2003
Recognition
I. Budi, S.
Bressan, G.
Wahyudi, Z.
A. Hasibuan,
dan B. A. A.
Nazief
Named Entity Recognition for the 2005
Indonesian
language:
Combining
contextual, morphological and part-ofspeech features into a knowledge
engineering approach
Metode
Hasil
News Article
Association
Rules
Baik untuk penyelesaian taks
yang mengedepankan kualitas
klasifikasi daripada kuantitas
klasifikasi.
Indonesian Text
Rule based: Precision: 71,84% and recall:
combining
63,43%
contextual,
morphological
and part of
speech
tagging.
S. Wiwin, S. imNER Indonesian Medical Named Entity 2014
Iping, and P. Recognition
Ayu
Medical Entities SVM
~ 90% accuracy
A. Luthfi, B. Building an Indonesian named entity 2014
Distiawan,
recognizer using Wikipedia and DBPedia
and
R.
Manurung
Text
Classifcation
Precision: ~90% dan recall:
~90%
7
SVM
S.
Email Classification with Co-Training
Kiritchenko
and
S.
Matwin
2001
Email
Classification
Co-training:
Algoritme klasifikasi dengan
SVM
dan SVM memberikan performa
Bayesian
lebih baik daripada Bayesian.
W. Liao and A simple semi-supervised algorithm for 2009
S.
named entity recognition
Veeramacha
neni
Named Entities SSL
Precision score naik 4 poin
in
News conditional
dan recall score naik 12 poin.
Document
random fields
(CRFs)
S. B. Park Co-trained support vector machines for 2004
and B. T. large scale unstructured document
Zhang
classification using unlabeled data and
syntactic information
Text
classification
8
Co-training - Peningkatan
performa
SVM
klasifikasi pada lexical dan
syntactic information.
Download