BABI PENDAHULUAN 1.1 Latar Belakang Named entity recognition(NER) merupakan salah satu bagian domain Information Extraction(IE) pada sistem Natural Language Processing(NLP). Sistem NER bertujuan untuk menyelesaikan identifikasi dan klasifikasi entitas secara kontekstual. Klasifikasi umum pada sistem NER meliputi: organisasi, person/orang, lokasi, tanggal, waktu, mata uang, persentase, fasilitas dan geo political entities(GPE)[1]. Salah satu contoh aplikasi NER dalam melakukan klasifikasi berdasarkan konteksnya ialah pada dua kalimat bahasa Indonesia berikut. “Gadjah Mada seorang patih dari kerajaan Majapahit” Pada kalimat pertama ini frase “Gadjah Mada” diklasifikasikan sebagai person/orang. “Gadjah Mada merupakan salah satu universitas tertua di Indonesia” pada kalimat kedua frase “Gadjah Mada” diklasifikasikan sebagai organisasi. Penelitian NER bahasa Indonesia yang ada saat ini telah mengadopsi pendekatan berbasis tradisional berupa rule-based maupun statistical method serta pendekatan machine learning(ML). Salah satu penelitian NER berbahasa Indonesia dengan konsep rule-based ialah penelitian yang dilakukan oleh Budi [2]. Pada penelitiannya ia mengembangkan system NER dengan konsep rulebased. Dari penelitian Budi didapatkan hasil yang lebih menonjol pada akurasi klasifikasi saja, bukan pada jumlah entitas yang ditemukan. Pendekatan machine-learning terutama pada model supervised learning ditemui pada penelitian yang dilakukan oleh Lutfi [3]. Penelitian yang dilakukan ialah membentuk mesin klasifikasi NER dengan menggunakan support vector machine (SVM) dan data berlabel dari DBPedia. Hasil klasifikasi NER yang dikembangkan menunjukkan nilai yang mendekati skor 90% untuk nilai recall dan precision. 1 Pengembangan sistem NER yang berbasis supervised learning cenderung memberikan hasil yang lebih baik, namun memiliki kendala harus memiliki data berlabel dalam jumlah yang ideal. Data berlabel yang dibutuhkan merupakan data yang memiliki tag atau label dan cenderung membutuhkan “cost” atau “effort” dalam mengumpulkannya karena harus mendapatkan bantuan dari expert. Dilain pihak data tanpa label sangat banyak sekali tersedia dan dapat dengan mudah dikumpulkan melalui internet dengan teknik web mining atau text mining[4], [5]. Data tanpa label dalam bahasa Indonesia dapat didapatkan secara mudah seperti melalui text mining atau data mining dari situs-situs berita nasional. Data tersebut dapat digunakan menjadi sebuah kumpulan data tanpa label. Permasalahan yang dihadapi ialah apabila sistem NER yang dikembangkan menggunakan konsep supervised learning yang mensyaratkan data training merupakan data yang berlabel maka data ini menjadi tidak bermakna, sedangkan jumlahnya ada sangat banyak. Pendekatan ML dengan model pembelajaran semi-supervised learning memungkinkan penggunaan data tanpa label untuk membantu proses pembelajaran. Pada tahun 1998 Blum dan Mitchell mengembangkan sebuah gagasan mengenai penggunaan unlabeled data untuk meningkatkan performa dalam sistem kalasifikasi mereka. Hasil klasifikasi menunjukkan hasil tingkat akurasi sebesar 95% untuk 788 halaman web yang menjadi uji coba[5]. Penelitian yang dilakukan oleh Gerrish dkk [6] mengenai pengujian kombinasi algoritme Bayesian dan K-Nearest Neighbor (KNN) dengan cotraining memberikan hasil peningkatan dibanding dengan menggunakan algoritme asli Bayesian atau KNN saja. Pierce dkk [7] melakukan penelitian yang berjudul “Limitations of Co-Training for natural Language Learning from Large Datasets”. Dalam penelitian tersebut terindikasi co-training merupakan salah satu metode yang effisien untuk pembelajaran “bracketing” dengan jumlah data berlabel yang sedikit. Memanfaatkan konsep pembelajaran semi-supervised learning, peneliti mencoba untuk memanfaatkan data tanpa label dengan menggunakan pendekatan 2 semi-supervised learning untuk meningkatkan kemampuan sistem NER bahasa Indonesia. Pembelajaran dilakukan dengan menggabungkan data berlabel yang diambil dari DBPedia Indonesia (dengan jumlah terbatas) dengan data tanpa label yang didapatkan dari artikel situs-situs berita nasional di Indonesia. Penelitian ini melakukan improvisasi dengan mengkombinasikan algoritme co-training dan algoritme klasifikasi SVM. Pemanfaatan data tanpa label dalam penelitian ini diharapkan dapat meninkatkan performa sistem NER bahasa Indonesia. Pengembangan sistem ini juga diharapkan dapat mengurangi cost atau effort dalam pengembangan sistem NER dengan memanfaatkan data tanpa label yang banyak tersedia. 1.2 Perumusan masalah Berdasarkan uraian latar belakang masalah dalam permasalahan Named Entity Recognition, maka diperoleh permasalahan sebagai berikut. 1. Banyak tersedianya data tanpa label berbahasa Indonesia yang berupa unstructured text dari situs-situs berita nasional di Indonesia. 2. Belum adanya penelitian mengenai penyelesaian permasalahan NER berbahasa Indonesia dengan memanfaatkan data tanpa label dalam membantu proses klasifikasi entitas. 1.3 Keaslian penelitian Hingga saat ini belum banyak pengembangan sistem NER berbahasa Indonesia dengan penyelesaian berbasis machine learning. Beberapa penelitian menunjukan bahwa penyelesaian sistem NER masih diselesaikan dengan metode rule-based dan basis data. Penelitian yang dilakukan oleh Budi [2] dalam sistem NER yang dibangun menggunakan association rules. Menurut Budi, sistem NER yang dikembangkan sesuai untuk penyelesaian klasifikasi yang mementingkan tingkat akurasi pada kualitas klasifikasi dibandingkan dengan quantity result. Pada tahun berikutnya Budi dkk [8] mengembangkan kembali sistem NER dengan pendekatan yang lebih baru yang dinamakan InNER (Indonesian Named 3 Entity Recognition). InNER menggunakan set aturan dalam menangkap konteks, morfologi dan part of speech yang diperlukan dalam klasifikasi entitas pada teks berbahasa Indonesia. Rules atau set aturan yang digunakan pada InNER sendiri dikembangkan dari knowledge yang dimiliki oleh expert. Hasil pengujian dari sistem InNER sendiri memiliki nilai 63,43% dan 71,84% untuk nilai “yield recall” dan “precision”. Menurut Budi dkk, hasil yang dicapai lebih tinggi dibandingkan dengan penelitian mereka sebelumnya terkait pengembangan NER dengan metode rule-based NER yang mereka kembangkan pada tahun 2003. Perkembangan penelitian klasifikasi NER hingga saat ini pada umumnya menggunakan SVM sebagai algoritme mesin klasifikasinya. Seperti penelitian yang dilakukan oleh Suwarningsih dkk [9] yang melakukan penelitian terhadap pengembangan sistem NER untuk kebutuhan medical named entity berbahasa Indonesia. Suwarningsih memiliki tujuan untuk mengembangkan sistem medical NER dengan sumber daya bahasa Indonesia yang tersedia. SVM digunakan sebagai mesin klasifikasi dalam penelitian ini. Hasil yang dicapai oleh sistem medical NER berbahasa Indonesia ini mencapai hampir 90% untuk nilai akurasinya. Luthfi dkk [3] pada tahun 2014 melakukan pengembangan sistem NER dengan menggunakan basis data Wikipedia dan DBPedia sebagai data training. Sistem NER yang mereka gunakan sendiri menggunakan Stanford-NER. Stanford NER merupakan sistem NER yang menggunakan Support Vector Machine(SVM) sebagai mesin klasifikasinya. Pada awal penelitiannya sistem NER yang dikembangkan ini berfokus pada tiga entitas yaitu person/orang, place/lokasi dan organization/organisasi. Hasil evaluasi sistem NER yang dikembangkan oleh Lutfi dkk memiliki tingkat persentase diatas 90% untuk nilai precision dan recall. Penyelesian permasalahan klasifikasi NER mulai mengadopsi konsep machine learning sebagai pendukung penyelesaian permasalahannya. Namun adanya keterbatasan data berlabel untuk proses pembelajaran mesin klasifikasi NER terutama pada model supervised learning menjadikan beberapa peneliti mencoba konsep pembelajaran semi-supervised learning pada mesin klasifikasi 4 NER. Penggunaan pembelajaran co-training sendiri diawali dengan riset mengenai text classification dengan algoritme tersebut. Penelitian email classification dengan algoritme co-training yang dilakukan oleh Kiritchenko dkk [10] mengemukakan pada gagasan awal bahwa terjadi kekurangan dalam data berlabel. Kekurangan data berlabel ini menjadi masalah utama yang dihadapi oleh mesin klasifikasi secara umum. Hal ini berkaitan pula dengan pengumpulan data berlabel yang sifatnya “costly” atau membutuhkan effort. Konsep pembelajaran semi-supervised learning memanfaatkan data tanpa label untuk meningkatkan performa data berlabel yang jumlahnya terbatas. Hasil percobaan klasifikasi email yang didapatkan sendiri bervariasi, tergantung dengan algoritme apa yang dugunakan untuk melakukan klasifikasi. Dalam kesimpulan penelitian disebutkan bahwa algoritme SVM memberikan performa lebih baik dibandingkan algoritme Bayesian dalam penelitian mereka dengan pendekatan semi-supervised. Pada tahun 2009 Liao dkk [11] melakukan sebuah penelitian aplikasi pembelajaran semi-supervised pada klasifikasi NER. Penelitian ini menggunakan metode klasifikasi conditional random fields (CRFs) yang digunakan untuk menginduksi data tanpa label, dengan memberikan label yang memiliki presisi tinggi ke kumpulan data tanpa label. Hasil pengujian memberikan peningkatan 12 poin pada nilai recall dan 4 poin pada nilai precission dibandingkan dengan pembelajaran supervised. Penggunaan pembelajaran semi-supervised dan SVM dikenalkan pula dalam penelitian yang dilakukan oleh Park Seong-Bae dkk [12]. Penelitian ini melakukan pendekatan untuk melakukan klasifikasi teks tidak terstruktur dalam skala besar. Pembelajaran co-training dan algoritme SVM digunakan untuk melakukan training data baik data berlabel dan data tanpa label. Hasil penelitian menunjukkan pembelajaran co-training memberikan peningkatan performa dari sistem klasifikasi dokumen yang mereka kembangkan baik untuk lexical dan syntactic information. Rangkuman penelitian pada bidang klasifikasi entitas atau NER ynag telah dilakukan oleh peneliti terdahulu ialah seperti pada Tabel 1.1. 5 1.4 Tujuan Penelitian Tujuan pengembangan sistem NER untuk bahasa Indonesia dengan metode pembelajaran semi-supervised ini ialah sebagai berikut. a. Rancang bangun sistem NER bahasa Indonesia dengan pendekatan pembelajaran semi-supervised co-training, dengan memanfaatkan data tanpa label untuk meningkatkan performa sistem klasifikasi NER. b. Melakukan evaluasi unjuk kerja sistem NER yang dikembangkan dengan pendekatan pembelajaran semi-supervised co-training. 1.5 Manfaat Penelitian Penelitian pengembangan sistem NER untuk bahasa Indonesia dengan pendekatan metode pembelajaran semi-supervised ini diharapkan dapat meningkatkan performa sistem NER dengan keterbatasan data initial (data berlabel) dengan memanfaatkan data tanpa label yang berasal dari artikel situssitus berita nasional di Indonesia. 6 Table 1.1 Penelitian klasifikasi entitas yang telah ada Peneliti Judul Tahun Objek Budi Indra Association Rules Mining for Name Entity 2003 Recognition I. Budi, S. Bressan, G. Wahyudi, Z. A. Hasibuan, dan B. A. A. Nazief Named Entity Recognition for the 2005 Indonesian language: Combining contextual, morphological and part-ofspeech features into a knowledge engineering approach Metode Hasil News Article Association Rules Baik untuk penyelesaian taks yang mengedepankan kualitas klasifikasi daripada kuantitas klasifikasi. Indonesian Text Rule based: Precision: 71,84% and recall: combining 63,43% contextual, morphological and part of speech tagging. S. Wiwin, S. imNER Indonesian Medical Named Entity 2014 Iping, and P. Recognition Ayu Medical Entities SVM ~ 90% accuracy A. Luthfi, B. Building an Indonesian named entity 2014 Distiawan, recognizer using Wikipedia and DBPedia and R. Manurung Text Classifcation Precision: ~90% dan recall: ~90% 7 SVM S. Email Classification with Co-Training Kiritchenko and S. Matwin 2001 Email Classification Co-training: Algoritme klasifikasi dengan SVM dan SVM memberikan performa Bayesian lebih baik daripada Bayesian. W. Liao and A simple semi-supervised algorithm for 2009 S. named entity recognition Veeramacha neni Named Entities SSL Precision score naik 4 poin in News conditional dan recall score naik 12 poin. Document random fields (CRFs) S. B. Park Co-trained support vector machines for 2004 and B. T. large scale unstructured document Zhang classification using unlabeled data and syntactic information Text classification 8 Co-training - Peningkatan performa SVM klasifikasi pada lexical dan syntactic information.