pendahuluan tinjauan pustaka

advertisement
 PENDAHULUAN
Latar Belakang
Salah satu teknologi pemrosesan bahasa
alami adalah pemrosesan teks. Pemrosesan teks
dapat berupa analisis makna (semantik) pada
suatu teks. Makna suatu teks dapat
direpresentasikan sebagai pengetahuan dan
salah satu metode yang merepresentasikan
pengetahuan dalam bentuk graf adalah metode
Knowledge Graph (KG). Berbagai penelitian
menggunakan metode KG telah banyak dibahas,
namun untuk implementasi metode KG belum
banyak dilakukan. Penelitian yang ada masih
dalam menganalisis teks dan membuat aturan
untuk menganalisis teks.
Implementasi metode KG dalam analisis
semantik diharapkan dapat berguna untuk
melakukan abstraksi teks secara otomatis.
Untuk dapat mewujudkan hal tersebut, telah
dikembangkan BogorDelftConstruct sebagai
implementasi metode KG tahap awal. Awalnya
implementasi metode KG dikembangkan
berdasarkan hasil analisis struktur bahasa
Inggris, yaitu DelftConStruct. DelftConStruct
adalah
perangkat
lunak
yang
telah
dikembangkan oleh Mark van Koningsveld
pada tahun 2003-2008.
DelftConStruct merupakan tools yang
berguna sebagai editor yang dikembangkan
untuk membuat graf kata ataupun kalimat
dalam struktur bahasa Inggris. DelftConStruct
dapat menganalisis suatu kata dan membentuk
suatu graf antara satu kata dengan kata yang
lainnya (word graph), namun belum sesuai
dengan konsep KG menurut Romadoni (2009).
Sebagai perbaikan dari DelftConStruct maka
dikembangkan untuk struktur bahasa Indonesia
BogorDelftConstruct.
Selain itu, beberapa penelitian juga telah
dilakukan untuk analisis semantik pada beragam
jenis kata, antara lain kata sifat, kata kerja, kata
benda dan kata depan. Perwujudan abstraksi
teks secara otomatis dapat diwujudkan dengan
mengimplementasikan analisis semantik kata
dari beragam jenis kata. Diawali dengan
menganalisis makna kata untuk satu jenis kata
kemudian dikembangkan untuk jenis kata yang
lain. Dari analisis semantik jenis kata dapat
dikembangkan untuk menganalisis makna
kalimat, frase hingga teks dari setiap kata yang
terdapat pada masing-masingnya.
Merujuk pada BogorDelftConstruct sebagai
tools yang berguna untuk membuat graf kata
maka BogorDelftConstruct digunakan sebagai
wadah pengembangan implementasi bagi
perwujudan abstraksi teks. Dengan fitur
pembentukan kamus word graph yang dimiliki
BogorDelftConstruct maka penelitian ini akan
mengembangkan modul untuk kamus word
graph kata sifat. Analisis semantik dari
pembentukan kata sifat telah dilakukan pada
penelitian sebelumnya oleh Rahmat (2009) yang
menghasilkan pola aturan untuk kata sifat.
Penelitian ini diharapkan menjadi tahap lanjutan
dalam mewujudkan abstraksi teks secara
otomatis.
Tujuan
Penelitian
ini
bertujuan
untuk
mengembangkan modul kamus word graph kata
sifat pada sistem aplikasi BogorDelftConstruct
berdasarkan hasil analisis aturan dari penelitian
sebelumnya. Penelitian ini akan membentuk
word graph yang dapat merepresentasikan
makna suatu kata sifat secara otomatis.
Ruang Lingkup
Penelitian ini dibatasi pada pengembangan
modul sistem aplikasi BogorDelftConstruct
untuk membuat kamus word graph kata sifat
sesuai aturan-aturan kata sifat dari hasil analisis
penelitian sebelumnya. Selain itu, penelitian ini
dibatasi hanya untuk kata sifat bentuk tunggal
dalam bahasa Indonesia, bukan paduan kata
sifat dengan kata lain.
Manfaat
Manfaat utama dari penelitian ini adalah
mengekspresikan makna suatu kata sifat yang
direpresentasikan dalam bentuk word graph
sehingga tidak terjadi ambiguitas. Manfaat lain
adalah memberikan pengetahuan yang tidak
hanya dalam memaknai kata sifat tetapi juga
untuk semua jenis kata dalam bahasa Indonesia.
Selain itu, dengan menambah kelengkapan
modul untuk jenis kata selain kata sifat pada
BogorDelftConstruct diharapkan sistem dapat
melakukan abstraksi teks secara otomatis.
TINJAUAN PUSTAKA
Natural Language Processing (NLP)
Perkembangan teknologi mengarah kepada
proses komunikasi secara interaktif antara
manusia dan komputer menggunakan bahasa
alami. Natural Language Processing (NLP)
merupakan bagian dari kecerdasan buatan yang
mampu mewujudkan teknologi tersebut. Dalam
sejarahnya, NLP telah danyak diteliti dan
dikembangkan dari segala aspek, seperti bidang
1
Ilmu Komputer dengan NLP, Ilmu Bahasa
dengan Komputasi Linguistik, Elektro dengan
Speech Recognition, dan Psikologi dengan
Komputasi Psikolinguistik.
Teknologi NLP memungkinkan berbagai
macam pemrosesan bahasa alami seperti
pengenalan suara dan pemrosesan teks. Dalam
pemrosesan teks salah satu aplikasinya adalah
text summarization. Text summarization adalah
sistem yang meringkas teks untuk mengambil
informasi penting dalam teks (Hulliyah 2007).
Stemming
Stemming merupakan proses menemukan
kata dasar dari suatu kata berimbuhan dengan
membuang awalan (prefiks) dan akhiran
(suffiks). Tujuannya adalah untuk menghemat
media penyimpanan dan mempercepat proses
pencarian kata (Liddy 2001).
Knowledge Graph (KG)
Metode KG adalah cara pandang baru yang
digunakan untuk menggambarkan bahasa alami.
Aspek ontologi menjadi perbedaan yang
mendasar antara metode KG dengan metode
representasi lain. KG memiliki beberapa
keuntungan. KG memiliki kemampuan dalam
menyatakan aspek semantik dengan lebih
mendalam, menggunakan jenis relasi yang
terbatas dan digunakan untuk meniru
pemahaman manusia.
Pada prinsipnya, komposisi dari KG
mencakup
concept (token dan type) dan
relationship (binary dan multivariate relation)
(Zhang 2002).
Concept
Representasi pemikiran dapat dimodelkan
dengan KG, disebut dengan mind graph.
Concept merupakan komponen dari mind graph
yang menerangkan persepsi mengenai sesuatu
(Zhang 2002).
Token
Token merupakan node dalam KG, yang
dinyatakan dengan simbol □. Token
menyatakan segala sesuatu yang kita alami
dalam dunia nyata atau bahkan mengenai
sebuah konsep dalam pikiran kita. Dalam
metode
KG
segala
sesuatu
akan
direpresentasikan atau digambarkan sebagai
sebuah token (Zhang 2002) .
Type
Type adalah konsep yang berisi informasi
umum. Type bersifat objektif karena merupakan
hasil kesepakatan bersama (Zhang 2002).
Word Graph
Word graph merupakan graf dari kata.
Dalam metode KG setiap kata berhubungan
dengan sebuah word graph, menyatakan arti
kata yang disebut dengan semantic word graph.
Gabungan semantic word graph dalam sebuah
kalimat akan membentuk sentence graph. Graf
yang merepresentasikan gabungan dari sentence
graph dalam sebuah teks disebut text graph
yang terdapat pengetahuan di dalamnya (Hoede
dan Nurdiati 2008).
Aspek Ontologi
Ontologi merupakan gambaran dari
beberapa konsep dan relasi antar konsep yang
bertujuan
mendefinisikan
ide-ide
yang
merepresentasikan konsep, relasi dan logika.
(Rusiyamti 2008).
Relasi menghubungkan antara dua konsep
yang membentuk graf. Jika relasi antara dua
konsep A dan B membentuk sebuah graf, maka
ada hubungan timbal balik antara A dan B.
Menurut Nurdiati dan Hoede (2009),
Ontologi word graph sampai saat ini terdiri atas
9 binary relationship yaitu 8 binary relationship
dan tambahan Ontologi F (Focus) serta 4 frame
relationship. Penggunaan beberapa binary
relationship dapat dilihat pada Gambar 1.
8 binary relationship dan Ontologi F
(Focus) tersebut antara lain:
1.
2.
3.
4.
5.
6.
7.
8.
9.
Similarity of alikeness
Causality
Equality
Subset relationship
Disparateness
Attribution
Ordering
Informational dependency
Ontologi F (Focus)
: ALI
: CAU
: EQU
: SUB
: DIS
: PAR
: ORD
: SKO
Berikut penjelasan masing-masing binary
relationship:
1.
Relasi ALI
Relasi
ALI
digunakan
untuk
menghubungkan sebuah type dengan token
(Rahmat 2009). Jika relasi ALI digunakan
antara dua token, maka menyatakan bahwa
kedua token tersebut sama. Penggunaan
relasi ALI terdapat pada Gambar 1.
2.
Relasi CAU
Relasi CAU antara dua token dinyatakan
dengan anak panah berlabel CAU. Relasi
CAU menyatakan hubungan sebab akibat
atau sesuatu yang mempengaruhi sesuatu
2
menimpa
yang lain. Menurut Nurdiati dan Hoede
(2009), relasi CAU digunakan untuk
menghubungkan subjek dengan objek dan
predikat dengan objek. Penggunaan relasi
CAU terdapat pada Gambar 1.
3.
Relasi SUB
Jika dua concept dinyatakan secara
berturut-turut dan concept yang satu
merupakan subset dari concept yang lain
maka digunakan relasi SUB. Jika
penggunaannya antara dua token dan
menyatakan mengenai properti terhadap
suatu token, maka relasi yang digunakan
adalah relasi FPAR. Penggunaan relasi
SUB terdapat pada Gambar 1.
5.
Relasi DIS
Relasi DIS digunakan untuk menyatakan
concept yang satu berbeda dengan concept
yang lain. Penggunaan relasi DIS terdapat
pada Gambar 1.
6.
Relasi PAR
Relasi PAR menyatakan bahwa sesuatu
merupakan atribut (sifat) dari sesuatu yang
lain. Penggunaan relasi PAR terdapat pada
Gambar 1.
7.
Relasi ORD
Relasi ORD menyatakan bahwa dua hal
saling berurutan. Relasi ini digunakan
untuk menunjukkan urutan dalam hal
waktu dan tempat.
8.
Relasi SKO
Relasi SKO berdasarkan konsep mengenai
ketergantungan informasi.
9.
Ontologi F (Focus)
Ontologi F digunakan untuk menunjukkan
fokus dari suatu graf (Nurdiati & Hoede
2009). Ontologi F untuk menunjukkan
kata atau kalimat yang diterangkan dalam
suatu pernyataan (inti). Penggunaan
Ontologi F terdapat pada Gambar 1.
ALI
PAR
PAR
Relasi EQU
Relasi EQU digunakan untuk menyatakan
penamaan dengan label anak panah
menunjuk ke arah konsep. Relasi EQU
digunakan untuk menyatakan bahwa
kedudukan concept yang sama atau
sederajat.
4.
F
ALI
CAU
ALI
CAU
ALI
meteor hantaman
karang
SUB
DIS
ALI
laut
ALI
sungai
Gambar 1 Contoh penggunaan relasi ALI,
CAU, SUB, DIS, dan PAR.
Frame merupakan verteks yang berlabel dan
digunakan untuk mengelompokkan beberapa
konsep (Rahmat 2009). Adakalanya 1 (satu)
objek tidak cukup terwakili oleh sebuah token,
maka diperlukan frame yang mengelompokkan
token tersebut dalam sebuah pernyataan.
Menurut Zhang (2002), frame relationships ada
empat macam, antara lain:
1.
2.
3.
4.
Focusing on a situation
Negation on a situation
Possibility on a situation
Necessity on a situation
: FPAR
: NEGPAR
: POSPAR
: NECPAR
Relasi frame menyatakan bahwa simpul
yang telah berlabel yang membentuk graf yang
kompleks disusun di dalam frame. Relasi FPAR
menyatakan sesuatu memiliki properti dari
sesuatu yang lain. Relasi NEGPAR menyatakan
negasi dari isi frame. Relasi POSPAR
menyatakan kemungkinan dari isi frame. Relasi
NECPAR menyatakan perlu tidaknya dari isi
frame.
Ekspresi Semantik dengan KG
Dalam metode KG untuk membangun
model pemahaman bahasa alami dibutuhkan
kemampuan untuk menyatakan makna kata atau
kalimat. Untuk dapat memahami makna kalimat
harus lebih dahulu dapat memahami makna
setiap kata. Kemudian makna setiap kata
disusun menjadi makna suatu kalimat secara
keseluruhan (Zhang 2002).
Pemaknaan setiap kata menjadi dasar
pembentukan graf kata (word graph).
Pemaknaan kata dinyatakan secara terhubung
antar konsep. Makna kata dalam metode KG
membangun struktur arti, sehingga dapat
mengatasi ambiguitas.
Adjektiva (Kata Sifat)
1.
Batasan dan Ciri Adjektiva (Kata Sifat)
Menurut Rahmat (2009) yang diacu dalam
Alwi et. al (2003), adjektiva atau kata sifat
adalah kata yang menerangkan kata benda
3
(nomina) dalam kalimat. Adjektiva memunyai
ciri sebagai berikut:
1) Adjektiva dapat diberi keterangan penguat
seperti lebih, kurang, dan paling. Contoh:
lebih muda, kurang manis, paling cantik.
adjektiva dengan kata benda akan
menghasilkan arti baru contoh: rendah hati,
mulut manis. Pemaduan adjektiva dengan
adjektiva memberi arti menguatkan unsur
pertama. Contoh: hitam legam, pucat pasi,
cerah ceria. (Alwi et. al 2003 dalam Rahmat
2009).
2) Adjektiva dapat diberi keterangan penguat
seperti sangat, amat, benar, sekali, dan
terlalu. Contoh: sangat sulit, amat jauh,
kotor benar, pendek sekali, terlalu panjang.
3) Adjektiva dapat diingkari dengan kata
ingkar tidak. Contoh: tidak tipis.
4) Adjektiva dapat diulang dengan awalan sedan akhiran -nya. Contoh: sejauh-jauhnya.
5) Adjektiva pada kata tertentu dapat
berakhiran antara lain dengan –er, -(w)i, iah, -if, -al dan -ik. Contoh: rohaniah,
surgawi, material.
2.
Adjektiva dari segi bentuknya
METODE PENELITIAN
Data
Data yang akan dianalisis pada penelitian ini
adalah kata sifat masukan berbahasa Indonesia
dalam bentuk tunggal.
Metodologi
Pada bab ini dibahas beberapa tahapan
penelitian dalam proses pembentukan kamus
word graph kata sifat :
Dari segi bentuk, adjektiva terbagi atas
adjektiva dasar (monofemis) dan adjektiva
turunan (polimorfemis). Contoh adjektiva dasar:
cantik, jelek, baik, buruk, jauh, dekat. Adjektiva
turunan dibentuk dengan tiga cara: pengafiksan,
pengulangan, dan pemaduan dengat kata lain.
1) Adjektiva polimorfemis yang dibentuk
dengan pengafiksan.
Adjektiva ini menggunakan serapan
adjektiva berafiks dari bahasa lain seperti
bahasa Arab, Belanda dan Inggris dengan
afiks serapan: -i, -iah, -wi, atau –wiah.
Contoh: manusiawi, hewani, ilmiah. Hasil
pengafiksan dengan infiks atau sisipan -empada kata benda (nomina). Contoh:
gemuruh, kemilau, temaram.
Hasil pengafiksan tingkat ekuatif dengan
prefiks atau awalan se- dan tingkat superlatif
dengan prefiks ter-. Di samping itu,
beberapa nomina digunakan sebagai
adjektiva dalam kalimat contoh: pemberani,
pemalas.
2) Pengulangan
Adjektiva ini dapat berfungsi sebagai
predikat dan adverbial. Adjektiva yang
berfungsi predikat berarti kejamakan,
keanekaan, atau keintensifan. Perulangan
dapat terjadi melalui perulangan penuh,
perulangan sebagian, dan perulangan salin
suara. Contoh: gelap-gelap, terang-terangan,
hiruk-pikuk.
3) Pemaduan dengan kata lain
Gambar 2 Diagram Alir Metodologi
Penelitian.
1.
Pemahaman
Bidang
Identifikasi Masalah
a.
Kajian
dan
Studi Literatur
Adjektiva dipadukan dengan kata benda
(nomina)
atau
adjektiva.
Pemaduan
4
Download