Representasi Word Graph Menggunakan XML Untuk Kata Sifat

advertisement
2
TINJAUAN PUSTAKA
Adjektiva (Kata Sifat)
Menurut Alwi et al. (2003), adjektiva
disebut juga kata sifat atau kata keadaan yang
memberikan keterangan yang lebih khusus
dan dinyatakan oleh nomina dalam kalimat.
Adjektiva dari segi bentuknya terbagi atas
adjektiva dasar (monomorfemis) dan adjektiva
turunan (polimorfemis). Contoh adjektiva
monofemis, yaitu cantik, jelek, baik, buruk,
jauh, dan dekat. Adjektiva turunan dibentuk
dengan tiga cara, yaitu pengafiksan,
pengulangan, dan pemaduan dengan kata lain.
a Pengafiksan
Adjektiva ini menggunakan serapan
adjektiva berafiks dari bahasa lain, seperti
bahasa Arab, Belanda, dan Inggris dengan
afiks serapan: -i, -iah, -wi, -wiah. Hasil
pengafiksan tingkat ekuatif dengan prefiks
atau awalan se- dan tingkat superlatif dengan
prefiks ter-. Selain itu, beberapa nomina
digunakan sebagai adjektiva dalam kalimat.
b Pengulangan
Adjektiva ini berfungsi sebagai predikat
dan adverbial. Adjektiva yang berfungsi
predikat memiliki arti kejamakan, keanekaan,
atau keintensifan. Perulangan dapat terjadi
melalui perulangan penuh, perulangan
sebagian, dan perulangan salin suara.
c Pemaduan dengan kata lain
Adjektiva dipadukan dengan nomina akan
menghasilkan arti baru. Pemaduan adjektiva
dengan adjektiva memberi arti menguatkan
unsur pertama (Alwi et al. 2003).
Natural Language
Secara umum, natural language atau
bahasa alami adalah metode yang paling
banyak digunakan untuk mengekspresikan
pikiran manusia dan pertukaran informasi.
Terdapat sebuah pemisah antara bahasa
formal atau bahasa buatan dan bahasa alami.
Komunikasi antara komputer dan manusia
hanya dimungkinkan ketika banyak penelitian
yang bertujuan untuk menjembatani pemisah
di antara keduanya (Zhang 2002).
Secara alami, menggambarkan dan
memodelkan bahasa alami adalah dasar untuk
perkembangan dari proses menganalisis dan
memaknai bahasa alami, dan menentukan arah
proses penelitian dari bahasa alami. Ada dua
faktor yang diperhatikan dalam menganalisis
sebuah kalimat, yaitu sintaksis dan semantis.
Perbedaan sintaksis dan semantis adalah
sintaksis melakukan analisis berdasarkan
bentuk dari sebuah kalimat, sedangkan
semantis
menganalisis
bagaimana
mengartikan suatu kalimat.
Knowledge Graph
Metode KG adalah cara pandang baru
yang digunakan untuk menggambarkan
bahasa alami. Aspek ontologi menjadi
perbedaan yang mendasar antara metode KG
dengan metode representasi lain. KG memiliki
kemampuan dalam menyatakan aspek
semantis
dengan
lebih
mendalam,
menggunakan jenis relasi yang terbatas dan
digunakan untuk meniru pemahaman manusia.
Pada prinsipnya, komposisi dari KG
mencakup concept (token dan type) dan
relationships (binary dan multivariative
relation) (Zhang 2002).
Concept
Representasi pemikiran dapat dimodelkan
dengan KG yang disebut dengan mind graph.
Concept merupakan komponen dari mind
graph yang menerangkan persepsi mengenai
sesuatu (Zhang 2002).
Token adalah sebuah node dalam KG yang
disimbolkan dengan persegi “”. Token
menyatakan sesuatu dalam dunia nyata atau
sebuah konsep dari dalam persepsi manusia
(Zhang
2002). Token bersifat subjektif,
karena merupakan konsep yang dipahami oleh
bahasa manusia menurut persepsi masingmasing. Contoh sebuah token menurut
Rusiyamti (2008), misalkan seseorang
menemukan kata “apel” orang tersebut dapat
menghubungkan hal ini dengan informasi
bentuk, warna, rasa, dan sebagainya.
Demikian juga dengan orang lain yang
menghubungkan dengan hal yang berbeda.
Type adalah suatu konsep yang masih
bersifat umum. Type bersifat objektif karena
merupakan hasil kesepakatan bersama (Zhang
2002). Contoh type misalnya buah, binatang,
dan sebagainya.
Word Graph
Word graph merupakan graf dari kata
yang mendeskripsikan makna dari sebuah
kata. Dalam metode KG, setiap kata yang
berhubungan dengan sebuah word graph
menyatakan arti kata yang disebut dengan
semantic word graph. Gabungan semantic
word graph dalam sebuah kalimat akan
membentuk sentence graph. Graf yang
merepresentasikan gabungan dari sentence
3
graph dalam sebuah teks disebut text graph
yang terdapat pengetahuan di dalamnya
(Hoede dan Nurdiati 2008).
Aspek Ontologi
Ontologi merupakan gambaran dari
beberapa konsep dan relasi antar konsep yang
bertujuan mendefinisikan ide-ide yang
merepresentasikan konsep, relasi dan logika
(Rusiyamti 2008). Ontologi word graph
sampai saat ini direpresentasikan dengan
sebuah node, delapan binary relationships,
sebuah ontologi F, dan empat frame
relationships (Hoede dan Nurdiati 2008).
Ontologi F digunakan untuk mewujudkan
fokus dari suatu graf. Ontologi F juga
digunakan untuk menunjukkan kata atau
kalimat yang diterangkan dalam suatu
pernyataan (inti). Berikut adalah gambaran
dari delapan types relationship (Zhang 2002):
1 ALI (alikeness).
2 CAU (causality).
3 EQU (equality) .
4 SUB (subset).
5 DIS (dissparatness).
6 ORD (ordering).
7 PAR (attribute).
8 SKO (informational dependency).
Ekspresi Semantis dengan KG
Dibutuhkan
kemampuan
untuk
menyatakan makna kata atau kalimat dalam
metode KG untuk membangun model
pemahaman bahasa alami, karena untuk dapat
memahami makna kalimat harus lebih dahulu
dapat memahami makna setiap kata.
Kemudian, makna setiap kata disusun menjadi
makna suatu kalimat secara keseluruhan
(Zhang
2002). Pemaknaan setiap kata
menjadi dasar pembentukan graf kata (word
graph). Pemaknaan kata dinyatakan secara
terhubung antar konsep. Makna kata dalam
metode KG membangun struktur arti sehingga
dapat mengatasi ambiguitas.
XML
XML merupakan bahasa markup yang
direkomendasikan oleh World Wide Web
Consortium (W3C). W3C merupakan sebuah
organisasi yang mengatur standardisasi
berbagai jenis bahasa dan perangkat lunak
yang mendukung teknologi internet. XML
direkomendasikan oleh W3C pada tahun
1998. XML sendiri merupakan turunan dari
SGML (Standard Generalized Markup
Language), yang juga merupakan bahasa yang
extensible, namun sangat kompleks.
XML merupakan bentuk baku untuk
merepresentasikan struktur dokumen teks dan
data yang memberikan kemudahan dalam
publikasi dan pertukaran data (Benz 2003).
Kemudahan tersebut terdapat pada sintaks
sederhana yang digunakan XML, tidak seperti
pada HTML. XML diharapkan dapat
memenuhi
kebutuhan manusia
dalam
pencarian informasi dan memenuhi kebutuhan
komputer dalam pengolahan data (Dykes
2005). XML dapat memisahkan secara tegas
antara kandungan informasi dan struktur
informasi yang dimiliki.
Kelebihan XML di antaranya adalah
penggunaan tag yang berfungsi sebagai userdefined
yang
digunakan
untuk
mendeskripsikan arti dari data dan tidak
mendefinisikan bagaimana data akan terlihat.
XML mampu memisahkan antara bagian yang
berupa data dengan bagian yang bertugas
untuk menampilkan data. Selain itu, XML
tidak terbatas digunakan pada satu macam
aplikasi saja. Sebuah dokumen XML dapat
dirancang untuk banyak aplikasi berbeda
tergantung dari informasi yang akan
ditampilkan.
Java
Java adalah sebuah bahasa pemrograman
object oriented dengan unsur-unsur seperti
bahasa C++ dan bahasa-bahasa lainnya yang
memiliki libraries yang cocok untuk
lingkungan internet (Antonius 2004). Java
dapat melakukan banyak hal dalam
pemrograman, seperti membuat animasi
halaman web dan aplikasi interaktif. Java juga
dapat digunakan untuk handphone, internet,
dan lain-lain. Berikut ini merupakan
karakteristik yang dimiliki Java (Hermawan
2004), yaitu:
1 Sederhana
Bahasa pemrograman Java menggunakan
sintaks mirip dengan bahasa C++, namun
sintaks pada Java telah banyak diperbaiki.
2 Berorientasi Objek
Java merupakan bahasa pemrograman
berorientasi objek yang memungkinkan
program untuk dibuat secara modular dan
digunakan kembali.
3 Terdistribusi
Java dibuat untuk memudahkan distribusi
aplikasi dengan adanya networking libraries
yang terintegrasi dalam Java.
4 Robust
Kompilator
pada
Java
memiliki
kemampuan mendeteksi error yang lebih baik
dibandingkan bahasa pemrograman lainnya.
4
5 Secure
Java memiliki beberapa mekanisme
keamanan untuk menjaga agar aplikasi tidak
digunakan untuk merusak sistem komputer
yang menjalankan aplikasi tersebut.
6 Dynamic
Java didesain untuk dapat dijalankan pada
lingkungan yang dinamis. Perubahan suatu
kelas dengan menambahkan metode dapat
dilakukan tanpa mengganggu program yang
menggunakan kelas tersebut.
7 Portable
Source code maupun program Java dapat
dengan mudah dibawa ke berbagai platform
berbeda tanpa harus dikompilasi ulang.
METODE PENELITIAN
Tahapan merepresentasikan word graph
menggunakan XML untuk kata sifat dalam
bahasa Indonesia pada penelitian ini
diilustrasikan pada Gambar 2.
Mulai
Analisis Pola Pembentukan Word Graph
Kata Sifat
Praproses
Perancangan Database
DOM (Document Object Model)
Document Object Model (DOM) adalah
rekomendasi dari W3C untuk melakukan
proses terhadap dokumen terstruktur seperti
XML dan HTML. DOM didefinisikan sebagai
sebuah spesifikasi Application Programming
Interface (API) yang bebas bahasa dan
platform
(Harold
2003).
DOM
mendefinisikan struktur logika dokumen serta
cara untuk melakukan manipulasi dan akses
terhadap dokumen tersebut.
Model standar untuk XML dokumen
dinamakan DOM XML. DOM XML juga
merupakan sebuah antarmuka pemrograman
standar untuk XML, serta sebuah standar
W3C. Dengan kata lain, DOM XML
merupakan standar untuk mendapatkan,
mengubah, menambah, atau menghapus
elemen XML. XML dokumen dapat
direpresentasikan sebagai sebuah tree. Tree
terdiri atas beberapa node. Contoh tree pada
DOM XML terlihat pada Gambar 1.
Root element:
<graph>
Parent
Child
Element:
<relationships>
Element:
<components>
Sibling
Element:
<token>
Element:
<relationid>
Element:
<id>
Text: 1
Text: 1
Gambar 1 Contoh tree pada DOM XML.
Perancangan XML
Implementasi Java
Analisis Hasil dan Pengujian
Dokumentasi dan Laporan
Selesai
Gambar 2 Metode penelitian.
Pemahaman
Bidang
Identifikasi Masalah
Kajian
dan
Penelitian diawali dengan mengumpulkan
bahan-bahan pustaka yang relevan dengan
topik kajian penelitian. Analisis pola
pembentukan word graph kata sifat
didasarkan pada penelitian sebelumnya, di
antaranya tesis Usep Rahmat (2009) yang
berjudul “Analisis Pembentukan Word Graph
Kata Sifat Menggunakan Metode Knowledge
Graph“ dan skripsi Annissa Zahara (2010)
yang berjudul “Pengembangan Modul untuk
Kamus Word Graph Kata Sifat pada Sistem
Aplikasi BogorDelfConstruct“. Hasil analisis
pola pembentukan word graph kata sifat
tersebut kemudian akan digunakan untuk
membuat
dokumen
berformat
XML.
Dokumen tersebut dapat merepresentasikan
konsep KG pada pembentukan pola word
graph untuk kata sifat dalam bahasa
Indonesia.
Praproses
Tahapan praproses dilakukan untuk
membatasi kata masukan yang digunakan
pada penelitian. Pada tahapan ini, kata yang
Download