i pendahuluan ii tinjauan pustaka

advertisement
 I PENDAHULUAN
1.1 Latar Belakang Penelitian
Cara termudah untuk mendapatkan
informasi dari sebuah teks adalah dengan
meringkasnya, karena membaca sebuah
ringkasan tidak memerlukan waktu lama,
dibandingkan dengan membaca keseluruhan
teks. Salah satu cara meringkas adalah dengan
text summary, yaitu mengambil kalimat utama
atau sebagian kalimat dari setiap paragraf di
dalam teks. Akan tetapi, hanya mengambil
sebagian kalimat tidak akan menghasilkan
sebuah ringkasan yang baik, karena informasi
yang terkandung dalam kalimat lain yang
tidak terpilih akan hilang. Diperlukan suatu
aturan untuk memperoleh suatu ringkasan
(abstrak) dari sebuah teks berbahasa Indonesia
dengan memperhatikan keseluruhan teks,
sehingga menghasilkan ringkasan yang baik.
Teori knowledge graph merupakan metode
baru di bidang natural language processing
(NLP), yang dapat digunakan dalam
memahami bahasa manusia, dengan mengkaji
tataran jaringan semantik (arti kata) berupa
teks yang bersifat subjektif dan disajikan
dalam bentuk graf.
Metode knowledge graph pertama kali
muncul pada tahun 1982 di Belanda. Pada
awal pengembangannya, teori knowledge
graph digunakan dalam aspek linguistik dari
bahasa Inggris. Sampai saat ini penerapannya
masih terus dikembangkan terutama dalam
konteks bahasa Indonesia. Salah satu
penerapannya adalah dalam memahami isi
dari sebuah teks berbahasa Indonesia (Hoede
& Nurdiati 2008b).
1.2 Tujuan Penelitian
Penelitian ini bertujuan membuat suatu
aturan untuk memperoleh abstraksi dari suatu
teks dengan menggunakan teori knowledge
graph.
1.3 Ruang Lingkup Penelitian
Penelitian dilakukan dengan menganalisis
berbagai teks berbahasa Indonesia dengan
tema ketahanan pangan yang diambil dari
berbagai sumber.
II TINJAUAN PUSTAKA
Untuk memahami masalah dalam karya
ilmiah ini akan diberikan beberapa pengertian
dan konsep yang digunakan dalam penelitian.
2.1 Kelas Kata
Semantik (Yunani: semanein = berarti,
bermaksud; semanticos = makna) adalah
cabang ilmu bahasa yang meneliti makna
dalam bahasa tertentu, mencari asal-usul dan
perkembangan
arti
kata,
mempelajari
klasifikasi perubahan kata-kata atau bentuk
bahasa sebagai faktor dalam perkembangan
bahasa.
Berdasarkan struktur bentuk, morfologi
dan kelompok kata (fraseologi), kata dibagi
menjadi 4 kelas besar, yaitu:
1. Kelas kata benda yang memuat subkelas
kata ganti dan kata sandang
2. Kelas kata kerja
3. Kelas kata sifat yang memuat subkelas
kata bilangan
4. Kelas kata tugas yang memuat subkelas
kata depan, kata sambung, kata keterangan
(Keraf 1991)
2.2 Kata Benda
Kata benda adalah kata yang mengacu
pada manusia, binatang, benda, dan konsep
atau pengertian.
Ciri-ciri kata benda adalah sebagai berikut:
1. Dalam kalimat yang predikatnya kata kerja,
kata benda cenderung menduduki fungsi
subjek, objek, atau pelengkap.
2. Kata benda tidak dapat diingkarkan
dengan kata tidak.
3. Kata benda dapat diingkarkan dengan kata
bukan.
4. Kata benda umumnya dapat diikuti oleh
kata sifat, baik secara langsung maupun
diantarai oleh kata yang.
Berdasarkan wujudnya, kata benda
dibedakan atas
1. Kata benda konkret, yaitu kata benda yang
dapat dilihat bentuk fisiknya.
Contoh: dompet, ayah, botol, kertas, roti
2. Kata benda abstrak, yaitu kata benda yang
wujud fisiknya tidak dapat dilihat.
2
Contoh: kebenaran, kemajuan, perbukuan,
persatuan
Berdasarkan bentuknya, kata benda
dikelompokkan menjadi kata benda dasar dan
kata benda turunan.
1. Kata benda dasar adalah kata benda yang
terdiri atas satu morfem.
Contoh: gelas, air, meja, kardus, Kamis,
November, Palembang, rumah, gunung
2. Kata benda turunan, terbagi atas:
a. Kata benda berimbuhan.
Contoh: kementerian, pelabuhan, geligi,
perusahaan, kemasan
b. Kata benda bereduplikasi.
Contoh: rumah-rumah, dedaunan,
desas-desus, lauk-pauk, mobil-mobilan
c. Kata benda yang berasal dari berbagai
kelas karena proses.
1. Deverbalisasi
Contoh: ketertarikan, pendidikan,
pengembangan, keterbukaan
2. Deadjektivalisasi
Contoh: perusakan, kematangan,
keseriusan, petinggi
3. Denumeralisasi
Contoh: keseluruhan, persatuan
4. Deadverbialisasi
Contoh: kekurangan, kelebihan,
keterlaluan
d. Kata benda yang mengalami proses
pemajemukan.
Contoh: ganti rugi, tata tertib, uang
muka, sepak bola, pedagang eceran,
unjuk rasa, pascapanen, semifinal
(Waridah 2008)
2.3 Hubungan Antarmakna
a. Kata Umum dan Kata Khusus
Kata umum, disebut pula hipernim atau
superordinat, adalah kata yang ruang lingkup
maknanya mencakup hal-hal yang umum dan
menyangkut aspek-aspek yang lebih luas.
Kata khusus, disebut hiponim atau
subordinat, adalah kata yang ruang lingkup
maknanya mencakup hal-hal yang sempit atau
hanya meliputi aspek-aspek tertentu.
b. Sinonim
Sinonim adalah kata-kata yang maknanya
sama atau hampir sama. Suatu kata
bersinonim dengan kata lainnya apabila katakata tersebut maknanya dapat saling
mengartikan di dalam kalimat yang sama
(Waridah 2008).
2.4 Graf
Graf G adalah pasangan terurut (V, E)
dengan V(G) himpunan takkosong dan
berhingga dari elemen-elemen graf yang
disebut verteks (simpul, node) dan E(G)
himpunan hingga edge (sisi).
Contoh: Graf dengan V(G) = {u, v, w, x};
dan E(G) = {uv, uw, wx}
Gambar 1 Contoh graf dengan 4 simpul.
Graf G’ disebut subgraf dari G jika semua
simpul dan sisi dari G’ terletak di G
(Chartrand & Oellermann 1993).
Digraph (graf berarah) D adalah pasangan
berurut (V, A) dengan V adalah himpunan
takkosong dari sejumlah berhingga elemen
yang disebut simpul (node) dan A adalah
himpunan berhingga (tidak perlu berbeda) dari
pasangan terurut elemen-elemen dalam V
yang disebut busur (arc) (Wilson & Lowell
1979).
2.5 Knowledge Graph
Teori knowledge graph merupakan suatu
pendekatan baru yang dapat digunakan untuk
menyatakan bahasa manusia dalam bentuk
graf. Perbedaan yang mendasar antara teori
knowledge graph dengan teori representasi
lain adalah bahwa teori knowledge graph ini
menggunakan ontologi atau relasi yang
jumlahnya terbatas. Teori knowledge graph
mampu melukiskan atau menggambarkan
aspek semantik yang lebih mendasar, dengan
menggunakan sejumlah relasi yang banyaknya
terbatas. Teori ini memberikan cara baru
melakukan penelitian untuk memahami
bahasa manusia dengan bantuan komputer
(Zhang 2002).
2.6 Konsep
Konsep merupakan komponen terpenting
dalam pemikiran manusia. Konsep merupakan
sesuatu yang penting dalam membentuk suatu
pengertian dari khusus ke umum atau
sebaliknya (Zhang 2002).
Konsep dapat dibedakan menjadi tiga jenis,
yaitu token, type, dan name (Berg 1993).
3
a.
Token
Dalam teori knowledge graph, token
merupakan konsep yang dipahami oleh
seseorang menurut cara pandang masingmasing, sehingga token ini bersifat subjektif.
Setiap persepsi selalu berhubungan dengan
token. Sebuah konsep berhubungan dengan
arti dari kata (Zhang 2002). Contoh sebuah
token adalah: misalkan seseorang menemukan
kata
“apel”,
orang
tersebut
dapat
menghubungkan hal ini dengan informasi
bentuk, warna, dan rasa demikian juga orang
lain akan menghubungkan dengan hal yang
berbeda.
Token dalam teori knowledge graph
dinyatakan dengan simbol “ “. Seseorang
dalam mengamati sesuatu, pada kenyataannya
akan selalu dibandingkan dengan dunia nyata.
Dengan demikian dalam teori knowledge
graph segala sesuatu akan dihubungkan
dengan token.
b.
Type
Type adalah konsep yang berupa informasi
umum dan bersifat objektif karena merupakan
kesepakatan yang dibuat sebelumnya. Contoh
type misalnya buah, binatang dan sebagainya.
c.
Name
Name adalah sesuatu yang bersifat
individual, sebagai contoh: “Fuji” adalah
sebuah name yaitu nama dari sebuah apel.
Sesuatu dapat dikelompokkan ke dalam
beberapa type yang berbeda. Demikian juga
name, sesuatu dapat diberi name dengan
banyak cara.
Type dan name dalam teori knowledge
graph direpresentasikan dengan cara yang
hampir sama. Namun demikian bukan berarti
bahwa keduanya tidak bisa dibedakan. Type
dan name dibedakan oleh jenis relasi yang
menghubungkannya dengan token (Rusiyamti
2008).
2.7 Aspek-aspek Ontologi
Ontologi merupakan gambaran dari
beberapa konsep dan relasi antarkonsep yang
bertujuan mendefinisikan ide-ide yang
merepresentasikan
konsep,
relasi
dan
logikanya. Berdasarkan ontologi yang dimiliki
inilah knowledge graph dapat membangun
sebuah model yang dapat digunakan untuk
memahami bahasa alami (natural language).
Hal ini diperlukan agar arti dari suatu kalimat
dapat diekspresikan. Arti dari kata terlebih
dahulu harus diketahui untuk dapat
mengartikan sebuah kalimat (Ikhwati 2007).
Ontologi word graph sampai saat ini
terdiri atas token yang dinyatakan dengan
node, 8 binary relationships, dan 4 frame
relationships. Delapan binary relationships
tersebut ialah:
1 Causality
: CAU
2 Equality
: EQU
3 Subset
: SUB
4 Alikeness
: ALI
5 Disparateness
: DIS
6 Ordering
: ORD
7 Attribution
: PAR
8 Informational dependency
: SKO
Menurut Zhang (2002), penjelasan dari
ontologi dalam teori knowledge graph tersebut
dapat diberikan sebagai berikut:
1. Relasi ALI (Alikeness)
Relasi
ALI
digunakan
untuk
menghubungkan sebuah type dengan token.
Contoh: buah adalah type, maka dapat
dinyatakan dengan word graph berikut:
Gambar 2 Contoh penggunaan relasi ALI.
2. Relasi CAU (Causality)
Relasi kausal antara 2 buah token
digambarkan dengan anak panah berlabel
CAU. Relasi CAU digunakan untuk
menghubungkan dua token yang memiliki
hubungan sebab akibat atau bisa juga untuk
menghubungkan dua konsep yang terdiri dari
kata benda dan kata kerja atau untuk
menghubungkan subjek dengan predikat atau
predikat dengan objek. Contoh: kucing makan
nasi. Kalimat tersebut dapat dinyatakan
sebagai berikut:
Gambar 3 Contoh penggunaan relasi CAU.
3. Relasi EQU (Equality)
Relasi
EQU
digunakan
untuk
menghubungkan sebuah name dengan token.
Contoh: “Fuji” adalah name dari apel, word
graph-nya seperti gambar berikut:
Gambar 4 Contoh penggunaan relasi EQU.
4
Relasi ini biasa juga untuk menyatakan
kata
hubung
seperti
“adalah”
dan
“merupakan”, word graph-nya dapat dilihat
pada gambar berikut:
Gambar 5 Contoh penggunaan relasi EQU
yang menyatakan “adalah” dan
“merupakan”.
4. Relasi SUB (Subset)
Jika dua token menyatakan word graph,
dan word graph yang satu merupakan bagian
dari word graph yang lain, maka kedua token
dihubungkan dengan relasi SUB. Tetapi untuk
konsep yang dinyatakan dengan graf, dapat
dikatakan bahwa graf A subgraf dari graf B,
sehingga antara A dan B digunakan relasi
FPAR. Contoh: ekor merupakan bagian dari
kucing, dapat dinyatakan dengan word graph
berikut:
Gambar 6 Contoh penggunaan relasi SUB.
5. Relasi DIS (Disparateness)
Dalam logika matematika, relasi DIS
digunakan untuk menyatakan bahwa dua
token tidak mempunyai satu elemen pun yang
sama, sehingga dapat diformulasikan sebagai
berikut: A DIS B berarti bahwa A ∩ B = ∅ .
Relasi ini juga dapat digunakan untuk
menyatakan kata “berbeda”, misalnya air
berbeda dengan minyak yang dapat
dinyatakan dengan graf berikut:
Gambar 7 Contoh penggunaan relasi DIS.
6. Relasi ORD (Ordering)
Relasi ORD menyatakan bahwa dua hal
memiliki ururan tertentu, baik urutan waktu
maupun urutan tempat. Contoh penggunaan
relasi ORD, misalnya untuk menyatakan word
graph “dari permukaan sampai dasar”, yaitu:
Gambar 8 Contoh penggunaan relasi ORD.
7. Relasi PAR (Attribute)
Relasi PAR digunakan untuk menyatakan
bahwa sesuatu mempunyai sifat sesuatu yang
lain. Hal ini dapat dilihat pada contoh “baju
biru”. Kata biru merupakan warna dari baju,
atau dengan kata lain biru adalah attribute dari
baju. Frasa “baju biru” dapat dinyatakan
dengan knowledge graph sebagai berikut:
Gambar 9 Contoh penggunaan relasi PAR.
8. Relasi SKO (Skolem)
Dua buah token dalam teori knowledge
graph dihubungkan dengan relasi SKO, jika
informasi token yang satu bergantung pada
token yang lain. Menurut Berg (1993), relasi
SKO dalam teori knowledge graph
menyatakan informasi yang bergantung dan
mampu menggambarkan kuantifikasi. Relasi
ini digunakan dalam logika predikat yang
memuat existential quantifiers maupun
universal quantifiers. Perhatikan pernyataan
(
2
∀x ∈ N , ∃y ∈ N , x = y
)
yang
memuat
universal quantifiers. Pada pernyataan
tersebut pemilihan y bergantung pada x, dan
word graph-nya dapat dinyatakan sebagai
berikut:
Gambar 10 Contoh penggunaan relasi SKO.
Empat frame relationships yang dimaksud
dalam ontologi word graph adalah:
1) Focusing on a situation: FPAR
2) Negation of a situation: NEGPAR
3) Possibility of a situation: POSPAR
4) Necessity of a situation: NECPAR
Jika suatu graf merepresentasikan suatu
pernyataan, p: “Hari hujan”, yang dinyatakan
dengan frame. Negasi dari p dinyatakan
dengan graf yang sama dan diberi frame
dengan relasi NEGPAR, sedangkan modal
preposisi dinyatakan dengan graf yang sama
dan diberi frame dengan relasi POSPAR atau
NECPAR (Zhang 2002). Untuk lebih jelasnya
lihat gambar berikut:
5
Ontology Focus (F)
Ontologi F digunakan untuk menunjukkan
focus dari suatu graf (Hoede & Nurdiati
2008a). Penggunaan ontologi ini, misalnya
untuk menyatakan word graph “banjir
melanda kampung” yang dapat dinyatakan
sebagai berikut:
2.8 Chunk Indicator
Chunk merupakan potongan kalimat atau
potongan ucapan pada waktu seseorang
berbicara. Menurut Rusiyamti (2008) chunk
indicator yang digunakan untuk menganalisis
teks berbahasa Indonesia dengan teori
knowledge graph antara lain:
1. Koma atau titik (tanda baca)
Contoh: tanda titik (.), tanda koma (,),
tanda titik dua (:), tanda tanya (?), tanda
seru (!), tanda kurung ((…)).
2. Kata penunjuk dan kata penghubung
(konjungsi), yaitu kata tugas yang
menghubungkan dua klausa, kalimat, atau
paragraf.
Contoh: dan, lagi, atau, maupun, apabila,
tetapi, kecuali, sebab, jika, kalau, bahwa,
yakni, akan.
3. Kata kerja bantu, yaitu kata kerja yang
menduduki fungsi khusus terhadap sebuah
kata kerja utama.
Contoh: harus, mesti, sanggup, mampu,
boleh, bisa, ingin, mau, suka.
4. Kata depan (preposisi), yaitu kata tugas
yang berfungsi sebagai unsur pembentuk
frasa preposisional.
Contoh: di, ke, dari, hingga, mulai, serta,
karena, sebab, oleh, bagi, guna, terhadap.
5. Lompatan (jump), yaitu kata berurutan
yang tidak dapat digolongkan dalam satu
chunk.
6. Kata-kata dalam logika (logic word)
Gambar 12 Contoh penggunaan ontologi F.
Contoh penggunaan chunk indicator pada
kalimat yang berbunyi “Gelombang tsunami
berbeda dengan gelombang yang dibangkitkan
oleh angin.” Pemotongan kalimat (chunking)
tersebut adalah sebagai berikut:
“Gelombang tsunami |5 berbeda |2 dengan
4
| gelombang |5 yang |4 dibangkitkan |5 oleh|4
angin. |1”
Gambar 11 Contoh penggunaan frame FPAR
(a), NEGPAR (b), POSPAR (c),
dan NECPAR (d).
Gambar
tersebut
secara
berurutan
menunjukkan graf dari pernyataan bahwa (a)
hari ini hujan, (b) tidak benar bahwa hari ini
hujan, (c) mungkin hari ini hujan, dan (d)
seharusnya hari ini hujan.
III METODOLOGI PENELITIAN
Pada bab ini dibahas beberapa tahapan
yang dilakukan dalam penelitian ini.
1.
Studi
Kepustakaan
Dokumen
Berbahasa Indonesia
Kegiatan
ini
dilakukan
untuk
mengumpulkan dokumen yang dibutuhkan
dalam penelitian, yaitu tiga buah dokumen
berbahasa Indonesia bertema ketahanan
pangan, dan satu dokumen berbeda yang akan
digunakan sebagai bahan uji.
2.
Penentuan Kata Benda sebagai Konsep
Kata benda dipilih dari setiap teks
berbahasa Indonesia berdasarkan ciri-cirinya.
Kemudian kata benda yang telah dipilih
dihitung kemunculannya dan dikelompokkan
berdasarkan kesamaan makna kata atau
bentuk kata umumnya.
Kata benda yang telah dikelompokkan dan
disusun berdasarkan kemunculannya akan
dipilih sebagai konsep. Tetapi tidak seluruh
kata benda akan digunakan sebagai konsep,
Download