usulan penelitian disertasi

advertisement
Pengaruh PoS pada Word Alignment
Word alignment dari korpus bilingual memberikan pengetahuan penting untuk
banyak tugas pengolahan bahasa alami, seperti ekstraksi dari kata-kata bilingual atau
leksikal. Solusi dari masalah ini sangat tergantung pada kualitas word alignment. Model
word alignment pertama kali diperkenalkan pada terjemahan mesin statistik (Brown et al.,
1993). Alignment menggambarkan pemetaan dari kata-kata kalimat sumber terhadap katakata pada kalimat target.
IBM Model 1 merupakan model word alignment yang menggunakan algoritma
Expectation Maximization (EM) untuk melakukan komputasi probabilitas translasi leksikal
dari korpus paralel. Pada IBM model 1 didefinisikan kalimat sumber sebagai f = (f1, … flf)
dimana lf adalah banyaknya kata dalam kalimat f, kalimat target sebagai e = (e1, … elf)
dimana ef adalah banyaknya kata dalam kalimat e dengan fungsi alignment a : j → i.
Probabilitasnya didefinisikan sebagai :
(7)
Sebagai contoh, sebuah kalimat dari bahasa Jerman dengan terjemahannya dalam
bahasa Inggris seperti berikut ini :
IBM Model 2 menambahkan fungsi perubahan posisi kata-kata dari kalimat sumber
ke kalimat target sebagai a(i | j, le , lf ), dimana i adalah posisi kata pada kalimat sumber, j
adalah posisi kata pada kalimat target, le dan lf adalah banyaknya kata pada kalimat target
dan kalimat sumber.
IBM Model 2 dapat dilihat sebagai 2 langkah proses, yaitu langkah penerjemahan
(translation step) dan alignment step seperti berikut ini :
2
Dua langkah tersebut secara matematis didefinisikan sebagai :
(8)
IBM Model 3 terdiri dari 4 langkah proses, yaitu fertility, NULL insertion, lexical
translation, dan distortion. Pada proses fertility, setiap kata pada kalimat sumber dicari
probabilitas berapa banyak kata hasil terjemahan dari kata tersebut yang didefinisikan
sebagai n(Ф,f), dimana Ф adalah banyak kata hasil terjemahan dari kata f. Pada proses
NULL insertion, setiap NULL yang disisipkan ditentukan dari probabilitas p1 setelah
terjadinya setiap kata atau tidak menyisipkan NULL dengan probabilitas p0 = 1 − p1.
Proses lexical translation dilakukan sama seperti IBM model 1, dan proses distortion mirip
dengan langkah alignment pada IBM Model 2. Keempat langkah tersebut dicontohkan
sebagai berikut :
IBM model 4 mengacu kepada IBM model 3, tetapi dengan melakukan distorsi
secara relatif pada proses distortion.
Sebagai contoh, kalimat sumber dan kalimat target terjemahan dengan alignment
sebagai berikut :
3
Distorsi pada IBM Model 4 adalah kata-kata pada kalimat sumber dengan fertility
yang tidak 0 (nol) dari cept (disini ada 5 cept) yang berisi kata-kata pada kalimat target ej.
Pusat i
i
dari sebuah cept πi, yaitu rata-rata yang dibulatkan ke atas dari j
(ceiling(avg( j))).
Distorsi untuk setiap kata-kata pada kalimat sumber dimodelkan dengan sebuah
probabilitas distribusi :
a) untuk kata yang berasal dari NULL (misalnya kata do)
b) untuk kata pertama dalam cept (misalnya kata not), berdasarkan pada jarak antara
kata dan pusat sebelum kata tersebut (j −
)
i-1
c) untuk kata-kata berikutnya didalam cept (misalnya kata the), berdasarkan jarak kata
sebelumnya dalam cept. Probabilitas distribusi d1 dan d>1 dipelajari dari data yang
dukondisikan menggunakan informasi leksikal.
Lebih jelasnya dapat dilihat seperti contoh berikut :
Terdapat 5 (lima) cept yaitu π1 ... π5, posisi kata ke 3 (tiga) untuk kata ”ja” tidak
digunakan karena tidak menghasilkan kata target. Pusat cept
4
ditentukan menjadi 6
karena rata-rata 5 dan 6 adalah 5,5, selanjutnya dibulatkan ke atas menjadi 6. Selanjutnya,
distorsi untuk setiap kata-kata dari kalimat target ditentukan sebagai berikut :
4
Ada 3 (tiga) kondisi untuk setiap kata-kata target yang didefinisikan distorsi
relatifnya, yaitu : (1) kata-kata yang dihasilkan dari token NULL, (2) kata pertama di
dalam cept dan (3) kata-kata berikutnya di dalam cept.
Kata-kata yang dihasilkan dari token NULL didistribusikan secara seragam, kata
pertama di dalam cept menggunakan probabilitas distribusi :
d1 (j −
i-1
)
(9)
Kata-kata berikutnya di dalam cept menggunakan probabilitas distribusi :
d>1 ( j − πi,k−1)
(10)
Pada implementasinya, beberapa jenis kata cenderung berpindah posisi pada
terjemahannya, sebagai contoh adjective–noun selalu dibalik saat diterjemahkan dari
bahasa Prancis ke bahasa Inggris seperti pada kalimat affaires extérieur yang
diterjemahkan menjadi external affairs .
Probabilitas distribusi pada persamaan (9) dan (10) untuk kata-kata ej dan f(i-1)
adalah :
d1 (j −
i-1
| f(i-1) , ej )
(11)
dan
d>1 ( j − πi,k−1| ej )
(12)
IBM model 4 memperkenalkan kelas kata (word classes) pada penggunaannya, saat
kosakata suatu bahasa dibagi-bagi menjadi beberapa kelompok (misalnya 50 kelas), hal ini
dapat dikondisikan sebagai probabilitas distibusi pada kelas-kelas ini. Hasilnya hampir
seperti model leksikal, tapi dilakukan secara statistik.
Secara formal, dapat digunakan 2 (dua) fungsi A(f) dan B(e) yang memetakan katakata terhadap kelas kata nya. Persamaan (11) dan (12) akan menjadi :
5
d1 (j −
i-1
| A(f(i-1)), B(ej))
(13)
dan
d>1 ( j − πi,k−1| B(ej))
(14)
Banyak cara untuk mendefinisikan fungsi kelas kata A dan B. Salah satunya adalah
dengan menggunakan penandaan PoS. Biasanya ini berarti menandai korpus paralel
dengan instrumen tertentu secara otomatis. Alternatif lain adalah dengan mengklaster katakata secara otomatis ke dalam kelas kata dengan jumlah kelas tertentu.
Download