Chapter I - Universitas Sumatera Utara

advertisement
BAB 1
PENDAHULUAN
1.1 Latar Belakang
Dengan berkembangnya Internet, banyak informasi tersedia dalam World Wide Web yang
dapat diakses di seluruh negara. Pada saat pencarian informasi menggunakan search
engine, jika query yang diberikan sebagai kata pencarian ditulis dalam bahasa tertentu,
maka hasil pencarian yang diberikan kepada user hanya dokumen berisi informasi yang
ditulis dalam bahasa tersebut. Sehingga hasil pencarian tidak dapat memberikan hasil
yang maksimum untuk user. Berdasarkan informasi yang disediakan oleh web, maka
informasi tersebut dapat menjadi bagian solusi dari permasalahan diatas untuk
mendapatkan hasil pencarian yang maksimum baik dari query bahasa tertentu dan bahasa
asing lainnya.
Informasi merupakan kumpulan data yang akan diolah. Data dari informasi dapat
menjadi data training untuk membangkitkan probabilistic translation model yang
menerjemahkan query dari satu bahasa ke bahasa lain yang dapat digunakan untuk Cross
Language Information Retrieval (CLIR) dan Machine Translation (MT). Pada MT sering
ditemukan hasil terjemahan yang tidak tepat sehingga membuat user tidak mengerti hasil
terjemahan secara keseluruhan. Hal ini juga menjadi sebuah permasalahan yang harus
segera diatasi. Sedangkan pada CLIR, hasil pencarian hanya dokumen yang berisi
informasi yang ditulis dalam query bahasa tertentu. Sehingga diperlukan probabilistic
translation model untuk mendapatkan hasil terjemahan yang baik.
Universitas Sumatera Utara
Dari penelitian [9] dan [7], sebuah probabilistic translation model digunakan
untuk menerjemahkan query dari bahasa asal ke bahasa tujuan. Dari kedua penelitian
tersebut dapat dilihat bahwa probabilistic translation model dengan hasil terjemahan yang
baik, dibutuhkan corpus berisi parallel text dalam jumlah besar sebagai data training.
Untuk mendapatkan hasil terjemahan yang baik, diperlukan kaidah penerjemahan dari
bahasa asal ke bahasa tujuan dan sebaliknya yang akan digunakan dalam probabilistic
translation model.
Corpus adalah kumpulan teks yang bisa digunakan untuk proses training dan
pengembangan data [7]. Corpus berisi parallel text yang merupakan hasil text mining
yang memperoleh pola berupa pasangan teks dari suatu bahasa terhadap bahasa lain di
mana sumber yang dipakai berasal dari web.
Berdasarkan latar belakang yang diuraikan sebelumnya, maka penulis berinisiatif
untuk membuat sebuah corpus generator untuk mengumpulkan parallel text Bahasa
Indonesia – Bahasa Inggris dalam jumlah besar, guna menjawab masalah yang telah
diuraikan sebelumnya.
1.2 Manfaat dan Tujuan
1.2.1 Manfaat Penelitian
Manfaat yang diperoleh dalam penelitian ini adalah parallel text yang dihasilkan dapat
digunakan sebagai data training untuk menghasilkan probabilistic translation model
yang menerjemahkan query dari satu bahasa ke bahasa lain yang disebut sebagai CLIR
dan Machine Translation.
Universitas Sumatera Utara
1.2.2 Tujuan
Tujuan yang hendak dicapai dalam penelitian ini ialah membangun sebuah corpus
generator berisi parallel text dalam bahasa Indonesia – bahasa Inggris.
1.2.3 Perumusan Masalah
Dari latar belakang masalah yang diuraikan sebelumnya, maka dapat dirumuskan bahwa
masalah yang melatar belakangi skripsi ini adalah bagaimana membangun sebuah sistem
untuk menghasilkan parallel text yang berasal dari web.
1.2.4 Batasan Masalah
Batasan masalah yang menjadi acuan dalam penelitian ini adalah:
1.
Corpus generator yang dihasilkan adalah corpus berisi parallel text dengan
sumber teks yang berasal dari web dwi bahasa.
2.
Corpus yang dihasilkan adalah corpus dwibahasa berdasarkan kata dan kalimat
dan berupa file text.
3.
Metode yang digunakan untuk mendapatkan pasangan web page adalah
berdasarkan nama web page.
4.
Metode yang digunakan untuk mendapatkan parallel text adalah parallel text
alignment berdasarkan kesamaan tag HTML.
5.
Bahasa yang digunakan dalam pembuatan perangkat lunak ini menggunakan
bahasa pemrograman PHP versi 5.0.
Universitas Sumatera Utara
1.2.5
Sistematika Penulisan
Pembahasan dalam skripsi ini secara garis besar dibagi dalam 5 (lima) bab, adapun
susunan bab demi bab dalam skripsi ini adalah sebagai berikut:
BAB 1 : Pendahuluan
Bab ini menjelaskan mengenai latar belakang, perumusan masalah, identifikasi masalah,
tujuan, manfaat, batasan masalah, serta sistematika penulisan.
BAB 2 : Landasan Teori
Bab ini menjelaskan teori-teori yang bersangkutan dengan masalah yang akan dibahas.
Teori-teori tersebut yaitu membahas defenisi Sistem, Informasi, Analisis, Query, Search
Engine, Hostname, URL, HTML, Text Mining, Corpus, Parallel Text, Cross Language
Information Retrieval(CLIR), Machine Translation dan Probabilistic Translation Model.
BAB 3 : Analisis dan Perancangan Sistem
Bab ini membahas tentang bagaimana menganalisa permasalahan untuk mengambil
parallel text antara bahasa Indonesia – bahasa Inggris dari web dan desain aplikasi
interface yang dibangun serta proses-proses yang terdapat pada aplikasi (flow chart).
BAB 4 : Implementasi dan Pengujian Sistem
Bab ini menjelaskan bagaimana mengimplementasikan rancangan yang telah dibuat pada
tahap analisis dan perancangan sistem ke dalam perangkat lunak komputer dengan
menggunakan bahasa pemrograman PHP dan dilanjutkan menguji aplikasi yang telah
dibangun.
Universitas Sumatera Utara
BAB 5 : Kesimpulan dan Saran
Bab ini menguraikan kesimpulan dari penjelasan bab-bab sebelumnya, sehingga dari
kesimpulan tersebut penulis mencoba memberi saran yang untuk melengkapi dan
menyempurnakan pemgembangan Implementasi Corpus Generator dengan Parallel Text
yang digunakan untuk masa yang akan datang.
Universitas Sumatera Utara
Download