analisis dan implementasi algoritma smith

advertisement
Tugas Akhir - 2009
ANALISIS DAN IMPLEMENTASI ALGORITMA SMITH-WATERMAN PADA
PROSES IDENTIFIKASI KESAMAAN DOKUMEN
Helmy Darmawan¹, Z.k. Abdurahman Baizal², Rimba Widhiana Ciptasari³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Mudahnya menyusun suatu karya dari sebuah dokumen teks, memicu tindak plagiat yang
seharusnya dihindari menjadi semakin mudah dilakukan. Plagiarisme dalam dokumen teks
sangat luas cakupannya. Salah satu yang bisa diindikasi adalah jika terdapat kesamaan isi, lebih
jauh lagi kesamaan unsur pembangunya, yaitu sebuah kata yang merupakan unsur terkecil
pembangun dokumen teks. Dalam bidang bioinformatika, terdapat algoritma Smith-Waterman
yang digunakan untuk mengetahui kemiripan yang signifikan (local alignment) dari suatu
sekuens gen makhluk hidup dengan cara sequence alignment (penyejajaran sekuens) yaitu
menyusun pasangan rantai basa hidrogen pembentuk sekuens tersebut dengan sekuens lain
berdasarkan kesamaan strukturnya [14].
Dengan menerapkan konsep algoritma Smith-Waterman, suatu kalimat dalam dokumen teks akan
diibaratkan sebagai sebuah sekuens gen yang dibentuk oleh rangkaian kata dan akan
dibandingkan dengan kalimat di dokumen teks lain. Sebelumnya, dokumen teks akan melalui
tahapan penghilangan noise. Setelah itu diproses menggunakan algoritma Smith-Waterman
sehingga diperoleh suatu prosentase kesamaan dokumen yang menandakan seberapa besar
kemiripan dokumen tersebut dengan dokumen lain.
Kata Kunci : plagiarisme, dokumen teks, penyejajaran sekuens, algoritma Smith-Waterman.
Abstract
Making written work from a text document is so easy, that make plagiarism, which is should be
avoided, is easier to conduct. Plagiarism in text document covers a very large scope. One of the
indications is content similarity, to be more specific,the similarity of the words constructing text
documents. In bioinformatics field, Smith-Waterman algorithm is used to identify significant
similarity (local alignment) among gene sequences of living creature, by using sequence
alignment method which is a way of arranging hydrogen base pair chain that construct the
sequence with another sequence based on structure-similarity [14].
By applying the concept of Smith-Waterman algorithm, a sentence in text documents will be
likened to a gene sequence that was formed by a series of words and sentences, and compared to
the sentences in the other text documents. Previously, the text document will go through the
stages of noise elimination. And then processed using Smith-Waterman algorithm resulting
similarity percentage, indicating how similar the document to the other documents.
Keywords : plagiarism, text document, sequence alignment, Smith-Waterman algorithm.
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Tugas Akhir - 2009
1. Pendahuluan
1.1
Latar belakang
Salah satu ciri bahwa suatu dokumen teks dapat diindikasikan plagiat diantaranya
adalah karena identik atau adanya kesamaan antara dokumen teks tersebut dengan
dokumen yang menjadi rujukan (dokumen sumber). Kesamaan dalam hal ini
berupa kesamaan isi yang bermula dari kesamaan kata dan atau perubahannya
dalam dokumen seperti adanya penambahan imbuhan dan atau perubahan
sinonim. Perubahan itu biasanya disertai dengan membolak-balik susunan kata,
mengubah bentuk pasif ke aktif atau sebaliknya, serta penambahan atau
pengurangan kata-kata pendukung kalimat atau memparafrase. Upaya dalam
mengidentifikasi kesamaan isi dari suatu dokumen teks merupakan suatu hal yang
penting jika proses tersebut digunakan sebagai masukan terhadap dugaan ada atau
tidaknya tindak plagiat dalam dokumen teks tersebut. Mengidentifikasi kesamaan
isi dalam dokumen teks secara manual tentunya lebih akurat hasilnya, namun
membutuhkan waktu yang besar. Untuk itu diperlukan suatu metode dan alat
bantu untuk dapat mengidentifikasi kesamaan isi dari suatu dokumen teks yang
dalam hal ini adalah dokumen teks yang berbentuk berkas.
Di dalam bidang bioinformatika, terdapat suatu metode yaitu algoritma SmithWaterman yang digunakan untuk mengetahui kemiripan yang signifikan (local
alignment) dari suatu sekuens gen yang berasal dari tubuh makhluk hidup dengan
cara yang disebut dengan sequence alignment (penyejajaran sekuens) [14].
Dengan mengimplementasi Algoritma Smith-Waterman tersebut sebagai alat
bantu dalam menentukan kesamaan dokumen teks, setiap kalimat pada dokumen
teks akan dianalogikan sebagai sebuah sekuens gen yang disusun oleh rantairantai basa hidrogen yang berupa sebuah kata [5]. Selain itu, untuk dapat
menyesuaikan masukan dan meningkatkan performansi algoritma dalam
menemukan kesamaan, dilakukan preprocessing yang terdiri dari tahapan parsing,
stopword removal, konversi sinonim serta stemming. Setelah itu, dengan
melakukan perhitungan sesuai aturan algoritma Smith-Waterman, tiap kalimat
pada dokumen teks disejajarkan dengan kalimat pada dokumen teks yang lain
sehingga diperoleh suatu prosentase kesamaan dokumen yang menandakan
seberapa besar kemiripan dokumen tersebut dengan dokumen lain.
1.2
Perumusan masalah
Perumusan masalah dalam tugas akhir ini adalah sebagai berikut:
1. Bagaimana melakukan preprocessing dokumen untuk menghilangkan noise
yang mungkin terdapat dalam dokumen.
2. Bagaimana melakukan proses identifikasi kesamaan dokumen berdasarkan
kesamaan kata dan atau perubahannya menggunakan algoritma SmithWaterman.
3. Bagaimana menganalisis algoritma Smith-Waterman dalam menentukan
kesamaan dokumen.
1
Fakultas Teknik Informatika
Program Studi S1 Teknik Informatika
Tugas Akhir - 2009
Batasan masalah dalam tugas akhir ini adalah sebagai berikut:
1. Dokumen yang diidentifikasi hanya berisi teks dan berformat ‘.txt’.
2. Dokumen teks yang digunakan adalah dokumen teks berbahasa indonesia.
3. Dokumen teks yang digunakan diasumsikan bebas kesalahan.
4. Dokumen teks yang diidentifikasi minimal terdiri dari sepasang dokumen.
5. Proses stemming dokumen yang ada dalam tahapan preprocessing tidak
menjadi fokus dalam tugas akhir ini.
6. Aplikasi yang dibangun hanya sebagai alat bantu untuk menemukan
kesamaan didalam dokumen, sedangkan keputusan bahwasanya dokumen
teks tersebut diduga sama atau tidak berada di tangan user.
1.3
Tujuan
Tujuan dalam tugas akhir ini adalah sebagai berikut:
1 Mengidentifikasi suatu dokumen dengan dokumen lain berdasarkan tingkat
kesamaan kata dan atau perubahannya menggunakan algoritma SmithWaterman untuk mengetahui seberapa besar kesamaannya.
2 Menganalisis sistem identifikasi kesamaan dokumen yang telah dibangun.
1.4
Metodologi penyelesaian masalah
Metode penyelesaian masalah yang digunakan dalam tugas akhir ini adalah:
1. Identifikasi masalah
Menentukan latar belakang, rumusan masalah, tujuan yang ingin dicapai,
serta metodologi penyelesaian masalah dari tugas akhir yang dilakukan.
2. Studi literatur
Mengumpulkan data serta mempelajari konsep kesamaan dokumen,
penyejajaran sekuens, serta algoritma Smith-Waterman dari buku, artikel,
penelitian serta jurnal ilmiah sebagai referensi.
3. Analisis dan desain
Melakukan analisis dari identifikasi masalah dan studi literatur yang
dilakukan untuk menentukan solusi dari perumusan masalah kemudian
membangun desain dari aplikasi yang akan diterapkan.
4. Implementasi
Melakukan pembuatan aplikasi yang digunakan dalam proses identifikasi
kesamaan dokumen menggunakan algoritma Smith-Waterman.
5. Pengujian dan evaluasi
Melakukan pengujian terhadap aplikasi yang dibangun dan menganalisis
hasil pengujian tersebut.
6. Pembuatan laporan
Menyusun laporan tertulis berdasarkan hasil penelitian yang dilakukan,
memberikan kesimpulan serta saran.
2
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Tugas Akhir - 2009
5. Penutup
5.1
Kesimpulan
Kesimpulan yang diperoleh dari tugas akhir ini adalah sebagai berikut:
1. Implementasi algoritma Smith-Waterman dapat digunakan sebagai alat bantu
dalam menemukan kesamaan dokumen teks berbahasa Indonesia, dan
berdasarkan pengujian yang telah dilakukan, dilakukannya tahapan
preprocessing dokumen akan meningkatkan kinerja algoritma SmithWaterman dalam menemukan kesamaan sebesar 12.44% untuk dokumen
yang memanipulasi perubahan sinonim, 13.82% untuk dokumen yang
memanipulasi perubahan imbuhan, serta 20.91% untuk dokumen yang
memanipulasi kombinasi perubahan.
2. Penggunaan kombinasi skor yang berbeda akan berpengaruh terhadap hasil
keluaran, dan berdasarkan pengujian yang telah dilakukan, kombinasi skor
reward=2 dan punishment= -1 dengan threshold=3 merupakan kombinasi
yang menghasilkan hasil paling optimal karena membuat algoritma SmithWaterman menghasilkan rata-rata prosentase kesamaan paling besar.
3. Jika dokumen yang dibandingkan merupakan dokumen yang sama persis,
maka algoritma Smith-Waterman akan selalu menjumpai kondisi average
case, sedangkan jika dokumen yang dibandingkan memiliki persamaan dan
perbedaan, maka algoritma Smith-Waterman akan menjumpai kombinasi
kondisi best case, worst case atau average case.
5.2
Saran
Saran untuk pengembangan lebih lanjut tentang topik ini adalah sebagai berikut:
1. Perlu dilakukan studi lebih lanjut agar waktu proses identifikasi kesamaan
dokumen ditekan sebesar mungkin agar menjadi lebih cepat.
2. Perlu dilakukan studi lebih lanjut untuk mendeteksi kesamaan dokumen teks
yang terbentuk karena berbagai macam kondisi legal.
3. Data uji perlu ditingkatkan kualitas dan kuantitasnya agar kenekaragaman
hasil yang didapatkan menjadi lebih sesuai dan mencerminkan dengan
kenyataan yang ada.
33
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Tugas Akhir - 2009
Referensi
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
Alignments, http://helix.mcmaster.ca/721/outline2/node39.html,
diakses pada tanggal 30 Agustus 2009.
Dreher,Heinz., 2007, Automatic Conceptual Analysis for Plagiarism
Detection, School of Information Systems, Curtin University of Technology
Perth, Western Australia.
ETutorials.org, Tutorial: Basic local alignment search tool (blast),
http://etutorials.org/Misc/blast, diakses pada tanggal 30 Agustus 2009.
Fadillah,Z. Tala, A Study of Stemming Effects on Information Retrieval in
Bahasa Indonesia, Institute for Logic-Language and Computation,
Universiteit van Amsterdam, The Netherlands.
Irving,Robert W., 2004, Plagiarism and Collusion Detection using the
Smith-Waterman Algorithm, Department of Computing Science, University
of Glasgow, Glasgow G12 8QQ, UK.
Munir,Rinaldi, 2005, Diktat Kuliah IF2251 : Strategi Algoritmik, Institut
Teknologi Bandung, Bandung.
Pankaj, K. Agarwal, 2003, Lecture 10: Local Alignment and Substitution
Matrices, CPS260/BGT204.1 Algorithms in Computational Biology.
Romans Lukashenko, Vita Graudina, Janis Grundspenkis, Computer-Based
Plagiarism Detection Methods and Tools: An Overview, International
Conference on Computer Systems and Technologies-CompSysTech’07.
Sequence Alignment,
http://www.seas.gwu.edu/~simhaweb/cs151/lectures/module12/align.html,
diakses pada tanggal 30 Agustus 2009.
T. F. Smith, M. S. Waterman, 1981, Identification of Common Molecular
Subsequences, Journal of Molecular Biology 147:195 – 197, Stanford
University.
Wikipedia, Bioinformatik,
http://id.wikipedia.org/wiki/Bioinformatik,
diakses pada tanggal 30 Agustus 2009.
Wikipedia, Plagiarisme,
http://id.wikipedia.org/wiki/Plagiarisme,
diakses pada tanggal 30 Agustus 2009.
Wikipedia, Sequence Alignment,
http://en.wikipedia.org/wiki/Sequence_alignment,
diakses pada tanggal 30 Agustus 2009.
Wikipedia, Smith-Waterman Algorithm,
http://en.wikipedia.org/wiki/Smith-Waterman_algorithm,
diakses pada tanggal 30 Agustus 2009.
34
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Download