Tugas Akhir - 2009 ANALISIS DAN IMPLEMENTASI ALGORITMA SMITH-WATERMAN PADA PROSES IDENTIFIKASI KESAMAAN DOKUMEN Helmy Darmawan¹, Z.k. Abdurahman Baizal², Rimba Widhiana Ciptasari³ ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom Abstrak Mudahnya menyusun suatu karya dari sebuah dokumen teks, memicu tindak plagiat yang seharusnya dihindari menjadi semakin mudah dilakukan. Plagiarisme dalam dokumen teks sangat luas cakupannya. Salah satu yang bisa diindikasi adalah jika terdapat kesamaan isi, lebih jauh lagi kesamaan unsur pembangunya, yaitu sebuah kata yang merupakan unsur terkecil pembangun dokumen teks. Dalam bidang bioinformatika, terdapat algoritma Smith-Waterman yang digunakan untuk mengetahui kemiripan yang signifikan (local alignment) dari suatu sekuens gen makhluk hidup dengan cara sequence alignment (penyejajaran sekuens) yaitu menyusun pasangan rantai basa hidrogen pembentuk sekuens tersebut dengan sekuens lain berdasarkan kesamaan strukturnya [14]. Dengan menerapkan konsep algoritma Smith-Waterman, suatu kalimat dalam dokumen teks akan diibaratkan sebagai sebuah sekuens gen yang dibentuk oleh rangkaian kata dan akan dibandingkan dengan kalimat di dokumen teks lain. Sebelumnya, dokumen teks akan melalui tahapan penghilangan noise. Setelah itu diproses menggunakan algoritma Smith-Waterman sehingga diperoleh suatu prosentase kesamaan dokumen yang menandakan seberapa besar kemiripan dokumen tersebut dengan dokumen lain. Kata Kunci : plagiarisme, dokumen teks, penyejajaran sekuens, algoritma Smith-Waterman. Abstract Making written work from a text document is so easy, that make plagiarism, which is should be avoided, is easier to conduct. Plagiarism in text document covers a very large scope. One of the indications is content similarity, to be more specific,the similarity of the words constructing text documents. In bioinformatics field, Smith-Waterman algorithm is used to identify significant similarity (local alignment) among gene sequences of living creature, by using sequence alignment method which is a way of arranging hydrogen base pair chain that construct the sequence with another sequence based on structure-similarity [14]. By applying the concept of Smith-Waterman algorithm, a sentence in text documents will be likened to a gene sequence that was formed by a series of words and sentences, and compared to the sentences in the other text documents. Previously, the text document will go through the stages of noise elimination. And then processed using Smith-Waterman algorithm resulting similarity percentage, indicating how similar the document to the other documents. Keywords : plagiarism, text document, sequence alignment, Smith-Waterman algorithm. Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2009 1. Pendahuluan 1.1 Latar belakang Salah satu ciri bahwa suatu dokumen teks dapat diindikasikan plagiat diantaranya adalah karena identik atau adanya kesamaan antara dokumen teks tersebut dengan dokumen yang menjadi rujukan (dokumen sumber). Kesamaan dalam hal ini berupa kesamaan isi yang bermula dari kesamaan kata dan atau perubahannya dalam dokumen seperti adanya penambahan imbuhan dan atau perubahan sinonim. Perubahan itu biasanya disertai dengan membolak-balik susunan kata, mengubah bentuk pasif ke aktif atau sebaliknya, serta penambahan atau pengurangan kata-kata pendukung kalimat atau memparafrase. Upaya dalam mengidentifikasi kesamaan isi dari suatu dokumen teks merupakan suatu hal yang penting jika proses tersebut digunakan sebagai masukan terhadap dugaan ada atau tidaknya tindak plagiat dalam dokumen teks tersebut. Mengidentifikasi kesamaan isi dalam dokumen teks secara manual tentunya lebih akurat hasilnya, namun membutuhkan waktu yang besar. Untuk itu diperlukan suatu metode dan alat bantu untuk dapat mengidentifikasi kesamaan isi dari suatu dokumen teks yang dalam hal ini adalah dokumen teks yang berbentuk berkas. Di dalam bidang bioinformatika, terdapat suatu metode yaitu algoritma SmithWaterman yang digunakan untuk mengetahui kemiripan yang signifikan (local alignment) dari suatu sekuens gen yang berasal dari tubuh makhluk hidup dengan cara yang disebut dengan sequence alignment (penyejajaran sekuens) [14]. Dengan mengimplementasi Algoritma Smith-Waterman tersebut sebagai alat bantu dalam menentukan kesamaan dokumen teks, setiap kalimat pada dokumen teks akan dianalogikan sebagai sebuah sekuens gen yang disusun oleh rantairantai basa hidrogen yang berupa sebuah kata [5]. Selain itu, untuk dapat menyesuaikan masukan dan meningkatkan performansi algoritma dalam menemukan kesamaan, dilakukan preprocessing yang terdiri dari tahapan parsing, stopword removal, konversi sinonim serta stemming. Setelah itu, dengan melakukan perhitungan sesuai aturan algoritma Smith-Waterman, tiap kalimat pada dokumen teks disejajarkan dengan kalimat pada dokumen teks yang lain sehingga diperoleh suatu prosentase kesamaan dokumen yang menandakan seberapa besar kemiripan dokumen tersebut dengan dokumen lain. 1.2 Perumusan masalah Perumusan masalah dalam tugas akhir ini adalah sebagai berikut: 1. Bagaimana melakukan preprocessing dokumen untuk menghilangkan noise yang mungkin terdapat dalam dokumen. 2. Bagaimana melakukan proses identifikasi kesamaan dokumen berdasarkan kesamaan kata dan atau perubahannya menggunakan algoritma SmithWaterman. 3. Bagaimana menganalisis algoritma Smith-Waterman dalam menentukan kesamaan dokumen. 1 Fakultas Teknik Informatika Program Studi S1 Teknik Informatika Tugas Akhir - 2009 Batasan masalah dalam tugas akhir ini adalah sebagai berikut: 1. Dokumen yang diidentifikasi hanya berisi teks dan berformat ‘.txt’. 2. Dokumen teks yang digunakan adalah dokumen teks berbahasa indonesia. 3. Dokumen teks yang digunakan diasumsikan bebas kesalahan. 4. Dokumen teks yang diidentifikasi minimal terdiri dari sepasang dokumen. 5. Proses stemming dokumen yang ada dalam tahapan preprocessing tidak menjadi fokus dalam tugas akhir ini. 6. Aplikasi yang dibangun hanya sebagai alat bantu untuk menemukan kesamaan didalam dokumen, sedangkan keputusan bahwasanya dokumen teks tersebut diduga sama atau tidak berada di tangan user. 1.3 Tujuan Tujuan dalam tugas akhir ini adalah sebagai berikut: 1 Mengidentifikasi suatu dokumen dengan dokumen lain berdasarkan tingkat kesamaan kata dan atau perubahannya menggunakan algoritma SmithWaterman untuk mengetahui seberapa besar kesamaannya. 2 Menganalisis sistem identifikasi kesamaan dokumen yang telah dibangun. 1.4 Metodologi penyelesaian masalah Metode penyelesaian masalah yang digunakan dalam tugas akhir ini adalah: 1. Identifikasi masalah Menentukan latar belakang, rumusan masalah, tujuan yang ingin dicapai, serta metodologi penyelesaian masalah dari tugas akhir yang dilakukan. 2. Studi literatur Mengumpulkan data serta mempelajari konsep kesamaan dokumen, penyejajaran sekuens, serta algoritma Smith-Waterman dari buku, artikel, penelitian serta jurnal ilmiah sebagai referensi. 3. Analisis dan desain Melakukan analisis dari identifikasi masalah dan studi literatur yang dilakukan untuk menentukan solusi dari perumusan masalah kemudian membangun desain dari aplikasi yang akan diterapkan. 4. Implementasi Melakukan pembuatan aplikasi yang digunakan dalam proses identifikasi kesamaan dokumen menggunakan algoritma Smith-Waterman. 5. Pengujian dan evaluasi Melakukan pengujian terhadap aplikasi yang dibangun dan menganalisis hasil pengujian tersebut. 6. Pembuatan laporan Menyusun laporan tertulis berdasarkan hasil penelitian yang dilakukan, memberikan kesimpulan serta saran. 2 Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2009 5. Penutup 5.1 Kesimpulan Kesimpulan yang diperoleh dari tugas akhir ini adalah sebagai berikut: 1. Implementasi algoritma Smith-Waterman dapat digunakan sebagai alat bantu dalam menemukan kesamaan dokumen teks berbahasa Indonesia, dan berdasarkan pengujian yang telah dilakukan, dilakukannya tahapan preprocessing dokumen akan meningkatkan kinerja algoritma SmithWaterman dalam menemukan kesamaan sebesar 12.44% untuk dokumen yang memanipulasi perubahan sinonim, 13.82% untuk dokumen yang memanipulasi perubahan imbuhan, serta 20.91% untuk dokumen yang memanipulasi kombinasi perubahan. 2. Penggunaan kombinasi skor yang berbeda akan berpengaruh terhadap hasil keluaran, dan berdasarkan pengujian yang telah dilakukan, kombinasi skor reward=2 dan punishment= -1 dengan threshold=3 merupakan kombinasi yang menghasilkan hasil paling optimal karena membuat algoritma SmithWaterman menghasilkan rata-rata prosentase kesamaan paling besar. 3. Jika dokumen yang dibandingkan merupakan dokumen yang sama persis, maka algoritma Smith-Waterman akan selalu menjumpai kondisi average case, sedangkan jika dokumen yang dibandingkan memiliki persamaan dan perbedaan, maka algoritma Smith-Waterman akan menjumpai kombinasi kondisi best case, worst case atau average case. 5.2 Saran Saran untuk pengembangan lebih lanjut tentang topik ini adalah sebagai berikut: 1. Perlu dilakukan studi lebih lanjut agar waktu proses identifikasi kesamaan dokumen ditekan sebesar mungkin agar menjadi lebih cepat. 2. Perlu dilakukan studi lebih lanjut untuk mendeteksi kesamaan dokumen teks yang terbentuk karena berbagai macam kondisi legal. 3. Data uji perlu ditingkatkan kualitas dan kuantitasnya agar kenekaragaman hasil yang didapatkan menjadi lebih sesuai dan mencerminkan dengan kenyataan yang ada. 33 Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2009 Referensi [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] Alignments, http://helix.mcmaster.ca/721/outline2/node39.html, diakses pada tanggal 30 Agustus 2009. Dreher,Heinz., 2007, Automatic Conceptual Analysis for Plagiarism Detection, School of Information Systems, Curtin University of Technology Perth, Western Australia. ETutorials.org, Tutorial: Basic local alignment search tool (blast), http://etutorials.org/Misc/blast, diakses pada tanggal 30 Agustus 2009. Fadillah,Z. Tala, A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia, Institute for Logic-Language and Computation, Universiteit van Amsterdam, The Netherlands. Irving,Robert W., 2004, Plagiarism and Collusion Detection using the Smith-Waterman Algorithm, Department of Computing Science, University of Glasgow, Glasgow G12 8QQ, UK. Munir,Rinaldi, 2005, Diktat Kuliah IF2251 : Strategi Algoritmik, Institut Teknologi Bandung, Bandung. Pankaj, K. Agarwal, 2003, Lecture 10: Local Alignment and Substitution Matrices, CPS260/BGT204.1 Algorithms in Computational Biology. Romans Lukashenko, Vita Graudina, Janis Grundspenkis, Computer-Based Plagiarism Detection Methods and Tools: An Overview, International Conference on Computer Systems and Technologies-CompSysTech’07. Sequence Alignment, http://www.seas.gwu.edu/~simhaweb/cs151/lectures/module12/align.html, diakses pada tanggal 30 Agustus 2009. T. F. Smith, M. S. Waterman, 1981, Identification of Common Molecular Subsequences, Journal of Molecular Biology 147:195 – 197, Stanford University. Wikipedia, Bioinformatik, http://id.wikipedia.org/wiki/Bioinformatik, diakses pada tanggal 30 Agustus 2009. Wikipedia, Plagiarisme, http://id.wikipedia.org/wiki/Plagiarisme, diakses pada tanggal 30 Agustus 2009. Wikipedia, Sequence Alignment, http://en.wikipedia.org/wiki/Sequence_alignment, diakses pada tanggal 30 Agustus 2009. Wikipedia, Smith-Waterman Algorithm, http://en.wikipedia.org/wiki/Smith-Waterman_algorithm, diakses pada tanggal 30 Agustus 2009. 34 Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika