PENGEMBANGAN APLIKASI CERDAS BERBASIS INTELEGENSIA BUATAN UNTUK PERBANDINGAN KARYA ILMIAH HASIL PENELITIAN DALAM UPAYA MENCEGAH PLAGIASI Budi Prasetyo dan Susana* ABSTRAK PENGEMBANGAN APLIKASI CERDAS BERBASIS INTELEGENSIA BUATAN UNTUK PERBANDINGAN KARYA ILMIAH HASIL PENELITIAN DALAM UPAYA MENCEGAH PLAGIASI. Perbandingan karya ilmiah hasil penelitian dimaksudkan untuk mengetahui seberapa besar tingkat kemiripan dari dua dokumen karya ilmiah hasil penelitian. Dokumen kueri (query) dibandingkan dengan koleksi dokumen yang ada di database. Perbandingan dokumen dilakukan melalui tahapan tokenising, filtering, stemming dan evaluasi/uji kemiripan. Uji kemiripan menggunakan kombinasi dua metode yaitu TF/IDF dan BM25. Aplikasi juga dikembangkan untuk mendukung pengujian dengan fasilitas dua bahasa (cross-language) yaitu Bahasa Indonesia dan Bahasa Inggris. Aplikasi dibuat dengan platform web menggunakan bahasa pemrograman PHP dan database MySQL. Hasil pengujian menunjukkan aplikasi telah berjalan sesuai yang diharapkan serta mampu membandingkan dokumen yang isinya sama dengan keakuratan 100%, dokumen yang isinya sama tetapi posisi paragrafnya dipindah dengan keakuratan 100%, sedangkan dokumen yang isinya berbeda ditampilkan dalam bentuk prosentase dengan nilai kemiripan yang sebanding dengan jumlah kata (term) yang sama. Kata kunci: tokenising, filtering, stemming, TF/IDF, BM25,cross-language ABSTRACT DEVELOPMENT OF INTELLIGENT BASED APPLICATION FOR SCIENTIFIC WORKS COMPARISON IN EFFORTS TO PREVENT PLAGIARISM. Application development for comparison of scientific paper intended to determine the extent of the similarity of the two documents. Document query is compared with a collection of documents in the database. The comparison is done through the stages tokenising, filtering, stemming, and similarity evaluation/test. The similarity test uses a combination of two methods: TF/IDF and BM25. The application was also developed to support comparison with cross-language facility that is Indonesian and English. The application was developed in the web platform using PHP programming language and MySQL database. Test results indicate that the application has been worked as expected and be able to compare the document whose content exactly the same with 100% accuracy, a document whose content is the same but the position of paragraphf was moved with 100% accuracy, while the document with the different content was displayed in a percentage with similarity values are proportional to the number of same words (terms) Keywords: tokenising, filtering, stemming, TF / IDF, BM25, cross-language * Pusat Pengembangan Informatika Nuklir - BATAN Serpong, e-mail: [email protected] 157 Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172) PENDAHULUAN Praktek penjiplakan (plagiarisme) dalam penulisan karya ilmiah cukup sering terjadi di berbagai kalangan. Plagiarisme adalah penjiplakan atau pengambilan karangan, pendapat, dan sebagainya dari orang lain dan menjadikannya seolah karangan dan pendapat sendiri.[6] Berbagai upaya untuk mencegah paraktek plagiarisme telah dilakukan diantaranya dengan penerapan undang-undang hak cipta, akan tetapi tetap saja hasilnya belum memuaskan karena semua kembali pada moral manusianya. Walaupun peraturan perundangannya telah ditetapkan, tetapi jika si pelakunya tetap ingin melanggar maka peraturan tersebut tidak akan efektif. Survei pendahuluan yang telah dilakukan di BATAN-Bandung memberikan indikasi tentang kesulitan dalam mengukur keaslian (orisinalitas) usulan penelitian. Biasanya permasalahan pelanggaran hak cipta baru bisa diketahui beberapa bulan bahkan terkadang beberapa tahun kemudian setelah hasil penelitiannya diterbitkan. Supaya hal ini tidak terjadi diperlukan upaya preventif menyaring usulan penelitian sejak dini dengan cara pendeteksian dini terhadap konten penulisan karya ilmiah. Pendektesian konten karya ilmiah secara manual tentunya sangat sulit dilakukan mengingat jumlah karya ilmiah yang sedemikian banyak. Untuk mengatasinya, perlu dibuat aplikasi pendektesian konten karya ilmiah secara otomatis. Aplikasi tersebut harus mampu menyimpan data-data karya ilmiah sebagai sebuah database yang selanjutnya disebut sebagai database referensi konten. Setelah menerima masukan karya ilmiah yang ingin diuji (yang selanjutnya disebut kueri), kemudian dengan algoritma tertentu, kueri dibandingkan dengan database referensi untuk menghasilkan dokumen-dokumen yang similar yang diurutkan sesuai dengan tingkat similaritasnya (kesamaannya). Berdasarkan pada permasalahan yang telah dikemukakan, dilakukan perumusan masalah yang dibahas dalam penelitian sebagai berikut: Algoritma apa yang tepat untuk diterapkan dalam pembuatan aplikasi cerdas dalam perbandingan karya ilmiah hasil penelitian? Tahapan-tahapan apa saja yang diperlukan untuk perbandingan konten karya ilmiah berbasis komputer? Seberapa jauh tingkat keakuratan perbandingan karya ilmiah hasil penelitian yang dilakukan oleh program aplikasi? Bagaimana kinerja (performance) aplikasi jika diterapkan pada keadaan yang sesungguhnya dengan jumlah data hasil penelitian yang mencapai ribuan dokumen? LANDASAN TEORI Information Retrieval Information retieval adalah ilmu untuk menemukan material yang umumnya merupakan dokumen-dokumen yang ditujukan untuk memenuhi kebutuhan informasi dari pemakai (user).[4] Cakupan dari perolehan informasi (information retrieval) juga 158 Pengembangan Aplikasi Cerdas Berbasis Intelegensia Buatan untuk Pembuatan ... (Budi Prasetyo, Susana) meliputi dukungan dari para pengguna di dalam mencari atau mendapatkan dokumendokumen. Arsitektur umum sistem information retrieval (IR system) bisa dilihat pada Gambar 1. Terdapat dua buah alur operasi pada IR system, alur pertama dimulai dari koleksi dokumen dan alur kedua dimulai dari kueri pengguna. Alur pertama yaitu pemrosesan terhadap koleksi dokumen menjadi basis data indeks dan tidak tergantung pada alur kedua. Sedangkan alur kedua tergantung dari keberadaan basis data indeks yang dihasilkan pada alur pertama. IR system menerima kueri dari pengguna, kemudian melakukan pemeringkatan (perangkingan) terhadap dokumen pada koleksi berdasarkan kesesuaiannya dengan kueri. Gambar 1. Skema Information Retrieval (IR) System Metodologi Perbandingan Dokumen dalam IR System Pada saat kueri disubmit ke sistem IR, akan dihasilkan sekumpulan hasil (result set). Result set ini perlu diurutkan sesuai dengan tingkat relevansinya yang dinyatakan dalam skor numerik. Makin tinggi skornya maka dokumen yang dihasilkan makin relevan. Berikut akan dikemukakan beberapa algoritma rangking dokumen yang sering digunakan dalam IR system. 159 Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172) Algoritma TF/IDF Pada prinsipnya algoritma TF/IDF (term frequency / inverse document frequency) mengukur bobot (weight) dalam information retreival[11]. Bobot tersebut merupakan ukuran statistik yang digunakan untuk mengevaluasi seberapa besar pentingnya sebuah kata (term) untuk dokumen dalam koleksi atau corpus. Nilai pentingnya akan meningkat secara proporsional dengan banyaknya kemunculan kata dalam dokumen tetapi juga diimbangi dengan frekuensi kata dalam corpus. Jika D adalah koleksi dokumen dan d merupakan bagian dari koleksi dokumen D (d D) maka d berisi kumpulan term (kata) yang menyusun dokumen. TF (term frequency) akan mengukur berapa kali term tersebut muncul dalam dokumen d. IDF (inverse document frequency) akan mengukur seberapa penting suatu term dalam dokumen secara keseluruhan. Makin banyak dokumen yang memuat suatu term, berarti term tersebut makin tidak penting. Sebaliknya makin sedikit dokumen yang memuat suatu term, berarti term tersebut makin penting. IDF suatu term t dihitung dengan cara membagi total dokumen dengan banyaknya dokumen (n) yang memuat term tersebut. IDF = log( D ) n :t∈ d Selanjutnya, bobot (W) masing-masing dokumen terhadap kata kunci pada algoritma TF/IDF bisa dihitung dengan rumus berikut: wj = tf IDFj Nilai bobot (w) akan menentukan tingkat similaritas dokumen tersebut terhadap kata kunci, demikian juga sebaliknya. Algoritma Okapi Best Match (BM) 25 Okapi BM25 merupakan algoritma yang digunakan oleh search engine untuk menentukan relevansi dokumen. Okapi BM25 merupakan salah satu pengembangan dari metode Binary Independence Model yang dikembangkan oleh Stephen E. Robertson. Metode Okapi BM25 melakukan pembobotan dokumen berdasarkan kueri (dokumen yang menjadi patokan) yang dimasukkan dengan menghitung koefisien kemiripan dengan rumus : 160 Pengembangan Aplikasi Cerdas Berbasis Intelegensia Buatan untuk Pembuatan ... (Budi Prasetyo, Susana) f(qi,D) : frekwensi kemunculan token pada dokumen |D| : panjang dokumen D avgdl : rata-rata panjang dokumen : konstanta, biasanya diambil nilai 1,2 k1 b : konstanta dengan range antara 0 dan 1, bisanya diambil nilai 0,75 Proses yang dilakukan untuk menghitung koefisien kemiripan adalah: 1. Menghitung jumlah token (term) dari tiap dokumen yang akan di ranking, hasil perhitungan dari jumlah tersebut disimpan dalam variabel D. 2. Menghitung jumlah dokumen yang memuat token (term) q, n(qi) 3. Menghitung f(qi, D) yaitu frekwensi token (term) dalam masing-masing dokumen 4. Menghitung IDF dengan rumus N : jumlah dokumen dalam korpus n(qi) : jumlah dokumen yang memuat token q 5. Menghitung rata-rata panjang dokumen avgdl = ∑ di / N 6. Menghitung relevansi tiap dokumen berdasarkan kueri yang menjadi dokumen uji Algoritma Vector Space Vector space model adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query[12]. Pada model ini, query dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana n adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada dalam indeks. Dokumen dan query akan dinyatakan dalam vektor: dj = (w1,j,w2,j,...,wt,j) q = (w1,q,w2,q,...,wt,q) Selanjutnya dari algoritma vector space model, dicari nilai cosinus sudut antara dua vector dari setiap bobot dokumen (wd) dan bobot dari kata kunci (wq). Dari nilai cosinus inilah tingkat similaritas dua dokumen akan terlihat. 161 Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172) Stemming Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah kata dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan. Proses stemming sangat bergantung pada bahasa yang digunakan karena masing-masing bahasa memmpunyai sintaks atau aturan yang berbeda-beda. Algoritma Stemming dengan Confix Stripping (CS) Confix stripping (CS) stemmer adalah metode stemming pada Bahasa Indonesia yang diperkenalkan oleh Jelita Asian[1] yang merupakan pengembangan dari metode stemming yang dibuat oleh Nazief dan Adriani (1996). Pada algoritma ini, bentuk kata dalam bahasa Indonesia dimodelkan dengan: [DP+[DP + [DP+]]] Kata Dasar [[+DS][+PP][+P]] DP (Derivation Prefixes) : kumpulan awalan yang diberikan langsung pada kata dasar DS (Derivation Suffixes) : kumpulan akhiran yang ditambahkan langsung pada kata dasar PP (Possessive Pronoun) : kata ganti kepunyaan Particle : partikel Algoritma CS stemmer mempunyai alur kerja sebagai berikut: 1. Kata yang hendak di-stemming dicari terlebih dahulu pada kamus. Jika ditemukan, berarti kata tersebut adalah kata dasar, jika tidak maka langkah 2 dilakukan. 2. Cek rule precedence. Apabila suatu kata memiliki pasangan awalan-akhiran “belah”, “be-an”, “me-i”, “di-i”, “pe-i”, atau “te-i” maka langkah stemming selanjutnya adalah (5, 6, 3, 4, 7). Apabila kata tidak memiliki pasangan awalanakhiran tersebut, langkah stemming berjalan normal (3, 4, 5, 6, 7). 3. Hilangkan inflectional particle P (“-lah”, “-kah”, “-tah”, “-pun”) dan kata ganti kepunyaan atau possessive pronoun PP (“-ku”, “-mu”, “-nya”). 4. Hilangkan Derivation Suffixes DS (“-i”, “-kan”, atau “-an”). 5. Hilangkan Derivational Prefixes DP {“di-”,“ke-”,“se-”,“me-”,“be-”,“pe”, “te-”} dengan iterasi maksimum adalah 3 kali: 162 Pengembangan Aplikasi Cerdas Berbasis Intelegensia Buatan untuk Pembuatan ... (Budi Prasetyo, Susana) a. Langkah 5 ini berhenti jika: Terjadi kombinasi imbuhan terlarang seperti prefix be- dengan suffix -i dsb. Awalan yang dideteksi saat ini sama dengan awalan yang dihilangkan sebelumnya. Tiga awalan telah dihilangkan. b. Identifikasikan tipe awalan dan hilangkan. Awalan ada dua tipe: Standar: “di-”, “ke-”, “se-” yang dapat langsung dihilangkan dari kata. Kompleks: “me-”, “be-”, “pe”, “te-” adalah tipe-tipe awalan yang dapat bermorfologi sesuai kata dasar yang mengikutinya. c. Cari kata yang telah dihilangkan awalannya ini di dalam kamus. Apabila tidak ditemukan, maka langkah 5 diulangi kembali. Apabila ditemukan, maka keseluruhan proses dihentikan. 6. Apabila setelah langkah 5 kata dasar masih belum ditemukan, maka proses recoding dilakukan dengan mengacu pada aturan pemenggalan yang terdiri dari 36 aturan. 7. Jika semua langkah gagal, maka input kata yang diuji pada algoritma ini dianggap sebagai kata dasar. Algoritma Stemming Porter Algoritma Porter Stemmer adalah metode stemming pada Bahasa Inggris yang paling sering digunakan karena modelnya sederhana dan efisien. Idenya dikembangkan oleh Martin Porter di Universitas Cambridge pada tahun 1980. Porter stemmer merupakan algoritma penghilangan akhiran morphological dan infleksional yang umum pada bahasa Inggris. Gambar 2. Control flow algoritma Porter Stemmer 163 Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172) Proses kerja algoritma Porter bisa dilihat pada Gambar 2 dengan rincian sebagai berikut: Step 1a : remove plural suffixation Step 1b : remove verbal inflection Step 1b1 : continued for -ed and -ing rules Step 1c : y and i Step 2 : peel one suffix off for multiple suffixes Step 3 : delete suffix Step 4 : delete last suffix Step 5a : remove e Step 5b : reduction ANALISIS DAN DESAIN Model Gambar 3. Model Alur Proses Uji Similaritas 164 Pengembangan Aplikasi Cerdas Berbasis Intelegensia Buatan untuk Pembuatan ... (Budi Prasetyo, Susana) Model yang diterapkan pada aplikasi information retrieval untuk cek similaritas digambarkan pada Gambar 3. Model menggunakan urutan proses yang terdiri dari: 1) Proses input/parsing dokumen a. Tokenisation: memecah dokumen berdasarkan kata (term) yang menyusun dokumen yang lazim disebut dengan keyword. b. Cek folding: mengubah term menjadi huruf kecil. c. Filtering: menghapus (mengesampingkan) semua kata yang tidak terlalu berkontribusi ke dokumen (stopwords) seperti kata depan, kata sambung dsb. d. Stemming: menemukan kata dasar dari sebuah kata. Untuk dokumen bahasa Indonesia menggunakan algoritma Confix Stripping (CS) sedangkan dokumen bahasa Inggris menggunakan algoritma Porter. 2) Proses indexing dokumen Metode indexing menggunakan teknik inverted index. Setiap term akan dihitung frekuensinya untuk setiap dokumen dan data index akan disimpan dalam database. 3) Query evaluation Teknik query evaluation (pengujian similaritas dokumen) menggunakan algoritma TF/IDF, Okapi BM25 serta Vector Space. 4) Presentasi hasil (ranking) Hasil similaritas akan diurutkan sesuai dengan prosentase kimiripannya. Ada 3 opsi yang bisa digunakan yaitu: a. menggunakan teknik TF/IDF saja b. menggunakan teknik BM25 saja c. menggunakan kombinasi TF/IDF dan BM25 dimana nilai akhirnya bisa diambil dari rata-rata, nilai terbesar atau nilai terkecil. Use Case Program aplikasi dirancang untuk bisa digunakan oleh 2 jenis user, yaitu administrator dan operator. Administrator bertugas untuk mengelola dokumen di database, mengelola user program, serta mengelola data-data pendukung (referensi), sedangkan operator bisa menggunakan aplikasi untuk pengujian perbandingan dokumen. Use case utama dari aplikasi bisa dilihat pada Gambar 4. 165 Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172) Gambar 4. Use Case Pengujian Dokumen Desain Struktur Program Struktur menu program dikelompokkan menjadi 5 bagian seperti ditunjukkan dalam Gambar 5. Menu Home dipakai sebagai halaman utama, menu pengujian merupakan menu inti untuk proses perbandingan dokumen, menu pemeliharaan database untuk pengelolaan database, menu pengelolaan data referensi digunakan untuk mengelola data-data pendukung untuk proses perbandingan, sedangkan menu pengaturan sistem digunakan untuk mengatur menu pada aplikasi. 166 Pengembangan Aplikasi Cerdas Berbasis Intelegensia Buatan untuk Pembuatan ... (Budi Prasetyo, Susana) 0 . P ilih M e n u 1. H om e 2 . P e n g u jia n D o k u m e n 2 . 1 . U ji D o k u m e n 2 . 2 . L ih a t D a ta b a s e 2 . 3 . O p s i P e n g u jia n 3 . P e m e lih a r a a n D a ta b a s e 3 . 1 . P e n g e lo la a n D a ta b a s e 4 . P e n g e lo la a n D a ta R e f e r e n s i 4 .1 . K a ta D a s a r 4 . 2 . K a ta y a n g D ia b a ik a n 4 . 3 . T r a n s la s i K a ta In g g r is 5 . P e n g a tu r a n S is te m 5 .1 . P e n g a tu r a n M e n u 5 .2 . P e n g a tu r a n P e n g g u n a 5 . 3 . In fo t e n t a n g S is t e m 5 .4 . U b a h P a s s w o rd 5 . 5 . H e lp Gambar 5. Struktur Menu Program HASIL DAN PEMBAHASAN Program aplikasi Sistem Uji Karya Tulis Ilmiah (untuk selanjutnya disebut SUKKI) dikembangkan menggunakan bahasa pemrograman berbasis web (PHP) dan database MySQL. Secara ringkas, alur kerja program aplikasi SUKKI sebagai berikut: 167 Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172) 1) Upload semua file dokumen karya ilmiah yang akan menjadi kumpulan/koleksi dokumen dan simpan data dokumen tersebut dalam database serta diberi identitas (kode dokumen, judul, penulis, bahasa dan nama file). 2) Kumpulan file tersebut akan dilakukan proses indexing oleh program aplikasi dan hasilnya disimpan dalam database. 3) Upload file dokumen yang akan dibandingkan/diuji (kueri), bisa dalam format teks, doc, docx, pdf maupun doc. 4) Lakukan proses uji similaritas, yaitu membandingkan antara dokumen yang diinputkan dengan kumpulan dokumen yang telah tersimpan pada database dengan menggunakan metode TF/IDF atau BM25 atau keduanya dengan mengisi opsi yang tersedia. 5) Tampilkan hasil Uji Similaritas dalam prosentase kemiripan. Pengujian terhadap fungsi program dilakukan melakui tahapan verifikasi fungsi dengan pembuatan test case dokumen. Dalam pengujian program dilakukan pembandingan dokumen uji/query dengan koleksi dokumen di database. Dokumen koleksi diambil dari 100 dokumen abstrak usulan kegiatan PI PKPP Tahun 2011 di BATAN. Telah dilakukan 4 jenis pengujian terhadap dokumen uji/kueri yaitu: 1) Kueri diambil dari salah satu koleksi dokumen tanpa melakukan perubahan apapun 2) Kueri diambil dari salah satu koleksi dokumen dengan melakukan perubahan susunan paragraf 3) Kueri diambil dari salah satu koleksi dokumen dengan melakukan perubahan terhadap susunan kalimat dengan merubah kalimat pasif menjadi kalimat aktif maupun sebaliknya tanpa ada perubahan isi dokumen 4) Kueri diambil dari salah satu koleksi dokumen dengan melakukan perubahan terhadap susunan kalimat (menambah, menghapus, mengubah) tanpa ada perubahan isi dokumen Gambar 6. Contoh Tampilan Hasil Pengujian Jenis 1 168 Pengembangan Aplikasi Cerdas Berbasis Intelegensia Buatan untuk Pembuatan ... (Budi Prasetyo, Susana) Gambar 7. Contoh Tampilan Hasil Pengujian Jenis 4 Hasil pengujian menunjukkan aplikasi telah berjalan sesuai yang diharapkan yang dan mampu membandingkan dokumen yang isinya sama dengan keakuratan 100%, dokumen yang isinya sama tetapi posisi paragraf dipindah dengan keakuratan 100%, sedangkan dokumen yang isinya berbeda ditampilkan dalam bentuk prosentase dengan nilai kemiripan yang sebanding dengan jumlah kata (term) yang sama. KESIMPULAN Dari hasil penelitian yang telah dilakukan dan pembuatan program aplikasi dapat disimpulkan beberapa hal sebagai berikut: • Dari hasil studi literatur tentang perbandingan dokumen menunjukkan bahwa algoritma yang paling umum digunakan adalah algoritma dengan ekstraksi kata kunci (keyword), selanjutnya perbandingan similaritasnya menggunakan konsep TF/IDF, vector space dan BM25. • Ekstraksi term (kata) dari sumber dokumen bertipe PDF, DOC, ODT dan DOCX sudah dapat dilakukan dengan menggunakan fungsi PHP dengan validitas paling baik dokumen bertipe DOC dan PDF yang ditulis dengan aplikasi Microsoft Office Word. Apabila dokumen yang sama diedit dengan aplikasi lain (misalnya Open Office) ekstraksi term-nya menunjukkan hasil yang kurang baik. • Secara fungsional, program aplikasi yang dibangun mampu membandingkan koleksi dokumen karya ilmiah yang ada pada database dengan dokumen uji (kueri) melalui tahapan: tokenising, filtering, stemming, evaluating, dan presentasi hasil perbandingan berdasarkan tingkat kemiripannya. • Hasil pengujian menunjukkan aplikasi telah berjalan sesuai yang diharapkan dan mampu membandingkan dokumen yang isinya sama dengan keakuratan 100%, dokumen yang isinya sama tetapi posisi paragrafnya dipindah dengan keakuratan 100%, sedangkan dokumen yang isinya berbeda ditampilkan dalam bentuk 169 Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172) • prosentase dengan nilai kemiripan yang sebanding dengan jumlah kata (term) yang sama. Tampilan hasil kemiripan sangat ditentukan oleh pilihan algoritma perbandingan yang dipilih (TF/IDF, BM25 atau keduanya), cara perhitungan prosentase dari kedua algoritma dan opsi pemakaian cross-language. DAFTAR PUSTAKA 1. ASIAN J., “Effective Techniques for Indonesian Text Retrieval”, PhD thesis School of Computer Science and Information Technology RMIT University Australia. 2007. 2. GEORGE R.S. WEIR, “Work in Progress-Technology in plagiarism detection and management”, 34th ASEE/IEEE Frontiers in Education Conference, 2004. 3. MANBER UBI, “Finding Similar files in a large file system”, in Proceedings of the USENIX Winter 1994 Technical Conference, 1994. 4. MANING CHRISTOPER D., “Introduction Cambridge University Press, New York, 2008. 5. RAMOS JUAN, “Using TF-IDF to Determine Word Relevance in Document Queries”, Department of Computer Science, Rutgers University, 23515 BPO Way, Piscataway, NJ, 08855. 6. ROMANS LUKASHENKO, “Computer Based Plagiarism Detection Methods and Tools: An Overview”, International Conference on Computer System and Technologies, 2007. 7. RUSSEL STUART AND NORVIG PETER, “Artificial Intellegence A Modern Approach”, Third Edition, Pearson, 2010. 8. ____, http://viplab.if.its.ac.id/stki/stemmer/Jurnal%20TA%20%28adhi.k%29.pdf, diakses 6 September 2011. 9. ____, http://sakrawebstudio.blogspot.com/2011/04/convert-doc-to-text-with-phpand-linux.html, diakses 6 September 2011. to Information Retrieval”, 10. ____, http://id.wikipedia.org/wiki/Plagiarisme, diakses 3 Mei 2011. 11. ____, http://en.wikipedia.org/wiki/Tf–idf, diakses 15 Juli 2011. 12. ____, http://en.wikipedia.org/wiki/Vector_space_model, diakses 15 Juli 2011 170 Pengembangan Aplikasi Cerdas Berbasis Intelegensia Buatan untuk Pembuatan ... (Budi Prasetyo, Susana) DISKUSI NOER’AIDA 1. Aplikasi ini dibuat untuk kepentingan siapa? 2. Sejauhmana dikatakan plagiat dari presentasi hasil perhitungan yang diperoleh? 3. Apakah aplikasi ini digunakan untuk pengambil keputusan? BUDI PRASETYO 1. Secara teknis aplikasi bisa digunakan untuk siapa saja. Aplikasi lebih khusus ditujukan untuk KPTP/KPTF di unit kerja dan Biro Perencanaan BATAN. 2. Aplikasi tidak dapat menentukan plagiat atau tidak tetapi membandingkan tingkat similaritas (kesamaan). Yang menentukan plagiat atau tidak adalah manusia (penilai). 3. Aplikasi digunakan untuk mendukung dalam membuat keputusan (decision support ystem). SAHRUL HIDAYAT Apakah memungkinkan jika software ini diakses secara lebih luas dan melibatkan pengelola jurnal di Indonesia? BUDI PRASETYO Secara teknis, software aplikasi bisa digunakan untuk kalangan yang lebih luas. Yang diperlukan adalah meng-update database (content) karya ilmiah yang ada dalam aplikasi. YAYAH YULIAH Plagiasi dalam hal ini hanya diukur dari presentasi kata yang sama dalam dokumen penelitian. Apabila plagiat menyajikan dalam bahasa atau sistematika yang berbeda tetapi konteks/materi penelitian yang serupa, apakah dapat terdeteksi dengan sistem ini? BUDI PRASETYO Aplikasi bisa mendeteksi materi yang sama dalam 2(dua) bahasa (cross language) yaitu bahasa Inggris dan bahasa Indonesia, tetapi fitur ini masih belum sempurna karena keterbatasan translasi kata antara 2 (dua) bahasa. 171 Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172) DAFTAR RIWAYAT HIDUP 1. 2. 3. 4. 5. Nama : Budi Prasetyo Tempat/Tanggal Lahir : Boyolali, 29 Oktober 1968 Instansi : PPIN-BATAN Pekerjaan : Kepala Bidang Sistem Informasi Riwayat Pendidikan : - S1 program Studi Matematika UGM Yogyakarta - S2 Teknik Informatika Joint Programme ITS –University of Newcastle UK 6. Pengalaman Kerja : - Riwayat Pekerjaan: 1992 s/d 2011 Staf Bidang Sistem Informasi - 2011 s/d sekarang Kepala Bidang Sistem Informasi - Pusat Pengembangan Informatika Nuklir (PPIN) - BATAN 7. Makalah: Kajian tentang Metodologi Pengembangan Sistem Informasi 172