157 pengembangan aplikasi cerdas berbasis - Digilib

advertisement
PENGEMBANGAN APLIKASI CERDAS BERBASIS INTELEGENSIA
BUATAN UNTUK PERBANDINGAN KARYA ILMIAH HASIL PENELITIAN
DALAM UPAYA MENCEGAH PLAGIASI
Budi Prasetyo dan Susana*
ABSTRAK
PENGEMBANGAN APLIKASI CERDAS BERBASIS INTELEGENSIA BUATAN UNTUK
PERBANDINGAN KARYA ILMIAH HASIL PENELITIAN DALAM UPAYA MENCEGAH
PLAGIASI. Perbandingan karya ilmiah hasil penelitian dimaksudkan untuk mengetahui seberapa besar
tingkat kemiripan dari dua dokumen karya ilmiah hasil penelitian. Dokumen kueri (query) dibandingkan
dengan koleksi dokumen yang ada di database. Perbandingan dokumen dilakukan melalui tahapan
tokenising, filtering, stemming dan evaluasi/uji kemiripan. Uji kemiripan menggunakan kombinasi dua
metode yaitu TF/IDF dan BM25. Aplikasi juga dikembangkan untuk mendukung pengujian dengan
fasilitas dua bahasa (cross-language) yaitu Bahasa Indonesia dan Bahasa Inggris. Aplikasi dibuat dengan
platform web menggunakan bahasa pemrograman PHP dan database MySQL. Hasil pengujian
menunjukkan aplikasi telah berjalan sesuai yang diharapkan serta mampu membandingkan dokumen
yang isinya sama dengan keakuratan 100%, dokumen yang isinya sama tetapi posisi paragrafnya
dipindah dengan keakuratan 100%, sedangkan dokumen yang isinya berbeda ditampilkan dalam bentuk
prosentase dengan nilai kemiripan yang sebanding dengan jumlah kata (term) yang sama.
Kata kunci: tokenising, filtering, stemming, TF/IDF, BM25,cross-language
ABSTRACT
DEVELOPMENT OF INTELLIGENT BASED APPLICATION FOR SCIENTIFIC
WORKS COMPARISON IN EFFORTS TO PREVENT PLAGIARISM. Application development for
comparison of scientific paper intended to determine the extent of the similarity of the two documents.
Document query is compared with a collection of documents in the database. The comparison is done
through the stages tokenising, filtering, stemming, and similarity evaluation/test. The similarity test uses a
combination of two methods: TF/IDF and BM25. The application was also developed to support
comparison with cross-language facility that is Indonesian and English. The application was developed in
the web platform using PHP programming language and MySQL database. Test results indicate that the
application has been worked as expected and be able to compare the document whose content exactly the
same with 100% accuracy, a document whose content is the same but the position of paragraphf was
moved with 100% accuracy, while the document with the different content was displayed in a percentage
with similarity values are proportional to the number of same words (terms)
Keywords: tokenising, filtering, stemming, TF / IDF, BM25, cross-language
*
Pusat Pengembangan Informatika Nuklir - BATAN Serpong, e-mail: [email protected]
157
Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172)
PENDAHULUAN
Praktek penjiplakan (plagiarisme) dalam penulisan karya ilmiah cukup sering
terjadi di berbagai kalangan. Plagiarisme adalah penjiplakan atau pengambilan
karangan, pendapat, dan sebagainya dari orang lain dan menjadikannya seolah
karangan dan pendapat sendiri.[6] Berbagai upaya untuk mencegah paraktek
plagiarisme telah dilakukan diantaranya dengan penerapan undang-undang hak cipta,
akan tetapi tetap saja hasilnya belum memuaskan karena semua kembali pada moral
manusianya. Walaupun peraturan perundangannya telah ditetapkan, tetapi jika si
pelakunya tetap ingin melanggar maka peraturan tersebut tidak akan efektif.
Survei pendahuluan yang telah dilakukan di BATAN-Bandung memberikan
indikasi tentang kesulitan dalam mengukur keaslian (orisinalitas) usulan penelitian.
Biasanya permasalahan pelanggaran hak cipta baru bisa diketahui beberapa bulan
bahkan terkadang beberapa tahun kemudian setelah hasil penelitiannya diterbitkan.
Supaya hal ini tidak terjadi diperlukan upaya preventif menyaring usulan penelitian
sejak dini dengan cara pendeteksian dini terhadap konten penulisan karya ilmiah.
Pendektesian konten karya ilmiah secara manual tentunya sangat sulit dilakukan
mengingat jumlah karya ilmiah yang sedemikian banyak. Untuk mengatasinya, perlu
dibuat aplikasi pendektesian konten karya ilmiah secara otomatis. Aplikasi tersebut
harus mampu menyimpan data-data karya ilmiah sebagai sebuah database yang
selanjutnya disebut sebagai database referensi konten. Setelah menerima masukan
karya ilmiah yang ingin diuji (yang selanjutnya disebut kueri), kemudian dengan
algoritma tertentu, kueri dibandingkan dengan database referensi untuk menghasilkan
dokumen-dokumen yang similar yang diurutkan sesuai dengan tingkat similaritasnya
(kesamaannya).
Berdasarkan pada permasalahan yang telah dikemukakan, dilakukan perumusan
masalah yang dibahas dalam penelitian sebagai berikut:
Algoritma apa yang tepat untuk diterapkan dalam pembuatan aplikasi cerdas
dalam perbandingan karya ilmiah hasil penelitian?
Tahapan-tahapan apa saja yang diperlukan untuk perbandingan konten karya
ilmiah berbasis komputer?
Seberapa jauh tingkat keakuratan perbandingan karya ilmiah hasil penelitian
yang dilakukan oleh program aplikasi?
Bagaimana kinerja (performance) aplikasi jika diterapkan pada keadaan yang
sesungguhnya dengan jumlah data hasil penelitian yang mencapai ribuan
dokumen?
LANDASAN TEORI
Information Retrieval
Information retieval adalah ilmu untuk menemukan material yang umumnya
merupakan dokumen-dokumen yang ditujukan untuk memenuhi kebutuhan informasi
dari pemakai (user).[4] Cakupan dari perolehan informasi (information retrieval) juga
158
Pengembangan Aplikasi Cerdas Berbasis Intelegensia Buatan untuk Pembuatan ... (Budi Prasetyo, Susana)
meliputi dukungan dari para pengguna di dalam mencari atau mendapatkan dokumendokumen. Arsitektur umum sistem information retrieval (IR system) bisa dilihat pada
Gambar 1. Terdapat dua buah alur operasi pada IR system, alur pertama dimulai dari
koleksi dokumen dan alur kedua dimulai dari kueri pengguna. Alur pertama yaitu
pemrosesan terhadap koleksi dokumen menjadi basis data indeks dan tidak tergantung
pada alur kedua. Sedangkan alur kedua tergantung dari keberadaan basis data indeks
yang dihasilkan pada alur pertama. IR system menerima kueri dari pengguna,
kemudian melakukan pemeringkatan (perangkingan) terhadap dokumen pada koleksi
berdasarkan kesesuaiannya dengan kueri.
Gambar 1. Skema Information Retrieval (IR) System
Metodologi Perbandingan Dokumen dalam IR System
Pada saat kueri disubmit ke sistem IR, akan dihasilkan sekumpulan hasil (result
set). Result set ini perlu diurutkan sesuai dengan tingkat relevansinya yang dinyatakan
dalam skor numerik. Makin tinggi skornya maka dokumen yang dihasilkan makin
relevan. Berikut akan dikemukakan beberapa algoritma rangking dokumen yang
sering digunakan dalam IR system.
159
Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172)
Algoritma TF/IDF
Pada prinsipnya algoritma TF/IDF (term frequency / inverse document
frequency) mengukur bobot (weight) dalam information retreival[11]. Bobot tersebut
merupakan ukuran statistik yang digunakan untuk mengevaluasi seberapa besar
pentingnya sebuah kata (term) untuk dokumen dalam koleksi atau corpus. Nilai
pentingnya akan meningkat secara proporsional dengan banyaknya kemunculan kata
dalam dokumen tetapi juga diimbangi dengan frekuensi kata dalam corpus. Jika D
adalah koleksi dokumen dan d merupakan bagian dari koleksi dokumen D (d
D)
maka d berisi kumpulan term (kata) yang menyusun dokumen. TF (term frequency)
akan mengukur berapa kali term tersebut muncul dalam dokumen d. IDF (inverse
document frequency) akan mengukur seberapa penting suatu term dalam dokumen
secara keseluruhan. Makin banyak dokumen yang memuat suatu term, berarti term
tersebut makin tidak penting. Sebaliknya makin sedikit dokumen yang memuat suatu
term, berarti term tersebut makin penting. IDF suatu term t dihitung dengan cara
membagi total dokumen dengan banyaknya dokumen (n) yang memuat term tersebut.
IDF = log(
D
)
n :t∈ d
Selanjutnya, bobot (W) masing-masing dokumen terhadap kata kunci pada algoritma
TF/IDF bisa dihitung dengan rumus berikut:
wj = tf
IDFj
Nilai bobot (w) akan menentukan tingkat similaritas dokumen tersebut terhadap kata
kunci, demikian juga sebaliknya.
Algoritma Okapi Best Match (BM) 25
Okapi BM25 merupakan algoritma yang digunakan oleh search engine untuk
menentukan relevansi dokumen. Okapi BM25 merupakan salah satu pengembangan
dari metode Binary Independence Model yang dikembangkan oleh Stephen E.
Robertson.
Metode Okapi BM25 melakukan pembobotan dokumen berdasarkan kueri
(dokumen yang menjadi patokan) yang dimasukkan dengan menghitung koefisien
kemiripan dengan rumus :
160
Pengembangan Aplikasi Cerdas Berbasis Intelegensia Buatan untuk Pembuatan ... (Budi Prasetyo, Susana)
f(qi,D) : frekwensi kemunculan token pada dokumen
|D| : panjang dokumen D
avgdl : rata-rata panjang dokumen
: konstanta, biasanya diambil nilai 1,2
k1
b
: konstanta dengan range antara 0 dan 1, bisanya diambil nilai 0,75
Proses yang dilakukan untuk menghitung koefisien kemiripan adalah:
1. Menghitung jumlah token (term) dari tiap dokumen yang akan di ranking, hasil
perhitungan dari jumlah tersebut disimpan dalam variabel D.
2. Menghitung jumlah dokumen yang memuat token (term) q, n(qi)
3. Menghitung f(qi, D) yaitu frekwensi token (term) dalam masing-masing dokumen
4. Menghitung IDF dengan rumus
N : jumlah dokumen dalam korpus
n(qi) : jumlah dokumen yang memuat token q
5. Menghitung rata-rata panjang dokumen
avgdl = ∑ di / N
6. Menghitung relevansi tiap dokumen berdasarkan kueri yang menjadi dokumen uji
Algoritma Vector Space
Vector space model adalah suatu model yang digunakan untuk mengukur
kemiripan antara suatu dokumen dengan suatu query[12]. Pada model ini, query dan
dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana n adalah
jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term
yang ada dalam indeks.
Dokumen dan query akan dinyatakan dalam vektor:
dj = (w1,j,w2,j,...,wt,j)
q = (w1,q,w2,q,...,wt,q)
Selanjutnya dari algoritma vector space model, dicari nilai cosinus sudut antara
dua vector dari setiap bobot dokumen (wd) dan bobot dari kata kunci (wq). Dari nilai
cosinus inilah tingkat similaritas dua dokumen akan terlihat.
161
Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172)
Stemming
Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah
kata dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan
(prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan
akhiran) pada kata turunan. Proses stemming sangat bergantung pada bahasa yang
digunakan karena masing-masing bahasa memmpunyai sintaks atau aturan yang
berbeda-beda.
Algoritma Stemming dengan Confix Stripping (CS)
Confix stripping (CS) stemmer adalah metode stemming pada Bahasa Indonesia
yang diperkenalkan oleh Jelita Asian[1] yang merupakan pengembangan dari metode
stemming yang dibuat oleh Nazief dan Adriani (1996).
Pada algoritma ini, bentuk kata dalam bahasa Indonesia dimodelkan dengan:
[DP+[DP + [DP+]]] Kata Dasar [[+DS][+PP][+P]]
DP (Derivation Prefixes) : kumpulan awalan yang diberikan langsung
pada kata dasar
DS (Derivation Suffixes) : kumpulan akhiran yang ditambahkan
langsung pada kata dasar
PP (Possessive Pronoun) : kata ganti kepunyaan
Particle
: partikel
Algoritma CS stemmer mempunyai alur kerja sebagai berikut:
1. Kata yang hendak di-stemming dicari terlebih dahulu pada kamus. Jika ditemukan,
berarti kata tersebut adalah kata dasar, jika tidak maka langkah 2 dilakukan.
2. Cek rule precedence. Apabila suatu kata memiliki pasangan awalan-akhiran “belah”, “be-an”, “me-i”, “di-i”, “pe-i”, atau “te-i” maka langkah stemming
selanjutnya adalah (5, 6, 3, 4, 7). Apabila kata tidak memiliki pasangan awalanakhiran tersebut, langkah stemming berjalan normal (3, 4, 5, 6, 7).
3. Hilangkan inflectional particle P (“-lah”, “-kah”, “-tah”, “-pun”) dan kata ganti
kepunyaan atau possessive pronoun PP (“-ku”, “-mu”, “-nya”).
4. Hilangkan Derivation Suffixes DS (“-i”, “-kan”, atau “-an”).
5. Hilangkan Derivational Prefixes DP {“di-”,“ke-”,“se-”,“me-”,“be-”,“pe”, “te-”}
dengan iterasi maksimum adalah 3 kali:
162
Pengembangan Aplikasi Cerdas Berbasis Intelegensia Buatan untuk Pembuatan ... (Budi Prasetyo, Susana)
a. Langkah 5 ini berhenti jika:
Terjadi kombinasi imbuhan terlarang seperti prefix be- dengan suffix -i dsb.
Awalan yang dideteksi saat ini sama dengan awalan yang dihilangkan
sebelumnya.
Tiga awalan telah dihilangkan.
b. Identifikasikan tipe awalan dan hilangkan. Awalan ada dua tipe:
Standar: “di-”, “ke-”, “se-” yang dapat langsung dihilangkan dari kata.
Kompleks: “me-”, “be-”, “pe”, “te-” adalah tipe-tipe awalan yang dapat
bermorfologi sesuai kata dasar yang mengikutinya.
c. Cari kata yang telah dihilangkan awalannya ini di dalam kamus. Apabila tidak
ditemukan, maka langkah 5 diulangi kembali. Apabila ditemukan, maka
keseluruhan proses dihentikan.
6. Apabila setelah langkah 5 kata dasar masih belum ditemukan, maka proses
recoding dilakukan dengan mengacu pada aturan pemenggalan yang terdiri dari 36
aturan.
7. Jika semua langkah gagal, maka input kata yang diuji pada algoritma ini dianggap
sebagai kata dasar.
Algoritma Stemming Porter
Algoritma Porter Stemmer adalah metode stemming pada Bahasa Inggris yang
paling sering digunakan karena modelnya sederhana dan efisien. Idenya
dikembangkan oleh Martin Porter di Universitas Cambridge pada tahun 1980. Porter
stemmer merupakan algoritma penghilangan akhiran morphological dan infleksional
yang umum pada bahasa Inggris.
Gambar 2. Control flow algoritma Porter Stemmer
163
Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172)
Proses kerja algoritma Porter bisa dilihat pada Gambar 2 dengan rincian sebagai
berikut:
Step 1a : remove plural suffixation
Step 1b : remove verbal inflection
Step 1b1 : continued for -ed and -ing rules
Step 1c : y and i
Step 2 : peel one suffix off for multiple suffixes
Step 3 : delete suffix
Step 4 : delete last suffix
Step 5a : remove e
Step 5b : reduction
ANALISIS DAN DESAIN
Model
Gambar 3. Model Alur Proses Uji Similaritas
164
Pengembangan Aplikasi Cerdas Berbasis Intelegensia Buatan untuk Pembuatan ... (Budi Prasetyo, Susana)
Model yang diterapkan pada aplikasi information retrieval untuk cek similaritas
digambarkan pada Gambar 3. Model menggunakan urutan proses yang terdiri dari:
1) Proses input/parsing dokumen
a. Tokenisation: memecah dokumen berdasarkan kata (term) yang menyusun
dokumen yang lazim disebut dengan keyword.
b. Cek folding: mengubah term menjadi huruf kecil.
c. Filtering: menghapus (mengesampingkan) semua kata yang tidak terlalu
berkontribusi ke dokumen (stopwords) seperti kata depan, kata sambung dsb.
d. Stemming: menemukan kata dasar dari sebuah kata. Untuk dokumen bahasa
Indonesia menggunakan algoritma Confix Stripping (CS) sedangkan dokumen
bahasa Inggris menggunakan algoritma Porter.
2) Proses indexing dokumen
Metode indexing menggunakan teknik inverted index. Setiap term akan dihitung
frekuensinya untuk setiap dokumen dan data index akan disimpan dalam database.
3) Query evaluation
Teknik query evaluation (pengujian similaritas dokumen) menggunakan algoritma
TF/IDF, Okapi BM25 serta Vector Space.
4) Presentasi hasil (ranking)
Hasil similaritas akan diurutkan sesuai dengan prosentase kimiripannya. Ada 3 opsi
yang bisa digunakan yaitu:
a. menggunakan teknik TF/IDF saja
b. menggunakan teknik BM25 saja
c. menggunakan kombinasi TF/IDF dan BM25 dimana nilai akhirnya bisa diambil
dari rata-rata, nilai terbesar atau nilai terkecil.
Use Case
Program aplikasi dirancang untuk bisa digunakan oleh 2 jenis user, yaitu
administrator dan operator. Administrator bertugas untuk mengelola dokumen di
database, mengelola user program, serta mengelola data-data pendukung (referensi),
sedangkan operator bisa menggunakan aplikasi untuk pengujian perbandingan
dokumen. Use case utama dari aplikasi bisa dilihat pada Gambar 4.
165
Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172)
Gambar 4. Use Case Pengujian Dokumen
Desain Struktur Program
Struktur menu program dikelompokkan menjadi 5 bagian seperti ditunjukkan
dalam Gambar 5. Menu Home dipakai sebagai halaman utama, menu pengujian
merupakan menu inti untuk proses perbandingan dokumen, menu pemeliharaan
database untuk pengelolaan database, menu pengelolaan data referensi digunakan
untuk mengelola data-data pendukung untuk proses perbandingan, sedangkan menu
pengaturan sistem digunakan untuk mengatur menu pada aplikasi.
166
Pengembangan Aplikasi Cerdas Berbasis Intelegensia Buatan untuk Pembuatan ... (Budi Prasetyo, Susana)
0 . P ilih M e n u
1. H om e
2 . P e n g u jia n D o k u m e n
2 . 1 . U ji D o k u m e n
2 . 2 . L ih a t D a ta b a s e
2 . 3 . O p s i P e n g u jia n
3 . P e m e lih a r a a n D a ta b a s e
3 . 1 . P e n g e lo la a n D a ta b a s e
4 . P e n g e lo la a n D a ta R e f e r e n s i
4 .1 . K a ta D a s a r
4 . 2 . K a ta y a n g D ia b a ik a n
4 . 3 . T r a n s la s i K a ta In g g r is
5 . P e n g a tu r a n S is te m
5 .1 . P e n g a tu r a n M e n u
5 .2 . P e n g a tu r a n P e n g g u n a
5 . 3 . In fo t e n t a n g S is t e m
5 .4 . U b a h P a s s w o rd
5 . 5 . H e lp
Gambar 5. Struktur Menu Program
HASIL DAN PEMBAHASAN
Program aplikasi Sistem Uji Karya Tulis Ilmiah (untuk selanjutnya disebut
SUKKI) dikembangkan menggunakan bahasa pemrograman berbasis web (PHP) dan
database MySQL. Secara ringkas, alur kerja program aplikasi SUKKI sebagai berikut:
167
Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172)
1) Upload semua file dokumen karya ilmiah yang akan menjadi kumpulan/koleksi
dokumen dan simpan data dokumen tersebut dalam database serta diberi identitas
(kode dokumen, judul, penulis, bahasa dan nama file).
2) Kumpulan file tersebut akan dilakukan proses indexing oleh program aplikasi dan
hasilnya disimpan dalam database.
3) Upload file dokumen yang akan dibandingkan/diuji (kueri), bisa dalam format teks,
doc, docx, pdf maupun doc.
4) Lakukan proses uji similaritas, yaitu membandingkan antara dokumen yang
diinputkan dengan kumpulan dokumen yang telah tersimpan pada database dengan
menggunakan metode TF/IDF atau BM25 atau keduanya dengan mengisi opsi yang
tersedia.
5) Tampilkan hasil Uji Similaritas dalam prosentase kemiripan.
Pengujian terhadap fungsi program dilakukan melakui tahapan verifikasi fungsi
dengan pembuatan test case dokumen. Dalam pengujian program dilakukan
pembandingan dokumen uji/query dengan koleksi dokumen di database. Dokumen
koleksi diambil dari 100 dokumen abstrak usulan kegiatan PI PKPP Tahun 2011 di
BATAN.
Telah dilakukan 4 jenis pengujian terhadap dokumen uji/kueri yaitu:
1) Kueri diambil dari salah satu koleksi dokumen tanpa melakukan perubahan
apapun
2) Kueri diambil dari salah satu koleksi dokumen dengan melakukan perubahan
susunan paragraf
3) Kueri diambil dari salah satu koleksi dokumen dengan melakukan perubahan
terhadap susunan kalimat dengan merubah kalimat pasif menjadi kalimat aktif
maupun sebaliknya tanpa ada perubahan isi dokumen
4) Kueri diambil dari salah satu koleksi dokumen dengan melakukan perubahan
terhadap susunan kalimat (menambah, menghapus, mengubah) tanpa ada
perubahan isi dokumen
Gambar 6. Contoh Tampilan Hasil Pengujian Jenis 1
168
Pengembangan Aplikasi Cerdas Berbasis Intelegensia Buatan untuk Pembuatan ... (Budi Prasetyo, Susana)
Gambar 7. Contoh Tampilan Hasil Pengujian Jenis 4
Hasil pengujian menunjukkan aplikasi telah berjalan sesuai yang diharapkan
yang dan mampu membandingkan dokumen yang isinya sama dengan keakuratan
100%, dokumen yang isinya sama tetapi posisi paragraf dipindah dengan keakuratan
100%, sedangkan dokumen yang isinya berbeda ditampilkan dalam bentuk prosentase
dengan nilai kemiripan yang sebanding dengan jumlah kata (term) yang sama.
KESIMPULAN
Dari hasil penelitian yang telah dilakukan dan pembuatan program aplikasi
dapat disimpulkan beberapa hal sebagai berikut:
• Dari hasil studi literatur tentang perbandingan dokumen menunjukkan bahwa
algoritma yang paling umum digunakan adalah algoritma dengan ekstraksi kata
kunci (keyword), selanjutnya perbandingan similaritasnya menggunakan konsep
TF/IDF, vector space dan BM25.
• Ekstraksi term (kata) dari sumber dokumen bertipe PDF, DOC, ODT dan DOCX
sudah dapat dilakukan dengan menggunakan fungsi PHP dengan validitas paling
baik dokumen bertipe DOC dan PDF yang ditulis dengan aplikasi Microsoft
Office Word. Apabila dokumen yang sama diedit dengan aplikasi lain (misalnya
Open Office) ekstraksi term-nya menunjukkan hasil yang kurang baik.
• Secara fungsional, program aplikasi yang dibangun mampu membandingkan
koleksi dokumen karya ilmiah yang ada pada database dengan dokumen uji
(kueri) melalui tahapan: tokenising, filtering, stemming, evaluating, dan presentasi
hasil perbandingan berdasarkan tingkat kemiripannya.
• Hasil pengujian menunjukkan aplikasi telah berjalan sesuai yang diharapkan dan
mampu membandingkan dokumen yang isinya sama dengan keakuratan 100%,
dokumen yang isinya sama tetapi posisi paragrafnya dipindah dengan keakuratan
100%, sedangkan dokumen yang isinya berbeda ditampilkan dalam bentuk
169
Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172)
•
prosentase dengan nilai kemiripan yang sebanding dengan jumlah kata (term)
yang sama.
Tampilan hasil kemiripan sangat ditentukan oleh pilihan algoritma perbandingan
yang dipilih (TF/IDF, BM25 atau keduanya), cara perhitungan prosentase dari
kedua algoritma dan opsi pemakaian cross-language.
DAFTAR PUSTAKA
1.
ASIAN J., “Effective Techniques for Indonesian Text Retrieval”, PhD thesis
School of Computer Science and Information Technology RMIT University
Australia. 2007.
2.
GEORGE R.S. WEIR, “Work in Progress-Technology in plagiarism detection
and management”, 34th ASEE/IEEE Frontiers in Education Conference, 2004.
3.
MANBER UBI, “Finding Similar files in a large file system”, in Proceedings of
the USENIX Winter 1994 Technical Conference, 1994.
4.
MANING CHRISTOPER D., “Introduction
Cambridge University Press, New York, 2008.
5.
RAMOS JUAN, “Using TF-IDF to Determine Word Relevance in Document
Queries”, Department of Computer Science, Rutgers University, 23515 BPO
Way, Piscataway, NJ, 08855.
6.
ROMANS LUKASHENKO, “Computer Based Plagiarism Detection Methods
and Tools: An Overview”, International Conference on Computer System and
Technologies, 2007.
7.
RUSSEL STUART AND NORVIG PETER, “Artificial Intellegence A Modern
Approach”, Third Edition, Pearson, 2010.
8.
____, http://viplab.if.its.ac.id/stki/stemmer/Jurnal%20TA%20%28adhi.k%29.pdf,
diakses 6 September 2011.
9.
____, http://sakrawebstudio.blogspot.com/2011/04/convert-doc-to-text-with-phpand-linux.html, diakses 6 September 2011.
to
Information
Retrieval”,
10. ____, http://id.wikipedia.org/wiki/Plagiarisme, diakses 3 Mei 2011.
11. ____, http://en.wikipedia.org/wiki/Tf–idf, diakses 15 Juli 2011.
12. ____, http://en.wikipedia.org/wiki/Vector_space_model, diakses 15 Juli 2011
170
Pengembangan Aplikasi Cerdas Berbasis Intelegensia Buatan untuk Pembuatan ... (Budi Prasetyo, Susana)
DISKUSI
NOER’AIDA
1. Aplikasi ini dibuat untuk kepentingan siapa?
2. Sejauhmana dikatakan plagiat dari presentasi hasil perhitungan yang diperoleh?
3. Apakah aplikasi ini digunakan untuk pengambil keputusan?
BUDI PRASETYO
1. Secara teknis aplikasi bisa digunakan untuk siapa saja. Aplikasi lebih khusus
ditujukan untuk KPTP/KPTF di unit kerja dan Biro Perencanaan BATAN.
2. Aplikasi tidak dapat menentukan plagiat atau tidak tetapi membandingkan tingkat
similaritas (kesamaan). Yang menentukan plagiat atau tidak adalah manusia
(penilai).
3. Aplikasi digunakan untuk mendukung dalam membuat keputusan (decision
support ystem).
SAHRUL HIDAYAT
Apakah memungkinkan jika software ini diakses secara lebih luas dan melibatkan
pengelola jurnal di Indonesia?
BUDI PRASETYO
Secara teknis, software aplikasi bisa digunakan untuk kalangan yang lebih luas. Yang
diperlukan adalah meng-update database (content) karya ilmiah yang ada dalam
aplikasi.
YAYAH YULIAH
Plagiasi dalam hal ini hanya diukur dari presentasi kata yang sama dalam dokumen
penelitian. Apabila plagiat menyajikan dalam bahasa atau sistematika yang berbeda
tetapi konteks/materi penelitian yang serupa, apakah dapat terdeteksi dengan sistem
ini?
BUDI PRASETYO
Aplikasi bisa mendeteksi materi yang sama dalam 2(dua) bahasa (cross language)
yaitu bahasa Inggris dan bahasa Indonesia, tetapi fitur ini masih belum sempurna
karena keterbatasan translasi kata antara 2 (dua) bahasa.
171
Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, 10 Oktober 2012 (157-172)
DAFTAR RIWAYAT HIDUP
1.
2.
3.
4.
5.
Nama
: Budi Prasetyo
Tempat/Tanggal Lahir : Boyolali, 29 Oktober 1968
Instansi
: PPIN-BATAN
Pekerjaan
: Kepala Bidang Sistem Informasi
Riwayat Pendidikan :
- S1 program Studi Matematika UGM Yogyakarta
- S2 Teknik Informatika Joint Programme ITS –University of Newcastle UK
6. Pengalaman Kerja
:
- Riwayat Pekerjaan: 1992 s/d 2011 Staf Bidang Sistem Informasi
- 2011 s/d sekarang Kepala Bidang Sistem Informasi
- Pusat Pengembangan Informatika Nuklir (PPIN) - BATAN
7. Makalah: Kajian tentang Metodologi Pengembangan Sistem Informasi
172
Download