IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI SPACED K-MERS DENGAN JARINGAN SYARAF TIRUAN SEBAGAI CLASSIFIER CUT MALISA IRWAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Identifikasi DNA Bakteri Menggunakan Metode Ekstraksi Ciri Spaced K-Mers dengan Jaringan Syaraf Tiruan sebagai Classifier adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juli 2013 Cut Malisa Irwan NIM G64080007 ABSTRAK CUT MALISA IRWAN. Identifikasi DNA Bakteri Menggunakan Metode Ekstraksi Ciri Spaced K-Mers dengan Jaringan Syaraf Tiruan sebagai Classifier. Dibimbing oleh TOTO HARYANTO dan HABIB RIJZAANI. Ekstraksi ciri adalah proses pengambilan penciri dari suatu objek yang dapat menggambarkan karakteristik dari objek tersebut. Pada penelitian ini, metode ekstraksi ciri yang digunakan adalah spaced k-mers. Metode ekstraksi ciri tersebut digunakan untuk mengambil penciri sekuens DNA dari tiga genus, yaitu: Bacillus, Burkholderia, dan Pseudomonas. Jaringan syaraf tiruan digunakan untuk menganalisis data biologi molekuler tiga genus. Pada penelitian ini, metode ekstraksi ciri spaced k-mers menggunakan nilai parameter w = 3, dan d = 0, 1, 2, serta panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp. Nilai sensitivity dan specificity terbaik diperoleh untuk known organisms pada panjang fragmen 1 Kbp, yaitu dengan nilai sensitivity 0.9716 dan nilai specificity 0.9854. Kata kunci: jaringan syaraf tiruan, sensitivity, sekuens DNA, spaced k-mers, specificity ABSTRACT CUT MALISA IRWAN. Identification Bacteri DNA Using Feature Extraction Spaced K-Mers with Artifical Neural Network as Classifier. Supervised by TOTO HARYANTO and HABIB RIJZAANI. Feature extraction is the process of taking an object identifiers that describes it’s characteristics. In this study, spaced k-mers feature extraction method was employed. This method was used to retrieve the data identifier of DNA sequence of the three genus, namely Bacillus, Burkholderia, and Pseudomonas. Artificial neural network was used to analyze molecular biology data from the three genus. The feature extraction methods uses the following setup: w = 3, and d = 0, 1, 2 and fragment length 100 bp, 400 bp, 800 bp, and 1 Kbp. The best sensitivity and the best specificity were achieved for known organisms at 1 Kbp fragment length with value 0.9716 and 0.9854, respectively. Keywords: artificial neural network, DNA sequence, sensitivity, spaced k-mers, specificity IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI SPACED K-MERS DENGAN JARINGAN SYARAF TIRUAN SEBAGAI CLASSIFIER CUT MALISA IRWAN Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013 Judul Skripsi : Identifikasi DNA Bakteri Menggunakan Metode Ekstraksi Ciri Spaced K-Mers dengan Jaringan Syaraf Tiruan sebagai Classifier Nama : Cut Malisa Irwan NIM : G64080007 Disetujui oleh Habib Rijzaani, MSi Pembimbing II Toto Haryanto, SKom MSi Pembimbing I Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus: PRAKATA Puji syukur penulis panjatkan kepada Allah Subhanahu wa-ta'ala atas segala rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul “Identifikasi DNA Bakteri Menggunakan Metode Ekstraksi Ciri Spaced K-Mers dengan Jaringan Syaraf Tiruan sebagai Classifier”. Penulisan skripsi ini tak lepas dari bantuan banyak pihak. Oleh karena itu, penulis ingin menyampaikan rasa terima kasih kepada: • Kedua orang tua penulis, Bapak Teuku Irwan dan Ibu Nani Erwani, atas pola pendidikan luar biasa yang telah diberikan kepada penulis. • Bapak Toto Haryanto SKom MSi dan Bapak Habib Rijzaani MSi selaku dosen pembimbing skripsi. Terima kasih atas segala ilmu, bantuan, serta nasehat-nasehat yang diberikan kepada penulis. • Bapak Dr Wisnu Ananta Kusuma ST MT selaku dosen penguji. • Saudara Dony Satria, atas segala motivasi, semangat, dukungan, masukan, dan saran selama proses pengerjaan skripsi ini. • Seluruh rekan-rekan dari Departemen Ilmu Komputer, atas segala masukan dan saran selama proses pengerjaan skripsi ini. Semoga karya ilmiah ini bisa memberikan manfaat untuk perkembangan dunia teknologi informasi dan pertanian di Indonesia. Bogor, Juli 2013 Cut Malisa Irwan DAFTAR ISI DAFTAR TABEL vi DAFTAR GAMBAR vi DAFTAR LAMPIRAN vi PENDAHULUAN 1 Latar Belakang 1 Tujuan Penelitian 2 Ruang Lingkup Penelitian 2 Manfaat Penelitian 2 METODE PENELITIAN 2 Studi Literatur 3 Pengumpulan Data 3 Praproses 4 Ekstraksi Ciri Spaced K-Mers 5 K-Fold Cross Validation 7 Klasifikasi Jaringan Syaraf Tiruan (JST) 8 Pengujian 10 Analisis 10 HASIL DAN PEMBAHASAN 12 Praproses Data 12 Ekstraksi Ciri Spaced K-Mers 13 5-Fold Cross Validation 13 Klasifikasi JST 14 Pengujian 15 Analisis Hasil 15 SIMPULAN DAN SARAN 20 Simpulan 20 Saran 21 DAFTAR PUSTAKA 21 LAMPIRAN 22 RIWAYAT HIDUP 33 DAFTAR TABEL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Pola untuk spaced k-mers dengan nilai w = 3 dan d = 0, 1, 2 Jumlah 64 substring yang dibentuk pada w = 3 dan d = 0 Proses pada metode 5-fold cross validation Parameter pelatihan JST menggunakan back propagation Confusion matrix genus 1 Tiga genus data sekuens DNA dengan panjang fragmen 100 bp Tiga genus data sekuens DNA dengan panjang fragmen 400 bp Tiga genus data sekuens DNA dengan panjang fragmen 800 bp Tiga genus data sekuens DNA dengan panjang fragmen 1 Kbp Jumlah data latih dan data uji dari ketiga genus Nilai MSE dari proses pelatihan pada data latih Nilai sensitivity dan specificity untuk known organisms dari setiap genus Nilai sensitivity dan specificity untuk new organisms dari setiap genus Nilai rata-rata sensitivity dan specificity untuk known organisms dari ketiga jenis genus 15 Nilai rata-rata sensitivity dan specificity untuk new organisms dari ketiga jenis genus 5 6 8 9 11 12 12 12 13 13 14 16 17 19 19 DAFTAR GAMBAR 1 2 3 4 5 6 7 8 9 Metode penelitian Ilustrasi dari proses sliding window Arsitektur JST Grafik nilai sensitivity untuk known organisms setiap genus berdasarkan panjang fragmen Grafik nilai specificity untuk known organisms setiap genus berdasarkan panjang fragmen Grafik nilai sensitivity untuk new organisms setiap genus berdasarkan panjang fragmen Grafik nilai specificity untuk new organisms setiap genus berdasarkan panjang fragmen Grafik nilai rata-rata sensitivity dari ketiga genus Grafik nilai rata-rata specificity dari ketiga genus 3 7 10 16 17 18 18 19 20 DAFTAR LAMPIRAN 1 Daftar organisme untuk known organisms untuk setiap genus dengan panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp 2 Daftar organisme untuk new organisms untuk setiap genus dengan panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp 3 Algoritme pelatihan JST back propagation 4 Algoritme inisialisasi Nguyen-Widrow 22 24 25 27 5 Confusion matrix untuk know organisms dari setiap genus dengan panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp 6 Confusion matrix untuk new organisms dari setiap genus dengan panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp 28 32 PENDAHULUAN Latar Belakang Deoxyribo nucleic acid (DNA) adalah sejenis asam nukleat yang tergolong dalam biologi molekuler utama penyusun setiap organisme. DNA mengandung tiga komponen: deoxyribo (gula dengan 5 karbon), urutan dari fosfat, dan 4 basa nitrogen yaitu adenine (A), thymine (T), guanine (G), dan cytosine (C). DNA berfungsi untuk menyimpan informasi genetik pada suatu organisme. DNA pada setiap spesies akan berbeda satu sama lainnya. Adanya perbedaan genetik di antara individu atau organisme ini, melahirkan berbagai sistem identifikasi berbasis DNA. Bioinformatika merupakan salah satu ilmu yang mempelajari penerapan teknik komputasi untuk mengidentifikasi dan menganalisis informasi biologis, terutama dengan menggunakan sekuens DNA dan asam amino serta informasi yang berkaitan dengannya. Pelacak spesifik gen dapat dikembangkan dengan memanfaatkan kemajuan bioinformatika pada teknik-teknik biologi molekuler. Metagenome melibatkan suatu teknik yang secara khusus ditunjukkan untuk mengumpulkan gen-gen secara langsung dari suatu lingkungan, diikuti dengan menganalisis informasi genetika yang terkandung di dalamnya (Riesenfeld et al. 2004). Data yang digunakan pada saat proses pembacaan metagenome dapat berupa data DNA yang diperoleh dari lingkungan, sehingga terdapat kemungkinan bahwa hasil pembacaan tersebut merupakan percampuran beberapa fragmen dari organisme yang berbeda. Oleh sebab itu, fragmen yang saling bercampur ini bisa mengakibatkan kesalahan pengklasifikasian. Untuk mengatasi permasalahan ini, diperlukan suatu metode ekstraksi ciri dan metode klasifikasi untuk menentukan jenis organisme atau tingkatan taksonomi dari suatu fragmen metagenome (Wooley et al. 2010). Proses klasifikasi tersebut dapat dilakukan dengan menggunakan ciri-ciri biokimia, misalnya jenis-jenis DNA, jenis-jenis protein, dan jenis-jenis enzim, sehingga dapat menentukan hubungan kekerabatan antara makhluk hidup satu dengan lainnya. Salah satu metode ekstraksi ciri yang dapat digunakan untuk melakukan klasifikasi sekuens DNA adalah metode k-mers. Penelitian menggunakan k-mers telah dilakukan, di antaranya oleh McHardy et al. (2007), yang telah melakukan penelitian klasifikasi terhadap 340 organisme menggunakan metode ekstraksi ciri k-mers dan metode klasifikasi support vector machine (SVM). Hasil akurasi yang didapat dari penelitian ini untuk panjang fragmen ≥ 5 Kbp, yaitu berkisar antara 60% sampai lebih dari 90% di setiap tingkat takson, sedangkan akurasi untuk takson genus dan order terus menurun dengan signifikan pada panjang fragmen ≤ 3 Kbp. Akurasi tersebut turun mulai dari 40% untuk panjang fragmen 3 Kbp hingga < 10% untuk panjang fragmen 1 Kbp. Penelitian menggunakan spaced k-mers telah dilakukan, di antaranya oleh Kusuma (2012), yang telah melakukan penelitian klasifikasi terhadap beberapa organisme menggunakan metode ekstraksi ciri spaced k-mers dan metode klasifikasi SVM. Pada penelitian tersebut dikatakan bahwa pola spaced k-mers yang menghasilkan akurasi tinggi adalah pola spaced k-mers dengan menggunakan nilai variabel w = 3 dan d = 0, 1, dan 2. 2 Berdasarkan pemaparan latar belakang sebelumnya, pada penelitian ini penulis akan mencoba melakukan identifikasi pola sekuens DNA (fragmen metagenome) bakteri dari genus Bacillus, Burkholderia, dan Pseudomonas menggunakan metode ekstraksi ciri spaced k-mers dengan jaringan syaraf tiruan (JST) sebagai classifier. Tujuan Penelitian Penelitian ini bertujuan untuk membuat model klasifikasi berbasis JST yang diimplementasikan untuk melakukan identifikasi sekuens DNA terhadap tiga jenis genus bakteri, yaitu genus Bacillus, Burkholderia, dan Pseudomonas, dengan menggunakan spaced k-mers sebagai metode ekstraksi ciri. Ruang Lingkup Penelitian 1 2 3 4 Ruang lingkup penelitian ini meliputi: Data sekuens DNA terdiri atas 3 genus, yaitu Bacillus, Burkholderia, dan Pseudomonas dengan panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp. Data latih dan data uji sekuens DNA dari known organisms terdiri atas 50 organisme. Data uji sekuens DNA dari new organisms terdiri atas 30 organisme. Data sekuens DNA dari 3 genus tersebut memiliki format penyimpanan .fna. Manfaat Penelitian Manfaat penelitian ini ada dua, yaitu: 1 Dapat melakukan identifikasi sekuens DNA bakteri genus Bacillus, Burkholderia, dan Pseudomonas dengan menggunakan metode ekstraksi ciri spaced k-mers dan metode JST sebagai classifier. 2 Mengetahui tingkat akurasi pengklasifikasian sekuens DNA bakteri genus Bacillus, Burkholderia, dan Pseudomonas dengan menggunakan metode ekstraksi ciri spaced k-mers dan metode JST sebagai classifier. METODE PENELITIAN Penelitian ini dilakukan dengan beberapa tahapan proses, yaitu pengumpulan data, praproses, k-fold cross validation, ekstraksi ciri spaced k-mers, klasifikasi JST, pengujian, dan analisis hasil. Tahapan-tahapan tersebut dapat ditunjukkan pada Gambar 1. 3 Mulai Studi Literatur Pengumpulan Data Sekuens DNA Praproses Spaced K-Mers JST K-Fold Cross Validation Data Uji Data Latih Klasifikasi JST Pengujian Analisis Hasil Selesai Gambar 1 Metode penelitian Studi Literatur Pada tahapan ini, dilakukan serangkaian studi pada literatur yang berkaitan dengan penelitian. Studi ini mencakup teori tentang metagenome, bioinformatika, sekuens DNA, spaced k-mers, JST, dan sebagainya. Pengumpulan Data Data yang digunakan dalam penelitian ini merupakan data sekuens DNA diperoleh dari National Center for Biotechnology Information (NCBI) pada situs ftp://ftp.ncbi.nih.gov/genomes/Bacteria/all.fna.tar.gz. NCBI merupakan suatu institusi yang fokus sebagai sumber informasi perkembangan biologi molekuler. Kegiatan yang dilakukan oleh NCBI di antaranya adalah membuat database yang dapat diakses oleh publik, melakukan riset biologi terkomputasi, mengembangkan software penganalisis data genome, dan menyebarkan informasi biomedical yang kesemuanya diharapkan mengarah pada pemahaman yang lebih baik tentang proses-proses molekuler yang mempengaruhi manusia dan kesehatannya. 4 Setelah didapatkan data sekuens DNA dari taksonomi NCBI, selanjutnya data tersebut akan diproses pada software MetaSim (version 0.9.1). MetaSim merupakan suatu perangkat lunak simulasi yang dapat digunakan untuk menghasilkan data metagenome (Richter et al. 2009). MetaSim melakukan pencarian data sesuai dengan parameter yang dimasukan oleh pengguna. Pada penelitian ini, parameter yang ditentukan ada dua, yaitu number of reads dan mean. Number of reads merupakan jumlah sekuens DNA yang diinginkan oleh pengguna, sedangkan mean adalah panjang fragmen dari sekuens DNA. Pada penelitian ini, yang dimaksud dengan known organisms adalah data uji yang diperoleh dari dataset yang telah diketahui jenis organismenya yang dihasilkan melalui tahapan k-fold cross validation, sedangkan new organisms merupakan kumpulan jenis organisme berbeda dari known organisms yang dibangkitkan melalui software MetaSim, tetapi termasuk ke dalam genus yang sama dengan known organisms, yaitu: Bacillus, Burkholderia, dan Pseudomonas. Nilai number of reads yang digunakan pada penelitian ini untuk data latih dan data uji pada known organisms adalah 1800, 1735, 1790, dan 1790, sedangkan nilai number of reads untuk data uji pada new organisms adalah 360, 347, 358, dan 358. Nilai mean yang digunakan pada penelitian ini untuk known organisms dan new organisms adalah 100 bp, 400 bp, 800 bp, dan 1 Kbp. Daftar organisme untuk known organisms dan new organisms dapat dilihat pada Lampiran 1 dan Lampiran 2. Keluaran dari pengolahan MetaSim ini adalah FastA. FastA merupakan file yang berisi sekuens DNA yang sudah terfragmen sesuai dengan nilai parameter yang dimasukan oleh pengguna. Data metagenome hasil simulasi dari MetaSim yang akan digunakan pada penelitian ini merupakan data sekuens DNA yang terdiri atas seri huruf yang mewakili struktur primer dari molekul DNA, yaitu huruf A, C, G, dan T. Data tersebut merupakan data sekuens DNA bakteri pada known organisms dan new organisms yang terdiri atas 3 genus, yaitu Bacillus, Burkholderia, dan Pseudomonas dengan panjang fragmen yaitu 100 bp, 400 bp, 800 bp, dan 1 Kbp. Praproses Pada tahapan praproses akan dilakukan proses parsing, yaitu proses pemisahan antara informasi sources dan informasi sekuens DNA, sehingga hanya informasi sekuens DNA yang akan menjadi ciri dari sebuah organisme. Memisahkan sources: >r30.1|SOURCES={GI=50196905,fw,33345803334680}|ERRORS={}|SOURC_ 1="Bacillus anthracis str. 'Ames Ancestor'" (2b301d2cec11c944b70447bada91610998f9ea15) Sekuens DNA hasil parsing: CAGCATTTCAATATTATTAAGACCTGGTTCACTATTAATTTTCACTCCA TAAGCCATTCAAATTTCGCACGTTCCATATCATTCGTAACGTGCTGATA T 5 Ekstraksi Ciri Spaced K-Mers Ekstraksi ciri adalah proses pengambilan penciri yang terdapat pada suatu citra atau suatu data. Ekstraksi ciri diklasifikasikan ke dalam tiga tingkat yaitu low-level, middle-level, dan high-level. Low-level feature merupakan ekstraksi ciri berdasarkan isi visual seperti warna dan tekstur, middle-level feature merupakan ekstraksi ciri setiap objek dalam citra atau data dan mencari keterhubungan di antara objek tersebut, sedangkan high-level feature merupakan ekstraksi ciri berdasarkan informasi semantik yang terkandung dalam citra atau data (Osadebey 2006). Spaced k-mers merupakan sistem pemrosesan string, yang dapat digunakan untuk mengetahui intensitas atau banyaknya kemunculan substring tertentu, pada sebuah string. Intensitas kemunculan substring tersebut, dapat dijadikan sebagai penciri atau fitur dari suatu kelompok string. Hal tersebut merupakan landasan utama penggunaan spaced k-mers sebagai metode ekstraksi ciri pada penelitian ini, karena data yang akan digunakan dalam penelitian ini adalah data sekuens DNA yang merupakan data string. Pada penelitian ini pola spaced k-mers yang akan digunakan yaitu w = 3 dan d = 0, 1, dan 2. Mengacu pada penelitian Kusuma (2012), dikatakan bahwa pola yang akan menghasilkan akurasi tinggi dari klasifikasi adalah dengan nilai variabel w dan d tersebut. Variabel w (weight of pattern) adalah banyaknya basa nitrogen yang digunakan untuk membentuk sebuah pola, dan variabel d adalah jumlah don’t care. Nilai w pada spaced k-mers menunjukkan jumlah karakter yang diinginkan untuk membentuk sebuah substring (Kusuma 2012). Pola untuk spaced k-mers dengan nilai w = 3 dan d = 0, 1, 2, adalah sebagai berikut: ϖw=3 d=0,1,2 111 1*11 1**11 Jumlah kombinasi untuk metode spaced k-mers dengan nilai w = 3 dan d = 0, 1, dan 2 dapat dilihat pada Tabel 1. Metode ini akan memeriksa frekuensi nukleotida dari fragmen DNA mulai dari AAA sampai GGG, A*AA sampai G*GG, dan A**AA sampai G**GG. Sehingga akan didapat 192 kombinasi nukleotida. Pengertian dari simbol * (don’t care) pada fragmen DNA yang diperiksa adalah dapat berupa basa apapun, baik A, T, G, dan C, sedangkan untuk simbol ** berarti diperbolehkan pasangan basa manapun mengisi 2 bit tersebut. Sehingga kondisi ini dapat diisi oleh 24 pasang basa mulai dari AA, AC, AT, AG, dan seterusnya hingga GG. Tabel 1 Pola untuk spaced k-mers dengan nilai w = 3 dan d = 0, 1, 2 w 3 Total Jumlah kombinasi d Pola 0 AAA, AAT, AAG, AAC,…, GGG 64 1 A*AA, A*AT, A*AG, A*AC,…, G*GG 64 2 A**AA, A**AT, A**AG, A**AC,…, G**GG 64 192 6 Misal, diketahui suatu string S bernilai GGAATCCGA, dengan nilai w dan d pada spaced k-mers adalah 3 dan 0. S=GGAATCCGA w=3,d0 Pada string S, dapat dilihat bahwa karakter yang membentuk string tersebut ada empat, yaitu A, T, G, C dan nilai w dan d yang digunakan adalah w = 3 dan d = 0. Berdasarkan kedua informasi tersebut, dapat diketahui bahwa kemungkinan maksimal kombinasi substring yang dapat dibentuk adalah: 4×4 ×4=43 =64 substring Kombinasi substring yang dibentuk pada metode spaced k-mers dengan w = 3 dan d = 0 dapat dilihat pada Tabel 2. Namun, 64 substring tersebut belum tentu muncul pada string S. Cara mencari intensitas kemunculan substring tersebut pada string S adalah dengan metode sliding window. Berdasarkan nilai k atau banyaknya karakter pada substring, ukuran sliding window yang digunakan adalah 3 karakter. Langkah kerja dari proses sliding window adalah, sliding window akan terus bergeser dari awal hingga akhir string S dengan jarak overlapping sejauh 2 karakter. Ilustrasi dari proses sliding window dapat dilihat pada Gambar 2. Tabel 2 Jumlah 64 substring yang dibentuk pada w = 3 dan d = 0 No. Substring No. Substring No. Substring No. Substring 1 AAA 17 CAA 33 GAA 49 TAA 2 AAC 18 CAC 34 GAC 50 TAC 3 AAG 19 CAG 35 GAG 51 TAG 4 AAT 20 CAT 36 GAT 52 TAT 5 ACA 21 CCA 37 GCA 53 TCA 6 ACC 22 CCC 38 GCC 54 TCC 7 ACG 23 CCG 39 GCG 55 TCG 8 ACT 24 CCT 40 GCT 56 TCT 9 AGA 25 CGA 41 GGA 57 TGA 10 AGC 26 CGC 42 GGC 58 TGC 11 AGG 27 CGG 43 GGG 59 TGG 12 AGT 28 CGT 44 GGT 60 TGT 13 ATA 29 CTA 45 GTA 61 TTA 14 ATC 30 CTC 46 GTC 62 TTC 15 ATG 31 CTG 47 GTG 63 TTG 16 ATT 32 CTT 48 GTT 64 TTT 7 Substring Gambar 2 Ilustrasi dari proses sliding window Dari Gambar 2, dapat diketahui substring apa saja yang dibentuk oleh string S beserta intensitas kemunculannya. K-Fold Cross Validation K-fold cross validation merupakan teknik yang membagi data ke dalam k bagian untuk kemudian masing-masing bagian data tersebut akan dilakukan proses klasifikasi. Metode k-fold cross validation digunakan dengan tujuan agar akurasi yang dihasilkan pada penelitian ini merupakan akurasi secara umum, yang dapat merepresentasikan akurasi data secara keseluruhan. Langkah pertama dalam metode k-fold cross validation adalah menentukan nilai k. Nilai k adalah nilai yang menunjukkan jumlah pembagian data menjadi k-subset data. Pada penelitian ini, nilai k yang digunakan adalah 5 sehingga, metode k-fold cross validation yang digunakan pada penelitian menjadi 5-fold cross validation. Berdasarkan nilai k tersebut, jumlah subset data yang dihasilkan adalah 5-subset data. Setelah 5 subset data terbentuk, pilih sebuah subset data untuk dijadikan sebagai data uji. Selanjutnya, keempat subset data lain yang tidak terpilih dijadikan sebagai data latih. Proses pemilihan subset data uji dan subset data latih tersebut dilakukan secara berulang kali sehingga kelima subset data yang dihasilkan pernah menjadi subset data uji sebanyak tepat 1 kali. Setiap kali diperoleh sebuah subset data uji, tahapan klasifikasi dapat dilakukan hingga diperoleh sebuah nilai akurasi klasifikasi. Berdasarkan jumlah subset data yang digunakan, pada akhir dari penelitian ini akan dihasilkan 5 nilai akurasi klasifikasi. Kelima nilai akurasi tersebut akan dirata-rata dan hasil ratarata tersebut merupakan nilai akurasi klasifikasi akhir yang merepresentasikan nilai akurasi klasifikasi data secara keseluruhan. Proses pada metode 5-fold cross validation tersebut dapat dilihat pada Tabel 3. 8 Tabel 3 Proses pada metode 5-fold cross validation Subset data uji Subset data latih Akurasi Subset_1 Subset_2, Subset_3, Subset_4, dan Subset_5 Akurasi_1 Subset_2 Subset_1, Subset_3, Subset_4,dan Subset_5 Akurasi_2 Subset_3 Subset_1, Subset_2, Subset_4, dan Subset_5 Akurasi_3 Subset_4 Subset_1, Subset_2, Subset_3, dan Subset_5 Akurasi_4 Subset_5 Subset_1, Subset_2, Subset_3, dan Subset_4 Akurasi_5 Persamaan akurasi akhir klasifikasi adalah sebagai berikut: Akurasi Akhir = ∑ni=1 Akurasii ;n =5 n Klasifikasi Jaringan Syaraf Tiruan (JST) JST adalah sistem pemrosesan informasi yang memiliki karakter yang mirip dengan jaringan syaraf biologis, berupa generalisasi model matematika dari jaringan biologi yang didasarkan pada beberapa asumsi (Yani 2005). Proses pelatihan JST ditujukan agar model jaringan dapat mempelajari karakteristik dari setiap genus sehingga diperoleh suatu jaringan terbaik yang diharapkan mampu mendeteksi data sekuens DNA dengan akurat. Sebelum melakukan pelatihan, dibutuhkan suatu matriks yang disebut dengan matriks target. Matriks target tersebut dibuat berdasarkan matriks data latih, yaitu matriks target digunakan untuk memberikan informasi kepada jaringan bahwa suatu kolom pada matriks data latih termasuk ke dalam genus pertama, genus kedua, atau genus ketiga. Dalam penelitian ini, genus pertama adalah Bacillus, genus kedua adalah Burkholderia, genus ketiga adalah Pseudomonas. Karena JST membutuhkan matriks target dalam mempelajari karakteritik dari suatu genus, maka JST masuk ke dalam supervised learning. Algoritme yang digunakan dalam tahap pelatihan JST adalah back propagation. Tahapan pelatihan JST menggunakan algoritme back propagation dapat dilihat pada Lampiran 3. Pada tahap pelatihan JST menggunakan back propagation, ada beberapa parameter yang akan ditentukan nilainya. Parameter tersebut dapat dilihat pada Tabel 4. 9 Tabel 4 Parameter pelatihan JST menggunakan back propagation Parameter Nilai Inisialisasi bobot Nguyen-Widrow Input layer 192 neuron Hidden layer 10 neuron Output layer 3 neuron Fungsi aktivasi pada lapisan tersembunyi Sigmoid logaritmik Fungsi aktivasi pada lapisan output Sigmoid logaritmik Fungsi pelatihan jaringan Levenberg-Marquardt Fungsi pelatihan bobot Gradient descent momentum Fungsi aktivasi yang digunakan pada penelitian ini adalah sigmoid logaritmik yang memiliki selang nilai (0,1). Persamaan dari fungsi aktivasi sigmoid logaritmik yaitu: 1 fx = 1+exp-x Keterangan: fx = nilai output fungsi aktivasi x = nilai input fungsi aktivasi Pada penelitian ini, untuk pemilihan bobot dan bias awal pada tahapan pelatihan JST menggunakan metode Nguyen-Widrow. Pemilihan bobot awal sangat mempengaruhi JST dalam mencapai minimum global atau minimum lokal terhadap nilai error dan cepat tidaknya proses pelatihan menuju kekonvergenan. Algoritme inisialisasi Nguyen-Widrow dapat dilihat pada Lampiran 4. Salah satu indikator yang digunakan untuk melihat baik atau tidaknya sebuah jaringan yang dihasilkan adalah nilai mean square error (MSE). MSE adalah rata-rata dari kesalahan pembelajaran jaringan (selisih antara ouput aktual dengan output target) yang dikuadratkan. Persamaan dari MSE adalah sebagai berikut: 2 ∑nk =1tk -yk MSE = n Keterangan: tk = nilai output aktual ke-k yk = nilai output target ke-k n = banyaknya nilai output Pada penelitian ini, yang dimaksud dengan output aktual adalah output yang dihasilkan oleh jaringan dari proses pembelajaran, sedangkan yang dimaksud dengan output target adalah output yang digunakan sebagai pemberi informasi jaringan dalam proses pembelajaran. Hasil dari proses pembelajaran (pelatihan) diharapkan bahwa nilai output aktual sangat mendekati nilai output target 10 sehingga memberikan nilai MSE yang paling kecil. Arsitektur JST pada penelitian ini dapat dilihat pada Gambar 3. Gambar 3 Arsitektur JST Keterangan: Xi = Nilai masukan dari unit i Vij = Bobot dari unit xi ke unit zj wjk = Bobot dari unit zj ke unit yk voj = Bobot dari bias ke unit zj wok = Bobot dari bias ke unit yk Pengujian Proses pengujian atau identifikasi merupakan tahap dimana model JST yang telah mengalami pelatihan akan berusaha mengenali pola-pola unik dari data sekuens DNA yang menjadi masukan, dan akan mengklasifikaskan data sekuens DNA tersebut ke dalam masing-masing genus. Proses identifikasi pada jaringan syaraf tiruan dilakukan melalui proses matematis yang sama dengan operasi arah maju (feed forward), yaitu mengalikan neuron-neuron masukan terhadap bobot jaringan dan ditambah dengan bobot bias untuk masing-masing unit neuron tersembunyi dan keluaran. Nilai bobot diperoleh pada proses pelatihan sebelumnya. Jadi, pada proses identifikasi tidak terjadi perubahan atau penyesuaian bobot. Proses identifikasi inilah yang dijadikan dasar dalam menentukan data sekuens DNA akan masuk ke dalam kategori yang sesuai dengan genusnya. Analisis Langkah pertama dalam tahap analisis adalah menghitung nilai sensitivity dan specificity. Nilai sensitivity dan specificity tersebut dihitung berdasarkan tiaptiap genus, sehingga setiap genus memiliki nilai sensitivity dan specificity masingmasing. Untuk menghitung nilai sensitivity dan specificity, dibutuhkan suatu matriks yang disebut dengan confusion matrix. Confusion matrix untuk genus 1 dapat dilihat pada Tabel 5. Persamaan dari nilai sensitivity untuk genus 1 adalah: 11 sensitivity1 = tp1 tp1 +fn1 Adapun persamaan dari nilai specificity untuk genus 1 adalah: tn1 specificity1 = tn1 +fp1 Pada penelitian ini, yang dimaksud dengan nilai sensitivity1 adalah, perbandingan antara jumlah sekuens DNA uji genus 1 yang terdeteksi sebagai sekuens DNA genus 1 dengan jumlah seluruh sekuens DNA uji genus 1, sedangkan yang dimaksud dengan nilai specificity1 adalah, perbandingan antara jumlah sekuens DNA uji bukan genus 1 yang terdeteksi sebagai bukan sekuens DNA genus 1 dengan jumlah seluruh sekuens DNA uji yang terdeteksi sebagai bukan sekuens DNA genus 1. Berdasarkan jumlah kelas yang digunakan, pada penelitian ini diperoleh tiga nilai sensitivity dan tiga nilai specificity. Ketiga nilai sensitivity dan specificity tersebut akan dirata-rata sehingga diperoleh nilai sensitivity dan specificity akhir yang merepresentasikan nilai sensitivity dan specificity penelitian secara keseluruhan. Nilai sensitivity dan specificity digunakan untuk mengetahui seberapa besar kemampuan metode yang digunakan dalam penelitian ini, mampu mengidentifikasi kelas dari sekuens DNA uji, dari seluruh sekuens DNA yang diujikan. Tabel 5 Confusion matrix genus 1 Sekuens DNA uji genus 1 Bukan sekuens DNA uji genus 1 Terdeteksi sebagai sekuens DNA genus 1 tp1 fp1 Terdeteksi sebagai bukan sekuens DNA genus 1 fn1 tn1 Keterangan: tp1 : true positive 1 (jumlah sekuens DNA uji genus 1 yang berhasil teridentifikasi sebagai sekuens DNA genus 1). tn1 : true negative 1 (jumlah bukan sekuens DNA uji genus 1 yang berhasil teridentifikasi sebagai bukan sekuens DNA genus 1). fp1 : false positive 1 (jumlah bukan sekuens DNA uji genus 1 yang berhasil teridentifikasi sebagai sekuens DNA genus 1). fn1 : false negative 1 (jumlah sekuens DNA uji genus 1 yang teridentifikasi sebagai bukan sekuens DNA genus 1). 12 HASIL DAN PEMBAHASAN Praproses Data Data yang digunakan pada penelitian ini untuk known organisms dan new organisms terdiri atas tiga jenis genus, yaitu: Bacillus, Burkholderia, dan Pseudomonas dengan 4 panjang fragmen yang dipakai yaitu 100 bp, 400 bp, 800 bp, dan 1 Kbp. Setiap sekuens DNA memiliki informasi sources DNA. Pada tahap praproses data, informasi sources DNA akan dipisahkan dari sekuens DNA. Hal ini dikarenakan informasi yang dibutuhkan untuk melakukan proses pelatihan JST dan pengujian data uji hanya kode basa yang ada di setiap sekuens DNA. Hasil dari tahap praproses data adalah sekuens DNA yang telah terpisahkan dari sources-nya. Ketiga genus data sekuens DNA dengan panjang fragmen yaitu 100 bp, 400 bp, 800 bp, dan 1 Kbp dapat dilihat pada Tabel 6 – 9. Tabel 6 Tiga genus data sekuens DNA dengan panjang fragmen 100 bp Genus Sekuens DNA untuk known organisms Sekuens DNA untuk new organisms Bacillus 600 sekuens 146 sekuens Burkholderia 600 sekuens 102 sekuens Pseudomonas 600 sekuens 112 sekuens 1800 sekuens 360 sekuens Total Tabel 7 Tiga genus data sekuens DNA dengan panjang fragmen 400 bp Genus Sekuens DNA untuk known organisms Sekuens DNA untuk new organisms Bacillus 545 sekuens 147 sekuens Burkholderia 600 sekuens 91 sekuens Pseudomonas 590 sekuens 109 sekuens 1735 sekuens 347 sekuens Total Tabel 8 Tiga genus data sekuens DNA dengan panjang fragmen 800 bp Genus Sekuens DNA untuk known organisms Sekuens DNA untuk new organisms Bacillus 575 sekuens 151 sekuens Burkholderia 630 sekuens 95 sekuens Pseudomonas 585 sekuens 112 sekuens 1790 sekuens 358 sekuens Total 13 Tabel 9 Tiga genus data sekuens DNA dengan panjang fragmen 1 Kbp Genus Sekuens DNA untuk known organisms Sekuens DNA untuk new organisms Bacillus 540 sekuens 166 sekuens Burkholderia 650 sekuens 96 sekuens Pseudomonas 600 sekuens 96 sekuens 1790 sekuens 358 sekuens Total Ekstraksi Ciri Spaced K-Mers Pada penelitian ini, nilai w dan d yang akan digunakan untuk metode spaced k-mers, yaitu w = 3 dan d = 0, 1, dan 2. Berdasarkan banyaknya basa penyusun sekuens DNA dan nilai w = 3 dan d = 0, 1, dan 2 pada metode spaced kmers, maksimal banyaknya kombinasi fitur dari sekuens DNA yang dapat dibentuk adalah 192 fitur. Pada penelitian ini, data yang digunakan terdiri atas tiga jenis genus bakteri yaitu Bacillus, Burkholderia, dan Pseudomonas dengan panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp. Hasil atau nilai spaced k-mers pada data sekuens DNA digabung menjadi sebuah matriks berdimensi n × 192. Dimensi baris = n menunjukan urutan dari data sekuens DNA, sedangkan dimensi kolom = 192 menunjukan urutan kombinasi fitur. 5-Fold Cross Validation Pada penelitian ini, metode yang digunakan untuk membagi data latih dan data uji adalah k-fold cross validation. Metode tersebut digunakan dengan tujuan agar semua data sekuens DNA pernah menjadi data latih dan data uji, sehingga nilai akurasi yang dihasilkan dapat merepresentasikan nilai akurasi data secara keseluruhan. Pada penelitian ini nilai k yang digunakan adalah 5, sehingga proporsi data pada known organisms untuk data latih adalah 80% dan proporsi data untuk data uji adalah 20%. Jumlah sekuens DNA dari ketiga genus dengan panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp yang akan menjadi data latih dan data uji dapat dilihat pada Tabel 10. Tabel 10 Jumlah data latih dan data uji dari ketiga genus Panjang fragmen Jumlah data Jumlah data latih Jumlah data uji 100 bp 1800 1440 360 400 bp 1735 1388 347 800 bp 1790 1432 358 1 Kbp 1790 1432 358 14 Klasifikasi JST Metode klasifikasi yang digunakan pada penelitian ini adalah JST. Terdapat dua tahap dalam melakukan proses klasifikasi, yaitu tahap pelatihan data latih dan pengujian data uji. Proses pelatihan ini ditujukan agar jaringan dapat mempelajari karakteristik setiap genus, berdasarkan data latih yang telah dikelompokkan dengan target yang telah dibuat, sehingga didapatkan suatu jaringan terbaik yang diharapkan mampu mengidentifikasi jenis genus dari suatu data sekuens DNA. Matriks target tersebut dibuat berdasarkan matriks data latih. Matriks target digunakan untuk memberikan informasi kepada jaringan bahwa, suatu kolom pada matriks data latih, termasuk ke dalam genus pertama (Bacillus), genus kedua (Burkholderia), atau genus ketiga (Pseudomonas). Pada penelitian ini, motode yang digunakan pada tahap pemilihan data latih dan data uji adalah 5-fold cross validation, sehingga terdapat 5 kali proses pelatihan data latih dan pengujian data uji, di setiap panjang fragmen sekuens DNA yang berbeda. Setiap kali proses pelatihan data latih, dihasilkan nilai MSE sebagai indikator baik atau buruknya model jaringan yang dihasilkan. Model jaringan dikatakan baik jika memiliki nilai MSE yang kecil. Nilai MSE terkecil yang diperoleh dari proses pelatihan data latih pada penelitian ini dapat dilihat pada Tabel 11. Tabel 11 Nilai MSE dari proses pelatihan pada data latih Panjang fragmen Data latih Nilai MSE 100 bp Subset 2, 3, 4, 5 0.2076 Subset 1, 3, 4, 5 0.2184 Subset 1, 2, 4, 5 0.2114 Subset 1, 2, 3, 5 0.2136 Subset 1, 2, 3, 4 0.2094 Subset 2, 3, 4, 5 0.1957 Subset 1, 3, 4, 5 0.1916 Subset 1, 2, 4, 5 0.1861 Subset 1, 2, 3, 5 Subset 1, 2, 3, 4 0.1921 0.1822 Subset 2, 3, 4, 5 0.1870 Subset 1, 3, 4, 5 0.1765 Subset 1, 2, 4, 5 0.1767 Subset 1, 2, 3, 5 Subset 1, 2, 3, 4 0.1770 0.1815 Subset 2, 3, 4, 5 0.1707 Subset 1, 3, 4, 5 0.1723 Subset 1, 2, 4, 5 0.1776 Subset 1, 2, 3, 5 0.1715 Subset 1, 2, 3, 4 0.1770 400 bp 800 bp 1 Kbp 15 Pengujian Input dari proses pengujian adalah data uji sekuens DNA, berserta jaringan terbaik yang diperoleh pada tahap pelatihan JST. Proses pengujian ini, akan diberlakukan untuk seluruh data uji sekuens DNA pada known organisms dan data uji sekuens DNA pada new organisms dari ketiga genus yang memiliki panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp Pada proses pengujian, data uji akan melalui tahapan feed forward seperti yang terjadi pada data latih. Namun hanya dilakukan satu kali iterasi. Pada saat iterasi tersebut, input sekuens DNA uji akan dikalikan dengan bobot-bobot yang ada pada jaringan. Bobot-bobot tersebut merupakan bobot yang dihasilkan pada tahapan back propagation pada saat melakukan pelatihan data latih. Hasil proses pengujian terdiri dari 3 neuron, karena fungsi aktivasi yang digunakan pada penelitian ini adalah fungsi aktivasi sigmoid logaritmik, nilai maksimum yang ada pada ketiga neuron tersebut adalah 1, sedangkan nilai minimum pada ketiga neuron tersebut adalah 0. Pada penelitian ini neuron pertama menunjukan genus Bacillus, neuron kedua menunjukan genus Burkholderia, dan neuron ketiga menunjukan genus Pseudomonas. Nilai maksimum yang ada diantara ketiga neuron tersebut menunjukan bahwa sekuens DNA uji masuk ke dalam genus yang nilai neuronnya maksimum tersebut. Analisis Hasil Hasil dari proses pengujian selanjutnya akan dihitung dengan menggunakan tabel confusion matrix. Tabel confusion matrix tersebut dibutuhkan untuk melakukan proses perhitungan sensitivity dan specificity. Hasil dari tabel confusion matrix untuk known organisms dan confusion matrix untuk new organisms dapat dilihat pada Lampiran 5 dan Lampiran 6. 1 Pengujian menggunakan data known organisms Pengujian menggunakan known organisms akan didapatkan nilai sensitivity dan specificity. Nilai sensitivity dan specificity pada known organisms yang dihasilkan untuk setiap genus dengan panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp dapat dilihat pada Tabel 12. 16 Tabel 12 Nilai sensitivity dan specificity untuk known organisms dari setiap genus Panjang fragmen Genus Sensitivity Specificity 100 bp Bacillus Burkholderia Pseudomonas 0.9300 0.8150 0.7467 0.9400 0.9067 0.8992 400 bp Bacillus Burkholderia Pseudomonas 0.9376 0.9250 0.9119 0.9798 0.9596 0.9458 800 bp Bacillus Burkholderia Pseudomonas 0.9826 0.9413 0.9453 0.9803 0.9845 0.9693 1 Kbp Bacillus Burkholderia Pseudomonas 0.9815 0.9615 0.9717 0.9912 0.9886 0.9765 Agar perbandingan nilai sensitivity dan specificity pada Tabel 12 terlihat lebih jelas, maka nilai tersebut akan disajikan ke dalam bentuk grafik. Grafik nilai sensitivity dan specificity setiap genus dengan panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp dapat dilihat pada Gambar 4 dan Gambar 5. Berdasarkan grafik pada Gambar 4, dapat dilihat bahwa nilai sensitivity tertinggi baik pada panjang fragmen 100 bp, 400 bp, 800 bp, maupun 1 Kbp, terletak pada genus Bacillus, sedangkan berdasarkan grafik pada Gambar 5, dapat dilihat bahwa nilai specificity tertinggi baik pada panjang fragmen 100 bp, 400 bp, 800 bp, maupun 1 Kbp, terletak pada genus Bacillus. 1 0.9 0.8 Sensitivity 0.7 0.6 Bacillus 0.5 Burkholderia 0.4 Pseudomonas 0.3 0.2 0.1 0 100 bp 400 bp 800 bp 1 Kbp Panjang fragmen Gambar 4 Grafik nilai sensitivity untuk known organisms setiap genus berdasarkan panjang fragmen 17 1 0.9 0.8 Specificity 0.7 0.6 Bacillus 0.5 Burkholderia 0.4 Pseudomonas 0.3 0.2 0.1 0 100 bp 400 bp 800 bp 1 Kbp Panjang fragmen Gambar 5 Grafik nilai specificity untuk known organisms setiap genus berdasarkan panjang fragmen 2 Pengujian menggunakan data new organisms Pengujian menggunakan new organisms akan didapatkan nilai sensitivity dan specificity. Nilai sensitivity dan specificity pada new organisms yang dihasilkan untuk setiap genus dengan panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp dapat dilihat pada Tabel 13. Tabel 13 Nilai sensitivity dan specificity untuk new organisms dari setiap genus Panjang fragmen Genus Sensitivity Specificity 100 bp Bacillus Burkholderia Pseudomonas 0.9795 0.5392 0.7679 0.9346 0.9186 0.8347 400 bp Bacillus Burkholderia Pseudomonas 0.9796 0.5495 0.9817 0.9900 1.0000 0.8151 800 bp Bacillus Burkholderia Pseudomonas 1.0000 0.7474 0.9643 0.9855 0.9924 0.9065 1 Kbp Bacillus Burkholderia Pseudomonas 0.9819 0.8021 0.9792 0.9948 0.9924 0.9198 Agar perbandingan nilai sensitivity dan specificity pada Tabel 13 terlihat lebih jelas, maka nilai tersebut akan disajikan kedalam bentuk grafik. Grafik nilai sensitivity dan specificity setiap genus dengan panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp dapat dilihat pada Gambar 6 dan Gambar 7. Berdasarkan grafik 18 Sensitivity pada Gambar 6, dapat dilihat bahwa nilai sensitivity tertinggi baik pada panjang fragmen 100 bp, 400 bp, 800 bp, maupun 1 Kbp, terletak pada genus Bacillus, sedangkan berdasarkan grafik pada Gambar 7, dapat dilihat bahwa nilai specificity tertinggi baik pada panjang fragmen 100 bp dan 1 Kbp terletak pada genus Bacillus, dan pada panjang fragmen 400 bp dan 800 bp terletak pada genus Burkholderia. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Bacillus Burkholderia Pseudomonas 100 bp 400 bp 800 bp 1 Kbp Panjang fragmen Specificity Gambar 6 Grafik nilai sensitivity untuk new organisms setiap genus berdasarkan panjang fragmen 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Bacillus Burkholderia Pseudomonas 100 bp 400 bp 800 bp 1 Kbp Panjang fragmen Gambar 7 Grafik nilai specificity untuk new organisms setiap genus berdasarkan panjang fragmen 3 Nilai rata-rata sensitivity dan specificity Untuk menentukan panjang fragmen terbaik secara secara umum bagi ketiga genus, dibutuhkan nilai rata-rata dari sensitivity dan specificity. Nilai rata-rata sensitivity dan specificity dari ketiga jenis genus untuk known organisms dan new organisms berdasarkan panjang fragmen yang digunakan dapat dilihat pada Tabel 14 dan Tabel 15. 19 Tabel 14 Nilai rata-rata sensitivity dan specificity untuk known organisms dari ketiga jenis genus Panjang fragmen Sensitivity Specificity 100 bp 0.8306 0.9153 400 bp 0.9248 0.9617 800 bp 0.9564 0.9780 1 Kbp 0.9716 0.9854 Tabel 15 Nilai rata-rata sensitivity dan specificity untuk new organisms dari ketiga jenis genus Panjang fragmen Sensitivity Specificity 100 bp 0.7622 0.8959 400 bp 0.8369 0.9351 800 bp 0.9039 0.9615 1 Kbp 0.9211 0.9690 Agar perbandingan nilai rata-rata sensitivity dan specificity untuk known organisms dan new organisms dari ketiga jenis genus terlihat lebih jelas, maka nilai tersebut akan disajikan kedalam bentuk grafik. Grafik nilai rata-rata sensitivity dan specificity berdasarkan panjang fragmen yang digunakan dapat dilihat pada Gambar 8 dan Gambar 9. 1 0.9 0.8 Sensitivity 0.7 0.6 Known organisms 0.5 New organisms 0.4 0.3 0.2 0.1 0 100 bp 400 bp 800 bp 1 Kbp Panjang fragmen Gambar 8 Grafik nilai rata-rata sensitivity dari ketiga genus 20 1 0.9 0.8 Specificity 0.7 0.6 Known organisms 0.5 New organisms 0.4 0.3 0.2 0.1 0 100 bp 400 bp 800 bp 1 Kbp Panjang fragmen Gambar 9 Grafik nilai rata-rata specificity dari ketiga genus Berdasarkan grafik pada Gambar 8 dan Gambar 9 dapat dilihat bahwa panjang fragmen terbaik untuk mengidentifikasi sekuens DNA pada genus Bacillus, Burkholderia, dan Pseudomonas adalah panjang fragmen 1 Kbp, dengan nilai sensitivity untuk known organisms dan new organisms adalah 0.9716 dan 0.9211, sedangkan nilai specificity untuk known organisms dan new organisms adalah 0.9854 dan 0.9690. 0.9690. Hal ini terjadi karena, panjang fragmen 1 Kbp menghasilkan fitur ekstraksi dengan informasi terlengkap yang mampu merepresentasikan karakteristik yang berbeda bagi ketiga genus yang ada (Bacillus, Burkholderia, dan Pseudomonas). Dapat kita lihat juga bahwa grafik tersebut cenderung menaik seiring bertambahnya panjang fragmen dari sekuens DNA. Hal ini menandakan bahwa semakin banyak jumlah panjang fragmen, maka dapat memberikan informasi genetik yang lebih banyak pada suatu organisme. Sehingga pada tahap pelatihan JST, tidak sulit untuk mencari perbedaan atau mempelajari karakteristik dari setiap genus. SIMPULAN DAN SARAN Simpulan 1 Simpulan yang dapat ditarik dari penelitian ini adalah sebagai berikut. Nilai sensitivity dan specificity terbaik yang mampu dicapai oleh metode ekstraksi ciri spaced k-mers untuk known organisms diperoleh pada panjang fragmen 1 Kbp, yaitu dengan nilai sensitivity 0.9716 dan nilai specificity 0.9854. 21 2 Nilai sensitivity dan specificity terbaik yang mampu dicapai oleh metode ekstraksi ciri spaced k-mers untuk new organisms diperoleh pada panjang fragmen 1 Kbp, yaitu dengan nilai sensitivity 0.9211 dan nilai specificity 0.9690. Saran Ada beberapa hal yang dapat dilakukan untuk melanjutkan topik penelitian ini, yaitu: 1 Menambah jumlah data dengan jenis genus bakteri yang lebih beragam. 2 Melakukan klasifikasi hingga batasan tingkat taksonomi yang lebih spesifik, seperti klasifikasi dari tingkat genus hingga tingkat spesies. 3 Melakukan klasifikasi multi organisme, yaitu klasifikasi di antara beberapa jenis organisme yang berbeda, seperti klasifikasi antara sekuens DNA bakteri dengan sekuens DNA virus. DAFTAR PUSTAKA Kusuma, WA. 2012. Combined approaches for improving the performance of de novo DNA sequence assembly and metagenomic classification of short fragments from next generation sequencer [disertasi]. Tokyo (JP): Tokyo Institute of Technology. McHardy AC, Martin HG, Tsirigos A, Hugenholtz P, Rigoutsos I. 2007. Accurate phylogonetic classification of variabel-length DNA fragments. Nature Methods. 4(1):63-72. doi:10.1038/nmeth976. Osadebey ME. 2006. Integrated content-based image retrieval using texture, shape and spatial information [tesis]. Umeå (SE): Umeå University. Richter DC, Ott F, Auch AF, Schmid R, Huson DH. 2009. User manual for MetaSim V0.9.5 [Internet]. [diunduh 2012 Nov 27]. Tersedia pada: http://www-ab.informatik.uni.tuebigen.de/software/metasim. Riesenfeld CS, Schloss PD, Handelsman J. 2004. Metagenomics: genomic analysis of microbial communities. Annual Review Genetics. 38:525-553. Wooley JC, Godzik A, Friendberg I. 2010. A primer on metagenomics. PLos Computational Biology. 6(2):1-13. doi:10.1371/journal.pcbi.1000667. Yani E. 2005. Pengantar jaringan syaraf tiruan [Internet]. [diunduh 2013 Feb 11]. Tersedia pada: http://trirezqiariantoro.files.wordpress.com/2007/05/jaringan_syaraf_tiruan.pdf. 22 Lampiran 1 Daftar organisme untuk known organisms untuk setiap genus dengan panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp Nama organisme pada genus Bacillus Bacillus amyloliquefaciens FZB42' Bacillus anthracis str. Ames Ancestor' Bacillus anthracis str. Ames chromosome' Bacillus anthracis str. Sterne chromosome' Bacillus cereus ATCC 10987 chromosome' Bacillus cereus ATCC 14579' Bacillus cereus E33L' Bacillus cereus subsp. cytotoxis NVH 391-98' Bacillus clausii KSM-K16' Bacillus halodurans C-125 chromosome' Bacillus licheniformis ATCC 14580' Bacillus subtilis subsp. subtilis str. 168 chromosome' Bacillus thuringiensis serovar konkukian str. 97-27 chromosome' Bacillus thuringiensis str. Al Hakam chromosome' Bacillus weihenstephanensis KBAB4' Nama organisme pada genus Burkholderia Burkholderia ambifaria AMMD chromosome chromosome 1' Burkholderia ambifaria MC40-6 chromosome chromosome 1' Burkholderia cenocepacia AU 1054 chromosome 3' Burkholderia cenocepacia HI2424 chromosome chromosome 1' Burkholderia cenocepacia J2315 chromosome chromosome 1' Burkholderia cenocepacia MC0-3 chromosome chromosome 1' Burkholderia mallei ATCC 23344 chromosome chromosome 1' Burkholderia mallei NCTC 10229 chromosome I' Burkholderia mallei NCTC 10247 chromosome I' Burkholderia mallei SAVP1 chromosome I' Burkholderia multivorans ATCC 17616 chromosome chromosome 1' Burkholderia phymatum STM815 chromosome chromosome 1' Burkholderia phytofirmans PsJN chromosome chromosome 1' Burkholderia pseudomallei 1106a chromosome I' Burkholderia pseudomallei 1710b chromosome chromosome I' Burkholderia pseudomallei 668 chromosome I' Burkholderia pseudomallei K96243 chromosome chromosome 1' Burkholderia sp. 383 chromosome 1' Burkholderia sp. 383 chromosome chromosome 2' Burkholderia thailandensis E264 chromosome chromosome I' Burkholderia vietnamiensis G4 chromosome chromosome 1' Burkholderia xenovorans LB400 chromosome 1' 23 Lampiran 1 Lanjutan Nama organisme pada genus Pseudomonas Pseudomonas aeruginosa PA7' Pseudomonas aeruginosa PAO1 chromosome' Pseudomonas aeruginosa UCBPP-PA14' Pseudomonas fluorescens Pf-5 chromosome' Pseudomonas fluorescens Pf0-1 chromosome' Pseudomonas putida F1 chromosome' Pseudomonas putida GB-1 chromosome' Pseudomonas putida KT2440 chromosome' Pseudomonas putida W619 chromosome' Pseudomonas syringae pv. phaseolicola 1448A chromosome' Pseudomonas syringae pv. syringae B728a' Pseudomonas syringae pv. tomato str. DC3000 chromosome' Pseudomonas syringae pv. tomato str. DC3000 plasmid pDC3000A' 24 Lampiran 2 Daftar organisme untuk new organisms untuk setiap genus dengan panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp Nama organisme pada genus Bacillus Bacillus amyloliquefaciens DSM 7' Bacillus anthracis str. A0248' Bacillus anthracis str. CDC 684' Bacillus atrophaeus 1942 chromosome' Bacillus cellulosilyticus DSM 2522 chromosome' Bacillus cereus 03BB102' Bacillus cereus AH187 chromosome' Bacillus cereus AH820' Bacillus cereus B4264' Bacillus cereus G9842' Bacillus cereus Q1 chromosome' Nama organisme pada genus Burkholderia Burkholderia cepacia AMMD chromosome 2' Burkholderia glumae BGR1 chromosome chromosome 1' Burkholderia rhizoxinica HKI 454 chromosome' Burkholderia rhizoxinica HKI 454 plasmid pBRH01' Burkholderia rhizoxinica HKI 454 plasmid pBRH02' Burkholderia sp. CCGE1001 chromosome 1' Burkholderia sp. CCGE1001 chromosome chromosome 2' Burkholderia sp. CCGE1002 chromosome 1' Burkholderia sp. CCGE1002 chromosome 2' Burkholderia sp. CCGE1003 chromosome chromosome 1' Burkholderia sp. CCGE1003 chromosome chromosome 2' Burkholderia sp. JV3 chromosome' Nama organisme pada genus Pseudomonas Pseudomonas fulva 12-X chromosome' Pseudomonas mendocina NK-01 chromosome' Pseudomonas mendocina ymp chromosome' Pseudomonas putida S16 chromosome' Pseudomonas stutzeri A1501' 25 Lampiran 3 Algoritme pelatihan JST back propagation Secara rinci algoritme pelatihan jaringan back propagation dapat diuraikan sebagai berikut: • Langkah 0: Inisialisasi nilai bobot (biasanya digunakan nilai acak yang kecil) • Langkah 1: Selama kondisi berhenti belum dicapai, maka lakukan langkah ke-2 hingga langkah ke-9. • Langkah 2: Untuk setiap pasangan pola pelatihan, lakukan langkah ke-3 sampai langkah ke-8. Tahap I Feed-forward • Langkah 3: Setiap unit input (xi, i=1,…,n), menerima sinyal input xi dan mengirimkan sinyal tersebut keseluruh unit yang ada pada lapisan tersembunyi. • Langkah 4: Untuk setiap unit tersembunyi (zj, j=1,…,p), dihitung nilai input dengan menggunakan nilai bobotnya: n z_inj =v0j + xi vij i=1 Kemudian dihitung nilai output dengan menggunakan fungsi aktivasi yang dipilih: zj = f ( z_inj ). • Hasil dari fungsi aktivasi tersebut dikirim ke semua unit pada lapis output. p y_ink = w0k + zj wjk j=1 Kemudian dihitung nilai output dengan menggunakan fungsi aktivasi: yk = fy_ink Tahap II Back-propagation • Langkah 6: Untuk setiap unit output (yk, k=1,..,m) menerima pola target yang bersesuaian dengan pola input, dan kemudian dihitung informasi kesalahan: δk =tk -yk ' (y_ink ) Kemudian dihitung koreksi nilai bobot yang kemudian akan digunakan untuk memperbaharui nilai bobot wjk: ∆wjk = αδk zj Hitung koreksi nilai bias yang kemudian akan digunakan untuk memperbaharui nilai wok: ∆w0k = αδk dan kemudian nilai dikirim ke unit pada lapisan tersembunyi. 26 Lampiran 3 Lanjutan • Langkah 7: Untuk setiap unit tersembunyi (zj, j=1,…,p) dihitung delta input yang berasal dari unit pada lapisan output: m δ_inj = δk wjk k=1 Kemudian nilai tersebut dikalikan dengan nilai turunan dari fungsi aktivasi untuk menghitung informasi kesalahan: δj = δ_inj f (z_inj ) Hitung koreksi nilai bobot yang kemudian digunakan untuk memperbaharui nilai vij: ∆vij = αδj xi Tahap III Memperbaharui nilai bobot dan bias • Langkah 8: Tiap nilai bias dan bobot (j=0,…,p) pada unit output (yk, k=1,…,m) diperbaharui: wjk new=wjk old+∆wjk vij new=vij old+∆vij • Langkah 9: Menguji apakah kondisi berhenti sudah terpenuhi. Kondisi berhenti ini terpenuhi jika nilai kesalahan yang dihasilkan lebih kecil dari toleransi nilai kesalahan yang telah ditentukan, atau pelatihan telah mencapai epoch yang telah ditetapkan. 27 Lampiran 4 Algoritme inisialisasi Nguyen-Widrow • Tetapkan: n = jumlah neuron pada input layer p = jumlah neuron pada hidden layer β = faktor kesalahan (0.7(p)1/n) • Kerjakan untuk setiap unit pada lapaisan tersembunyi (j = 1,2,…,p): a. Inisialisasi bobot-bobot dari lapisan input ke lapisan tersembunyi: vij = bilangan acak (-0.5 – 0.5) b. Hitung Vj =V2 1j +V2 2j +…+V2 nj c. Inisialisasi ulang bobot-bobot: Vij = βVij ||Vij || d. Bias yang dipakai V0j = bilangan acak (-β sampai β) 28 Lampiran 5 Confusion matrix untuk know organisms dari setiap genus dengan panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp • Panjang fragmen 100 bp Subset 1 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 114 5 12 Burkholderia 2 93 16 Pseudomonas 4 22 92 Subset 2 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 110 4 10 Burkholderia 2 105 22 Pseudomonas 8 11 88 Subset 3 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 108 4 7 Burkholderia 4 100 25 8 16 88 Pseudomonas Subset 4 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 114 6 10 Burkholderia 2 101 24 Pseudomonas 4 13 86 Subset 5 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 112 2 12 Burkholderia 1 90 14 Pseudomonas 7 28 94 29 Lampiran 5 Lanjutan • Panjang fragmen 400 bp Subset 1 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 100 1 4 Burkholderia 3 111 18 6 8 96 Pseudomonas Subset 2 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 102 1 5 Burkholderia 3 109 3 Pseudomonas 4 10 110 Subset 3 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 107 0 4 Burkholderia 1 111 3 Pseudomonas 1 9 111 Subset 4 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 102 1 4 Burkholderia 5 114 6 Pseudomonas 2 5 108 Subset 5 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 100 2 2 Burkholderia 0 110 3 Pseudomonas 9 8 113 30 Lampiran 5 Lanjutan • Panjang fragmen 800 bp Subset 1 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 113 1 3 Burkholderia 1 122 5 Pseudomonas 1 3 109 Subset 2 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 113 1 2 Burkholderia 0 116 1 Pseudomonas 2 9 114 Subset 3 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 113 0 5 Burkholderia 1 119 3 Pseudomonas 1 7 109 Subset 4 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 112 2 1 Burkholderia 1 120 4 Pseudomonas 2 4 112 Subset 5 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 114 3 6 Burkholderia 0 116 2 Pseudomonas 1 7 109 31 Lampiran 5 Lanjutan • Panjang fragmen 1 Kbp Subset 1 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 107 1 1 Burkholderia 0 127 1 Pseudomonas 1 2 118 Subset 2 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 105 0 2 Burkholderia 2 129 2 Pseudomonas 1 1 116 Subset 3 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 106 2 0 Burkholderia 0 124 6 Pseudomonas 2 4 114 Subset 4 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 105 1 3 Burkholderia 0 124 1 Pseudomonas 3 5 116 Subset 5 Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 107 1 0 Burkholderia 0 121 1 Pseudomonas 1 8 119 32 Lampiran 6 Confusion matrix untuk new organisms dari setiap genus dengan panjang fragmen 100 bp, 400 bp, 800 bp, dan 1 Kbp • Panjang fragmen 100 bp Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 143 8 6 Burkholderia 1 55 20 Pseudomonas 2 39 86 • Panjang fragmen 400 bp Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 144 0 2 Burkholderia 0 50 0 Pseudomonas 3 41 107 • Panjang fragmen 800 bp Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 151 1 2 Burkholderia 0 71 2 Pseudomonas 0 23 108 • Panjang fragmen 1 Kbp Genus hasil prediksi Genus asal Bacillus Burkholderia Pseudomonas Bacillus 163 1 0 Burkholderia 0 77 2 Pseudomonas 3 18 94 33 RIWAYAT HIDUP Penulis lahir di Banda Aceh pada tanggal 11 Januari 1991 sebagai anak kedua dari dua bersaudara, putri dari pasangan Bapak Teuku Irwan dan Ibu Nani Erwani. Pada tahun 2008, penulis lulus dari SMA Negeri 07 Banda Aceh dan melanjutkan pendidikan ke Institut Pertanian Bogor (IPB) melalui jalur Ujian Saringan Masuk IPB (USMI) pada Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Semasa kuliah, penulis aktif dalam organisasi Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) IPB. Moto hidup yang dipegang oleh penulis ialah ‘Semakin kita pandai bersyukur, semakin tinggi kebahagian yang kita dapatkan’.