PERBANDINGAN EKSTRAKSI CIRI K-MERS DAN SPACED K-MERS PADA KLASIFIKASI FRAGMEN METAGENOME DENGAN NAÏVE BAYES CLASSIFIER VIANI RAHMAWATI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Perbandingan Ekstraksi Ciri K-Mers dan Spaced K-Mers pada Klasifikasi Fragmen Metagenome dengan Naïve Bayes Classifier adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, 15 Agustus 2013 Viani Rahmawati NIM G64090058 ABSTRAK VIANI RAHMAWATI. Perbandingan Ekstraksi Ciri K-Mers dan Spaced K-Mers pada Klasifikasi Fragmen Metagenome dengan Naïve Bayes Classifier. Dibimbing oleh WISNU ANANTA KUSUMA, TOTO HARYANTO. Metagenom adalah material genetis yang diperoleh dari sampel yang diambil langsung dari lingkungan, misalnya tanah, air laut, atau isi perut manusia. Fragmen-fragmen yang diperoleh dari metagenome ini mengandung berbagai organisme sehingga proses binning diperlukan untuk mengelompokkannya sebelum perakitan genom dilakukan. Penelitian ini menggunakan metode klasifikasi naïve Bayes dengan metode ekstraksi ciri spaced k-mers untuk mengklasifikasikan fragmen ke takson genus. Hasilnya dibandingkan dengan teknik klasifikasi menggunakan ekstraksi ciri k-mers dan naïve Bayes classifier. K-mers adalah ciri umum yang banyak digunakan untuk pengklasifikasian fragmen DNA. Hasil perbandingan menunjukkan bahwa hasil pengklasifikasian dengan menggunakan naïve Bayes classifier dan spaced k-mers menghasilkan nilai akurasi yang lebih tinggi dibandingkan dengan menggunakan naïve Bayes classifier dan ekstraksi ciri k-mers. Kata kunci: metagenome, naïve Bayes Classifier, k-mers, spaced k-mers ABSTRACT Metagenome is a genetic material obtained from a simple which is taken directly from the environment such as soil, marine, or human entrails. These metagenome fragments contain a variety of organism , so that a binning process required to classify them before conducting genome assembly. This research employs naïve Bayes classifier (NBC) and spaced k-mers as a feature extraction to classify these fragments into genus level. The results will be compared to those of method which uses NBC and k-mers feature extraction. K-mers feature is a common feature in the DNA fragments classification problem. The comparison results show that the accuracy of classifier using NBC and spaced k-mers is higher than that of classifier using NBC and k-mers. Keywords: metagenome, naïve Bayes Classifier, k-mers, spaced k-mers PERBANDINGAN EKSTRAKSI CIRI K-MERS DAN SPACED K-MERS PADA KLASIFIKASI FRAGMEN METAGENOME DENGAN NAÏVE BAYES CLASSIFIER VIANI RAHMAWATI Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer pada Departemen Matematika dan Ilmu Pengetahuan Alam DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013 Penguji: Aziz Kustiyo, SSi MKom Judul Skripsi : Perbandingan Ekstraksi Ciri K-Mers dan Spaced K-Mers pada Klasifikasi Fragmen Metagenorne dengan Naive Bayes Classifier : Viani Rahmawati Nama : G64090058 NIM Disetujui oleh Dr Ir Wisnu Ananta usuma ST MT Pernbirn ing I Tanggal Lulus: 1 5 Al.'C 2013 Toto Haryanto, SKorn MSi Pembimbing II Judul Skripsi : Perbandingan Ekstraksi Ciri K-Mers dan Spaced K-Mers pada Klasifikasi Fragmen Metagenome dengan Naïve Bayes Classifier Nama : Viani Rahmawati NIM : G64090058 Disetujui oleh Dr Ir Wisnu Ananta Kusuma, ST, MT Pembimbing I Toto Haryanto, SKom MSi Pembimbing II Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus: PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Desember 2012 ini ialah klasifikasi fragmen metagenome, dengan judul Perbandingan Ekstraksi Ciri KMers dan Spaced K-Mers pada Klasifikasi Fragmen Metagenome dengan Naïve Bayes Classifier. Penghargaan penulis sampaikan kepada ayah, ibu, serta seluruh keluarga, atas segala doa dan kasih sayangnya. Di samping itu, terima kasih penulis ucapkan kepada Bapak Dr Ir Wisnu Ananta Kusuma, ST MT dan Bapak Toto Haryanto, SKom MSi selaku pembimbing yang telah banyak memberi saran dan kritik yang membangun. Terimakasih juga penulis ucapkan kepada Bapak Aziz Kustiyo, SSi MKom selaku penguji yang juga telah memberikan saran yang bermanfaat. Serta kepada seluruh rekan yang telah memberi semangat kepada penulis. Semoga karya ilmiah ini bermanfaat. Bogor, 15 Agustus 2013 Viani Rahmawati DAFTAR ISI DAFTAR TABEL ix DAFTAR GAMBAR ix PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 2 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup Penelitian 2 TINJAUAN PUSTAKA 3 Metagenome 3 Naïve Bayes Classifier (NBC) 3 Sensitifity 3 Imbalanced Data 3 K-fold cross-validation 4 METODE 4 Pengumpulan Data 4 Pembagian Data 6 Praproses Data 8 Ekstraksi Ciri 9 Reduksi Data dengan PCA 10 K -Fold Cross Validation 11 Naïve Bayes Classifier (NBC) 11 Model 12 Pengujian NBC 13 Analisis 13 HASIL DAN PEMBAHASAN 13 Praproses Data 13 Ekstraksi Ciri 14 Reduksi Data dengan PCA 16 K -fold cross validation 16 Naïve Bayes Classifier (NBC) 16 Model 17 Pengujian NBC dan Analisis 17 Percobaan Dataset Besar 20 SIMPULAN DAN SARAN 21 Simpulan 21 Saran 21 DAFTAR PUSTAKA 21 RIWAYAT HIDUP 22 LAMPIRAN 24 DAFTAR TABEL 1 2 3 4 Data Latih Data Uji Ilustrasi hasil perhitungan frekuensi k-mers pada data 3 genus dengan 10000 pembacaan Hasil perhitungan frekuensi spaced k-mers dengan 10 000 pembacaan 7 7 9 15 DAFTAR GAMBAR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 K-fold cross-validation Metode penelitian Proses memasukkan data metagenome pada MetaSim Database sequences DNA mikroorganisme pada MetaSim Screenshoot fail FastA untuk data set kecil dengan panjang 500 bp Ekstraksi ciri k-mers Spaced k-mers (Kusuma, 2012) Proses klasifikasi fragmen metagenome menggunakan NBC Sequence DNA Bacillus amyloliquefaciens FZB42 pada pembacaan 1 untuk panjang fragmen 1000 bp K-Mers Jumlah kombinasi pada spaced k-mers k = 3 Contoh perhitungan NBC untuk atribut numerik dengan Gaussian (normal) density function Confusion matrix untuk data latih untuk pembacaan 10K panjang fragmen 10 K pada data set kecil Akurasi data latih pada data set kecil Sensitivity data latih pada data set kecil Akurasi data uji baru data set kecil Akurasi hasil klasifikasi data set besar 4 5 6 6 8 9 10 11 13 14 15 17 18 18 19 19 20 1 PENDAHULUAN Latar Belakang Metagenom adalah material genetis yang diperoleh dari sampel yang diambil langsung dari lingkungan, misalnya tanah, air laut, atau isi perut manusia. Fragmen-fragmen yang diperoleh dari metagenome ini mengandung berbagai organisme sehingga proses binning diperlukan untuk mengelompokkannya sebelum perakitan genom dilakukan. Ada dua pendekatan binning, salah satunya adalah berdasarkan komposisi. Binning berdasarkan komposisi memiliki beberapa keunggulan dibandingkan pendekatan binning lainnya yang berdasarkan homologi. Binning berdasarkan komposisi merupakan jalan pintas (by pass) kebutuhan akan penjajaran sequences, vektor masukan yang dihasilkan dari ekstraksi ciri berupa pasangan basa (base pair) akan dihitung sebagai ciri komposisi, kemudian ciri tersebut akan digunakan sebagai masukan pada pembelajaran dengan contoh (supervised learning) atau pada pembelajaran secara observasi (unsupervised learning). Contoh metode yang menggunakan binning berdasarkan komposisi dengan supervised learning adalah Phylopythia (McHardy et al. 2007), naïve bayessian classification (Rosen et al. 2008), dan Phymm (Brady dan Salzberg 2009). Adapun contoh metode menggunakan binning berdasarkan komposisi dengan unsupervised learning adalah TETRA (Teeling et al. 2004), growing self organizing map (Hsu dan Halgamuge 2002; Chan et al. 2007), dan self organizing clustering (Amano et al. 2003; Amano et al. 2007). Supervised learning banyak digunakan pada proses binning. Metode klasifikasi dan prediksi dinamakan supervised learning karena ada proses supervisi, yaitu data latih disertai dengan label yang menunjukkan kelas observasi dan data baru diklasifikasikan berdasarkan training set. Langkah pertama dalam klasifikasi adalah membangun model untuk mendeskripsikan predetermined set kelas data atau konsep. Langkah kedua, pemakaian model untuk klasifikasi. Model akan dipakai setelah dilakukan pembuatan estimasi keakuratan model dengan teknik holdout. Jika keakuratan model dapat diterima, model dapat digunakan untuk mengklasifikasikan data baru yang label kelasnya belum diketahui. Salah satu proses yang paling krusial sebelum pembuatan model tersebut adalah ekstraksi ciri. Ekstraksi ciri merupakan proses untuk mengambil ciri penting suatu objek. Gail Rosen et al (2008) melakukan pengklasifikasian pada suatu komunitas yang mengandung 635 mikroorganisme. Metode yang digunakan untuk ekstraksi ciri adalah k-mers dan pengklasifikasian menggunakan naïve Bayes classifier (NBC). Penelitian tersebut menghasilkan akurasi 38% untuk fragmen dengan panjang 500 base pair (bp) setelah menggunakan k = 3, serta akurasi tertingginya 88.8% setelah menggunakan k = 15. Selain itu Kusuma dan Akiyama (2011) juga sudah melakukan penelitian untuk mengklasifikasikan fragmen metagenome berdasarkan karakterisasi vektor. Penelitian ini menggunakan data set kecil dengan 10 mikroorganisme yang termasuk ke dalam 3 genus sebagai data latih, adapun untuk data uji yang digunakan adalah 9 mikroorganisme. Metode yang digunakan untuk ekstraksi ciri adalah spaced k-mers. Didapatkan hasil akurasi untuk data latih antara 81% 2 sampai dengan 92%, serta akurasi untuk data uji baru yaitu antara 78% sampai dengan 87%. Penelitian tersebut menghasilkan akurasi yang tinggi hanya dengan menggunakan k = 3. Begitu pun klasifikasi fragmen dengan panjang 500 bp menghasilkan akurasi sebesar 78% hanya dengan penggunaan k = 3 dengan spaced k-mers. Untuk itu, pada penelitian ini metode klasifikasi yang digunakan adalah NBC dengan metode ekstraksi ciri spaced k-mers untuk mengklasifikasikan fragmen ke takson genus. Hasilnya dibandingkan dengan teknik klasifikasi menggunakan ekstraksi ciri k-mers dan NBC. Hal ini didasari ingin membandingkan pengaruh metode ekstraksi ciri kmers dan spaced k-mers pada hasil klasifikasi yang menggunakan NBC. Dengan demikian dapat ditentukan metode ekstraksi ciri spaced k-mers atau k-mers yang dapat meningkatkan akurasi hasil klasifikasi fragmen metagenome jika metode klasifikasi yang digunakan adalah NBC. Perumusan Masalah Berdasarkan latar belakang penelitian yang telah diuraikan sebelumnya, masalah yang akan diteliti antara lain: 1. Seberapa besar tingkat akurasi yang dapat diperoleh bila digunakan metode NBC pada penelitian ini? 2. Bagaimana pengaruh metode ekstrasi ciri yang dipakai untuk hasil akurasi pengklasifikasian? Tujuan Penelitian Tujuan penelitian ini adalah mengklasifikasikan fragmen metagenome ke dalam tingkat genus (sebagai kelasnya) dengn metode NBC. Selain itu juga ingin membandingkan pengaruh penggunaan metode ekstrasi ciri k-mers dan spaced kmers terhadap hasil akurasi yang dihasilkan jika classifier yang digunakan adalah NBC. Manfaat Penelitian Sebagai acuan untuk membantu para peneliti biologi dalam mengatasi masalah perakitan genom melalui proses binning. Ruang Lingkup Penelitian 1. 2. 3. Ruang lingkup penelitian ini terbatas pada: Penggunaan data latih yang sama dengan penelitian Kusuma dan Akiyama (2011) yang menggunakan data set kecil dengan 10 mikroorganisme yang termasuk ke dalam 3 genus (sebagai kelas) Data uji yang digunakan 9 mikroorganisme yang termasuk dalam kelompok genus (sebagai kelas) yang sama dengan data latih. Data set besar yang terdiri atas 381 organisme yang termasuk ke dalam 48 genus. 3 TINJAUAN PUSTAKA Metagenome Metagenome ialah genom dari mikrob tanpa pengulturan mikrob. Istilah tersebut berasal dari konsep statistik meta-analisis (proses yang secara statistik mengombinasikan metode-metode analisi yang terpisah), serta genomik (analisis menyeluruh dari materi genetika suatu organisme). Metagenomik dikembangkan berdasarkan kemajuan terkini bidang biologi molukuler dan bioinformatika. Bioinformatika ini mempunyai peranan yang penting diantaranya adalah untuk manajemen data biologi molekul, terutama sekuen DNA dan informasi genetika (Thontowi 2009). . Naïve Bayes Classifier (NBC) Metode NBC adalah salah satu metode klasifikasi yang mengasumsikan seluruh atribut dari contoh yang bersifat independen satu sama lain pada konteks kelas (McCallum dan Nigam, 1998). Meskipun secara umum asumsi tersebut merupakan asumsi yang buruk, pada praktiknya metode NBC menunjukkan kinerja yang sangat baik. Menurut Manning et al. (2008), peluang Bayes dapat digunakan untuk menghitung peluang bersyarat, yaitu peluang kejadian apabila suatu kejadian diketahui. Metode ini dapat memprediksi kemungkinan anggota suatu kelas berdasarkan sampel yang berasal dari anggota kelas tersebut (Rosen et al, 2008). Karena yang diasumsikan sebagai variabel independent, maka hanya varians dari suatu variabel dalam sebuah kelas yang dibutuhkan untuk menentukan klasifikasi, bukan keseluruhan dari matriks kovarians. Sensitifity Sensitifity atau true positive rate mengukur untuk menghitung akurasi dari tiap kelas. al Imbalanced Data Sebuah himpunan data dikatakan menjadi tidak seimbang (imbalanced) jika terdapat satu kelas yang direpresentasikan dalam jumlah instance yang kecil bila dibandingkan dengan jumlah instance kelas lainnya (Barandela et al. 2002). 4 K-fold cross-validation K-fold cross-validation digunakan untuk membagi data menjadi data latih dan data uji. Metode ini melakukan perulangan sebanyak k kali untuk membagi sebuah himpunan contoh secara acak menjadi k-subset yang saling bebas. Setiap ulangan disisakan satu subset untuk pengujian, dan sisanya digunakan untuk pelatihan (Fu 1994). Ilustrasi proses K-fold cross validation dapat dilihat pada Gambar 1. Gambar 1 K-fold cross-validation METODE Tahapan yang dilakukan pada penelitian ini dapat dilihat pada Gambar 2. Penjelasan dari tahap-tahap tersebut adalah sebagai berikut : Pengumpulan Data Data yang digunakan pada penelitian ini adalah data metagenome yang diunduh dari situs National Centre for Biotechnology Information (NCBI). NCBI merupakan suatu institusi yang fokus sebagai sumber informasi perkembangan biologi molekuler. Data metagenome ini merupakan sequences DNA mikroorganisme. Data yang telah diunduh dari situs NCBI akan di-generate meggunakan perangkat lunak MetaSim. Fail yang berisi sequences DNA mikroorganisme yang telah diunduh dari NCBI dimasukkan ke dalam perangkat lunak tersebut. 5 Gambar 2 Metode penelitian Setelah memasukkan data dari NCBI ke dalam perangkat lunak MetaSim, proses selanjutnya adalah memilih beberapa sequences DNA mikroorganisme yang telah tersedia pada database sesuai dengan kebutuhan penelitian. Tahapan pengumpulan data dapat dilihat pada Gambar 3 dan Gambar 4. 6 Gambar 3 Proses memasukkan data metagenome pada MetaSim (V.009) Gambar 4 Database sequences DNA mikroorganisme pada MetaSim (V.009) 7 Pembagian Data Data yang digunakan dalam penelitian ini terdiri atas data set kecil sebagai bahan analisis utama. Data set kecil sama dengan penelitian Kusuma (2011) yang menggunakan 10 mikroorganisme yang termasuk ke dalam 3 genus sebagai organisme yang diketahui. Data tersebut dilatih dengan menggunakan 5-fold cross validation untuk mendapatkan model naïve Bayes. Adapun untuk data uji yang digunakan adalah 9 mikroorganisme sebagai organisme baru. Daftar organisme untuk data set kecil, data latih pada Tabel 1 dan data uji pada Tabel 2. Adapun daftar 381 organisme yang termsuk ke dalam 48 genus dapat dilihat pada Lampiran 1. Tabel 1 Data latih Spesies Agrobacterium radiobacter K84 chromosome 2 Agrobacterium tumefaciens str. C58 chromosome circular Agrobacterium vitis S4 chromosome 1 Bacillus amyloliquefaciens FZB42 Bacillus anthracis str. Ames Ancestor Bacillus cereus 03BB102 Bacillus pseudofarmus OF4 chromosome Staphylococcus aureus subsp. Aureus JH Staphylococcus epidermidis ATCC 12228 Staphylococcus haemolyticus JCSC1435 Genus Agrobacterium Bacillus Staphylococcus Tabel 2 Data uji Spesies Agrobacterium radiobacter K84 chromosome 1 Agrobacterium tumefaciens str. C58 chromosome linear Agrobacterium vitis S4 chromosome 2 Bacillus thuringiensis str Al Hakam Bacillus subtilis subsp. Subtilis str 16B Bacillus pumilus SAFR-032 Staphylococcus carnosus Staphylococcus saprophyticus subsp. saprophyticus ATCC 1530 S Staphylococcus Lugdunensis HKU09-01 Genus Agrobacterium Bacillus Staphylococcus 8 Praproses Data Pada tahap praproses data, sequences DNA metagenome yang sudah dipilih akan diuraikan fragmennya menggunakan perangkat lunak MetaSim. Data yang akan diproses akan dibaca berkali-kali sesuai dengan kebutuhan penelitian. Pada penelitian ini, data yang dipersiapkan dibaca sebanyak 10 000 kali untuk keperluan data latih pada data set kecil. Hal ini berarti ada 10 000 baris fragmen mikroorganisme. Panjang fragmen yang digunakan adalah 500 base pair (bp), 1 kbp, 5 kbp, dan 10 kbp. Maksud dari panjang fragmen 1 bp dapat diwakili oleh adenine (A), cytosine (C), guanine (G) atau thymine (T). Data uji pada data set kecil akan dibaca sebanyak 5 000 kali. Untuk data uji, fragmen yang digunakan adalah fragmen dengan panjang 500 bp. Keluaran dari pengolahan MetaSim ini adalah fail FastA yang berisi sequence DNA yang sudah terfragmen sesuai dengan kriteria parameter yang diinginkan. Berikut screen shoot hasil keluaran fail FastA untuk data set kecil dengan pembacaan panjang 500 bp yang dapat dilihat pada Gambar 5. Gambar 5 Screenshoot fail FastA untuk data set kecil dengan panjang 500 bp 9 Ekstraksi Ciri Tahap selanjutnya dari praproses data adalah ekstraksi ciri. Ekstraksi ciri dilakukan dengan membaca frekuensi dari kombinasi nukleotida yang mungkin terbentuk dengan menggunakan k-mers untuk k = 3. Pola kemunculan k adalah pola yang menampilkan k pada suatu waktu dalam suatu sequences. Pola kemunculan dalam sequences dihitung menggunakan empat basa utama (A, C, G, dan T) dipangkat dengan rangkaian pasangan basa yang ingin digunakan (pola kemunculan : , dengan ). Pada penelitian ini k = 3 berarti akan ada pola kemunculan yang terbentuk. Ilustrasi perhitungan frekuensi pola kemunculan dengan ekstraksi ciri k-mers dapat dilihat pada Gambar 6 dan Tabel 3. Gambar 6 Ekstraksi ciri k-mers Tabel 3 Ilustrasi hasil perhitungan frekuensi k-mers pada data 3 genus dengan 10000 pembacaan K-mers yang digunakan adalah k = 3 maka ada 43 = 64 pola kemunculan yang terbentuk. Pola kemunculan tersebut direpresentasikan oleh jumlah atribut pada data yaitu X1, X2, …, X64. Jumlah pembacaan yang digunakan pada data latih yaitu 10 000 pembacaan yang direpresentasikan oleh jumlah baris fragmen metagenome pada data. Adapun untuk atribut kelas terdiri atas 3 genus yang berbeda. 10 Selain menggunakan ekstraksi ciri k-mers, digunakan juga spaced k-mers frequency yang memperhitungkan kondisi d ’ ca dengan nilai w = 3 dan d = 0,1,2. Gambar 8 mendeskripsikan penggunaan spaced k-mers untuk k = 3 di mana w = weight of pattern adalah banyaknya posisi yang cocok (1’s) adapun d = jumlah dari posisi d ’ ca (*). Spaced k-mers adalah substring dengan panjang k. Variasi tersebut terdiri atas satu dan dua d ’ ca yang lokasinya antara matching positions dari satu dan dua variasi kombinasi k-mer. Analisis dari k-mers digunakan untuk menemukan frekuensi dari semua k-mer. Pola kemunculan k adalah pola yang menampilkan k dan variasi kondisi d ’ ca pada suatu waktu dalam suatu rangkaian DNA. Mengacu pada penelitian Kusuma (2012), pola terbaik yang menghasilkan akurasi tinggi dari hasil pencarian lengkap adalah dengan pola w = 3 dan d = 0, 1, 2. Ilustrasi perhitungan frekuensi pola kemunculan dengan ekstraksi ciri spaced k-mers dapat dilihat pada Gambar 7 Gambar 7 Spaced k-mers (Kusuma, 2012) Metode ini akan memeriksa frekuensi nukleotida dari fragmen DNA mulai dari AAA – CCC, A*AA - C*CC, dan A**AA - C**CC. Pengertian dari simbol * (d ’ ca ) pada fragmen DNA yang diperiksa adalah dapat merupakan basa apapun, baik A, T, G, maupun C. Adapun untuk simbol **, berarti diperbolehkan basa manapun mengisi 2 bit tersebut. Sehingga kondisi itu dapat diisi oleh 24 pasang basa mulai dari AA, AC, AT, AG, dan seterusnya hingga CC. Reduksi Data dengan PCA Teknik reduksi dimensi data yang digunakan pada penelitian ini adalah Principal Component Analysis (PCA). PCA adalah teknik yang digunakan untuk menyederhanakan suatu data dengan cara mentransformasi linier sehingga terbentuk sistem koordinat baru dengan varian maksimum. Analisis komponen utama merupakan teknik statistik yang dapat digunakan untuk menjelaskan struktur variansi-kovariansi dari sekumpulan variabel melalui variabel baru dimana variabel baru ini saling bebas, dan merupakan kombinasi linier dari variabel asal (Johnson dan Wichern, 2002). Selanjutnya variabel baru ini dinamakan komponen utama. Salah satu tujuan dari analisis komponen utama adalah mereduksi dimensi data asal yang semula terdapat p variabel bebas menjadi q komponen utama (dimana q < p). Adapun kriteria pemilihan q menurut Johnson (2002) yaitu proporsi kumulatif keragaman data asal yang dijelaskan oleh q komponen utama minimal 80 %, dan proporsi total variansi populasi bernilai cukup besar. Proses PCA didapatkan dengan cara menentukan eigenvalue dari matriks kovariannya. Pada penelitian ini perlu dijelaskan bahwa fungsi princomp adalah statistics toolbox MATLAB yang melakukan analisis komponen utama pada matriks data X dan menghasilkan suatu matriks yang dinamakan COEFF, SCORE, 11 dan LATENT . Matriks COEFF adalah matriks p-by-p yang berisi eigen vector, masing-masing kolom berisi koefisien untuk satu komponen utama. Matriks SCORE adalah data yang dibentuk dengan mengubah data asli ke dalam ruang dari komponen utama yang sudah dikalikan dengan COEFF. LATENT adalah eigenvalue yang nilai-nilainya telah diurutkan secara menurun. Perhitungan eigen vector hanya dilakukan pada data latih. Adapun untuk data uji baru hanya dikalikan dengan koefesien komponen utama dari data latih. K -Fold Cross Validation Pelatihan data set dilakukan dengan menggunakan k-fold cross validation. K-fold cross-validation digunakan untuk membagi data menjadi data latih dan data uji. Pada penelitian ini k yang digunakan adalah 5. Data akan dibagi menjadi 5 bagian berukuran sama dimana 4 bagian akan menjadi data latih, dan 1 bagian sisanya akan digunakan untuk validasi. Data yang digunakan pada 5-fold cross-validation ini adalah data latih dengan jumlah 10 000. Hal ini berarti dari 10000 fragmen tersebut, 8000 fragmen digunakan sebagai data latih dan 2000 fragmen sebagai data uji. Naïve Bayes Classifier (NBC) NBC berfungsi untuk menghitung peluang dari suatu kelas dalam masingmasing kelompok atribut yang ada dan menentukan kelas mana yang paling optimal. Proses klasifikasi data dengan NBC diilustrasikan pada Gambar 8. Gambar 8 Proses klasifikasi fragmen metagenome menggunakan NBC 12 NBC didasarkan pada penerapan teorema Bayes dengan asumsi bahwa setiap ciri dalam klasifikasi adalah independen satu sama lain. Dalam kasus ini, ciri ini terdiri atas DNA words (spaced k-mers). Jika w = [w1, w2, w3,. . . w192] T merupakan vektor ciri yang terdiri atas satu set kata-kata (atau spaced k-mer) dalam panjang L- fragmen, untuk label w di salah satu kelas genom m, C1, C2, C3 maka probabilitas posterior dari kelas tertentu (Ci) yang terkait dengan vektor ciri, w, adalah P (Ci | w). C = argmax P (Ci | w) Ekspresi ini menjamin kesalahan minimum di seluruh ruang yang direntang oleh ciri k di W. Peluang posterior, P (Ci | w), dapat dihitung dengan menggunakan aturan Bayes: ( | ( | NBC mengasumsikan kondisi independen antara spaced k-mer ciri dan menghitung peluang bersyarat dari kelas sebagai produk K individual probabilitas. Peluang bersyarat individu, P (Wj | Ci), dapat diestimasi dari data latih, yaitu jika atribut dari data adalah hasil pembagian jumlah setiap fragmen k-mer dalam genom, fn (Wj | Ci) dengan jumlah total spaced k-mer dalam genom tersebut, P (Wj | Ci) = fn (Wj | Ci) / (| Ci |) untuk | Ci | adalah panjang Ci. (Rosen, 2008). Akan tetapi, jika nilai atribut dari data adalah continuous-valued atau data numerik, maka diasumsikan mempunyai distribusi Gaussian. Jadi, dalam kasus ini berlaku: ( | ) g( , , ) 1 ( i) ci √ untuk adalah mean dan standard deviasi yang dihitung dari semua nilai (frekuensi) dari masing-masing atribut (dalam hal ini adalah spaced K-mer) dari semua sampel dalam kelas yang sama (Han & Kamber, 2001). Untuk mengklasifikasikan suatu sample , ( | ) ( i) dievaluasi diklasifikasikan ke dalam kelas jika dan hanya untuk tiap kelas . Sample jika: ( | ( ) > ( | ) ( ) ; untuk i ≤ ≤ m Model Pada proses pelatihan NBC sebelumnya, model yang berupa bagian dari data latih dengan akurasi tinggi akan divalidasi dengan data uji menggunakan NBC. 13 Pengujian NBC Pengujian akan mengklasifikasikan data uji sebanyak 9 mikroorganisme ke dalam kelas dalam genusnya masing-masing. Setiap mikroorganisme akan dikelaskan dan hasil pengkelasan tersebut akan dihitung berapa persen mikroorganisme yang telah dikelaskan dengan benar. Analisis Dari hasil pelatihan dan pengujian NBC akan didapatkan hasil untuk kinerja pengujian NBC dalam klasifikasi fragmen metagenome ini. Matriks konvolusi akan merepresentasikan hasil klasifikasi jumlah fragmen dari tiap kelas. Akurasi untuk hasil klasifikasi dapat dicari dengan: Akurasi = ∑ data u i b na ∑ data u i 1 HASIL DAN PEMBAHASAN Praproses Data Sequences DNA metagenome yang sudah dipilih akan diuraikan fragmennya menggunakan perangkat lunak MetaSim. Data yang diproses akan dibaca berkali-kali sesuai dengan kebutuhan penelitian. Pada data set kecil, data yang dipersiapkan akan dibaca sebanyak 10 000 kali untuk keperluan data latih sehingga jumlah pembacaan untuk masing-masing organisme ini adalah 1 000 kali pembacaan. Panjang fragmen yang digunakan adalah 500 bp, 1 kbp, 5 kbp, dan 10 kbp. Data uji pada data set kecil akan dibaca sebanyak 5 000 kali. Untuk data uji, fragmen yang digunakan adalah fragmen dengan panjang 500 bp. Keluaran dari pengolahan MetaSim ini adalah fail FASTA yang berisi sequences DNA yang sudah terfragmen sesuai dengan kriteria parameter yang diinginkan. Berikut screenshoot sequences DNA yang dapat dilihat pada Gambar 9. Gambar 9 Sequence DNA Bacillus amyloliquefaciens FZB42 pada pembacaan 1 untuk panjang fragmen 1000 bp 14 Ekstraksi Ciri Ekstraksi Ciri pada penelitian ini adalah dengan melakukan pembacaan frekuensi nukleotida dengan k-mer dan spaced k-mer pada sequences DNA yang telah di-generate menggunakan MetaSim. K-mer akan menampilkan pola kemunculan k pada suatu waktu dalam suatu sequences. Contoh, jika hendak menghitung trinukleotida, dihitung empat base utama (A, T, G, C) dipangkat dengan jumlah k. Hasilnya, untuk trinukleotida adalah 43 = 64 base pair (bp). Pada penelitian ini k-mers yang digunakan adalah k = 3 maka ada 43 = 64 pola kemunculan yang terbentuk. Pola kemunculan tersebut direpresentasikan oleh jumlah atribut pada data yaitu X1, X2, …, X64. Jumlah pembacaan yang digunakan pada data latih yaitu 10 000 pembacaan mewakili jumlah baris fragmen metagenome pada data, serta 5000 pembacaan pada data uji baru. Adapun untuk atribut kelas terdiri atas 3 genus yang berbeda. Perhitungan frekuensi k-mers pada sequences DNA diilustrasikan pada Gambar 10. Gambar 10 K-Mers Selain menggunakan frekuensi k-mer, digunakan spaced k-mer yang memperhitungkan kondisi d ’ ca . Spaced k-mer dikemukakan oleh Kusuma dan , dengan (2012) yang mencari akurasi terbaik dari adalah weight of pattern yang merepresentasikan banyaknya posisi yang sesuai atau matching positions (nilai 1) adapun adalah posisi dari kondisi d ’ ca (*). Dari hasil percobaan, didapatkan hasil akurasi terbaik adalah pada pola 111 1*11 1**11. Metode ini akan memeriksa frekuensi nukleotida dari fragmen DNA mulai dari AAA - CCC, A*AA - C*CC, dan A**AA - C**CC. Pengertian dari simbol * (d ’ ca ) pada fragmen DNA yang diperiksa adalah dapat merupakan basa apapun, baik A, T, G, maupun C. Adapun untuk symbol **, berarti diperbolehkan basa manapun mengisi 2 bit tersebut. Sehingga kondisi itu dapat diisi oleh 24 pasang basa mulai dari AA, AC, AT, AG, dan seterusnya. Oleh karena itu, banyaknya pola kemunculan yang terbentuk pada perhitungan frekuensi spaced k-mers adalah sebanyak 192 pola kemunculan. Pola kemunculan tersebut mewakili jumlah atribut pada data yaitu X1, X2, …, X192. Jumlah pembacaan yang digunakan pada data latih yaitu 10 000 pembacaan mewakili jumlah baris fragmen metagenome pada data, serta 5000 pembacaan pada data uji baru. Adapun untuk atribut kelas terdiri atas 3 genus yang berbeda. Perhitungan frekuensi spaced k-mers pada sequences DNA diilustrasikan pada Gambar 11. 15 Gambar 11 Jumlah kombinasi pada spaced k-mers k = 3 Hasil dari ekstraksi ciri tersebut adalah vektor masukkan yang besarnya dimensi data set D adalah , dengan baris m adalah jumlah pembacaan data yang di generate dan kolom n adalah jumlah kombinasi dari k yang digunakan. Jadi jumlah kombinasi yang terbentuk pada k-mers untuk k = 3 (trinukleotida) adalah 43 = 64 kombinasi sedangkan pada spaced k-mers untuk k = 3 adalah 192 kombinasi. Hasil perhitungan frekuensi oligonukleotida yang berupa array m x n akan digunakan dalam proses klasifikasi. Hasil perhitungan frekuensi spaced kmers pada sequences DNA diilustrasikan pada Tabel 4. Tabel 4 Hasil perhitungan frekuensi spaced k-mers dengan 10 000 pembacaan 16 Reduksi Data dengan PCA Analisis komponen utama bertujuan untuk mereduksi dimensi data asal yang semula terdapat p variabel bebas menjadi q komponen utama (dimana q < p). Penggunaan metode ekstraksi ciri spaced k-mers dengan pola w = 3 dan d = 0, 1, 2 menghasilkan array m jumlah pembacaan data x 192 kombinasi. Di samping itu, ekstraksi ciri K-mers trinukleotida menghasilkan array m jumlah pembacaan data x 64 kombinasi. Dimensi data tersebut perlu direduksi tanpa adanya pengurangan karakteristik data secara signifikan sehingga lebih mudah untuk menginterpretasikannya. Pada penelitian ini proporsi kumulatif keragaman data asal yang dipilih adalah sebesar 97%. Pemilihan tersebut berdasarkan teknik mencoba-coba setelah mencoba proporsi yang lain yakni 95% hingga 99%. K -fold cross validation Setelah mereduksi data menggunakan PCA dengan threshold 0.97, data set akan dilatih dengan menggunakan k-fold cross validation yang digunakan untuk membagi data menjadi data latih dan data uji. Pada penelitian ini k yang digunakan adalah 5. Data akan dibagi menjadi 5 bagian di mana 4 bagian akan menjadi data latih, dan 1 bagian sisanya akan digunakan untuk validasi. Pada data set kecil, dari 10 000 fragemen tersebut, 8000 fragmen sebagai data latih dan 2000 fragmen menjadi data uji untuk validasi. Naïve Bayes Classifier (NBC) Jika nilai atribut dari data adalah continuous-valued atau data numerik, maka diasumsikan mempunyai distribusi Gaussian. Dalam kasus ini berlaku: ( | i ) g( i i) ( 1 √ i) ci i dimana adalah mean dan standard deviasi yang dihitung dari semua nilai (frekuensi) dari masing-masing atribut (dalam hal ini adalah spaced k-mer) dari semua sampel dalam kelas yang sama (Han dan Kamber, 2001). Masingmasing atribut dari seluruh fragmen yang berasal dari kelas yang sama ( dalam penelitian ini genus sebagai kelas) dihitung mean dan standar deviasinya. Mean dan standar deviasi dari masing-masing atribut seluruh fragmen yang berasal dari kelas yang sama akan digunakan untuk menghitung peluang dalam Gaussian (normal) density function. Perhitungan mean dan standard deviasi pada data diilustrasikan pada Gambar 12. Untuk mengklasifikasikan suatu sample , ( | i ) ( i) dievaluasi untuk tiap kelas i . Sample diklasifikasikan ke dalam kelas i jika dan hanya jika: ( | > ( | ; untuk i ≤ ≤ m. 17 Gambar 12 Contoh perhitungan NBC untuk atribut numerik dengan Gaussian (normal) density function Model Pada proses pelatihan NBC sebelumnya, model yang berupa bagian dari data latih dengan akurasi tinggi akan divalidasi dengan data uji baru yang masih belum digunakan pada data latih menggunakan NBC. Pengujian NBC dan Analisis Pada data set kecil, data latih yang di-generate ada sebanyak 10 000 fragmen dengan rincian jumlah pembacaan untuk masing-masing organisme adalah 1 000 kali pembacaan sehingga informasi yang terdapat dalam data lebih banyak. Matriks konfusion akan merepresentasikan hasil klasifikasi untuk masing-masing kelas. Akurasi akan dihitung berdasarkan jumlah data uji yang benar diklasifikasikan ke dalam kelasnya dibagi dengan jumlah seluruh data uji kemudian dikalikan 100%. Sensitifity digunakan untuk menghitung akurasi dari tiap kelas. Sebagai contoh perhitungan, dari 528 fragmen yang seharusnya masuk kelas genus Agrobacterium, 523 fragmen berhasil dikelaskan ke dalam kelas genus Agrobacterium, sedangkan 5 fragmen dianggap masuk ke kelas genus Bacillus. Sensitifity untuk kelas Agrobacterium adalah 523 fragmen yang diklasifikasikan dengan benar dibagi dengan 528 fragmen yang seharusnya diklasifikasikan ke dalam kelas genus Agrobacterium kemudian dikalikan 100 %. Begitu juga sensitifity untuk kelas genus Bacillus dan Staphylococcus dihitung dengan cara yang sama. Sensitifity keseluruhan adalah dengan mencari rata-rata dari sensitifity seluruh kelas. Confusion matrix data latih pembacaan 10K panjang fragmen 10 K pada data set kecil dapat dilihat pada Gambar 13. Adapun akurasi dan sensitifity untuk data latih pada data set kecil selengkapanya dapat dilihat pada Gambar 14 dan Gambar 15. 18 Gambar 13 Confusion matrix untuk data latih untuk pembacaan 10K panjang fragmen 10 K pada data set kecil 500 BP 1000 BP 5 KBP 10 KBP panjang fragmen (bp) K-mers Trinukleotida spaced K-mers Kusuma&Akiyama (2011) Gambar 14 Akurasi data latih pada data set kecil 92% 98.65% 98.55% 91% 97.45% 85% 92.10% 91.60% 81% 88.60% 86.60% akurasi (%) 97.65% Gambar 13 menunjukkan bahwa jumlah data uji yang digunakan adalah 2000 fragmen. Hal ini dapat diketahui dengan menjumlahkan angka-angka yang tertera pada matriks tersebut. Pada baris pertama menunjukkan bahwa dari 528 fragmen pada kelas genus Agrobacterium, 523 fragmen benar diklasifikasikan ke dalam kelas genus Agrobacterium sedangkan 5 fragmen salah diklasifikasikan ke dalam kelas genus Bacillus. Pada baris kedua menunjukkan bahwa dari 1014 fragmen yang sebenarnya adalah kelas genus Bacillus, 1006 fragmen benar diklasifikasikan ke dalam kelas Bacillus sedangkan 8 fragmen salah diklasifikasikan ke dalam kelas genus Staphylococcus. Adapun pada baris ketiga menunjukkan bahwa dari 458 fragmen yang sebenarnya adalah kelas genus Staphylococcus, 444 fragmen benar diklasifikasikan ke dalam kelas genus Staphylococcus sedangkan 14 salah diklasifikasikan ke dalam kelas Bacillus. Akurasi yang dihasilkan adalah sebesar 98.65 %. 19 500 BP 1000 BP 5 KBP 92% 98.65% 98.55% 91% 97.65% 97.45% 85% 92.10% 91.60% 81% 88.60% 86.60% akurasi (%) 10 KBP panjang fragmen (bp) K-mers Trinukleotida spaced K-mers Kusuma&Akiyama (2011) Gambar 15 Sensitivity data latih pada data set kecil 75% 80.00% akurasi (%) 82.00% Data uji baru berupa 9 mikroorganisme yang termasuk dalam kelompok genus yang sama dengan data latih akan diuji untuk memvalidasi model yang telah dibuat. Data tersebut akan dibaca sebanyak 5 000 kali pembacaan dengan panjang fragmen 500 bp. Hasil akurasi dari klasifikasi tersebut pada spaced k-mers sebesar 82% untuk panjang fragmen 500 bp, sedangkan pada k-mers trinukleotida sebesar 80% untuk panjang fragmen 500 bp. Hasil klasifikasi tersebut selengkapnya dapat dilihat pada Gambar 16. 500 BP K-mers Trinukleotida spaced K-mers panjang fragmen (bp) Kusuma&Akiyama (2011) Gambar 16 Akurasi data uji baru data set kecil 20 Dari hasil tersebut, dapat diketahui bahwa metode ektraksi ciri spaced k-mers menghasilkan akurasi dan sensitifity yang lebih tinggi dibandingkan dengan ekstraksi ciri k-mers trinukleotida. Pereduksian data sebelum proses klasifikasi juga dapat memberikan hasil yang lebih baik karena hanya informasi yang penting saja yang digunakan. Selain itu dapat dilihat juga bahwa panjang fragmen mempengaruhi hasil klasifikasi. Semakin panjang fragmen yang digunakan, semakin banyak juga informasi dari organisme tersebut, maka hasil klasifikasi akan semakin baik. Untuk klasifikasi pada data latih, penelitian ini juga menghasilkan akurasi yang lebih tinggi jika dibandingkan dengan hasil penelitian Kusuma & Akiyama (2011). Hasil klasifikasi pada data uji organisme baru juga tidak terlampau jauh jika dibandingkan dengan penelitian Ananta & Akiyama (2011). Percobaan Dataset Besar Data set besar terdiri atas 381 organisme yang termasuk ke dalam 48 genus sebagai data latihnya. Data tersebut dibaca 9600 pembacaan sehingga banyaknya record pada data adalah 9600 fragmen dan panjang fragmen yang digunakan adalah 500 bp. Dengan menggunakan 5-fold cross validation maka dari 9600 fragmen, 7680 digunakan sebagai data latih dan 1920 fragmen digunakan sebagai data uji. Data tersebut diekstraksi menggunakan metode k-mers dan spaced kmers. Metode penelitian yang diterapkan pada data set besar sama dengan metode yang diterapkan pada data set 10 organisme. Hanya saja percobaan pada data set besar ini belum mempertimbangkan kondisi imbalanced data dimana jumlah fragmen yang mewakili masing – masing genus (sebagai kelas) tidak sama rata. Hal ini dilakukan untuk mengetahui pengaruh kondisi imbalanced data pada hasil klasifikasi. Hasil akurasi untuk dataset besar selengkapnya dapat dilihat pada Gambar 17. 66% 74% akurasi (%) 500 BP K-mers Trinukleotida panjang fragmen (bp) spaced K-mers Gambar 17 Akurasi hasil klasifikasi data set besar 21 SIMPULAN DAN SARAN Simpulan Berdasarkan hasil yang diperoleh dari penelitian yang telah dilakukan, dapat disimpulkan bahwa: 1. Metode klasifikasi dengan menggunakan NBC dan ekstraksi ciri spaced kmers maupun k-mers berhasil mengklasifikasikan fragmen metagenome berukuran pendek (500 bp) pada level genus. 2. Akurasi hasil klasifikasi menggunakan NBC dapat lebih ditingkatkan dengan menggunakan metode ekstraksi ciri spaced K-mers. Selain itu, metode ekstraksi ciri spaced K-mers dapat memberikan hasil pengklasifikasian dengan menggunakan NBC lebih baik dibandingkan dengan menggunakan metode ekstraksi ciri k-mers. 3. Hasil klasifikasi fragmen metagenome dengan menggunakan metode ekstraksi ciri spaced k-mers secara konsisten menunjukkan hasil yang lebih tinggi baik pada data set kecil maupun data set besar dibandingkan dengan menggunakan metode ekstraksi ciri k-mers. Saran Akurasi hasil klasifikasi dari data set besar mungkin masih dapat ditingkatkan dengan mempertimbangkan kondisi imbalanced data serta meningkatkan jumlah pembacaan sehingga akan semakin banyak informasi yang dapat meningkatkan hasil klasifikasi. DAFTAR PUSTAKA Amano K, Nakamura H, Ichikawa H. 2003. Self-organizing clustering: nonhierarchical method for clustering large amountof sequence DNAs. Genome Informatics. 14: 575-576 Amano K, Nakamura H, Ichikawa H, Numa H, Kobayashi KF, Nagamura Y, Onodera N. 2007. Self-organizing clustering: non-hierarchical clustering for large-scale sequence DNA data. IPSJ Digital Courier. 2(2):523-527. Brady A, Salzberg SL. 2009. Phymm and PhymmBL: Metagenomic phylogenetic classification with interpolated markov models. Nat Methods. 6(9):673– 676. doi : 10.1038/nmeth.1358 Chan CK, Hsu AL, Tang SL, Halgamuge SK. 2007. Using growing selforganizing maps to prove the binning process in environmental wholegenome shotgun equencing. Journal of Biomedicine and Biotechnology. 2008. doi:10.1155/2008/513701 Han J, Kamber M. 2001. Data Mining Concepts and Techniques. Cerra DD, Severson H, Breyer B, editor. San Diego (USA): Academic Pr. 22 Harayama S, Kasai Y, Hara A. 2004. Microbial Communities in Oil-contaminated Seawater. Current Opinion in Biotechnology. 15:205-214. Hsu AL, Halgamuge SK. 2002. Enhancement of topology preseration and hierarchical dynamic self-organising maps for data visualisation. International Journal of Approximate Reasoning. 32(2003):259-279. Johnson RA, Wichern DW. 2002. Applied Multivariate Statistical Analysis, 5th End. New Jersey: Prentice Hall. Kusuma WA, Akiyama Y. 2011. Metagenome fragment binning based on characterization vectors. Di dalam: Proceeding International Conferences on Bioinformatics and Biomedical Technology; 2011; Sanya, China. Kusuma WA. 2012. Combined approaches for improving the performance of de novo dna sequence assembly and metagenomic classification of short fragments from next generation sequencer [disertasi]. Tokyo (JP): Tokyo Institute of Technology. Manning CD, Raghavan P, Schutze H. 2009. An Introduction to Information Retrieval. Cambridge(UK): Cambridge University Pr. McHardy AC, Martin HG, Tsirigos A, Hugenholtz P, Rigoutsos I. 2007. Accurate phylogenetic classification of variable-lenght dna fragments. Nat Methods. 4(1):63-72 Rosen G, Garbarine E, Caseiro D, Polikar R, Sokhansanj. 2008. Metagenome fragment classification using n-mer frequency profiles. Advances in Bioinformatics. doi:10.1155/2008/205969. Teeling H, Waldmann J, Lombardot T, Bauer M, Glockner FO. 2004. TETRA : a web service and stand-alone program for the analysis and comparison of tetranucleotide usage pattern in sequence DNAs. BMC Informatics. 5(163). doi:10.1186/1471-2105-5-163. Thontowi A. 2009. Pendekatan metagenomik dan bioinformatika untuk menganalisis komunitas mikroba laut Indonesia. SIGMA. 12(1):15-22. RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 08 Desember 1990. Penulis merupakan anak kedua dari 4 bersaudara pasangan Bapak Djaelani dan Ibu Alfianti. Pada tahun 2009 penulis lulus dari SMA Negeri 6 Bogor. Pada bulan Juli 2009 penulis resmi menjadi mahasiswa Institut Pertanian Bogor melalui jalur PMDK. Setelah menyelesaikan Tingkat I (Tingkat Persiapan Bersama) di IPB pada tahun 2010, penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Selama menjadi mahasiswa di Institut Pertanian Bogor penulis juga aktif mengikuti kompetisi-kompetisi antara lain Alpha Innovation di Universitas Bina Nusantara dan program kreativitas mahasiswa yang diselenggarakan oleh DIKTI. Pada tahun 2012 penulis pernah menjalankan praktik lapangan di Badan Pemeriksa Keuangan Republik Indonesia (BPK-RI) selama kurang lebih 2 bulan. 23 24 LAMPIRAN Lampiran 1 Daftar 381 organisme yang termasuk ke dalam 48 genus Spesies Genus Jumlah Fragmen Bacillus 587 Bacillus amyloliquefaciens FZB42' Bacillus anthracis str. 'Ames Ancestor'' Bacillus anthracis str. Ames chromosome' Bacillus anthracis str. Sterne chromosome' Bacillus cereus ATCC 10987 chromosome' Bacillus cereus ATCC 14579' Bacillus cereus E33L' Bacillus cereus subsp. cytotoxis NVH 391-98' Bacillus clausii KSM-K16' Bacillus halodurans C-125 chromosome' Bacillus licheniformis ATCC 14580' Bacillus subtilis subsp. subtilis str. 168 chromosome' Bacillus thuringiensis serovar konkukian str. 97-27 chromosome' Bacillus thuringiensis str. Al Hakam chromosome' Bacillus weihenstephanensis KBAB4' Bacteroides fragilis NCTC 9343 chromosome' Bacteroides fragilis YCH46 chromosome' Bacteroides thetaiotaomicron VPI-5482 chromosome' Bacteroides vulgatus ATCC 8482 chromosome' Bacteroides 178 Bartonella 76 Bordetella 187 Bartonella bacilliformis KC583' Bartonella henselae str. Houston-1' Bartonella quintana str. Toulouse' Bartonella tribocorum CIP 105476' Bordetella avium 197N chromosome' Bordetella bronchiseptica RB50' Bordetella parapertussis 12822' Bordetella pertussis Tohama I' Bordetella petrii DSM 12804' Borrelia afzelii PKo' Borrelia duttonii Ly' Borrelia garinii PBi chromosome chromosome linear' Borrelia hermsii DAH chromosome' Borrelia recurrentis A1' Borrelia turicatae 91E135 chromosome' Borrelia 43 Bradyrhizobium japonicum USDA 110 chromosome' Bradyrhizobium sp. BTAi1 chromosome' Bradyrhizobium sp. ORS278 chromosome' Brucella abortus S19 chromosome 1' Brucella abortus bv. 1 str. 9-941 chromosome chromosome I' Bradyrhizobium 188 25 Brucella canis ATCC 23365 chromosome I' Brucella melitensis biovar Abortus 2308 chromosome I Brucella melitensis bv. 1 str. 16M chromosome chromosome I' Brucella ovis ATCC 25840 chromosome chromosome I' Brucella suis 1330 chromosome chromosome I' Brucella suis ATCC 23445 chromosome I' Brucella 139 Burkholderia ambifaria AMMD chromosome chromosome 1' Burkholderia ambifaria MC40-6 chromosome chromosome 1' Burkholderia cenocepacia AU 1054 chromosome 3' Burkholderia cenocepacia HI2424 chromosome chromosome 1' Burkholderia cenocepacia J2315 chromosome chromosome 1' Burkholderia cenocepacia MC0-3 chromosome chromosome 1' Burkholderia mallei ATCC 23344 chromosome chromosome 1' Burkholderia mallei NCTC 10229 chromosome I' Burkholderia mallei NCTC 10247 chromosome I' Burkholderia mallei SAVP1 chromosome I' Burkholderia multivorans ATCC 17616 chromosome chromosome 1' Burkholderia phymatum STM815 chromosome chromosome 1' Burkholderia phytofirmans PsJN chromosome chromosome 1' Burkholderia pseudomallei 1106a chromosome I' Burkholderia pseudomallei 1710b chromosome chromosome I' Burkholderia pseudomallei 668 chromosome I' Burkholderia pseudomallei K96243 chromosome chromosome 1' Burkholderia sp. 383 chromosome 1' Burkholderia sp. 383 chromosome chromosome 2' Burkholderia thailandensis E264 chromosome chromosome I' Burkholderia vietnamiensis G4 chromosome chromosome 1' Burkholderia xenovorans LB400 chromosome 1' Burkholderia 612 Campylobacter concisus 13826' Campylobacter curvus 525.92 chromosome' Campylobacter fetus subsp. fetus 82-40' Campylobacter hominis ATCC BAA-381' Campylobacter jejuni RM1221' Campylobacter jejuni subsp. doylei 269.97' Campylobacter jejuni subsp. jejuni NCTC 11168 chromosome' Campylobacter 94 Candidatus 17 Candidatus Phytoplasma australiense' Candidatus Phytoplasma mali' Onion yellows phytoplasma OY-M' Chlamydophila abortus S26/3' Chlamydophila caviae GPIC' Chlamydophila felis Fe/C-56' Chlamydophila pneumoniae AR39' Chlamydophila pneumoniae CWL029' Chlamydophila pneumoniae J138' 26 Chlamydophila pneumoniae TW-183' Chlamydophila 74 Chlorobium chlorochromatii CaD3 chromosome' Chlorobium limicola DSM 245 chromosome' Chlorobium luteolum DSM 273 chromosome' Chlorobium phaeobacteroides BS1 chromosome' Chlorobium phaeobacteroides DSM 266 chromosome' Chlorobium phaeovibrioides DSM 265 chromosome' Chlorobium tepidum TLS' Chlorobium 164 Clostridium 511 Corynebacterium 137 Clostridium acetobutylicum ATCC 824' Clostridium beijerinckii NCIMB 8052 chromosome' Clostridium botulinum A str. ATCC 19397' Clostridium botulinum A str. ATCC 3502' Clostridium botulinum A str. Hall' Clostridium botulinum A3 str. Loch Maree' Clostridium botulinum B str. Eklund 17B' Clostridium botulinum B1 str. Okra' Clostridium botulinum E3 str. Alaska E43' Clostridium botulinum F str. Langeland' Clostridium difficile 630 chromosome' Clostridium kluyveri DSM 555' Clostridium novyi NT' Clostridium perfringens ATCC 13124' Clostridium perfringens str. 13' Clostridium phytofermentans ISDg' Clostridium tetani E88 chromosome' Clostridium thermocellum ATCC 27405 chromosome' Corynebacterium diphtheriae NCTC 13129 chromosome' Corynebacterium efficiens YS-314' Corynebacterium glutamicum ATCC 13032' Corynebacterium glutamicum R chromosome' Corynebacterium jeikeium K411' Corynebacterium urealyticum DSM 7109' Cupriavidus metallidurans CH34 chromosome' Cupriavidus necator N-1 chromosome chromosome 1' Cupriavidus taiwanensis LMG 19424 chromosome 1' Cupriavidus 81 Dehalococcoides 36 Ehrlichia 35 Dehalococcoides ethenogenes 195' Dehalococcoides sp. BAV1' Dehalococcoides sp. CBDB1 chromosome' Ehrlichia canis str. Jake' Ehrlichia chaffeensis str. Arkansas' Ehrlichia ruminantium str. Gardel' Ehrlichia ruminantium str. Welgevonden' Francisella philomiragia subsp. philomiragia ATCC 25017 chromosome' Francisella tularensis subsp. holarctica FTNF002-00 chromosome' 27 Francisella tularensis subsp. holarctica LVS chromosome' Francisella tularensis subsp. holarctica OSU18' Francisella tularensis subsp. mediasiatica FSC147' Francisella tularensis subsp. novicida U112' Francisella tularensis subsp. tularensis FSC198' Francisella tularensis subsp. tularensis SCHU S4' Francisella tularensis subsp. tularensis WY96-3418' Francisella 117 Frankia 183 Geobacter 171 Haemophilus 116 Helicobacter 102 Frankia alni ACN14a chromosome' Frankia sp. CcI3 chromosome' Frankia sp. EAN1pec chromosome' Geobacter bemidjiensis Bem chromosome' Geobacter lovleyi SZ chromosome' Geobacter metallireducens GS-15 chromosome' Geobacter sulfurreducens PCA chromosome' Geobacter uraniireducens Rf4 chromosome' Haemophilus ducreyi 35000HP' Haemophilus influenzae 86-028NP chromosome' Haemophilus influenzae PittEE chromosome' Haemophilus influenzae PittGG chromosome' Haemophilus influenzae Rd KW20 chromosome' Haemophilus somnus 129PT chromosome' Haemophilus somnus 2336 chromosome' Helicobacter acinonychis str. Sheeba chromosome' Helicobacter hepaticus ATCC 51449 chromosome' Helicobacter pylori 26695' Helicobacter pylori G27 chromosome' Helicobacter pylori HPAG1 chromosome' Helicobacter pylori J99' Helicobacter pylori P12 chromosome' Helicobacter pylori Shi470 chromosome' Lactobacillus acidophilus NCFM chromosome' Lactobacillus brevis ATCC 367' Lactobacillus casei ATCC 334' Lactobacillus casei BL23 chromosome' Lactobacillus delbrueckii subsp. bulgaricus ATCC 11842' Lactobacillus delbrueckii subsp. bulgaricus ATCC BAA-365 chromosome' Lactobacillus fermentum IFO 3956' Lactobacillus gasseri ATCC 33323' Lactobacillus helveticus DPC 4571' Lactobacillus johnsonii NCC 533' Lactobacillus plantarum WCFS1' Lactobacillus reuteri DSM 20016 chromosome' Lactobacillus reuteri JCM 1112' Lactobacillus sakei subsp. sakei 23K' 28 Lactobacillus salivarius UCC118' Lactobacillus 250 Leptospira biflexa serovar Patoc strain 'Patoc 1 (Ames)' chromosome chromosome I' Leptospira biflexa serovar Patoc strain 'Patoc 1 (Paris)' chromosome chromosome I' Leptospira borgpetersenii serovar Hardjo-bovis L550 chromosome 1' Leptospira interrogans serovar Copenhageni str. Fiocruz L1-130 chromosome chromosome I' Leptospira interrogans serovar Lai str. 56601 chromosome chromosome I' Listeria innocua Clip11262' Leptospira 161 Listeria monocytogenes EGD-e' Listeria monocytogenes serotype 4b str. F2365 chromosome' Listeria welshimeri serovar 6b str. SLCC5334' Listeria 78 Methanococcus 51 Methanosarcina 100 Methylobacterium 196 Methanococcus maripaludis C5 chromosome' Methanococcus maripaludis C6 chromosome' Methanococcus maripaludis C7 chromosome' Methanococcus maripaludis S2 chromosome' Methanosarcina acetivorans C2A chromosome' Methanosarcina barkeri str. Fusaro chromosome' Methanosarcina mazei Go1 chromosome' Methylobacterium extorquens PA1 chromosome' Methylobacterium populi BJ001 chromosome' Methylobacterium radiotolerans JCM 2831 chromosome' Methylobacterium sp. 4-46 chromosome' Mycobacterium abscessus ATCC 19977 chromosome chromosome 1' Mycobacterium avium 104' Mycobacterium avium subsp. paratuberculosis K-10' Mycobacterium bovis AF2122/97' Mycobacterium bovis BCG str. Pasteur 1173P2' Mycobacterium gilvum PYR-GCK chromosome' Mycobacterium leprae TN chromosome' Mycobacterium marinum M' Mycobacterium smegmatis str. MC2 155' Mycobacterium sp. JLS chromosome' Mycobacterium sp. KMS chromosome' Mycobacterium sp. MCS chromosome' Mycobacterium tuberculosis CDC1551' Mycobacterium tuberculosis F11' Mycobacterium tuberculosis H37Ra' Mycobacterium tuberculosis H37Rv' Mycobacterium ulcerans Agy99' Mycobacterium vanbaalenii PYR-1 chromosome' Mycoplasma agalactiae PG2' Mycoplasma arthritidis 158L3-1' Mycoplasma capricolum subsp. capricolum ATCC 27343' Mycoplasma gallisepticum str. R(low) chromosome' Mycoplasma genitalium G37' Mycobacterium 723 29 Mycoplasma hyopneumoniae 232' Mycoplasma hyopneumoniae 7448 chromosome' Mycoplasma hyopneumoniae J chromosome' Mycoplasma mobile 163K' Mycoplasma mycoides subsp. mycoides SC str. PG1 chromosome' Mycoplasma penetrans HF-2' Mycoplasma pneumoniae M129' Mycoplasma pulmonis UAB CTIP' Mycoplasma synoviae 53' Mycoplasma 112 Pseudomonas 600 Psychrobacter 71 Pyrobaculum 52 Pyrococcus 40 Pseudomonas aeruginosa PA7' Pseudomonas aeruginosa PAO1 chromosome' Pseudomonas aeruginosa UCBPP-PA14' Pseudomonas fluorescens Pf-5 chromosome' Pseudomonas fluorescens Pf0-1 chromosome' Pseudomonas putida F1 chromosome' Pseudomonas putida GB-1 chromosome' Pseudomonas putida KT2440 chromosome' Pseudomonas putida W619 chromosome' Pseudomonas syringae pv. phaseolicola 1448A chromosome' Pseudomonas syringae pv. syringae B728a' Pseudomonas syringae pv. tomato str. DC3000 chromosome' Pseudomonas syringae pv. tomato str. DC3000 plasmid pDC3000A' Psychrobacter arcticus 273-4' Psychrobacter cryohalolentis K5 chromosome' Psychrobacter sp. PRwf-1 chromosome' Pyrobaculum aerophilum str. IM2 chromosome' Pyrobaculum arsenaticum DSM 13514' Pyrobaculum calidifontis JCM 11548 chromosome' Pyrobaculum islandicum DSM 4184 chromosome' Pyrococcus abyssi GE5 chromosome' Pyrococcus furiosus DSM 3638' Pyrococcus horikoshii OT3 chromosome' Rickettsia akari str. Hartford' Rickettsia bellii OSU 85-389' Rickettsia bellii RML369-C' Rickettsia canadensis str. McKiel' Rickettsia conorii str. Malish 7' Rickettsia felis URRWXCal2' Rickettsia massiliae MTU5' Rickettsia prowazekii str. Madrid E chromosome' Rickettsia rickettsii str. 'Sheila Smith'' Rickettsia rickettsii str. Iowa chromosome' Rickettsia typhi str. Wilmington' Rickettsia 116 30 Shewanella amazonensis SB2B chromosome' Shewanella baltica OS195 chromosome' Shewanella denitrificans OS217' Shewanella frigidimarina NCIMB 400' Shewanella halifaxensis HAW-EB4 chromosome' Shewanella loihica PV-4' Shewanella oneidensis MR-1' Shewanella pealeana ATCC 700345 chromosome' Shewanella putrefaciens CN-32 chromosome' Shewanella sediminis HAW-EB3' Shewanella sp. ANA-3 chromosome chromosome 1' Shewanella sp. MR-4 chromosome' Shewanella sp. MR-7 chromosome' Shewanella sp. W3-18-1 chromosome' Shewanella woodyi ATCC 51908 chromosome' Shewanella 574 Shigella 248 Shigella boydii CDC 3083-94 chromosome' Shigella boydii Sb227' Shigella dysenteriae Sd197' Shigella flexneri 2a str. 2457T' Shigella flexneri 2a str. 301 chromosome' Shigella flexneri 5 str. 8401 chromosome' Shigella sonnei Ss046 chromosome' Staphylococcus aureus RF122' Staphylococcus aureus subsp. aureus COL chromosome' Staphylococcus aureus subsp. aureus JH1' Staphylococcus aureus subsp. aureus JH9' Staphylococcus aureus subsp. aureus MRSA252 chromosome' Staphylococcus aureus subsp. aureus MSSA476 chromosome' Staphylococcus aureus subsp. aureus MW2' Staphylococcus aureus subsp. aureus Mu3' Staphylococcus aureus subsp. aureus Mu50' Staphylococcus aureus subsp. aureus N315' Staphylococcus aureus subsp. aureus NCTC 8325 chromosome' Staphylococcus aureus subsp. aureus USA300_FPR3757 chromosome' Staphylococcus aureus subsp. aureus USA300_TCH1516 chromosome' Staphylococcus aureus subsp. aureus str. Newman chromosome' Staphylococcus epidermidis ATCC 12228 chromosome' Staphylococcus epidermidis RP62A' Staphylococcus haemolyticus JCSC1435 chromosome' Staphylococcus saprophyticus subsp. saprophyticus ATCC 15305' Streptococcus agalactiae 2603V/R' Streptococcus agalactiae A909' Streptococcus agalactiae NEM316' Streptococcus equi subsp. zooepidemicus MGCS10565' Staphylococcus 438 31 Streptococcus gordonii str. Challis substr. CH1' Streptococcus mutans UA159 chromosome' Streptococcus pneumoniae CGSP14' Streptococcus pneumoniae D39' Streptococcus pneumoniae G54 chromosome' Streptococcus pneumoniae Hungary19A-6' Streptococcus pneumoniae R6' Streptococcus pneumoniae TIGR4 chromosome' Streptococcus pyogenes M1 GAS chromosome' Streptococcus pyogenes MGAS10270 chromosome' Streptococcus pyogenes MGAS10394 chromosome' Streptococcus pyogenes MGAS10750 chromosome' Streptococcus pyogenes MGAS2096 chromosome' Streptococcus pyogenes MGAS315 chromosome' Streptococcus pyogenes MGAS5005 chromosome' Streptococcus pyogenes MGAS6180 chromosome' Streptococcus pyogenes MGAS8232 chromosome' Streptococcus pyogenes MGAS9429 chromosome' Streptococcus pyogenes NZ131 chromosome' Streptococcus pyogenes SSI-1 chromosome' Streptococcus pyogenes str. Manfredo' Streptococcus sanguinis SK36' Streptococcus suis 05ZYH33' Streptococcus suis 98HAH33' Streptococcus thermophilus CNRZ1066 chromosome' Streptococcus thermophilus LMD-9' Streptococcus thermophilus LMG 18311 chromosome' Streptococcus 473 Streptomyces 198 Streptomyces avermitilis MA-4680' Streptomyces coelicolor A3(2) chromosome' Streptomyces griseus subsp. griseus NBRC 13350' Sulfolobus acidocaldarius DSM 639 chromosome' Sulfolobus solfataricus P2 chromosome' Sulfolobus tokodaii str. 7 chromosome' Sulfolobus 62 Synechococcus elongatus PCC 6301 chromosome' Synechococcus elongatus PCC 7942 chromosome' Synechococcus sp. CC9311' Synechococcus sp. CC9605' Synechococcus sp. CC9902 chromosome' Synechococcus sp. JA-2-3B'a(2-13)' Synechococcus sp. JA-3-3Ab' Synechococcus sp. PCC 7002 chromosome' Synechococcus sp. RCC307' Synechococcus sp. WH 7803' Synechococcus sp. WH 8102' Synechococcus 203 32 Thermoanaerobacter pseudethanolicus ATCC 33223 chromosome' Thermoanaerobacter sp. X514 chromosome' Thermoanaerobacter tengcongensis MB4' Thermoanaerobacter 64 Thermotoga 62 Thermotoga lettingae TMO chromosome' Thermotoga maritima MSB8 chromosome' Thermotoga petrophila RKU-1 chromosome' Thermotoga sp. RQ2 chromosome' Vibrio cholerae O1 biovar El Tor str. N16961 chromosome chromosome I' Vibrio cholerae O395 chromosome 1' Vibrio fischeri ES114 chromosome I' Vibrio fischeri MJ11 chromosome I' Vibrio vulnificus CMCP6 chromosome chromosome I' Vibrio vulnificus YJ016 chromosome I' Vibrio 120 Wolbachia endosymbiont of Culex quinquefasciatus Pel' Wolbachia endosymbiont of Drosophila melanogaster' Wolbachia endosymbiont strain TRS of Brugia malayi' Wolbachia 28 Xanthomonas axonopodis pv. citri str. 306 chromosome' Xanthomonas campestris pv. campestris str. 8004 chromosome' Xanthomonas campestris pv. campestris str. ATCC 33913' Xanthomonas campestris pv. campestris str. B100' Xanthomonas campestris pv. vesicatoria str. 85-10 chromosome' Xanthomonas oryzae pv. oryzae KACC10331 chromosome' Xanthomonas oryzae pv. oryzae MAFF 311018' Xanthomonas oryzae pv. oryzae PXO99A' Xanthomonas 295 Yersinia 423 Yersinia enterocolitica subsp. enterocolitica 8081' Yersinia pestis Angola' Yersinia pestis Antiqua chromosome' Yersinia pestis CO92 chromosome' Yersinia pestis KIM 10 chromosome' Yersinia pestis Nepal516' Yersinia pestis Pestoides F chromosome' Yersinia pseudotuberculosis IP 31758' Yersinia pseudotuberculosis IP 32953' Yersinia pseudotuberculosis PB1/+ chromosome' Yersinia pseudotuberculosis YPIII chromosome'