BAB I Pendahuluan 1.1 Latar Belakang Revolusi di bidang biologi molekuler yang terjadi pada dekade terakhir menyebabkan peningkatan dalam koleksi dan kemudahan dalam memperoleh data genetik berupa data genome kedua organisme dan mikro-organisme. Salah satu proyek pelopor ialah Human genome project (Birney, 2001). Genome tersusun atas data-data genetika dari baik organisme maupun mikro-organisme yang memiliki inti susunan yakni DNA. Adapun komponen penyusun DNA adalah G, T, A, dan C, namun ada perbedaan antara susunan informasi DNA dan RNA dimana pada susunan RNA komponen T diganti menjadi U (Baldi dan Brunak., 2001). Kemudahan terhadap akses data genetika yang mudah menjadi awal penyebab analisa data genetika secara manual tidak efisien. Sehingga perlu adanya komputasi untuk membantu dan mempermudah pengolahan data genetika, salah satu ilmu yang mempelajari hal tersebut ialah bioinformatika (Birney, 2001). Salah satu bidang studi dalam bioinformatika adalah analisis genome annotation, yaitu proses menandai gen dan fitur biologis lainnya dalam urutan DNA yang berkaitan dengan satu organisme tertentu (Baldi dan Brunak., 2001). Salah satu inti permasalahan pada genome annotation ialah penandaan wilayah protein pada struktur genome, dimana penandaan wilayah disebut coding and non-coding region. Ada dua jenis artefak yang berbeda, yaitu prokariot dan eukariot. Fokus penelitian ini ialah meneliti penandaan wilayah pada genome eukaroit yang memiliki sifat dari coding region bersifat non-contiguous atau adanya interaksi antara coding dan non coding region (Krogh et al., 1994). Pengolahan data genetika yang bertujuan untuk menentukkan DNA dan RNA relatif murah. Proses identifikasi wilayah dalam genome sendiri membutuhkan alat penelitian yang berbeda dengan penentuan data DNA atau RNA. Hal tersebut yang menyebabkan mahalnya penelitian dan membutuhkan waktu relatif lama untuk menentukan struktur wilayah pada genome. Tujuan yang jelas untuk bioinformatics adalah untuk menyediakan sebuah cara untuk mengelola informasi dalam bidang biologi molekular yang nantinya informasi yang disedikan menjadi jauh lebih murah serta efisien (Birney, 2001). 1 2 Adapun beberapa pendekatan metode ataupun teknik komputasi yang diterapkan pada proses identifikasi protein coding region yakni metode Ab Initio dan pemprosesan sinyal digital. Metode Ab Initio lebih menekankan pada proses statistik pada data genome yang telah terkumpulkan pada sebuah basis data genome. Hal ini berbeda dengan penerapan metode pemprosesan sinyal digital dimana tidak tergantung pada sumber data yang digunakan. Algoritma statistik yang umum diterapkan pada proses pencari wilayah coding region, seperti Hidden Markov Model (HMM) (Audic dan Claverie, 1998; Krogh et al., 1994; Yada dan Hirosawa, 1996), Support Vector Machine (SVM) (Schweikert et al., 2009), dan Artificial Neural Network (ANN) (Li dan Wang, 2003; Rebello et al., 2011). Adapun teknik pencarian wilayah coding region dengan metode pemrosesan sinyal digital (DSP) dengan bertitikberatkan pada proses pencarian posisi 3-base periodisitas kondisi ekson pada genome. Algoritma yang paling sering digunakan adalah wavelet (Deng et al., 2010; Mena-Chalco et al., 2008) dan spektral Fourier (Datta dan Asif, 2004). Penelitian ini menerapakan metode HMM sebagai dasar metode, karena kemampuan HMM untuk melakukan pemetaan pada untaian biologi pada struktur genome. Namun metode HMM memiliki keterbatasan ialah over-fitting. Perlu adanya solusi untuk dapat memecahkan kelemahan tesebut, maka pada penelitian ini coba dikombinasikan dengan metode ANN. Namun metode ANN juga memiliki kelemahan yang mendasar salah satunya local minima. Penggunaan metode SOM sendiri didasarkan untuk mengurangi kelemah metode HMM yakni over fitting, dimana sifat artificial pada algoritma SOM dapat mempengaruhi proses pembelajaran dari HMM. Begitu juga permasalahan yang dihadapi oleh SOM dapat ditutupi oleh HMM karena sifat HMM dapat menangani ketidakpastian data (Bandyopadhyay et al., 2008). Metode hybrid HMM dengan ANN merupakan metode hybrid yang efektif untuk proses identifikasi (Goel et al., 2013) dan adanya peningkatan pada tingkat keakuratan jika dibandingkan dengan metode awal. 1.2 Rumusan Masalah Berdasarkan latar belakang yang telah disebutkan, rumusan masalah yang dikaji dalam tesis ini adalah pola adaptasi metode hybrid Hidden Markov Model dengan Self Organizing Map untuk kasus identifikasi protein coding region yang nantinya dilakukan pengujian terhadap tingkat akurasi dengan metode awal (HMM). 3 1.3 Batasan Masalah Batasan masalah dalam penelitian ini adalah : 1. Pada metode hidden Markov model diterapkan mengikuti acuan penelitian Yada dan Hirosawa (1996) dan Stanke dan Waack (2003). 2. Pada pembentukkan node input pada metode SOM mengikuti jumlah state model yang dibentuk dari HMM. 3. Data sequences yang digunakan dalam penelitian ini adalah set sequences dari Arabidopsis Thaliana yang didapatkan dari situs Bioinformatics Web Server at University of Greifswald 1 . 4. Implementasi menggunakan bahasa pemograman tertentu. 1.4 Keaslian Penelitian Berdasarkan studi pustaka yang telah dilakukan pada penelitian sebelumnya, penulis menyimpulkan bahwa penerapan metode hybrid hidden Markov model dengan Self Organization Map belum pernah diterapkan pada kasus prediksi protein coding region. Namun implemetasi metode hybrid ini sudah pernah dilakukan penelitian pada kasus pengenal pola suara maupun tanda tangan yang nantinya dipaparkan dalam tinjauan pustaka. 1.5 Tujuan Penelitian Tujuan utama yang ingin dicapai dalam penelitian ini adalah 1. Menerapkan hybrid metode Hidden Markov Model dengan Self Organization Maps untuk mengidentifkasi protein coding region pada genome. 2. Menguji akurasi dari metode hybrid kemudian membandingkan dengan metode Hidden Markov Model. 1 http : //bioinf.uni − greif swald.de/webaugustus/datasets.gsp 4 1.6 Manfaat Penelitian 1. Mempelajari penerapan metode hybrid Markov model / Self Organization Maps dalam bidang bioinformatik 2. Dalam bidang biologi, dapat mempelejari taxonomy, evolution ataupun pohon kehidupan yang bersumber pada genome organisme ataupun mikro-organisme. 3. Meningkatkan perkembangan studi bioinformatik di Indonesia. 1.7 Metodologi Penelitian Penelitian ini dilakukan dengan mengikuti langkah-langkah sebagai berikut: 1. Mempelajari pustaka dan literatur acuan Tahap ini dilakukan dengan membaca dan memahami buku teks, jurnal dan karya ilmiah lainnya yang terkait dengan penelitian protein coding region dan metode hybrid HMM dengan ANN. 2. Penyusunan Proposal Berdasarkan studi pustaka dan literatur maka disusun proposal penelitian. 3. Analisis Kegiatan analisa perangkat lunak meliputi analisa metode, alternatif, algoritma yang diterapkan, sepesifikasi perangkat lunak, analisa fungsionalitas dan analisa kelas yang dibutuhkan. 4. Perancangan Perancangan algoritma, dan pemodelan arsitektur pada metode hybrid HMM dengan ANN dianalisa yang nantinya diterapkan untuk proses identifikasi protein coding region. 5. Implementasi Implementasi dalam proses mengadpatasikan metode hybrid HMM dengan ANN dimungkinkan untuk menggunakan bahasa pemograman tertentu didukung oleh suatu library untuk membantu pemprosesan dalam hal biologi molekular. 6. Pengujian dan analisa akhir Pengujian dilakukan pada tingkat akurasi metode hybrid HMM dengan ANN 5 dengan mencari nilai ukuran berdasarkan level-level penilaian yang memang berlaku untuk melakukan penilaian pada setiap metode yang diterapkan pada protein coding region yang hasilnya dibandingkan dengan metode hidden Markov model. 1.8 Sistematika Penulisan 1. Bab I Pendahuluan Pada bab ini menguraikan secara singkat mengenai latar belakang masalah, perumusan masalah, batasan masalah, keaslian penelitaian, tujuan penelitian, manfaat penelitian, metodologi penlitian, dan sistematika penulisan 2. Bab II Tinjauan Pustaka Pada bab ini membahas tinjauan pustaka yang digunakan sebagai bahan rujukan dalam penelitian ini. 3. Bab III Landasan Teori Pada bab ini menguraikan teori dasar yang berkaitan dengan penelitian yang dilakukan yang menjadi dasar dalam pemecahan masalah. 4. Bab IV Analisis dan Perancangan Pada bab ini menguraikan metode-metode yang digunakan pada penelitian. 5. Bab V Implementasi Pada bab ini berisi potongan Algoritma program yang diterapkan berdasarkan implementasi sistem. 6. Bab VI Hasil dan Pembahasan Pada bab ini membahas hasil akhir dari sistem yang dibangun, disertai dengan analisis hasil percobaan. 7. Bab VII Penutup Pada bab ini berisi kesimpulan dari hasil penelitian serta saran untuk penelitian lebih lanjut.