BAB I Pendahuluan

advertisement
BAB I
Pendahuluan
1.1
Latar Belakang
Revolusi di bidang biologi molekuler yang terjadi pada dekade terakhir menyebabkan peningkatan dalam koleksi dan kemudahan dalam memperoleh data genetik berupa data genome kedua organisme dan mikro-organisme. Salah satu proyek
pelopor ialah Human genome project (Birney, 2001). Genome tersusun atas data-data
genetika dari baik organisme maupun mikro-organisme yang memiliki inti susunan
yakni DNA. Adapun komponen penyusun DNA adalah G, T, A, dan C, namun ada
perbedaan antara susunan informasi DNA dan RNA dimana pada susunan RNA komponen T diganti menjadi U (Baldi dan Brunak., 2001). Kemudahan terhadap akses
data genetika yang mudah menjadi awal penyebab analisa data genetika secara manual tidak efisien. Sehingga perlu adanya komputasi untuk membantu dan mempermudah pengolahan data genetika, salah satu ilmu yang mempelajari hal tersebut ialah
bioinformatika (Birney, 2001).
Salah satu bidang studi dalam bioinformatika adalah analisis genome annotation, yaitu proses menandai gen dan fitur biologis lainnya dalam urutan DNA yang
berkaitan dengan satu organisme tertentu (Baldi dan Brunak., 2001). Salah satu inti
permasalahan pada genome annotation ialah penandaan wilayah protein pada struktur
genome, dimana penandaan wilayah disebut coding and non-coding region. Ada dua
jenis artefak yang berbeda, yaitu prokariot dan eukariot. Fokus penelitian ini ialah
meneliti penandaan wilayah pada genome eukaroit yang memiliki sifat dari coding
region bersifat non-contiguous atau adanya interaksi antara coding dan non coding
region (Krogh et al., 1994).
Pengolahan data genetika yang bertujuan untuk menentukkan DNA dan RNA
relatif murah. Proses identifikasi wilayah dalam genome sendiri membutuhkan alat
penelitian yang berbeda dengan penentuan data DNA atau RNA. Hal tersebut yang
menyebabkan mahalnya penelitian dan membutuhkan waktu relatif lama untuk menentukan struktur wilayah pada genome. Tujuan yang jelas untuk bioinformatics adalah untuk menyediakan sebuah cara untuk mengelola informasi dalam bidang biologi
molekular yang nantinya informasi yang disedikan menjadi jauh lebih murah serta
efisien (Birney, 2001).
1
2
Adapun beberapa pendekatan metode ataupun teknik komputasi yang diterapkan pada proses identifikasi protein coding region yakni metode Ab Initio dan
pemprosesan sinyal digital. Metode Ab Initio lebih menekankan pada proses statistik pada data genome yang telah terkumpulkan pada sebuah basis data genome.
Hal ini berbeda dengan penerapan metode pemprosesan sinyal digital dimana tidak
tergantung pada sumber data yang digunakan. Algoritma statistik yang umum diterapkan pada proses pencari wilayah coding region, seperti Hidden Markov Model
(HMM) (Audic dan Claverie, 1998; Krogh et al., 1994; Yada dan Hirosawa, 1996),
Support Vector Machine (SVM) (Schweikert et al., 2009), dan Artificial Neural Network (ANN) (Li dan Wang, 2003; Rebello et al., 2011). Adapun teknik pencarian
wilayah coding region dengan metode pemrosesan sinyal digital (DSP) dengan bertitikberatkan pada proses pencarian posisi 3-base periodisitas kondisi ekson pada genome. Algoritma yang paling sering digunakan adalah wavelet (Deng et al., 2010;
Mena-Chalco et al., 2008) dan spektral Fourier (Datta dan Asif, 2004).
Penelitian ini menerapakan metode HMM sebagai dasar metode, karena kemampuan HMM untuk melakukan pemetaan pada untaian biologi pada struktur genome. Namun metode HMM memiliki keterbatasan ialah over-fitting. Perlu adanya
solusi untuk dapat memecahkan kelemahan tesebut, maka pada penelitian ini coba dikombinasikan dengan metode ANN. Namun metode ANN juga memiliki kelemahan
yang mendasar salah satunya local minima. Penggunaan metode SOM sendiri didasarkan untuk mengurangi kelemah metode HMM yakni over fitting, dimana sifat
artificial pada algoritma SOM dapat mempengaruhi proses pembelajaran dari HMM.
Begitu juga permasalahan yang dihadapi oleh SOM dapat ditutupi oleh HMM karena
sifat HMM dapat menangani ketidakpastian data (Bandyopadhyay et al., 2008). Metode hybrid HMM dengan ANN merupakan metode hybrid yang efektif untuk proses
identifikasi (Goel et al., 2013) dan adanya peningkatan pada tingkat keakuratan jika
dibandingkan dengan metode awal.
1.2
Rumusan Masalah
Berdasarkan latar belakang yang telah disebutkan, rumusan masalah yang
dikaji dalam tesis ini adalah pola adaptasi metode hybrid Hidden Markov Model dengan Self Organizing Map untuk kasus identifikasi protein coding region yang nantinya dilakukan pengujian terhadap tingkat akurasi dengan metode awal (HMM).
3
1.3
Batasan Masalah
Batasan masalah dalam penelitian ini adalah :
1. Pada metode hidden Markov model diterapkan mengikuti acuan penelitian Yada dan Hirosawa (1996) dan Stanke dan Waack (2003).
2. Pada pembentukkan node input pada metode SOM mengikuti jumlah state model yang dibentuk dari HMM.
3. Data sequences yang digunakan dalam penelitian ini adalah set sequences dari
Arabidopsis Thaliana yang didapatkan dari situs Bioinformatics Web Server at
University of Greifswald 1 .
4. Implementasi menggunakan bahasa pemograman tertentu.
1.4
Keaslian Penelitian
Berdasarkan studi pustaka yang telah dilakukan pada penelitian sebelumnya, penulis menyimpulkan bahwa penerapan metode hybrid hidden Markov model
dengan Self Organization Map belum pernah diterapkan pada kasus prediksi protein
coding region. Namun implemetasi metode hybrid ini sudah pernah dilakukan penelitian pada kasus pengenal pola suara maupun tanda tangan yang nantinya dipaparkan
dalam tinjauan pustaka.
1.5
Tujuan Penelitian
Tujuan utama yang ingin dicapai dalam penelitian ini adalah
1. Menerapkan hybrid metode Hidden Markov Model dengan Self Organization
Maps untuk mengidentifkasi protein coding region pada genome.
2. Menguji akurasi dari metode hybrid kemudian membandingkan dengan metode
Hidden Markov Model.
1
http : //bioinf.uni − greif swald.de/webaugustus/datasets.gsp
4
1.6
Manfaat Penelitian
1. Mempelajari penerapan metode hybrid Markov model / Self Organization Maps
dalam bidang bioinformatik
2. Dalam bidang biologi, dapat mempelejari taxonomy, evolution ataupun pohon
kehidupan yang bersumber pada genome organisme ataupun mikro-organisme.
3. Meningkatkan perkembangan studi bioinformatik di Indonesia.
1.7
Metodologi Penelitian
Penelitian ini dilakukan dengan mengikuti langkah-langkah sebagai berikut:
1. Mempelajari pustaka dan literatur acuan
Tahap ini dilakukan dengan membaca dan memahami buku teks, jurnal dan
karya ilmiah lainnya yang terkait dengan penelitian protein coding region dan
metode hybrid HMM dengan ANN.
2. Penyusunan Proposal
Berdasarkan studi pustaka dan literatur maka disusun proposal penelitian.
3. Analisis
Kegiatan analisa perangkat lunak meliputi analisa metode, alternatif, algoritma
yang diterapkan, sepesifikasi perangkat lunak, analisa fungsionalitas dan analisa kelas yang dibutuhkan.
4. Perancangan
Perancangan algoritma, dan pemodelan arsitektur pada metode hybrid HMM
dengan ANN dianalisa yang nantinya diterapkan untuk proses identifikasi protein coding region.
5. Implementasi
Implementasi dalam proses mengadpatasikan metode hybrid HMM dengan ANN
dimungkinkan untuk menggunakan bahasa pemograman tertentu didukung oleh
suatu library untuk membantu pemprosesan dalam hal biologi molekular.
6. Pengujian dan analisa akhir
Pengujian dilakukan pada tingkat akurasi metode hybrid HMM dengan ANN
5
dengan mencari nilai ukuran berdasarkan level-level penilaian yang memang
berlaku untuk melakukan penilaian pada setiap metode yang diterapkan pada
protein coding region yang hasilnya dibandingkan dengan metode hidden Markov model.
1.8
Sistematika Penulisan
1. Bab I Pendahuluan
Pada bab ini menguraikan secara singkat mengenai latar belakang masalah,
perumusan masalah, batasan masalah, keaslian penelitaian, tujuan penelitian,
manfaat penelitian, metodologi penlitian, dan sistematika penulisan
2. Bab II Tinjauan Pustaka
Pada bab ini membahas tinjauan pustaka yang digunakan sebagai bahan rujukan
dalam penelitian ini.
3. Bab III Landasan Teori
Pada bab ini menguraikan teori dasar yang berkaitan dengan penelitian yang
dilakukan yang menjadi dasar dalam pemecahan masalah.
4. Bab IV Analisis dan Perancangan
Pada bab ini menguraikan metode-metode yang digunakan pada penelitian.
5. Bab V Implementasi
Pada bab ini berisi potongan Algoritma program yang diterapkan berdasarkan
implementasi sistem.
6. Bab VI Hasil dan Pembahasan
Pada bab ini membahas hasil akhir dari sistem yang dibangun, disertai dengan
analisis hasil percobaan.
7. Bab VII Penutup
Pada bab ini berisi kesimpulan dari hasil penelitian serta saran untuk penelitian
lebih lanjut.
Download