I PENDAHULUAN 1.1 Latar Belakang Protein, RNA

advertisement
 I PENDAHULUAN
1.1
Latar Belakang
Protein, RNA dan berbagai fitur dalam genome dapat diklasifikasikan
menjadi suatu keluarga tertentu sesuai dengan sekuensnya. Protein merupakan
aktor utama pada makhluk hidup yang memiliki berbagai fungsi yang sangat
penting. Protein terbentuk dari sekuens asam amino pembentuknya dengan
karakteristik yang berbeda. Struktur protein dapat dilihat secara hierarki sebagai
struktur primer, sekunder dan tersier (Polanski dan Kimmel 2007). Para ahli di
bidang Biologi mengatakan bahwa protein berasal dari kombinasi tiga huruf
(triplet) dari Asam Deoksiribosa (DNA) yang disebut dengan codon (Jones dan
Pevzner 2004).
Struktur primer dari protein adalah urutan sekuens asam amino penyusun
protein yang dihubungkan melalui ikatan peptida. Struktur sekunder adalah
sejumlah rangkaian asam amino yang membentuk struktur tiga dimensi lokal baik
struktur alpha-helix (H), betha-sheet (B) maupun coil (C). Adapun struktur tersier
adalah gabungan dari berbagai struktur sekunder setelah terjadi proses pelipatan
(folding).
Peranan protein sangat terlihat pada saat telah melakukan pelipatan (protein
folding) dalam bentuk tiga dimensi (3D) sebagai struktur tersier. Namun, struktur
tersier (3D) tersebut ditentukan oleh struktur sebelumnya baik primer maupun
struktur sekundernya. Oleh karena itu, penentuan struktur sekunder protein ini
menjadi bidang kajian yang banyak dilakukan di bidang Bioinformatika.
Menurut Albert et al. (1998) struktur protein dapat ditentukan dengan
eksperimen melalui penggunaan X-Ray Crystallography dan Nuclear Magnetic
Resonance (NMR) spectroscopy. Keduanya mampu menghasilkan struktur protein
sampai dengan bentuk tiga dimensinya. Dengan teknik ini, sangat memungkinkan
ditemukannya struktur protein baru. Akan tetapi, penggunaan kedua teknik
tersebut membutuhkan biaya yang relatif mahal. Oleh karena itu, berbagai teknik
2 komputasi digunakan untuk melakukan prediksi struktur sekunder protein
berbasis model komputasi, salah satunya adalah Hidden Markov Models (HMM).
Di sisi lain, karakteristik dari sekuens asam amino sebagai struktur protein
primer sangat cocok dengan tipe data yang digunakan pada pembuatan model
dengan menggunakan Hidden Markov untuk memprediksi struktur sekunder suatu
protein. Menurut Eddy (1998), Hidden Markov Model (HMM) merupakan suatu
kelas dari model probabilistik yang secara umum dapat diaplikasikan untuk
permasalahan deret waktu atau sekuens yang bersifat linear. Sejalan dengan itu,
HMMs merupakan metode yang dianggap memiliki kesuksesan dalam
menyelesaikan permasalahan di dalam analisis sekuens meskipun dari sisi
kompleksitas masih sulit untuk ditentukan secara manual (Won et al. 2007).
Martin et al. (2005) mengatakan bahwa di dalam memprediksi struktur
sekunder protein dapat dilakukan dengan dua metode, yaitu:

Membandingkan model yang telah ada dengan struktur yang akan
diprediksi atau dikenal dengan comparative modelling

Metode de novo, yaitu apabila tidak terdapat model yang tersedia untuk
dibandingkan dengan struktur yang akan diklasifikasikan.
Pada penelitian ini yang akan dilakukan adalah membuat model untuk
mengklasifikasikan struktur sekunder protein. Untuk membangkitkan model
tersebut, akan digunakan HMM akan yang telah secara luas diimplementasikan
untuk menyelesaikan permasalahan dalam analisis sekuens. Di antara beberapa
permasalahan yang terdapat di dalam prediksi struktur sekunder protein ialah
masih terbatasnya model untuk dijadikan acuan dalam memprediksi protein
sekunder karena ukuran data sangat besar. Penambahan jumlah data model bisa
saja dilakukan, namun besarnya ukuran data akan membutuhkan waktu yang lama
dan sulit untuk mencapai konvergen dari model yang bangkitkan pada saat
melakukan proses pelatihan atau training.
Pada prediksi struktur sekunder protein dengan Hidden Markov Model
(HMM) informasi state hanya diperoleh dari satu observasi yang dalam hal ini
3 adalah asam amino. Padahal, pada kenyataannya bisa saja suatu state dapat
menyimpan informasi lebih dari satu observasi atau bahkan suatu sekuens
observasi sebagai informasi. Oleh karena itu, dalam prediksi struktur sekunder
protein terdapat pendekatan yang dikenal dengan Hidden Semi Markov Model
(HSMM). Pada HSMM, satu state dapat membangkitkan suatu sekuens observasi.
Ciri dari HSMM yang terpenting adalah adanya durasi state sebagai informasi
dalam proses pelatihan dalam membuat model.
Hidden Semi Markov Model (HSMM) diperkenalkan pertama kali oleh
Ferguson (1980) yang diaplikasikan untuk konversi teks ke suara. Yu dan
Kobayashi (2003) melakukan penelitian untuk memperbaiki Algoritme pada
HSMM yang dikenalkan oleh Ferguson. Hasilnya adalah kompleksitas algoritme
yang diusulkan lebih efisien dibandingkan dengan yang dibuat pertama kali oleh
Ferguson. Awalnya, kompleksitas algoritme pada HSMM yang diperkenalkan
oleh Ferguson adalah O((MD2+M2)T). Dengan M adalah banyaknya state, D
adalah durasi maksimum antar state dan T adalah panjangnya observasi. Yu dan
Kobayashi berhasil mengefisienkan algoritme tersebut sehingga kompleksitasnya
menjadi O((MD+M2)T) dan mengimplementasikannya untuk menganlisa trafik
suatu alamat website. Pada tahun 2006, Yu dan Kobayashi kembali melakukan
penelitian dan mengimplementasikan algoritme yang diusulkannya tersebut pada
chipfield-progammable gate-array (FPGA).
Prediksi struktur sekunder protein dengan Hidden Semi Markov Model
(HSMM) pertama kali diperkenalkan oleh Schmidler et al. (2000) sebagai metode
baru dalam prediksi struktur sekunder protein. Aydin et al. (2006) juga melakukan
penelitian untuk memprediksi struktur sekunder protein dengan distribusi durasi
maksimum sebanyak 50. Namun, keduanya masih menggunakan algoritme
dengan kompleksitas sebagaiamana yang dijelaskan oleh Ferguson.
Pada
penelitian
kali
diimplementasikan dengan
ini,
prediksi
struktur
algoritme yang telah
sekunder
protein
memiliki kompleksitas
2
O((MD+M )T) dan menggunakan beberapa jenis distribusi durasi maksimum
yang akan diperoleh secara empiris dari data latih yang diambil maupun dengan
4 menggunakan distribusi secara teoritis. Hasil akurasi yang didapatkan akan
dibandingan dengan hasil akurasi HMM standar.
1.2
Penelitian Terkait
Prediksi struktur sekunder protein dengan Hidden Semi Markov Model
(HSMM) pertama kali diperkenalkan oleh Schmidler et al. (2000). Hasil akurasi
prediksi struktur sekunder protein adalah 61,8 % untuk alpha-helix(H) dan 61,3
% untuk betha-sheet (B) dan 65,9 % untuk coil (C). Pada penelitian tersebut
panjang durasi yang digunakan adalah 30 dengan kompleksitasnya adalah
O((MD2+M2)T). Aydin et al. (2006) melakukan penelitian untuk melakukan
prediksi struktur sekunder protein
pada sekuens tunggal. Hasil akurasi yang
diperoleh adalah 65, 9 % untuk alpha-helix(H), 45,4 % untuk betha-sheet(B) dan
81,3 % untuk coil (C).
1.3
Tujuan Penelitian
Penelitian ini bertujuan untuk
mengembangkan Hidden Semi Markov
Model (HSMM) yang telah memiliki kompleksitas lebih efisien untuk
memprediksi struktur sekunder protein kemudian membandingkan hasil akurasi
tersebut dengan penggunaan Hidden Markov Models (HMM) standar. Di samping
itu, penelitian ini juga bertujuan untuk melihat pengaruh distribusi panjang durasi
state sebagai informasi biologi dalam proses pelatihan model HSMM yang
dilakukan terhadap hasil akurasi yang diperoleh.
1.4
Ruang Lingkup Penelitian
Penelitian ini hanya dibatasai pada proses identifikasi struktur sekunder
protein
dengan menggunakan sekuens tunggal pada proses pengujiannya.
Penelitian ini juga dikembangkan sampai dengan pembuatan aplikasi untuk
melakukan prediksi struktur sekunder protein. Penentuan struktur sekunder pada
penelitian ini dibatasi menggunakan
(DSSP).
Define Secondary Structure of Protein
Download