III METODE PENELITIAN 3.1 Kerangka Pemikiran

advertisement
17 III METODE PENELITIAN
3.1
Kerangka Pemikiran
Protein merupakan aktor utama pada makhluk hidup yang memiliki
berbagai fungsi yang sangat penting. Protein terbentuk dari asam amino
pembentuknya dengan karakteristik yang berbeda. Struktur protein dapat dilihat
secara hierarki sebagai struktur primer, sekunder dan tersier (Polanski dan
Kimmel 2007). Prediksi struktur sekunder protein memiliki peranan yang penting
sebelum protein tersebut mengalami pelipatan. Di antara model yang digunakan
untuk melakukan prediksi struktur protein ini adalah Hidden Markov Model
(HMM).
Umumnya proses pelatihan untuk membuat model pada HMMs dapat
dilakukan
dengan
Algoritme
Baum-Welch.
Proses
pelatihan
ini
tidak
mempertimbangkan durasi state atau panjang segmen dari setiap struktur baik
alpha-helix (H), betha-sheet (B) atau coil (C). Aydin et al. (2006) melakukan
penelitian
untuk
memprediksi
struktur
sekunder
protein
dengan
mempertimbangkan panjang durasi state atau panjang segmen tiap struktur protein
tersebut yang dikenal dengan Hidden Semi Markov Model (HSMM). Namun
demikian, pada penelitian tersebut panjang segmen ditetapkan dengan nilai
tertentu dan bagaimana menentukan nilainya tidak disebutkan. Padahal panjang
segmen struktur bisa diperoleh secara empiris dari data latih yang digunakan.
Di sisi lain, Hidden Semi Markov Model (HSMM) yang pertama kali
diperkenalkan oleh Ferguson memiliki kompleksitas sebesar O((MD2+M2)T)
dengan M adalah Matriks transisi, T adalah sekuens observasi dan D adalah
panjang durasi state (Yu dan Kobayashi 2003). Algoritme ini kemudian
diefisienkan sehingga kompleksitasnya menjadi O((MD+M2)T dan kebutuhan
alokasi memori memiliki kompleksitas O(MT) (Yu dan Kobayashi 2003).
Penelitian ini mengusulkan untuk membuat model dengan menggunakan
Hidden Semi Markov Model (HSMM) yang telah diefisienkan kompleksitasnya
18 dan dibandingkan dengan akurasi Hidden Markov Model (HMM) standar. Model
HSMM pada penelitian ini menggunakan distribusi panjang durasi state baik
secara empiris maupun teoritis. Penelitian ini juga akan melihat pengaruh
distribusi panjang durasi state terdapat nilai akurasi prediksi struktur sekunder
protein. Diagram alur penelitian ini secara umum dapat dilihat pada Gambar 7.
mulai
perumusan masalah
pendefinisian
metode penelitian
pengambilan data
data uji data
latih
data latih tanpa panjang
durasi state
data latih
dengan beberapa
panjang durasi state
Pelatihan Model
HMM Pelatihan
tahap pengujian tahap pelatihan
Model
HSMM
pengujian
selesai
dokumentasi
perhitungan dan
perbandingan
akurasi
Gambar 7. Diagram alur penelitian prediksi struktur sekunder protein
3.2
Studi Pustaka
Studi pustaka dilakukan untuk mencari riset-riset terbaru yang terkait
dengan penelitian yang akan dilakukan. Dari riset yang telah dilakukan tersebut,
penggunaan Hidden Markov Model (HMM) memang telah banyak digunakan
19 untuk komputasi dalam bidang Biologi khususnya melakukan prediksi struktur
sekunder protein. Akan tetapi, penggunaan durasi state dan bagaimana pengaruh
panjang durasi state atau panjang segmen struktur protein terhadap akurasi proses
prediksi masih belum banyak dilakukan.
3.3
Perumusan Masalah dan Hipotesa Awal
Perumusan masalah dilakukan sebagai kerangka untuk melakukan
penelitian ini. Berdasar permasalahan tersebut, akan diusulkan suatu pendekatan
untuk mencari solusinya. Dalam hal ini, penggunaan panjang durasi state pada
Hidden Semi Markov Model (HSMM) dapat meningkatkan akurasi dibandingkan
dengan HMM standar dan penggunaan beberapa nilai panjang segmen atau
panjang durasi state akan mempengaruhi nilai akurasi.
3.4
Pendefinisian Metode Penelitian
Setelah dilakukan perumusan masalah, maka dipilih metode penelitian
yang sesuai dengan permasalahan yang ditemukan. Metode penelitian yang
digunakan dalam penelitian ini dapat dilihat pada Gambar 7.
3.5
Pengambilan Data Struktur sekunder protein
Proses prediksi struktur sekunder protein ini diawali dengan pengambilan
data
sekuens
protein
sekunder
yaitu
DSSP
dari
alamat
webstitehttp://swift.cmbi.ru.nl/gv/dssp/ yang merupakan database assignment
struktur sekunder protein. Pemilihan ini didasarkan bahwa DSSP mencakup
semua data protein yang ada di Protein Data Bank (PDB). Data struktur sekunder
protein yang diambil terdiri atas 42556 residu yang telah tersegmentasi menjadi 8
segmen struktur sekunder. Namun pada penelitian ini, segmen direduksi menjadi
tiga, yaitu alpha-helix (H), betha-sheet (B) dan coil (C) (Aydinet al. 2006).
Segmen hasil reduksi adalah {I,H,G} alpha-helix(H), {E,B} betha-sheet (B) ,
segmen lainnya menjadi coil (C).
Data yang diperoleh dari alamat tersebut masih memiliki ekstensi format
dengan ekstensi .dssp (Define Secondary Structure of Protein). Oleh karena itu,
20 sebelum digunakan untuk data pelatihan dan data pengujian terlebih dahulu
dilakukan proses parsing dan pengkodean. Kedua proses tersebut dilakukan
dengan memudahkan dalam proses komputasi. Hasil dari parsing dan pengkodean
adalah pasangan asam amino dan assigment struktur sekunder protein yang telah
dikodekan dalam bentuk bilangan integer. Format data dengan ekstensi .dssp
merupakan file teks yang terdiri atas beberapa bagian. Gambar 8 merupakan
contoh format data .dssp
#
…
…
…
…
…
RESIDUE AA
…
I
…
D
…
E
…
G
…
L
STRUCTURE
H
H
H
C
C
BP1
… …
… …
… …
…
…
…
…
…
…
…
…
…
…
…
…
… … … … …
X-CA
…
…
…
…
Y-CA
…
…
…
Z-CA
…
…
…
…
…
Gambar 8. Contoh Format Data Struktur sekunder protein dari file dengan
ekstensi. dssp (Define Secondary Structure of Protein)
3.6
Pembuatan Model dengan HMM standar
Pada tahap ini dilakukan proses pembentukan model dari data latih baik
dengan HMMs standar dan Hidden Semi Markov Model (HSMM). Prediksi
struktur sekunder protein ini, model arsitektur HMM dapat diilustrasikan pada
Gambar 9.
Gambar 9. Ilustrasi HMM untuk prediksi strukutr protein sekunder
(Martin et al. 2005)
Barisan H-B dan C
merepresentasikan
menunjukkan
model hidden state yang
alpha-helix (H), betha-sheet (B) dan coil (C), sedangkan
barisan di bawah panah adalah barisan sekuens asam amino sebagai sekuens
observasi (observable sequence). Hasil dari proses pemodelan ini adalah matriks
transisi dan matriks emisi yang telah memiliki nilai tertentu untuk dijadikan
21 model dalam proses prediksi. Model tersebut kemudian akan disimpan dalam
repositori.
3.7
Pembuatan Model dengan Hidden Semi Markov Model (HSMM)
Pemodelan prediksi struktur sekunder protein dengan HSMM berbeda
dengan HMM standar. Pada pemodelan dengan HSMM, durasi state oleh
observasi tertentu sangat dipertimbangkan. Pada HSMM tidak terjadi transisi
suatu state terhadap dirinya sendiri. Ilustrasi pemodelan prediksi struktur sekunder
protein dengan HSMM dapat dilihat pada Gambar 10.
observasi
waktu
D
E
V
H
A
S
…….
1
2
3
4
5
6 ……...
durasi
d1
d2
……..
state sekuens
H
B
……..
OT
dn
in
transisi
Gambar 10. Pemodelan prediksi struktur sekunder protein dengan menggunakan
Hidden Semi Markov Model (HSMM)
3.8
Pengujian
Tahap pengujian dilakukan untuk melihat akurasi dari prediksi yang
dilakukan. Pengujian dilakukan baik dengan menggunakan data uji untuk melihat
hasil klasifikasi. Hasil pengujian dilakukan dengan menghitung presentase data
yang benar dikelaskan dibandingkan dengan semua data uji. Formula untuk
melakukan pengujian dapat dilihat pada persamaan (28).
...............................................(28)
3.9
Riset Pendahuluan
Riset pendahuluan dilakukan untuk mengetahui distribusi setiap segmen
baik alpha-helix (H), betha-sheet (B) dan coil (C). Distribusi pada awalnya
dilakukan dengan pembangkitan menggunakan pendekatan teoritis. Akan tetapi
22 permasalahannya adalah dengan pembangkitan nilai distribusi ini masih belum
merepresentasikan kondisi data yang sebenarnya.
Oleh karena itu, dilakukan perhitungan distribusi secara empiris dan secara
keseluruhan diperoleh informasi bahwa struktur alpha-helix terdiri atas 1853
segmen, struktur betha-sheet terdiri atas 1805 segmen dan struktur coil terdiri atas
3566 segmen. Harapannya dari data tersebut, didapatkan informasi yang lebih
baik sehingga proses prediksi struktur sekunder protein menghasilkan akurasi
yang lebih tinggi.
Download