komparasi sekuens dna - Digilib ITS

advertisement
KOMPARASI SEKUENS DNA
PADA VIRUS H5N1 PADA HOST MANUSIA DAN
BURUNG MENGGUNAKAN METODE DIAGRAM
POHON
SITI FAUZIYAH
NRP.1209201716
DOSEN PEMBIMBING
Prof. Dr. M. Isa Irawan, MT
DR. rer. nat. Ir. Maya Shovitri, M.Si
PROGRAM MAGISTER
JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT TEKNOLOGI SEPULUH NOPEMBER
SURABAYA
Latar Belakang
Komparasi
sekuens
Identifikasi
sekuens
Pensejajaran
sekuens
Informasi tingkat
similaritas
Evolusi
Lanjutan
Pensejajaran
sekuens
Multiple
alignment
Pairwise
alignment
Lokal
Global
Lanjutan
Metode
pensejajaran
Berbasis dynamic
programming
Algoritma NW
Algoritma SW
Berbasis
heuristik
FASTA
BLAST
dll
Diagram
pohon
(Qi, 2009)
Lanjutan
Sekuens DNA yang disejajarkan adalah DNA virus
H5N1 yang merupakan virus influenza-A, karena virus
ini memiliki tingkat mutasi sangat tinggi (Mahardika,
2009).
Perumusan masalah
a.
b.
Bagaimana hasil pensejajaran global pasangan sekuens
DNA dengan menggunakan metode diagram pohon pada
virus H5N1 host manusia dan burung.
Seberapa besar tingkat kemiripan antara virus H5N1
pada host manusia dan burung.
Tujuan Penelitian
a. Menerapkan metode heuristik yaitu metode diagram
pohon untuk melakukan pensejajaran global
pasangan sekuens DNA virus H5N1 pada host
manusia dan burung.
b. Mengetahui tingkat kemiripan antara virus H5N1
pada host manusia dan burung untuk membuktikan
bahwa ada evolusi dalam sekuens DNA virus H5N1.
Manfaat Penelitian
a. Dapat memberikan referensi tentang salah satu
metode pensejajaran sekuens yang berbasis metode
heuristik yaitu metode diagram pohon.
b. Sebagai bahan pembanding bagi peneliti selanjutnya
yang tertarik untuk mengembangkan atau
membandingkan dengan metode pensejajaran
sekuens lainnya.
c. Untuk mempelajari proses evolusi dari sekuens
biologi.
Batasan Masalah
a. Sekuens DNA virus H5N1 yang dimaksud dalam
penelitian ini adalah untuk virus host pada manusia
dan burung (avian) untuk kawasan Asia pada tahun
2008-2011 yang diperoleh dari database GenBank.
b. Sekuens yang di analisis adalah sekuens gen protein
Hemaglutinin (HA).
c. Parameter pada persamaan penskoran (yaitu
parameter penalty gap open dan penalty gap
ekstension) diambil dari nilai-nilai yang ada pada
tools EMBOSS.
KAJIAN PUSTAKA DAN DASAR TEORI
DNA (Deoxyribonucleic Acid) dan Sekuens
DNA
Gula
Gugus fosfat
Basa nitrogen
 Urutan Basa nitrogen menentukan informasi genetik
yang ada didalamnya.
 Sekuens DNA adalah sebuah seri huruf yang
mewakili struktur primer dari molekul DNA, dengan
huruf A,C, G dan T, (Isaev, 2004).
 Secara umum sekuens DNA dideskripsikan sebagai
berikut:
Contoh: misalkan X ={GAAAAGTCGTA}, m = 11
Pensejajaran Sekuens Global
Yaitu mensejajarkan sekuens dalam keseluruan
panjang.
 Misalkan diketahui dua sekuens DNA adalah X dan
Y, dengan panjang masing-masing adalah m dan n.
X = {GATTCAGTTA}
dan Y = {GGATCGA}
m = 10, n= 7
maka sebuah kemungkinan pensejajaran dari X dan
Y adalah *
A( X , Y ) 
G A A T T  A G T T A
G G A  T C  G   A
mutasi
insersi
delesi
(Escareno, 2009)
Matriks Penskoran dan Persamaan Penskoran
 Matriks penskoran dalam bioinformatika disebut juga
sebagai matriks substitusi. Matriks penskoran untuk
sekuens DNA relatif sederhana (Xiong,2006).
contoh
Nilai  &  pada matriks penskoran tersebut selanjutnya
digunakan sebagai parameter kecocokan (match) dan
ketidakcocokan (mismatch) dalam persamaan
penskoran.
 Persamaan penskoran untuk pensejajaran global
dengan n posisi gap *
Pensejajaran Sekuens dengan Metode
Diagram Pohon
1. Algoritma Pensejajaran Sederhana
2. Algoritma Ekstension
3. Pohon GSA
(Graphical Simple Alignment Tree )
Algoritma Pensejajaran Sederhana
Diperoleh :
Pensejajaran Terbaik (R)
Common substring terpanjang (C)
Elemen-elemen dari R adalah Ci dan Uj
Ci = common substring terpanjang di R
Uj = substring-substring yang dispasi oleh Ci
tahapan
Algoritma Ekstension
Jika common substring baru ada, maka dari algoritma
ini diperoleh data common substring terpanjang(Ci) dan
Uj yang baru.
tahapan
Pohon GSA
(Graphical Simple Alignment Tree )
U1j
Algoritma
Pensejajaran
Sederhana
Algoritma
ekstension
1. C dan U
2. U
Simpan U
Simpan C dan
U ke pohon
pada level
berikutnya
Ambil Uj
Lanjutan
Tahap-tahap diatas berulang sampai semua U
dalam level terakhir subpensejajaran tidak bisa
diuraikan lagi oleh algoritma pensejajaran sederhana
dan algoritma extension.
Dari tahap ini diperoleh sebuah pohon GSA untuk
string X dan Y yang terdiri atas sebuah seri
substring.
Identity, similarity dan Homology Sekuens
• Homologi sekuens adalah inferensi atau kesimpulan
tentang hubungan nenek moyang yang diambil dari
perbandingan similarity sekuens ketika dua sekuens
memiliki tingkat similarity cukup tinggi. (Xiong,2006)
• Pada sekuens DNA similarity sekuens dan identity
sekuens adalah sama.
• cara untuk menghitung similarity atau identity sekuens,
(Xiong,2006):
 Ls  2 
S
 100
 La  Lb 
dan
 Li  2 
I 
 100
 La  Lb 
Keterangan:
S = persentase similarity sekuens
I = persentase identitas sekuens
Ls = jumlah residu-residu yang disejajarkan dengan
karakteristik yang mirip (similar)
La dan Lb =panjang total setiap sekuens pada
pensejajaran (sekuens a dan sekuens b)
Li = jumlah residu-residu identik yang disejajarkan
Penelitian-penelitian yang Relevan
 Guang Wu Chen telah melakukan pensejajaran
global dengan menggunakan tools Emboss yang
menerapkan algoritma Nedleman-Wunsch untuk
menentukan similaritas sekuens pada level
nukleotida. Pada pensejajaran sekuens gen HA
dan NA memperlihatkan sekali perbedaan sekuens
antar strain (Chen, 2006).
 Tim Fitch dalam (Ina dan Takashi, 1994) telah
membuktikan adanya mutasi yang cepat pada virus
flu burung. Mutasi ini terlihat secara khusus pada
dua protein yang bernama Hemaglutinin (HA) dan
neuraminidase (NA).
BAB 3
METODA PENELITIAN
3.1 Tahap-Tahap Penelitian
 Tahap pertama: mengkaji metode diagram pohon
untuk pensejajaran global sekuens biologi.
 Tahap kedua: mengkaji bagian-bagian yang ada
dalam metode diagram pohon
 Tahap ketiga: analisis hasil pensejajaran
sepasang sekuens DNA virus dengan
menggunakan tools EMBOSS.
 Tahap keempat:implementasi dengan matlab
 Tahap kelima: analisis dan validasi hasil
3.2 Diagram Penelitian
BAB 4
HASIL DAN PEMBAHASAN
Teknik Pengambilan Data sekuens Dari Genbank
Alamat: (www.ncbi.nih.nlm.gov)
 Virus yang diambil didasarkan pada keterangan yang
dientrikan pada database sekuens, yaitu type, host,
country/region, subtype, collection date.
Untuk host pada manusia (human) diambil 2 sekuens
dengan kode akses CY088769 dan HQ200596
Untuk host pada burung (avian) diambil 4 sekuens
dengan kode akses CY091956, HM172081,
AB569353 , AB629698.
Analisis Pensejajaran Sekuens DNA
dengan Metode Diagram Pohon pada sekuens Random
Contoh, pensejajaran pada sekuens Random
X = CGGATCAAGGGGGT
Y = CGGAGCGTAGGGGGT
Panjang X = 14bp
Panjang Y = 15bp
Maka pensejajaran global dengan metode diagram
pohon yang dimaksud adalah:
Analisis pensejajaran Sekuens DNA virus H5N1
dengan diagram pohon
Dari 6 data yang diambil,maka
menghasilkan 15 pasangan
sekuens yang dapat
disejajarkan.
Berikut adalah contoh hasil
pensejajaran dari pasangan
sekuens CY088769 dan
CY091956.
Hasil selengkapnya dibuat tabel
sebagai berikut:
Lanjutan…
Berdasarkan tabel hasil pensejajaran tersebut
kemudian ditentukan tingkat mutasi antar sekuens baik
dalam host yang sama dan dalam host berbeda.
Tingkat
mutasi
1. Dalam host Manusia-manusia 7%
2. Dalam host burung-burung 7.3%
3. Dalam host Manusia-burung 7.8%
Validasi Hasil Pensejajaran DNA virus H5N1 dengan
metode diagram pohon menggunakan tools EMBOSS
EMBOSS adalah sebuah tools pensejajaran yang
mengaplikasikan algoritma Nedleeman-Wunsch
untuk pensejaran global.
Dalam penelitian ini tools ini digunakan sebagai alat
validasi, untuk mengetahui bagaimana hasil
pensejajaran yang dihasilkan oleh masing-masing
metode (similaritas, gap).
Dari 15 pasangan sekuens yang disejajarkan, hasil
validasi menunjukkan untuk informasi tentang
similaritas, gap dan panjang pensejajaran
memperoleh hasil yang sama.(tabel validasi)
Hasil ini menggunakan parameter   5,   4, o  10 dan
e=0.5
Kesimpulan
a. Metode diagram pohon dapat diterapkan untuk pensejajaran global
sekuens DNA. Metode diagram pohon ini menerapkan konsep struktur
data pada pohon general dengan jenis kunjungannya adalah post-order
traversal. Metode ini menunjukkan hasil yang sama dengan hasil tools
Emboss untuk 15 pasangan sekuens DNA H5N1 pada host manusia
dan burung. Dengan parameter-parameter kecocokan (match),
ketidakcocokan (mismatch), penalty gap open dan gap ekstension
masing-masing adalah   5,   4, o  10 dan e = 0.5.
b. Hasil pensejajaran sekuens pada virus H5N1 dengan metode diagram
pohon ini menunjukkan bahwa terjadi mutasi DNA baik dalam virus
H5N1 yang berasal dari host yang sama (manusia-manusia atau
burung-burung). Tingkat mutasi rata-rata untuk host pada manusia
adalah 7% dan tingkat mutasi virus pada host burung-burung adalah
7.3%. Sedangkan untuk virus host pada manusia dan burung (dalam
hostb berbeda) dengan tingkat mutasinya adalah 7.8%. dari hasil hasil
ini menunjukkan bahwa tingkat mutasi antara host manusia dan burung
adalah yang paling tinggi.
Lanjutan…
c. Tingkat kemiripan (similaritas) antara sekuens DNA virus H5N1, baik
pada host manusia maupun burung menunjukkan bahwa tingkat
kemiripan pada host burung-burung adalah yang tertinggi yaitu 91.3%.
Kemudian tingkat kemiripan antara virus pada host manusia-burung
juga mencapai 90.1% dan tingkat kemiripan virus pada host manusiamanusia mencapai 89.2%.
Saran
Untuk pengembangan penelitian selanjutnya,
komparasi sekuens dengan metode diagram pohon ini
dapat dilakukan untuk menganalisis jenis virus ataupun
arganisme lain dengan panjang sekuens yang lebih
bervariasi.
Daftar Pustaka
Chen GW, SH. Cheng, CK. Mok, YL. Lo, YN. Kung, JH. Huang, YH.Shih, JY. Wang, Chiayn
Chiang, CJ. Chen, SR. Shih. (2006), “Genomic Signature of Human versus influenza A
viruses”, Emerging Infectious Diseases.www.cdc.gov/eid. Vol.12, No. 9, September 2006.
Escarino, Claudia-Rangel. (2009), A two-base encoded DNA sekuens alignment problem in
computational biology. Math-In-Industry Project, National Institute Of Genomic Medicine,
Mexico.
I.Eidhammer. (2004), Protein Bioinformatics: an algorithmic to sequences and structure
analysis, John Wiley & Sons, Ltd ISBN: 0-470-84839-1.
Isaev, Alexander. (2004), Introduction to Mathematical Methods in Bioinformatics, SpringerVerlag Berlin Heidelberg, Germany.
Qi, Z.H., Qi, X.Q. (2009), “New method for alignment 2 DNA sequences by tree data
structure“. Journal of Theoretical Biology 263, 227-236.
Shaffer, A. Clifford. (2011), A Practical Introduction to Data Structures and Algorithm Analysis
Edition 3.2 (C++ Version), Department of Computer Science Virginia Tech Blacksburg, VA
24061.
Xiong, Jin. (2006), Essential Bioinformatics, CAMBRIDGE University Press, United States Of
America.
Download