KOMPARASI SEKUENS DNA PADA VIRUS H5N1 PADA HOST MANUSIA DAN BURUNG MENGGUNAKAN METODE DIAGRAM POHON SITI FAUZIYAH NRP.1209201716 DOSEN PEMBIMBING Prof. Dr. M. Isa Irawan, MT DR. rer. nat. Ir. Maya Shovitri, M.Si PROGRAM MAGISTER JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA Latar Belakang Komparasi sekuens Identifikasi sekuens Pensejajaran sekuens Informasi tingkat similaritas Evolusi Lanjutan Pensejajaran sekuens Multiple alignment Pairwise alignment Lokal Global Lanjutan Metode pensejajaran Berbasis dynamic programming Algoritma NW Algoritma SW Berbasis heuristik FASTA BLAST dll Diagram pohon (Qi, 2009) Lanjutan Sekuens DNA yang disejajarkan adalah DNA virus H5N1 yang merupakan virus influenza-A, karena virus ini memiliki tingkat mutasi sangat tinggi (Mahardika, 2009). Perumusan masalah a. b. Bagaimana hasil pensejajaran global pasangan sekuens DNA dengan menggunakan metode diagram pohon pada virus H5N1 host manusia dan burung. Seberapa besar tingkat kemiripan antara virus H5N1 pada host manusia dan burung. Tujuan Penelitian a. Menerapkan metode heuristik yaitu metode diagram pohon untuk melakukan pensejajaran global pasangan sekuens DNA virus H5N1 pada host manusia dan burung. b. Mengetahui tingkat kemiripan antara virus H5N1 pada host manusia dan burung untuk membuktikan bahwa ada evolusi dalam sekuens DNA virus H5N1. Manfaat Penelitian a. Dapat memberikan referensi tentang salah satu metode pensejajaran sekuens yang berbasis metode heuristik yaitu metode diagram pohon. b. Sebagai bahan pembanding bagi peneliti selanjutnya yang tertarik untuk mengembangkan atau membandingkan dengan metode pensejajaran sekuens lainnya. c. Untuk mempelajari proses evolusi dari sekuens biologi. Batasan Masalah a. Sekuens DNA virus H5N1 yang dimaksud dalam penelitian ini adalah untuk virus host pada manusia dan burung (avian) untuk kawasan Asia pada tahun 2008-2011 yang diperoleh dari database GenBank. b. Sekuens yang di analisis adalah sekuens gen protein Hemaglutinin (HA). c. Parameter pada persamaan penskoran (yaitu parameter penalty gap open dan penalty gap ekstension) diambil dari nilai-nilai yang ada pada tools EMBOSS. KAJIAN PUSTAKA DAN DASAR TEORI DNA (Deoxyribonucleic Acid) dan Sekuens DNA Gula Gugus fosfat Basa nitrogen Urutan Basa nitrogen menentukan informasi genetik yang ada didalamnya. Sekuens DNA adalah sebuah seri huruf yang mewakili struktur primer dari molekul DNA, dengan huruf A,C, G dan T, (Isaev, 2004). Secara umum sekuens DNA dideskripsikan sebagai berikut: Contoh: misalkan X ={GAAAAGTCGTA}, m = 11 Pensejajaran Sekuens Global Yaitu mensejajarkan sekuens dalam keseluruan panjang. Misalkan diketahui dua sekuens DNA adalah X dan Y, dengan panjang masing-masing adalah m dan n. X = {GATTCAGTTA} dan Y = {GGATCGA} m = 10, n= 7 maka sebuah kemungkinan pensejajaran dari X dan Y adalah * A( X , Y ) G A A T T A G T T A G G A T C G A mutasi insersi delesi (Escareno, 2009) Matriks Penskoran dan Persamaan Penskoran Matriks penskoran dalam bioinformatika disebut juga sebagai matriks substitusi. Matriks penskoran untuk sekuens DNA relatif sederhana (Xiong,2006). contoh Nilai & pada matriks penskoran tersebut selanjutnya digunakan sebagai parameter kecocokan (match) dan ketidakcocokan (mismatch) dalam persamaan penskoran. Persamaan penskoran untuk pensejajaran global dengan n posisi gap * Pensejajaran Sekuens dengan Metode Diagram Pohon 1. Algoritma Pensejajaran Sederhana 2. Algoritma Ekstension 3. Pohon GSA (Graphical Simple Alignment Tree ) Algoritma Pensejajaran Sederhana Diperoleh : Pensejajaran Terbaik (R) Common substring terpanjang (C) Elemen-elemen dari R adalah Ci dan Uj Ci = common substring terpanjang di R Uj = substring-substring yang dispasi oleh Ci tahapan Algoritma Ekstension Jika common substring baru ada, maka dari algoritma ini diperoleh data common substring terpanjang(Ci) dan Uj yang baru. tahapan Pohon GSA (Graphical Simple Alignment Tree ) U1j Algoritma Pensejajaran Sederhana Algoritma ekstension 1. C dan U 2. U Simpan U Simpan C dan U ke pohon pada level berikutnya Ambil Uj Lanjutan Tahap-tahap diatas berulang sampai semua U dalam level terakhir subpensejajaran tidak bisa diuraikan lagi oleh algoritma pensejajaran sederhana dan algoritma extension. Dari tahap ini diperoleh sebuah pohon GSA untuk string X dan Y yang terdiri atas sebuah seri substring. Identity, similarity dan Homology Sekuens • Homologi sekuens adalah inferensi atau kesimpulan tentang hubungan nenek moyang yang diambil dari perbandingan similarity sekuens ketika dua sekuens memiliki tingkat similarity cukup tinggi. (Xiong,2006) • Pada sekuens DNA similarity sekuens dan identity sekuens adalah sama. • cara untuk menghitung similarity atau identity sekuens, (Xiong,2006): Ls 2 S 100 La Lb dan Li 2 I 100 La Lb Keterangan: S = persentase similarity sekuens I = persentase identitas sekuens Ls = jumlah residu-residu yang disejajarkan dengan karakteristik yang mirip (similar) La dan Lb =panjang total setiap sekuens pada pensejajaran (sekuens a dan sekuens b) Li = jumlah residu-residu identik yang disejajarkan Penelitian-penelitian yang Relevan Guang Wu Chen telah melakukan pensejajaran global dengan menggunakan tools Emboss yang menerapkan algoritma Nedleman-Wunsch untuk menentukan similaritas sekuens pada level nukleotida. Pada pensejajaran sekuens gen HA dan NA memperlihatkan sekali perbedaan sekuens antar strain (Chen, 2006). Tim Fitch dalam (Ina dan Takashi, 1994) telah membuktikan adanya mutasi yang cepat pada virus flu burung. Mutasi ini terlihat secara khusus pada dua protein yang bernama Hemaglutinin (HA) dan neuraminidase (NA). BAB 3 METODA PENELITIAN 3.1 Tahap-Tahap Penelitian Tahap pertama: mengkaji metode diagram pohon untuk pensejajaran global sekuens biologi. Tahap kedua: mengkaji bagian-bagian yang ada dalam metode diagram pohon Tahap ketiga: analisis hasil pensejajaran sepasang sekuens DNA virus dengan menggunakan tools EMBOSS. Tahap keempat:implementasi dengan matlab Tahap kelima: analisis dan validasi hasil 3.2 Diagram Penelitian BAB 4 HASIL DAN PEMBAHASAN Teknik Pengambilan Data sekuens Dari Genbank Alamat: (www.ncbi.nih.nlm.gov) Virus yang diambil didasarkan pada keterangan yang dientrikan pada database sekuens, yaitu type, host, country/region, subtype, collection date. Untuk host pada manusia (human) diambil 2 sekuens dengan kode akses CY088769 dan HQ200596 Untuk host pada burung (avian) diambil 4 sekuens dengan kode akses CY091956, HM172081, AB569353 , AB629698. Analisis Pensejajaran Sekuens DNA dengan Metode Diagram Pohon pada sekuens Random Contoh, pensejajaran pada sekuens Random X = CGGATCAAGGGGGT Y = CGGAGCGTAGGGGGT Panjang X = 14bp Panjang Y = 15bp Maka pensejajaran global dengan metode diagram pohon yang dimaksud adalah: Analisis pensejajaran Sekuens DNA virus H5N1 dengan diagram pohon Dari 6 data yang diambil,maka menghasilkan 15 pasangan sekuens yang dapat disejajarkan. Berikut adalah contoh hasil pensejajaran dari pasangan sekuens CY088769 dan CY091956. Hasil selengkapnya dibuat tabel sebagai berikut: Lanjutan… Berdasarkan tabel hasil pensejajaran tersebut kemudian ditentukan tingkat mutasi antar sekuens baik dalam host yang sama dan dalam host berbeda. Tingkat mutasi 1. Dalam host Manusia-manusia 7% 2. Dalam host burung-burung 7.3% 3. Dalam host Manusia-burung 7.8% Validasi Hasil Pensejajaran DNA virus H5N1 dengan metode diagram pohon menggunakan tools EMBOSS EMBOSS adalah sebuah tools pensejajaran yang mengaplikasikan algoritma Nedleeman-Wunsch untuk pensejaran global. Dalam penelitian ini tools ini digunakan sebagai alat validasi, untuk mengetahui bagaimana hasil pensejajaran yang dihasilkan oleh masing-masing metode (similaritas, gap). Dari 15 pasangan sekuens yang disejajarkan, hasil validasi menunjukkan untuk informasi tentang similaritas, gap dan panjang pensejajaran memperoleh hasil yang sama.(tabel validasi) Hasil ini menggunakan parameter 5, 4, o 10 dan e=0.5 Kesimpulan a. Metode diagram pohon dapat diterapkan untuk pensejajaran global sekuens DNA. Metode diagram pohon ini menerapkan konsep struktur data pada pohon general dengan jenis kunjungannya adalah post-order traversal. Metode ini menunjukkan hasil yang sama dengan hasil tools Emboss untuk 15 pasangan sekuens DNA H5N1 pada host manusia dan burung. Dengan parameter-parameter kecocokan (match), ketidakcocokan (mismatch), penalty gap open dan gap ekstension masing-masing adalah 5, 4, o 10 dan e = 0.5. b. Hasil pensejajaran sekuens pada virus H5N1 dengan metode diagram pohon ini menunjukkan bahwa terjadi mutasi DNA baik dalam virus H5N1 yang berasal dari host yang sama (manusia-manusia atau burung-burung). Tingkat mutasi rata-rata untuk host pada manusia adalah 7% dan tingkat mutasi virus pada host burung-burung adalah 7.3%. Sedangkan untuk virus host pada manusia dan burung (dalam hostb berbeda) dengan tingkat mutasinya adalah 7.8%. dari hasil hasil ini menunjukkan bahwa tingkat mutasi antara host manusia dan burung adalah yang paling tinggi. Lanjutan… c. Tingkat kemiripan (similaritas) antara sekuens DNA virus H5N1, baik pada host manusia maupun burung menunjukkan bahwa tingkat kemiripan pada host burung-burung adalah yang tertinggi yaitu 91.3%. Kemudian tingkat kemiripan antara virus pada host manusia-burung juga mencapai 90.1% dan tingkat kemiripan virus pada host manusiamanusia mencapai 89.2%. Saran Untuk pengembangan penelitian selanjutnya, komparasi sekuens dengan metode diagram pohon ini dapat dilakukan untuk menganalisis jenis virus ataupun arganisme lain dengan panjang sekuens yang lebih bervariasi. Daftar Pustaka Chen GW, SH. Cheng, CK. Mok, YL. Lo, YN. Kung, JH. Huang, YH.Shih, JY. Wang, Chiayn Chiang, CJ. Chen, SR. Shih. (2006), “Genomic Signature of Human versus influenza A viruses”, Emerging Infectious Diseases.www.cdc.gov/eid. Vol.12, No. 9, September 2006. Escarino, Claudia-Rangel. (2009), A two-base encoded DNA sekuens alignment problem in computational biology. Math-In-Industry Project, National Institute Of Genomic Medicine, Mexico. I.Eidhammer. (2004), Protein Bioinformatics: an algorithmic to sequences and structure analysis, John Wiley & Sons, Ltd ISBN: 0-470-84839-1. Isaev, Alexander. (2004), Introduction to Mathematical Methods in Bioinformatics, SpringerVerlag Berlin Heidelberg, Germany. Qi, Z.H., Qi, X.Q. (2009), “New method for alignment 2 DNA sequences by tree data structure“. Journal of Theoretical Biology 263, 227-236. Shaffer, A. Clifford. (2011), A Practical Introduction to Data Structures and Algorithm Analysis Edition 3.2 (C++ Version), Department of Computer Science Virginia Tech Blacksburg, VA 24061. Xiong, Jin. (2006), Essential Bioinformatics, CAMBRIDGE University Press, United States Of America.