Bioinformatika Contents • • • • Perkembangan data biologi Perkembangan bioinformatika Topik utama bioinformatika Riset, Jurnal dan Forum Bioinformatika • Perusahaan Bioinformatika • Elemen Bioinformatika • informasi dan panduan mengenai bioinformatika • aplikasinya di berbagai bidang, seperti kedokteran, farmasi, dan lain-lain. • Ilmu biologi dan Teknologi Informasi Perkembangan data biologi • Data yang melimpah ini tidak akan ada artinya, bila tidak ada metode komputasi efektif yang mampu mengolah data berskala besar, dan menggali informasi terpendam di dalamnya. • Kalau data tersebut berskala kecil, tentunya analisa dapat dilakukan dengan manual atau dengan metoda statistik konvensional yang sederhana. • Namun demikian, dengan semakin meluapnya informasi yang harus segera diolah, kebutuhan akan metode yang mampu menangani problem dengan skala besar semakin dirasakan. • Di sinilah teknologi informasi berperan penting. • Datamining merupakan solusi yang ditawarkan untuk mengolah ledakan informasi dalam bioinformatika. Bioinformatika – Data Mining • Dalam bioinformatika, datamining dimanfaatkan untuk menganalisa data hasil observasi biologi seperti misalnya sekuens DNA, deretan asam amino, ekspresi gen, agar menjadi informasi yang bermakna. • Misalnya : – bagaimana kaitan antara fungsi suatu protein dengan strukturnya, – korelasi antara penyakit dan profil ekspresi gen seorang pasien, – bagaimana mekanisme timbulnya suatu penyakit. • Informasi yang diperoleh dari analisa bioinformatika ini bermanfaat bagi kedokteran modern untuk menyusun strategi terapi medis khusus yang efektif dengan menyesuaikan kondisi genetik si pasien, yang disebut tailor made medicine. • Dengan tailor made medicine, diharapkan efek samping dapat dihindarkan dan pengobatan berjalan optimal. Topik Penelitian • Salah satu topik penelitian yang hangat dibicarakan dalam bioinformatika adalah analisa ekspresi/aktifasi gen. • Analisa ekspresi gen ini merupakan informasi penting untuk mengetahui mekanisme timbulnya suatu penyakit, dan mendesain terapi medis yang tepat bagi seorang pasien. • Dari perkembangan terakhir, diketahui bahwa banyaknya gen yang terdapat pada sel manusia berkisar 32 ribu. • Kalau di masa lalu, pengamatan ekspresi gen dilakukan pada skala kecil, dewasa ini dengan adanya piranti DNA chip dan microarray, memungkinkan kita mengamati pola ribuan ekspresi gen sekaligus. • Hal ini memberikan tantangan baru bagi dunia komputasi, karena informasi ekspresi gen tersebut menghasilkan ruang vektor berdimensi sangat tinggi. • Di antara berbagai metode yang diaplikasikan untuk menganalisa informasi berdimensi tinggi pada ekspresi gen, salah satu yang mendapat perhatian dari peneliti adalah Support Vector Machine (SVM). • Dalam berbagai penelitian, SVM memberikan solusi yang lebih baik daripada metode konvensional pengenalan pola, seperti Artificial Neural Network (ANN). • Daya tarik berbagai masalah dalam bioinformatika ini menyebabkan diangkatnya masalah tersebut sebagai tema kompetisi datamining “KDDCUP” yang diselenggarakan oleh ACM SIGKDD (ACM Special Interest Group on Knowledge Discovery and Datamining). • Pada tahun 2001, tema yang diangkat berkaitan dengan bioinformatics & drug discovery, yaitu prediksi bioaktifitas molekul untuk pengembangan obat (drug design), prediksi fungsi gen/protein dan homologi protein. • Hasil survey yang dilakukan pada peserta kompetisi: – metode yang dikembangkan oleh masing-masing peserta memiliki kemiripan, diantaranya feature selection, decision tree, k-nearest neighbour, boosting dan SVM. Hasil ini menunjukkan bahwa metode-metode tersebut memiliki potensi tinggi untuk mencapai hasil yang akurat. – kebanyakan peserta memakai customized software. Software komersial sering memiliki keterbatasan yang menyulitkan, jika eksperimen yang dilakukan tidak sesuai dengan spesifikasi software itu. Perkembangan Bioinformatika di Indonesia • Di Indonesia, penelitian datamining dan bioinformatika telah mulai dilakukan di berbagai lembaga penelitian seperti Lembaga Biologi Molekuler Eijkman, BPPT, LIPI maupun kalangan akademisi di berbagai perguruan tinggi. • Seminar dan workshop bioinformatika telah diselenggarakan beberapa kali, di LIPI, IPB dan universitas yang lain. Peserta yang hadir berasal dari latar belakang beragam, baik biologi maupun komputasi. • Keberadaan database yang mudah diakses dari Indonesia saat ini tengah dirintis oleh tim dalam proyek Mirror Servers for Scientific Data (http://www.arsip.lipi.go.id/) Riset, Jurnal dan Forum Bioinformatika • Berita terbaru mengenai riset dan temuan dalam bioinformatika dapat diikuti dari berbagai laporan penelitian pada journal ilmiah, mulai dari yang sifatnya umum seperti Nature, Science, hingga yang dikhususkan untuk bidang bioinformatika, seperti “Bioinformatics” yang diterbitkan oleh Oxford University Press (http://bioinformatics.oxfordjournals.org/arc hive/) • Kompetisi datamining “KDDCUP” yang diselenggarakan oleh ACM SIGKDD (ACM Special Interest Group on Knowledge Discovery and Datamining). • Informasi lengkap mengenai kompetisi yang berlangsung tiap tahun ini dapat dilihat dari http://www.acm.org/sigs/sigkdd/kddcup/index.php • Diskusi bioinformatika dapat diikuti di mailing list HBI (Himpunan Bioinformatika Indonesia) yang beralamatkan [email protected]. Perusahaan Bioinformatika • Celera Genomics, perusahaan bioteknologi Amerika Serikat yang melakukan pembacaan sekuen genom manusia yang secara maksimal memanfaatkan teknologi informasi sehingga bisa melakukan pekerjaannya dalam waktu yang singkat (hanya beberapa tahun). Database • Tiga organisasi besar dunia, yaitu National Center for Biotechnology Information (NCBI), DNA Data Bank of Japan (DDBJ) dan European Molecular Biology Laboratory Nucleotide Sequence Database (EMBL) dari European Bioinformatics Institute (EBI). Elemen Bioinformatika • Elemen bioinformatika mencakup database, analisis, dan prediksi. • Database yang tersedia meliputi database sequence DNA, protein, dan hasil transkripsi RNA. • Analisis yang bisa dikerjakan dengan bioinformatik meliputi analisis homologi sequence dan pencarian pola (pattern). • Prediksi yang mungkin adalah mengenai fungsi suatu gen atau protein, juga prediksi struktur 3D protein. Penyejajaran sekuens • Penyejajaran sekuens (sequence alignment) adalah proses penyusunan/pengaturan dua atau lebih sekuens sehingga persamaan sekuens-sekuens tersebut tampak nyata. • Hasil dari proses tersebut juga disebut sebagai sequence alignment atau alignment saja. • Baris sekuens dalam suatu alignment diberi sisipan (umumnya dengan tanda "–") sedemikian rupa sehingga kolom-kolomnya memuat karakter yang identik atau sama di antara sekuens-sekuens tersebut. • Berikut adalah contoh alignment DNA dari dua sekuens pendek DNA yang berbeda, "ccatcaac" dan "caatgggcaac" (tanda "|" menunjukkan kecocokan atau match di antara kedua sekuens). • Sequence alignment merupakan metode dasar dalam analisis sekuens. • Metode ini digunakan untuk mempelajari evolusi sekuens-sekuens dari leluhur yang sama (common ancestor). • Ketidakcocokan (mismatch) dalam alignment diasosiasikan dengan proses mutasi, sedangkan kesenjangan (gap, tanda "–") diasosiasikan dengan proses insersi atau delesi. • Sequence alignment memberikan hipotesis atas proses evolusi yang terjadi dalam sekuens-sekuens tersebut. • Misalnya, kedua sekuens dalam contoh alignment di atas bisa jadi berevolusi dari sekuens yang sama "ccatgggcaac". • Dalam kaitannya dengan hal ini, alignment juga dapat menunjukkan posisi-posisi yang dipertahankan (conserved) selama evolusi dalam sekuens-sekuens protein, yang menunjukkan bahwa posisi-posisi tersebut bisa jadi penting bagi struktur atau fungsi protein tersebut. • • • • • • • Selain itu, sequence alignment juga digunakan untuk mencari sekuens yang mirip atau sama dalam basis data sekuens. BLAST adalah salah satu metode alignment yang sering digunakan dalam penelusuran basis data sekuens. BLAST menggunakan algoritma heuristik dalam penyusunan alignment. Beberapa metode alignment lain yang merupakan pendahulu BLAST adalah metode "Needleman-Wunsch" dan "Smith-Waterman". Metode Needleman-Wunsch digunakan untuk menyusun alignment global di antara dua atau lebih sekuens, yaitu alignment atas keseluruhan panjang sekuens tersebut. Metode Smith-Waterman menghasilkan alignment lokal, yaitu alignment atas bagian-bagian dalam sekuens. Kedua metode tersebut menerapkan pemrograman dinamik (dynamic programming) dan hanya efektif untuk alignment dua sekuens (pairwise alignment) • Clustal adalah program bioinformatika untuk alignment multipel (multiple alignment), yaitu alignment beberapa sekuens sekaligus. • Dua varian utama Clustal adalah ClustalW dan ClustalX. • Metode lain yang dapat diterapkan untuk alignment sekuens adalah metode yang berhubungan dengan Hidden Markov Model ("Model Markov Tersembunyi", HMM). • HMM merupakan model statistika yang mulanya digunakan dalam ilmu komputer untuk mengenali pembicaraan manusia (speech recognition). • Selain digunakan untuk alignment, HMM juga digunakan dalam metode-metode analisis sekuens lainnya, seperti prediksi daerah pengkode protein dalam genom dan prediksi struktur sekunder protein. Prediksi struktur protein • Secara kimia/fisika, bentuk struktur protein diungkap dengan kristalografi sinar-X ataupun spektroskopi NMR, namun kedua metode tersebut sangat memakan waktu dan relatif mahal. • Sementara itu, metode sekuensing protein relatif lebih mudah mengungkapkan sekuens asam amino protein. • Prediksi struktur protein berusaha meramalkan struktur tiga dimensi protein berdasarkan sekuens asam aminonya (dengan kata lain, meramalkan struktur tersier dan struktur sekunder berdasarkan struktur primer protein). • Secara umum, metode prediksi struktur protein yang ada saat ini dapat dikategorikan ke dalam dua kelompok, yaitu metode pemodelan protein komparatif dan metode pemodelan de novo. • Pemodelan protein komparatif (comparative protein modelling) meramalkan struktur suatu protein berdasarkan struktur protein lain yang sudah diketahui. • Salah satu penerapan metode ini adalah pemodelan homologi (homology modelling), yaitu prediksi struktur tersier protein berdasarkan kesamaan struktur primer protein. • Pemodelan homologi didasarkan pada teori bahwa dua protein yang homolog memiliki struktur yang sangat mirip satu sama lain. • Pada metode ini, struktur suatu protein (disebut protein target) ditentukan berdasarkan struktur protein lain (protein templat) yang sudah diketahui dan memiliki kemiripan sekuens dengan protein target tersebut. • Selain itu, penerapan lain pemodelan komparatif adalah protein threading yang didasarkan pada kemiripan struktur tanpa kemiripan sekuens primer. • Latar belakang protein threading adalah bahwa struktur protein lebih dikonservasi daripada sekuens protein selama evolusi; daerahdaerah yang penting bagi fungsi protein dipertahankan strukturnya. • Pada pendekatan ini, struktur yang paling kompatibel untuk suatu sekuens asam amino dipilih dari semua jenis struktur tiga dimensi protein yang ada. • Metode-metode yang tergolong dalam protein threading berusaha menentukan tingkat kompatibilitas tersebut. • Dalam pendekatan de novo atau ab initio, struktur protein ditentukan dari sekuens primernya tanpa membandingkan dengan struktur protein lain. • Terdapat banyak kemungkinan dalam pendekatan ini, misalnya dengan menirukan proses pelipatan (folding) protein dari sekuens primernya menjadi struktur tersiernya (misalnya dengan simulasi dinamika molekular), atau dengan optimisasi global fungsi energi protein. • Prosedur-prosedur ini cenderung membutuhkan proses komputasi yang intens, sehingga saat ini hanya digunakan dalam menentukan struktur protein-protein kecil. • Beberapa usaha telah dilakukan untuk mengatasi kekurangan sumber daya komputasi tersebut, misalnya dengan superkomputer (misalnya superkomputer Blue Gene [1] dari IBM) atau komputasi terdistribusi (distributed computing, misalnya proyek Folding@home) maupun komputasi grid. Model protein hemaglutinin dari virus influensa Analisis ekspresi gen Analisis klastering ekspresi gen pada kanker payudara • Analisis klastering ekspresi gen pada kanker payudara Daftar Pustaka • http://asnugroho.wordpress.com http://blog.selayaronline.com • Data-data genome project bisa disimpan dengan teratur dalam waktu yang singkat dan tingkat akurasi yang tinggi serta sekaligus dianalisa dengan program-program yang dibuat untuk tujuan tertentu. • Bioinformatika juga mempercepat penyelesaian genome project ini karena Bioinformatika mensuplay program-program yang diperlukan untuk proses pembacaan genom ini. • • • • http://www.bioinformatika.org http://id.wikipedia.org/wiki/Bioinformatika http://ilmukomputer.org http://bebas.ui.ac.id/v06/Kuliah/SistemOpe rasi/2003/50/Bioinformatika.pdf