Bioinformatika2 Penerapan

advertisement
Bioinformatika
Contents
•
•
•
•
Perkembangan data biologi
Perkembangan bioinformatika
Topik utama bioinformatika
Riset, Jurnal dan Forum Bioinformatika
• Perusahaan Bioinformatika
• Elemen Bioinformatika
• informasi dan panduan mengenai bioinformatika
• aplikasinya di berbagai bidang, seperti kedokteran, farmasi, dan
lain-lain.
• Ilmu biologi dan Teknologi Informasi
Perkembangan data biologi
• Data yang melimpah ini tidak akan ada artinya, bila tidak
ada metode komputasi efektif yang mampu mengolah
data berskala besar, dan menggali informasi terpendam
di dalamnya.
• Kalau data tersebut berskala kecil, tentunya analisa
dapat dilakukan dengan manual atau dengan metoda
statistik konvensional yang sederhana.
• Namun demikian, dengan semakin meluapnya informasi
yang harus segera diolah, kebutuhan akan metode yang
mampu menangani problem dengan skala besar
semakin dirasakan.
• Di sinilah teknologi informasi berperan penting.
• Datamining merupakan solusi yang ditawarkan untuk
mengolah ledakan informasi dalam bioinformatika.
Bioinformatika – Data Mining
• Dalam bioinformatika, datamining dimanfaatkan untuk menganalisa
data hasil observasi biologi seperti misalnya sekuens DNA, deretan
asam amino, ekspresi gen, agar menjadi informasi yang bermakna.
• Misalnya :
– bagaimana kaitan antara fungsi suatu protein dengan strukturnya,
– korelasi antara penyakit dan profil ekspresi gen seorang pasien,
– bagaimana mekanisme timbulnya suatu penyakit.
• Informasi yang diperoleh dari analisa bioinformatika ini bermanfaat
bagi kedokteran modern untuk menyusun strategi terapi medis
khusus yang efektif dengan menyesuaikan kondisi genetik si pasien,
yang disebut tailor made medicine.
• Dengan tailor made medicine, diharapkan efek samping dapat
dihindarkan dan pengobatan berjalan optimal.
Topik Penelitian
• Salah satu topik penelitian yang hangat dibicarakan dalam
bioinformatika adalah analisa ekspresi/aktifasi gen.
• Analisa ekspresi gen ini merupakan informasi penting untuk
mengetahui mekanisme timbulnya suatu penyakit, dan
mendesain terapi medis yang tepat bagi seorang pasien.
• Dari perkembangan terakhir, diketahui bahwa banyaknya gen
yang terdapat pada sel manusia berkisar 32 ribu.
• Kalau di masa lalu, pengamatan ekspresi gen dilakukan pada
skala kecil, dewasa ini dengan adanya piranti DNA chip dan
microarray, memungkinkan kita mengamati pola ribuan
ekspresi gen sekaligus.
• Hal ini memberikan tantangan baru bagi dunia komputasi,
karena informasi ekspresi gen tersebut menghasilkan ruang
vektor berdimensi sangat tinggi.
• Di antara berbagai metode yang diaplikasikan
untuk menganalisa informasi berdimensi tinggi
pada ekspresi gen, salah satu yang mendapat
perhatian dari peneliti adalah Support Vector
Machine (SVM).
• Dalam berbagai penelitian, SVM memberikan
solusi yang lebih baik daripada metode
konvensional pengenalan pola, seperti Artificial
Neural Network (ANN).
• Daya tarik berbagai masalah dalam
bioinformatika ini menyebabkan diangkatnya
masalah tersebut sebagai tema kompetisi
datamining “KDDCUP” yang diselenggarakan
oleh ACM SIGKDD (ACM Special Interest Group
on Knowledge Discovery and Datamining).
• Pada tahun 2001, tema yang diangkat berkaitan
dengan bioinformatics & drug discovery, yaitu
prediksi bioaktifitas molekul untuk
pengembangan obat (drug design), prediksi
fungsi gen/protein dan homologi protein.
• Hasil survey yang dilakukan pada peserta
kompetisi:
– metode yang dikembangkan oleh masing-masing
peserta memiliki kemiripan, diantaranya feature
selection, decision tree, k-nearest neighbour, boosting
dan SVM.
Hasil ini menunjukkan bahwa metode-metode
tersebut memiliki potensi tinggi untuk mencapai hasil
yang akurat.
– kebanyakan peserta memakai customized software.
Software komersial sering memiliki keterbatasan yang
menyulitkan, jika eksperimen yang dilakukan tidak
sesuai dengan spesifikasi software itu.
Perkembangan Bioinformatika di
Indonesia
• Di Indonesia, penelitian datamining dan bioinformatika
telah mulai dilakukan di berbagai lembaga penelitian
seperti Lembaga Biologi Molekuler Eijkman, BPPT, LIPI
maupun kalangan akademisi di berbagai perguruan
tinggi.
• Seminar dan workshop bioinformatika telah
diselenggarakan beberapa kali, di LIPI, IPB dan
universitas yang lain. Peserta yang hadir berasal dari
latar belakang beragam, baik biologi maupun komputasi.
• Keberadaan database yang mudah diakses dari
Indonesia saat ini tengah dirintis oleh tim dalam proyek
Mirror Servers for Scientific Data
(http://www.arsip.lipi.go.id/)
Riset, Jurnal dan Forum
Bioinformatika
• Berita terbaru mengenai riset dan temuan
dalam bioinformatika dapat diikuti dari
berbagai laporan penelitian pada journal
ilmiah, mulai dari yang sifatnya umum
seperti Nature, Science, hingga yang
dikhususkan untuk bidang bioinformatika,
seperti “Bioinformatics” yang diterbitkan
oleh Oxford University Press
(http://bioinformatics.oxfordjournals.org/arc
hive/)
• Kompetisi datamining “KDDCUP” yang
diselenggarakan oleh ACM SIGKDD (ACM Special
Interest Group on Knowledge Discovery and
Datamining).
• Informasi lengkap mengenai kompetisi yang
berlangsung tiap tahun ini dapat dilihat dari
http://www.acm.org/sigs/sigkdd/kddcup/index.php
• Diskusi bioinformatika dapat diikuti di mailing list
HBI (Himpunan Bioinformatika Indonesia) yang
beralamatkan
[email protected].
Perusahaan Bioinformatika
• Celera Genomics, perusahaan
bioteknologi Amerika Serikat yang
melakukan pembacaan sekuen genom
manusia yang secara maksimal
memanfaatkan teknologi informasi
sehingga bisa melakukan pekerjaannya
dalam waktu yang singkat (hanya
beberapa tahun).
Database
• Tiga organisasi besar dunia, yaitu National
Center for Biotechnology Information
(NCBI), DNA Data Bank of Japan (DDBJ)
dan European Molecular Biology
Laboratory Nucleotide Sequence
Database (EMBL) dari European
Bioinformatics Institute (EBI).
Elemen Bioinformatika
• Elemen bioinformatika mencakup database,
analisis, dan prediksi.
• Database yang tersedia meliputi database
sequence DNA, protein, dan hasil transkripsi
RNA.
• Analisis yang bisa dikerjakan dengan
bioinformatik meliputi analisis homologi
sequence dan pencarian pola (pattern).
• Prediksi yang mungkin adalah mengenai fungsi
suatu gen atau protein, juga prediksi struktur 3D protein.
Penyejajaran sekuens
• Penyejajaran sekuens (sequence alignment) adalah
proses penyusunan/pengaturan dua atau lebih sekuens
sehingga persamaan sekuens-sekuens tersebut tampak
nyata.
• Hasil dari proses tersebut juga disebut sebagai
sequence alignment atau alignment saja.
• Baris sekuens dalam suatu alignment diberi sisipan
(umumnya dengan tanda "–") sedemikian rupa sehingga
kolom-kolomnya memuat karakter yang identik atau
sama di antara sekuens-sekuens tersebut.
• Berikut adalah contoh alignment DNA dari dua sekuens
pendek DNA yang berbeda, "ccatcaac" dan
"caatgggcaac" (tanda "|" menunjukkan kecocokan atau
match di antara kedua sekuens).
• Sequence alignment merupakan metode dasar dalam analisis
sekuens.
• Metode ini digunakan untuk mempelajari evolusi sekuens-sekuens
dari leluhur yang sama (common ancestor).
• Ketidakcocokan (mismatch) dalam alignment diasosiasikan dengan
proses mutasi, sedangkan kesenjangan (gap, tanda "–")
diasosiasikan dengan proses insersi atau delesi.
• Sequence alignment memberikan hipotesis atas proses evolusi
yang terjadi dalam sekuens-sekuens tersebut.
• Misalnya, kedua sekuens dalam contoh alignment di atas bisa jadi
berevolusi dari sekuens yang sama "ccatgggcaac".
• Dalam kaitannya dengan hal ini, alignment juga dapat menunjukkan
posisi-posisi yang dipertahankan (conserved) selama evolusi dalam
sekuens-sekuens protein, yang menunjukkan bahwa posisi-posisi
tersebut bisa jadi penting bagi struktur atau fungsi protein tersebut.
•
•
•
•
•
•
•
Selain itu, sequence alignment juga digunakan untuk mencari sekuens yang
mirip atau sama dalam basis data sekuens.
BLAST adalah salah satu metode alignment yang sering digunakan dalam
penelusuran basis data sekuens.
BLAST menggunakan algoritma heuristik dalam penyusunan alignment.
Beberapa metode alignment lain yang merupakan pendahulu BLAST
adalah metode "Needleman-Wunsch" dan "Smith-Waterman".
Metode Needleman-Wunsch digunakan untuk menyusun alignment global
di antara dua atau lebih sekuens, yaitu alignment atas keseluruhan panjang
sekuens tersebut.
Metode Smith-Waterman menghasilkan alignment lokal, yaitu alignment
atas bagian-bagian dalam sekuens.
Kedua metode tersebut menerapkan pemrograman dinamik (dynamic
programming) dan hanya efektif untuk alignment dua sekuens (pairwise
alignment)
• Clustal adalah program bioinformatika untuk alignment multipel
(multiple alignment), yaitu alignment beberapa sekuens sekaligus.
• Dua varian utama Clustal adalah ClustalW dan ClustalX.
• Metode lain yang dapat diterapkan untuk alignment sekuens adalah
metode yang berhubungan dengan Hidden Markov Model ("Model
Markov Tersembunyi", HMM).
• HMM merupakan model statistika yang mulanya digunakan dalam
ilmu komputer untuk mengenali pembicaraan manusia (speech
recognition).
• Selain digunakan untuk alignment, HMM juga digunakan dalam
metode-metode analisis sekuens lainnya, seperti prediksi daerah
pengkode protein dalam genom dan prediksi struktur sekunder
protein.
Prediksi struktur protein
• Secara kimia/fisika, bentuk struktur protein diungkap dengan
kristalografi sinar-X ataupun spektroskopi NMR, namun kedua
metode tersebut sangat memakan waktu dan relatif mahal.
• Sementara itu, metode sekuensing protein relatif lebih mudah
mengungkapkan sekuens asam amino protein.
• Prediksi struktur protein berusaha meramalkan struktur tiga dimensi
protein berdasarkan sekuens asam aminonya (dengan kata lain,
meramalkan struktur tersier dan struktur sekunder berdasarkan
struktur primer protein).
• Secara umum, metode prediksi struktur protein yang ada saat ini
dapat dikategorikan ke dalam dua kelompok, yaitu metode
pemodelan protein komparatif dan metode pemodelan de novo.
• Pemodelan protein komparatif (comparative
protein modelling) meramalkan struktur suatu
protein berdasarkan struktur protein lain yang
sudah diketahui.
• Salah satu penerapan metode ini adalah
pemodelan homologi (homology modelling),
yaitu prediksi struktur tersier protein
berdasarkan kesamaan struktur primer protein.
• Pemodelan homologi didasarkan pada teori
bahwa dua protein yang homolog memiliki
struktur yang sangat mirip satu sama lain.
• Pada metode ini, struktur suatu protein (disebut protein target)
ditentukan berdasarkan struktur protein lain (protein templat) yang
sudah diketahui dan memiliki kemiripan sekuens dengan protein
target tersebut.
• Selain itu, penerapan lain pemodelan komparatif adalah protein
threading yang didasarkan pada kemiripan struktur tanpa kemiripan
sekuens primer.
• Latar belakang protein threading adalah bahwa struktur protein lebih
dikonservasi daripada sekuens protein selama evolusi; daerahdaerah yang penting bagi fungsi protein dipertahankan strukturnya.
• Pada pendekatan ini, struktur yang paling kompatibel untuk suatu
sekuens asam amino dipilih dari semua jenis struktur tiga dimensi
protein yang ada.
• Metode-metode yang tergolong dalam protein threading berusaha
menentukan tingkat kompatibilitas tersebut.
• Dalam pendekatan de novo atau ab initio, struktur protein
ditentukan dari sekuens primernya tanpa membandingkan dengan
struktur protein lain.
• Terdapat banyak kemungkinan dalam pendekatan ini, misalnya
dengan menirukan proses pelipatan (folding) protein dari sekuens
primernya menjadi struktur tersiernya (misalnya dengan simulasi
dinamika molekular), atau dengan optimisasi global fungsi energi
protein.
• Prosedur-prosedur ini cenderung membutuhkan proses komputasi
yang intens, sehingga saat ini hanya digunakan dalam menentukan
struktur protein-protein kecil.
• Beberapa usaha telah dilakukan untuk mengatasi kekurangan
sumber daya komputasi tersebut, misalnya dengan superkomputer
(misalnya superkomputer Blue Gene [1] dari IBM) atau komputasi
terdistribusi (distributed computing, misalnya proyek
Folding@home) maupun komputasi grid.
Model protein hemaglutinin dari
virus influensa
Analisis ekspresi gen
Analisis klastering ekspresi gen
pada kanker payudara
• Analisis klastering ekspresi gen pada
kanker payudara
Daftar Pustaka
• http://asnugroho.wordpress.com
http://blog.selayaronline.com
• Data-data genome project bisa disimpan dengan
teratur dalam waktu yang singkat dan tingkat
akurasi yang tinggi serta sekaligus dianalisa
dengan program-program yang dibuat untuk
tujuan tertentu.
• Bioinformatika juga mempercepat penyelesaian
genome project ini karena Bioinformatika
mensuplay program-program yang diperlukan
untuk proses pembacaan genom ini.
•
•
•
•
http://www.bioinformatika.org
http://id.wikipedia.org/wiki/Bioinformatika
http://ilmukomputer.org
http://bebas.ui.ac.id/v06/Kuliah/SistemOpe
rasi/2003/50/Bioinformatika.pdf
Download