PENYUSUNAN BASIS DATA VARIASI NUKLEOTIDA DNA MITOKONDRIA MANUSIA TESIS Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari Institut Teknologi Bandung oleh Anton Restu Prihadi NIM. 20505016 PROGRAM STUDI KIMIA INSTITUT TEKNOLOGI BANDUNG 2007 PENYUSUNAN BASIS DATA VARIASI NUKLEOTIDA DNA MITOKONDRIA MANUSIA Oleh ANTON RESTU PRIHADI NIM : 20505016 Program Studi Kimia Institut Teknologi Bandung Menyetujui Pembimbing Tanggal ………………… Achmad Saifuddin Noer, Ph.D (Associate Professor of Biochemistry) ABSTRAK PENYUSUNAN BASIS DATA VARIASI NUKLEOTIDA DNA MITOKONDRIA MANUSIA oleh Anton Restu Prihadi NIM: 20505016 Tingginya tingkat variasi nukleotida (mutasi) pada DNA mitokondria (mtDNA) manusia menjadi dasar diperlukannya sebuah basis data standar yang baik sebagai referensi untuk studi variasi nukleotida yang bersifat normal maupun yang menyebabkan penyakit pada manusia. Penelitian sebelumnya pada tahun 1991 menggunakan 13 buah sampel telah berhasil menemukan 128 variasi nukleotida pada urutan daerah pengkode mtDNA dibandingkan terhadap urutan standar mtDNA, Cambridge Reference Sequence (CRS). Sampai dengan bulan Juni 2007 telah tersedia sebanyak 2803 data urutan lengkap mtDNA manusia yang disimpan di basis data GenBank situs NCBI. Oleh karena itu, tujuan dari penelitian ini adalah menyusun kembali basis data variasi mutasi mtDNA menggunakan data yang lebih banyak dibandingkan penelitian sebelumnya. Tahap pertama yang dilakukan adalah mengumpulkan seluruh data urutan lengkap mtDNA manusia dari GenBank. Seluruh data mtDNA manusia tersebut kemudian disimpan dan selanjutnya dipisahkan menjadi data mtDNA untuk masing-masing individu dengan menggunakan program EditSeq DNASTAR. Setelah data terpisah menjadi data mtDNA dalam format sequence, kemudian dilakukan penamaan ulang pada masing-masing data tersebut sesuai dengan kode akses nya pada basis data GenBank. Tahap selanjutnya adalah melakukan penentuan variasi nukleotida seluruh data mtDNA manusia tersebut terhadap urutan standar mtDNA manusia (CRS) menggunakan program Human mtDNA Analyzer (H-Man) versi 1.2. Data hasil analisa H-Man selanjutnya disimpan dalam format comma delimited (.csv) dan dibuktikan kebenarannya dengan menggunakan program SeqMan DNASTAR. Seluruh informasi variasi nukleotida tiap sampel kemudian digabungkan menjadi basis data variasi nukleotida mtDNA manusia terhadap CRS. Proses pemindahan data mutasi dari format .csv tiap sampel satu persatu ke dalam basis data dilakukan menggunakan program spreadsheet macro programs pada Microsoft Excel 2003. Setelah itu dilakukan penyusunan matriks untuk mengumpulkan posisi-posisi mutasi yang ditemukan pada masing-masing sampel mtDNA manusia. Setelah semua posisi variasi nukleotida dari seluruh sampel mtDNA manusia diketahui, selanjutnya seluruh sampel mtDNA manusia tersebut dijajarkan terhadap CRS dan dikumpulkan sesuai panjang pasang basanya. Terakhir dilakukan analisa jumlah mutasi pada tiap sampel, distribusi posisi mutasi, mutasi pada fragmen mtDNA berdasarkan fungsi genetiknya, serta analisa mutasi yang berhubungan dengan penyakit. ii Pada penelitian ini digunakan 2339 sampel dari total 2803 data mtDNA manusia yang dikumpulkan dari GenBank, oleh karena terdapat sejumlah data yang bukan merupakan data complete genome mtDNA manusia. Berdasarkan basis data yang telah disusun ternyata pada 2339 data mtDNA manusia tersebut terdapat 3998 variasi nukleotida, dengan jumlah variasi nukleotida pada tiap sampel mtDNA yaitu sekitar satu persen dari total 16,5 kb pasang basa. Profil posisi mutasi menunjukkan bahwa proses mutasi pada mtDNA manusia umumnya terdistribusi secara acak. Selain itu, ditemukan 13 posisi variasi nukleotida terhadap CRS yang ditemukan hampir di seluruh sampel mtDNA manusia. Daerah pada mtDNA yang paling banyak ditemukan variasi nukleotidanya adalah daerah yang tidak mengkode, D-Loop, dengan jumlah variasi nukleotida sekitar 50 persen dari total panjang fragmen tersebut. Hampir seluruh sampel mtDNA mengalami mutasi pada daerah tersebut. Daerah yang paling sedikit mengalami variasi nukleotida adalah fragmen-fragmen pengkode tRNA. Hasil analisa variasi nukleotida yang berhubungan dengan penyakit pada manusia menunjukkan sejumlah individu didiagnosa menderita penyakit genetik tertentu. Telah berhasil disusun urutan konsensus mtDNA manusia dengan perbedaan 13 nukleotida terhadap CRS, dan 5 nukleotida diantaranya merupakan informasi baru urutan konsensus mtDNA manusia. Urutan konsensus adalah urutan nukleotida yang paling umum ditemukan pada genom mitokondria manusia. Data ini memperkuat analisa urutan konsensus mtDNA manusia yang dibuat berdasarkan penelitian sebelumnya pada tahun 1991. Tersedianya basis data variasi nukleotida mtDNA manusia juga bermanfaat sebagai standar referensi untuk mendeteksi kemungkinan dideritanya suatu penyakit genetik. Basis data yang telah berhasil disusun pada penelitian ini diharapkan dapat memberikan informasi lebih banyak tentang variasi mutasi mtDNA manusia dan memfasilitasi penelitian di masa datang mengenai penyakit yang berkaitan dengan mutasi pada mtDNA manusia. Kata kunci : mtDNA manusia, basis data, mutasi, konsensus. iii ABSTRACT THE BUILDING OF A REFERENCE DATABASE OF HUMAN MITOCHONDRIAL DNA NUCLEOTIDE VARIANTS by Anton Restu Prihadi NIM: 20505016 High degree on human mitochondrial DNA (mtDNA) mutation has become a basic line to make a standard database as a reference to study the variation of normal mutation and also those which cause human disease. Previous research on 1991 using 13 samples revealed 128 nucleotide variants on coding region of mtDNA compare to standard sequence of human mtDNA, Cambridge Reference Sequence (CRS). Until June 2007 there were 2803 complete sequence of human mtDNA on the GenBank database. The aim of this research is to make a more complete database of human mtDNA nucleotide variants using more data than previous research. The first step of this research is collecting the whole complete sequence of human mtDNA from GenBank. All of data collected and then separated to be individual mtDNA data using EditSeq DNASTAR software. Each data then renamed with the access code in the GeneBank database. All of the mtDNA samples were compared to standard sequence of human mtDNA using Human mtDNA Analyzer (H-Man) version 1.2 software to obtain their nucleotide variants. The result of analysis then being transfered to coma delimited (.csv) format and the SeqMan DNASTAR software was used to proof the appropriateness of the H-Man v.1.2 result. All of the nucleotide variants information in every sample became the source of human mtDNA nucleotide variants database. Nucleotide variants data were transferred to a database using spreadsheet macro programs of Microsoft Excel 2003. The next step is constructing a matrix to find every nucleotide variations from every sample that used in this research. After all of the nucleotide variations found, then another database which aligned each sample of human mtDNA to CRS was build, and the sample being clustered according to its base pair length. The analyze steps consist of determination the quantity of human mtDNA nucleotide variants, nucleotide variants distribution, mutation in human mtDNA function and location, also mutation which related to human disease. This research used 2339 from total 2803 data of human mtDNA collected from GenBank database because some of the samples are not full length human mtDNA sequence. According to human mtDNA nucleotide variants database, we found 3998 position of mutation compare to CRS. The total of nucleotide variants in each sample around one percent of 16.5 kb and generally the mutation in human mtDNA randomly distributed. In addition there are 13 position nucleotide iv variants which found almost in every sample of human mtDNA. Region of mtDNA which possessed the highest mutation is non coding region, D-Loop. Almost half of this region carried nucleotide variants in 2339 samples that we used in this research. Meanwhile the lowest mutation happened at tRNA coding regions. The result of nucleotide variants which connected to human disease analysis showed some individual diagnosed with specific genetic disease. The consensus sequence for human mtDNA was derived from 2339 samples of human mtDNA. The consensus sequence was constructed from the most commonly observed nucleotides at any particular position in human mitochondrial genome. The consensus sequence differs at 13 nucelotide positions from CRS sequence. Five of these sequences were found in earlier studies using 13 samples of human mtDNA, and this research found another five of human mtDNA consensus sequence. Human mtDNA nucleotide variants database also has benefit as a standard reference to diagnose genetic disease. The establishment of a reference database of nucleotide variants of human mtDNA could facilitated the future study of human mtDNA. Keywords : human mtDNA, database, mutation, consensus. v UCAPAN TERIMA KASIH Puji dan syukur penulis panjatkan ke hadirat ALLAH SWT, karena atas rahmat dan nikmat-Nya penulis dapat menyelesaikan studi serta tesis ini. Pada kesempatan ini, perkenankanlah penulis untuk menyampaikan rasa terima kasih yang sebesar-besarnya kepada Bapak Dr. Achmad Saifuddin Noer, atas semua bimbingan, saran, serta seluruh kebaikan yang telah diberikan selama pengerjaan penelitian ini. Penulis juga menyampaikan ucapan terima kasih kepada semua pihak yang telah berperan serta dalam penulisan tesis ini, baik secara langsung maupun tidak langsung, terutama kepada : 1. Staf pengajar program studi biokimia ITB atas wawasan akademis yang sangat bermanfaat bagi penulis. 2. Bu Ati, Bu Erna, serta seluruh rekan peneliti laboratorium biokimia : Teh Puti, Karina, Teh Ira, Mas Danang, Pak Rafi, Bu Mastura, Pak Rafi, Bambang, Dea, Mira, dan Bu Prima yang senantiasa memberikan suasana menyenangkan dan masukan berharga bagi penulis. 3. Kedua orang tua penulis, Dinah, Mas Holin, Abi, serta handai taulan semua atas bantuan, motivasi dan doa yang selalu menyertai segala kegiatan penulis. 4. Petugas di program studi kimia ITB, terutama Kang Handi, Pak Wandi, Pak Yayat, Pak Edi, Pak Dadan, Bu Soni, Bu Tini, dan Pak Mudi, yang memberikan kemudahan bagi penulis selama menyelesaikan penelitian tugas akhir. 5. Iman, Ali, Rusnadi, Sony, Teh Mery, Mas Arie, Iqbal, Lenggana, Randi, Edi, Wahono serta semua rekan mahasiswa kimia ITB yang turut serta memberi dukungan dan semangat. vii Semoga tesis ini dapat bermanfaat bagi para pembaca. Kritik dan saran terhadap tesis ini akan sangat saya hargai. Terima kasih Bandung, 1 Oktober 2007 Penulis viii DAFTAR ISI ABSTRAK .…………………………………………………………… ii ABSTRACT …………………………..……………………………… iv PEDOMAN PENGGUNAAN TESIS ...……………………………… vi UCAPAN TERIMA KASIH ………….……………………………… vii DAFTAR ISI ………………………….……………………………… ix DAFTAR LAMPIRAN ……………….……………………………… xi DAFTAR GAMBAR ………………….……………………………… xii DAFTAR KURVA …………………………………………………… xiii DAFTAR TABEL …………………….……………………………… xiv DAFTAR SINGKATAN …. ..………… ……………………………… xv BAB I Pendahuluan ….….………………………………………… 1 I.1 Latar Belakang ….………....……………………………… 1 I.2 Rumusan Masalah ………………………………………… 2 I.3 Tujuan Penelitian ….……………………………………… 2 I.4 Ruang Lingkup Penelitian ….……………………………… 2 I.5 Strategi Penelitian ….……………………………………… 2 I.6 Sistematika Tesis ….………………………………………. 3 Tinjauan Pustaka ………………………….......................... 4 II.1 DNA Mitokondria (mtDNA) ………………………………. 4 II.2 Basis Data GenBank ..……………………………………… 8 II.3 Basis Data MITOMAP ……………………………………… 9 II.4 Program Human mtDNA Analyzer (H-Man) ……………… 10 BAB III Metoda Penelitian …………………………………………. 11 III.1 Pengumpulan Data mtDNA Manusia dari GenBank ….…… 11 III.2 Penentuan Variasi Nukleotida terhadap CRS …………........ 11 III.3 Penyusunan Basis Data Variasi Nukleotida ……………...... 11 III.4 Pembuatan Matriks Variasi Nukleotida mtDNA ……......... 11 III.5 Penjajaran Data Variasi Nukleotida terhadap CRS …….….. 12 III.6 Analisa Variasi Nukleotida mtDNA Manusia …...…...……. 12 BAB IV Hasil dan Pembahasan …………………………………….. 13 BAB II ix IV.1 Penyusunan Basis Data Variasi Nukleotida mtDNA Manusia ................................................................................ 13 IV.1.1 Penyiapan Data mtDNA Manusia ………………….……… 13 IV.1.2 Penentuan Variasi Nukleotida terhadap CRS ....................... 15 IV.1.3 Penyusunan Basis Data Variasi Nukleotida ………………… 16 IV.1.4 Pembuatan Matriks Variasi Nukelotida terhadap CRS ......... 17 IV.1.5 Penjajaran Data Variasi Nukleotida terhadap CRS ………… 18 IV.2 Analisa Variasi Nukleotida mtDNA Manusia ……………… 19 IV.2.1 Analisa Variasi Nukleotida Berdasarkan Posisi Mutasi …… 20 IV.2.2 Analisa Variasi Nukleotida pada Gen mtDNA ……………… 27 IV.2.3 Analisa Variasi Nukleotida yang Berhubungan dengan Penyakit pada Manusia ......................................................... 29 Kesimpulan ………………………………………………… 35 DAFTAR PUSTAKA ………………………………………………… 36 BAB V x DAFTAR GAMBAR Gambar II.1 Peta genetik DNA mitokondria manusia (mtDNA) ………....... 5 Gambar II.2 Contoh data mtDNA manusia pada basis data GenBank ……… 8 Gambar II.3 Contoh basis data MITOMAP ………………............................ 9 Gambar II.4 Analisa program Human mtDNA Analyzer (H-Man) versi 1.2 .. 10 Gambar IV.1 Pemisahan dan penamaan ulang sampel ……………………… 14 Gambar IV.2 Contoh analisa program SeqMan (DNASTAR) ……………… 16 Gambar IV.3 Basis data variasi nukleotida mtDNA manusia ……................. 17 Gambar IV.4 Matriks posisi variasi nukleotida mtDNA manusia …............... 18 Gambar IV.5 Kumpulan data penjajaran variasi nukleotida ………................ 19 Gambar IV.6 Hasil penjajaran sebagai diagnosa penyakit genetik mtDNA … 30 xii DAFTAR TABEL Tabel II.1 Urutan konsensus mtDNA manusia (Marzuki et.al, 1991) ....... 7 Tabel IV.1 Perbandingan urutan mtDNA CRS dan konsensus …………… 25 Tabel IV.2 Perbandingan asam amino CRS dan konsensus ……………… 26 Tabel IV.3 Mutasi yang berhubungan dengan penyakit pada manusia ….. 30 xiv DAFTAR LAMPIRAN Lampiran A Hardware dan Software Komputer ……………................... 39 Lampiran B Contoh Basis Data Variasi Nukleotida mtDNA …………..... 40 Lampiran C Contoh Matriks Variasi Nukleotida mtDNA ………………… 41 Lampiran D Contoh Penjajaran Variasi Nukleotida mtDNA ……………. 42 Lampiran E Lokasi dan Fungsi Genetik mtDNA Manusia ………………… 43 Lampiran F Persentase Jumlah Mutasi terhadap Panjang Gen …………… 45 Lampiran G Distribusi Posisi Variasi Nukleotida pada mtDNA ………… 46 Lampiran H Urutan Konsensus mtDNA Manusia ………………………… 47 xi DAFTAR KURVA Kurva IV.1 Sebaran sampel berdasarkan jumlah pasang basa ……………… 15 Kurva IV.2 Jumlah mutasi pada sampel terhadap jumlah sampel ………....... 20 Kurva IV.3 Posisi mutasi pada setiap 1000 nukleotida mtDNA ……………. 21 Kurva IV.4 Persentase mutasi pada tiap posisi mutasi …………………….... 23 Kurva IV.5 Persentase mutasi terhadap panjang gen pada mtDNA manusia .. 27 Kurva IV.6 Persentase mutasi pada daerah pengkode dan bukan pengkode ... 28 xiii DAFTAR SINGKATAN A ATP ATP6 ATP8 C CO1 CO2 CO3 CRS CYB D D-Loop DNA E F G H H-Man HVI HVII I K kb L1 L2 M MERRF mRNA mtDNA N NCBI ND1 ND2 ND3 ND4 ND4L ND5 ND6 P = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = Alanin Adenosin Trifosfat ATP sintetase 6 ATP sintetase 8 Sistein Sitokrom c oksidase I Sitokrom c oksidase II Sitokrom c oksidase III Cambridge reference Sequence Sitokrom b Asam Aspartat Displacement Loop Asam Deoksiribonukleat Asam Glutamat Fenilalanin Glisin Histidin Human mtDNA Analyzer Hipervariabel I Hipervariabel II Isoleusin Lisin Kilobasa Leusin 1 leusin 2 Metionin Myoclonic Epilepsy dan Ragged-Red Fiber Messenger RNA DNA mitokondria Asparagin National Center for Biotechnology Information NADH dehidrogenase 1 NADH dehidrogenase 2 NADH dehidrogenase 3 NADH dehidrogenase 4 NADH dehidrogenase 4L NADH dehidrogenase 5 NADH dehidrogenase 6 Prolin xv Q R RNA S1 S2 T tRNA tRNALys V W Y = = = = = = = = = = = Glutamin Arginin Asam Ribonukleat Serin 1 Serin 2 Treonin Transfer RNA Transfer RNA Lysin Valin Triptofan Tirosin xvi