BAB II DASAR TEORI Pada bagian ini dijelaskan mengenai teori-teori yang mendukung pengelompokan data ekspresi gen, bentuk data ekspresi gen dan jenis analisis dari data ekspresi gen tersebut. Dasar-dasar teori ini digunakan untuk menyelesaikan tugas akhir. Dasar teori ini didapat dari studi literatur. 2.1 DNA (Deoxy-Ribonucleic Acid) Sel adalah bagian terkecil dari makhluk hidup. Setiap sel merupakan suatu sistem kompleks yang terdiri dari berbagai macam struktur pembangun yang dibungkus oleh membran [BRA01]. Pada setiap sel ini berbagai aktifitas sel, seperti metabolisme, pembelahan sel, ekspresi gen dilakukan secara teratur dan terkontrol. Pada umumnya makhluk hidup terbagi menjadi dua macam, prokariota dan eukariota, sehingga terdapat dua macam sel sesuai jenisnya. Perbedaan mendasar terletak pada ukuran dan struktur penyusun tubuhnya. Sel prokariota pada umumnya lebih kecil dan memiliki struktur yang lebih sederhana dibandingkan sel eukariota, misalnya: sel prokariota tidak memiliki membran dalam sel. Sel eukariota memiliki nukleus atau inti sel yang dipisahkan dari bagian sel lainnya dengan membran dalam. Pada inti sel eukariota ini terdapat rangkaian DNA (Deoxy-Ribonucleic Acid) yang menyimpan rangkaian instruksi untuk mengatur berbagai aktifitas sel. DNA merupakan pembawa informasi utama di suatu sel [BRA01]. Rangkaian instruksi yang tersimpan didalamnya mengatur aktifitas sel seperti metabolisme, pembelahan sel, dan ekspresi gen. Rangkaian instruksi pada DNA juga akan diturunkan kepada setiap sel anak yang dihasilkan, sehingga pada suatu makhluk hidup, setiap sel memiliki rangkaian DNA yang sama. DNA tersusun dari molekul kecil yang bernama nukleotida. Terdapat empat macam nukleotida yang berbeda yaitu: Adenosin, Guanien, Cytosine dan Thymine yang dilambangkan dengan A, C, G, dan T. Nukelotida ini membentuk suatu rangkaian DNA yang panjang dan memiliki struktur double helix. II-1 II-2 Rangkaian DNA tersebut memiliki kode-kode yang merepresentasikan ciri fisik makhluk hidup, bagaimana sel harus bekerja dan sebagainya. Pada dasarnya DNA akan mengalami transkripsi menjadi RNA (Ribo-nucleic Acid), yaitu rangkaian nukleotida mirip DNA dimana nukleotida Thymine diganti dengan Uracil (U). Pada proses transkripsi, molekul DNA pada salah satu benang disalin menjadi pre mRNA. Proses selanjutnya adalah splicing, yaitu membuang potongan rangkaian DNA yang tidak perlu (introns) dan menyambung semua potongan rangkaian yang akan dikodekan (exons) menjadi satu rangkaian mRNA. Setelah ini, dilakukan proses translasi, yaitu proses pembentukan protein dengan menyatukan asam amino yang terkodekan dengan urut pada mRNA. Asam amino dikodekan dengan tiga nukleotida yang urut pada DNA (disebut dengan triplet). Setiap triplet disebut dengan codon dan memiliki arti sebuah asam amino. Protein yang telah dibentuk memiliki fungsi yang berbeda-beda yang berkaitan dengan fungsi sel itu sendiri. Proses pengubahan DNA menjadi protein dapat dilihat pada gambar II-1. Gambar II-1 Proses perubahan DNA menjadi protein [BRA01] 2.2 Data Ekspresi Gen Ekspresi gen merupakan proses biologi dimana sekuen DNA diterjemahkan menghasilkan protein. Seiring perkembangan teknologi, telah ditemukan metode untuk menemukan urutan rangkaian DNA secara lengkap pada suatu makhluk hidup. Selain itu, perkembangan teknologi juga membawa penemuan teknologi cDNA dan microarray yang dapat mengukur tingkat ekspresi gen dalam skala besar. Microarray adalah perkembangan teknologi terakhir dalam biologi molekul, yang dapat mengukur tingkat ekspresi gen dari puluhan ribu gen secara paralel dan menghasilkan data yang sangat besar dan berharga [BRA00]. Dengan adanya data sebesar ini maka masalah utama yang muncul adalah menganalisis dan menangani data tersebut. II-3 Gambar II-2 Contoh microarray [AND06] Microarray pada dasarnya adalah suatu representasi pada sebuah bidang kaca (atau material lainnya), dimana molekul DNA diikatkan pada titik (spot) tertentu. Terdapat puluhan ribu titik pada sebuah array, masing-masing mengandung sejumlah besar molekul DNA atau fragmen dari molekul yang identik, yang panjangnya berkisar antara puluhan hingga ratusan nukloetida. Contoh cuplikan microarray dapat dilihat pada gambar II-2, dimana baris merepresentasikan gen dari suatu organisme dan kolom merepresentasikan sampel. Data mentah pada eksperimen microarray berbentuk gambar. Untuk mendapatkan data mengenai tingkat ekspresi gen, gambar tersebut harus dianalisis, masing-masing titik diidentifikasi, diukur intensitasnya dan dibandingkan dengan latar belakangnya. Data tersebut kemudian dimasukkan kedalam sebuah hasil akhir berupa matriks ekspresi gen, matriks inilah yang nantinya dianalisis untuk proses lebih lanjut. Pada matriks ini, baris merepresentasikan gen, dan kolom merepresentasikan berbagai macam sampel seperti tisu atau kondisi eksperimen. Angka pada baris dan kolom II-4 yang bersesuaian merepresentasikan tingkat ekspresi gen tertentu pada sampel tertentu. Tabel II-1 Matriks Ekspresi Gen Saccharomyces cerevisiae [EIS05] YORF YHR051W YKL181W YHR124W YHL020C YGR072W … Cell-cycle Alpha-Factor 1 0.03 0.33 0.36 -0.01 0.2 … Cell-cycle Alpha-Factor 2 0.3 -0.2 0.08 -0.03 -0.43 … … … … … … … … Contoh matriks ekspresi gen dapat dilihat pada tabel II-1. Matriks tersebut diambil dari organisme yeast (Saccharomyces cerevisiae). Baris pertama merupakan nama sampel pada kolom tersebut dan kolom pertama merupakan nama gen pada baris tersebut. Selain baris dan kolom yang telah disebutkan berisi tingkat ekspresi gen pada sampel tertentu (kolom) dan gen yang bersangkutan (baris). Contoh matriks ekspresi gen ini telah diperkecil, ukuran aslinya mencapai kurang lebih 6000 gen dan 80 sampel. 2.3 Analisis Data Ekspresi Gen Terdapat dua macam sisi bagaimana data ekspresi gen dianalisis [BRA00]: 1. membandingkan tingkat ekspresi dari masing-masing gen dengan membandingkan baris pada matriks ekspresi gen. 2. membandingkan tingkat ekspresi gen dari masing-masing sampel dengan membandingkan kolom pada matriks ekspresi gen. Dua metode di atas dapat dikombinasikan jika data sudah dinormalkan terlebih dahulu. Pada saat membandingkan baris ataupun kolom, dapat dicari kesamaan maupun perbedaan dari data yang ada. Misalnya, jika ditemukan bahwa ada dua baris yang mirip, maka dapat disimpulkan bahwa kedua gen yang bersangkutan mungkin memiliki fungsi yang mirip dalam sel. Jika yang dibandingkan adalah kolom, dapat dilihat gen mana yang dipengaruhi oleh kondisi sampel tertentu. II-5 Sebelum data dibandingkan, perlu ditemukan cara untuk menghitung kedekatan atau jarak dari dua buah objek yang dibandingkan. Objek – objek tersebut dapat dianggap sebagai sebuah titik pada dimensi n, atau sebuah vektor berdimensi n, dimana n adalah jumlah sampel untuk perbandingan gen, atau jumlah gen untuk perbandingan sampel. Metode yang biasa dipakai adalah penghitungan dengan jarak Euclidean. Jarak Euclidean dihitung dengan mencari akar dari jumlah kuadrat selisih masingmasing dimensi dari dua buah titik. Jika dituliskan sebagai rumus adalah sebagai berikut: d E ( x, y ) = n ∑ (x − y ) i =1 i 2 i Metode ini cukup valid untuk dipakai sebagai perhitungan kesamaan atau jarak dua buah objek yang dibandingkan pada matriks ekspresi gen. Meskipun menurut Alvis Brazma dan Jaak Vilo, tidak ada metode penghitungan jarak yang benar-benar valid [BRA00]. Gambar II-3 Analisis unsupervised (kiri) dan supervised (kanan) [BRA00] Setelah memilih metode penghitungan jarak yang sesuai, data ekspresi gen dapat dianalisis dengan cara supervised atau unsupervised. Pendekatan supervised dilakukan jika untuk beberapa atau semua data, ada informasi tambahan berupa fungsi utama dari gen atau kondisi sakit atau normal pada sampel yang ada. Informasi tambahan ini dapat dimasukkan pada matriks sebagai baris atau kolom tambahan. Dengan adanya informasi ini, tujuan utama analisis adalah membangun sebuah penggolong (classifier) yang mampu memprediksi informasi tambahan dari data baru yang diberikan. Sedangkan tujuan utama analisis unsupervised adalah mengelompokkan data untuk menemukan gen – gen atau sampel – sampel yang saling II-6 berkaitan. Sebagai perbandingan kedua analisis dapat dilihat pada gambar II-3. Misalkan data ekspresi gen digambarkan pada ruang berdimensi 2. Pada gambar di sebelah kiri, titik-titik yang memiliki kemiripan dicoba untuk dikelompokkan, sebagai contoh terdapat 3 cluster pada gambar, masing-masing terdiri dari beberapa titik yang saling berdekatan. Sebuah algoritma untuk analisis unsupervised harus dapat menemukan cluster tersebut. Pada gambar di sebelah kanan, sebagai contoh terdapat titik berisi dan titik berlobang, tujuan dari analisis unsupervised adalah menemukan sebuah aturan untuk menggolongkan titik-titik setepat mungkin. Sebagai contoh, garis putus-putus merupakan garis pemisah antara titik berisi dan titik berlobang. Selanjutnya dibahas satu persatu mengenai analisis supervised dan unsupervised. 2.3.1 Unsupervised Analysis Tujuan utama dari analisis ini adalah mengelompokkan (clustering) objek yang memiliki kesamaan. Pada umumnya, clustering dibagi menjadi 4 model [BRY05]: 1. Exclusive clustering Pada clustering ini, suatu objek hanya termasuk pada satu cluster saja. 2. Overlapping clustering Model clustering ini dapat memasukkan suatu objek pada beberapa cluster sekaligus. 3. Probabilistic clustering Suatu objek pada model clustering ini termasuk pada masing-masing cluster dengan probabilitas tertentu. 4. Hierarchical clustering Pada model clustering ini, semua objek secara kasar dibagi menjadi cluster pada tingkat tertinggi. Untuk setiap cluster, dilakukan pembagian lagi untuk level selanjutnya, hal ini dilakukan hingga cluster beranggotakan sebuah objek saja. Clustering bukan merupakan teknik baru, sudah banyak algoritma dikembangkan dan banyak yang sudah menerapkan algoritma tersebut untuk analisis data ekspresi gen. Untuk clustering data ekspresi gen, model yang umum digunakan adalah exclusive clustering dan hierarchical clustering. Algoritma yang telah digunakan antara lain: II-7 hierarchical, K-means dan self-organizing maps. Seperti pada paper DeRisi, yang menggunakan DNA untuk mempelajari metabolisme yeast. Beberapa penelitian lain dilakukan oleh Brazma, dan Van Helden untuk mempelajari regulasi sel [BRA00]. Algoritma hierarchical berjalan secara iteratif dengan menggabungkan dua cluster terdekat dimulai dengan cluster beranggotakan satu objek. Setelah menggabungkan dua cluster, jarak antara semua cluster yang ada dengan cluster yang baru dihitung ulang. Perlu dicatat bahwa untuk clustering yang lebih baik, perlu ditambahkan batas jarak yang ideal antar cluster yang merupakan masukan dari pengguna. Algoritma II-1 Algoritma K-means [HOO04] 1. Choose k initial center points randomly 2. Cluster data using Euclidean distance (or other distance metric) 3. Calculate new center points for each cluster using only points within the cluster 4. Re-Cluster all data using the new center points 1. This step could cause data points to be placed in a different cluster 5. Repeat steps 3 & 4 until the center points have moved such that in step 4 no data points are moved from one cluster to another or some other convergence criteria is met Algoritma pengelompokan K-means, dapat dilihat pada algoritma II-1, secara khusus menggunakan metode jarak Euclidean untuk menghitung jarak dua objek pada ruang berdimensi n. Pada awalnya, pengguna menentukan berapa banyaknya cluster yang diinginkan. Untuk menentukan jumlah cluster, belum ada teori atau algoritma yang baku [BRY05]. Setelah itu ruang dimensi dibagi menjadi sejumlah cluster sesuai masukan pengguna. Algoritma berjalan secara iteratif dengan menghitung ulang titik tengah masing-masing cluster dan menyesuaikan diri dengan setiap objek yang dimasukkan ke cluster terdekat. Proses ini terus berjalan hingga mencapai keadaan stabil atau batas maksimal iterasi terlampaui. Penentuan cluster awal sebelum algoritma berjalan dapat bermacam-macam, salah satunya ditentukan secara acak. II-8 Analisis unsupervised ini telah digunakan untuk clustering gen maupun sampel. Proses clustering gen untuk menemukan gen-gen yang saling berkaitan fungsinya bisa dilakukan jika terdapat sekumpulan data gen lengkap dari suatu organisme. Beberapa penelitian telah dilakukan untuk menemukan gen-gen yang saling berkaitan dalam fungsi metabolisme sel [BRA00]. Sedangkan untuk mengelompokkan sampel tidak diperlukan data gen lengkap dari suatu organisme, karena dengan hanya sedikit gen dapat dicari nilai kedekatan atau kesamaan dari dua buah sampel. Cluster yang telah dihasilkan dapat diperiksa keabsahannya melalui beberapa cara [HOO04]: 1. ukuran (diameter) cluster dibandingkan dengan jarak antar cluster 2. jarak antara masing-masing anggota cluster dengan pusat cluster 3. diameter dari cluster terkecil 2.3.2 Supervised Analysis Tujuan utama dari analisis supervised dari data ekspresi gen adalah membentuk classifier seperti garis pemisah lanjar, pohon keputusan atau support vector machines (SVM) yang memetakan objek-objek ke suatu kelas tertentu. Sebagai contoh, jika sebuah classifier dapat dibangun dari sejumlah data yang dapat memisahkan sampel yang terkena tumor dan tidak, maka dapat dipakai untuk diagnosa tumor lebih dini. Lebih lanjut lagi, jika classifier tersebut berdasar pada aturan yang sederhana, dapat dipelajari mekanisme dalam pembentukan tumor. Pembentukan classifier didasari pada teori pembelajaran mesin. Sebuah classifier dilatih dengan sejumlah data latih yang sudah diketahui kelasnya. Kemudian, classifier tersebut, dapat berupa aturan atau yang lainnya, diuji dengan sejumlah data uji untuk memeriksa keabsahannya. Jika memenuhi kualitas ketelitian tertentu, classifier dapat digunakan untuk sejumlah data yang belum diketahui kelasnya. Perlu dicatat bahwa, untuk menggolongkan sampel, terdapat masalah dimana atribut data (gen) jauh lebih banyak daripada objek (sampel) yang digolongkan. Hal ini menyebabkan mudahnya menemukan pemisah yang sempurna jika tidak hati-hati dalam membatasi keruwetan classifier yang dibuat. Untuk menghindari masalah II-9 tersebut harus dicari classifier yang sangat sederhana, sambil tetap menjaga akurasi classifier. Kedua analisis di atas dapat digunakan bersama, dengan pada awalnya menggunakan analisis unsupervised untuk mencari cluster dengan keterkaitan tinggi. Kemudian, digunakan analisis supervised pada salah satu cluster saja untuk membatasi jumlah atribut yang terlalu banyak.