1. BAB I PENDAHULUAN 1.1. Latar Belakang Diagnosis kanker dapat dilakukan berdasarkan struktur morfologisnya, namun hal tersebut mengalami kesulitan karena perbedaan struktur morfologis yang sangat tipis antar jenis kanker yang berbeda (Golub et al., 1999). Kesulitan dalam diagnosis kanker juga dapat disebabkan oleh ketidaklengkapan informasi klinis yang tersedia dari seorang pasien serta kemungkinan adanya faktor subjektivitas pada interpretasi data tersebut. Sejumlah kesulitan tersebut telah mendorong beberapa penelitian untuk menentukan jenis kanker berdasarkan tingkat ekspresi gen (Ramaswamy et al., 2001). Tingkat ekspresi gen menunjukkan keaktifan sebuah gen di dalam sel tubuh yang diukur berdasarkan jumlah mRNA di dalam sel tubuh tersebut (Ghanem, 2004). Kematian sel atau pertumbuhan sel yang tidak terkontrol, seperti kanker dapat terjadi karena ekspresi gen yang tidak normal (Hine dan Martin, 2004). Microarray merupakan suatu alat yang dapat digunakan untuk mengukur tingkat ekspresi ribuan gen dari sebuah sampel (pasien) secara simultan dalam sebuah eksperimen (Stekel, 2003). Kemampuan teknologi microarray tersebut menjadikannya banyak digunakan dalam bidang biologi molekuler, salah satunya adalah untuk diagnosis penyakit kanker. Pola ekspresi gen dari sejumlah pasien yang telah diketahui jenis kankernya, dapat digunakan untuk memprediksikan jenis kanker pada pasien yang baru. Permasalahan tersebut disebut sebagai klasifikasi (Ramaswamy et al., 2001; Stekel, 2003; Quackenbush, 2006). Permasalahan penting dalam klasifikasi data microarray adalah jumlah gen yang sangat banyak sebagai dimensi data microarray (high dimensional), namun jumlah sampel terbatas. Jumlah gen dapat mencapai puluhan ribu, sedangkan jumlah sampel hanya berkisar puluhan atau ratusan. Hal tersebut dapat menyebabkan waktu komputasi yang lama (Stekel, 2003) dan overvitting pada classifier (Wang et al, 2013), sehingga diperlukan reduksi dimensi pada data microarray sebelum proses klasifikasi. Salah satu cara untuk reduksi dimensi data 1 2 microarray adalah pemilihan gen (gene selection), yaitu memilih sejumlah gen tertentu yang berfungsi sebagai pembeda di antara sejumlah kelas dalam data sampel (Stekel, 2003). Pendekatan yang dapat diterapkan untuk pemilihan gen secara umum adalah filter dan wrapper (Leung dan Hung, 2010). Pendekatan filter, seperti t-statistic dan F-Test, memberikan skor ke setiap gen secara individual berdasarkan kekuatannya sebagai pembeda (discriminative power) di antara kelas-kelas dalam data sampel, kemudian memilih sejumlah gen tertentu yang memiliki skor tertinggi. Pendekatan filter bersifat sederhana dan dapat dilakukan dengan cepat, namun memiliki beberapa kelemahan, yaitu tidak memperhatikan korelasi antar gen serta tidak ada dukungan teoritis untuk menentukan jumlah gen yang sebaiknya digunakan untuk klasifikasi. Pendekatan wrapper memilih subset gen yang optimal untuk classifier tertentu hingga classifier mampu mencapai akurasi yang diinginkan. Pendekatan wrapper sangat bergantung pada classifier yang digunakan dan membutuhkan waktu komputasi yang sangat lama karena harus mencoba satu per satu kombinasi gen, sehingga pendekatan ini jarang digunakan (Leung dan Hung, 2010). Pendekatan lain yang dapat dilakukan untuk mereduksi dimensi data microarray adalah ekstraksi fitur. Lio (2003) menyatakan bahwa discrete wavelet transform (DWT), yang telah banyak diterapkan untuk pemrosesan sinyal digital, merupakan salah satu metode yang berpotensi untuk ekstraksi fitur data microarray. DWT merupakan salah satu jenis transformasi wavelet yang digunakan untuk mendekomposisi sinyal menjadi bagian frekuensi rendah (koefisien aproksimasi) dan bagian frekuensi tinggi (koefisien detail) (Fugal, 2009). Bagian sinyal yang berisi frekuensi rendah menggambarkan identitas atau karakteristik sinyal (Misiti et al., 2012) sehingga bagian tersebut dapat mencirikan sinyal dan berpotensi digunakan sebagai fitur sinyal. Liu (2008) menyatakan bahwa koefisien aproksimasi dapat mengkompres dan mereduksi data microarray. Beberapa penelitian mengenai ekstraksi fitur pada data microarray menggunakan DWT telah dilakukan (Li et al., 2006; Liu, 2008; Liu 2009) dan menunjukkan bahwa penggunaaan DWT dapat membantu classifier untuk menghasilkan akurasi lebih dari 90%. 3 Tahap berikutnya setelah reduksi dimensi adalah klasifikasi. Berbagai penelitian mengenai klasifikasi data microarray yang terdiri atas dua kelas (klasifikasi biner) telah banyak dilakukan dan memberikan hasil yang baik (Li et al., 2006; Huynh et al., 2007; Liu, 2008; Zhang et al., 2010; Rashid dan Maruf, 2011). Namun, hasil penelitian pada klasifikasi data microarray yang terdiri lebih dari dua kelas (klasifikasi multikelas) tidak sebaik pada klasifikasi biner. Hal tersebut dikarenakan semakin banyak jumlah kelas maka semakin tinggi tingkat kesulitan dalam permasalahan klasifikasi (Stanikov et al., 2005). Metode SVM (support vector machine) menghasilkan akurasi yang cukup tinggi dalam permasalahan klasifikasi biner (Li et al., 2006; Liu, 2008, 2009; Zhang et al., 2010; Rashid dan Maruf, 2011), namun saat jumlah kelas bertambah, SVM tidak dapat digunakan secara langsung dan harus dimodifikasi, misalnya SVM-OVA (one-versus-all) atau SVM-OVO (one-versus-one). Hal tersebut meningkatkan kompleksitas classifier sehingga membutuhkan resource komputasi yang lebih besar (Zhang et al., 2007). Jaringan syaraf tiruan (JST) atau artificial neural network dapat diterapkan secara langsung untuk klasifikasi multikelas, namun algoritma pelatihan yang banyak diterapkan pada JST, yaitu gradient descent learning, masih memiliki beberapa kelemahan, misalnya dapat terjebak pada local minima dan waktu pelatihan yang lama. Huang et al. (2004) mengembangkan extreme learning machine (ELM), yaitu algoritma pelatihan untuk single-hidden-layer feedforward neural network yang dapat mengatasi kelemahan pada gradient descent learning. ELM mampu melakukan pelatihan dalam waktu cepat karena tidak memerlukan iterasi, serta tetap menghasilkan kemampuan generalisasi yang baik (Huang et al., 2004). Penggunaan ELM pada feedforward neural network dengan fungsi aktivasi sigmoid untuk klasifikasi data microarray multikelas telah dilakukan pada penelitian Zhang et al. (2007). Hasilnya menunjukkan bahwa ELM mampu menghasilkan akurasi yang lebih baik daripada SVM saat jumlah kelas semakin banyak. Monedero et al. (2010) membandingkan penerapan ELM pada feedforward neural network yang menggunakan fungsi aktivasi sigmoid dengan 4 ELM pada RBFN (radial basis function network) untuk klasifikasi data microarray dan menunjukkan bahwa ELM yang diterapkan pada RBFN dapat memberikan performa yang lebih baik. Huang et al. (2012) mengembangkan ELM untuk generalized single-hidden-layer feedforward network (SLFN) yang memiliki performa lebih baik dibanding ELM semula dalam permasalahan klasifikasi (biner maupun multikelas). Kelebihan lain dari ELM adalah parameter pada hidden layer dapat dikomputasi secara random dan tidak perlu diperbaharui, sehingga independen terhadap data latih (Huang et al., 2012). Penelitian ini melakukan klasifikasi data microarray multikelas menggunakan DWT untuk reduksi dimensi atau ekstraksi fitur data microarray dan ELM untuk klasifikasi sebab DWT memiliki kemampuan yang baik untuk ekstraksi fitur data microarray (Li et al., 2006; Liu, 2008; Rashid dan Maruf, 2011) dan ELM memiliki performa yang bagus untuk klasifikasi multikelas (Zhang et al., 2007). ELM yang digunakan adalah ELM yang dikembangkan oleh Huang et al. (2012) karena ELM tersebut memiliki performa yang lebih baik dibanding ELM yang semula. ELM tersebut akan diterapkan pada RBFN karena penggunaan ELM pada RBFN memberikan hasil yang lebih baik daripada feedforward neural network dengan fungsi aktivasi sigmoid (Monedero et al., 2010). Performa sebuah classifier umumnya dinyatakan dengan akurasi, yaitu kemampuan classifier untuk mengenali seluruh data dengan benar, namun nilai akurasi yang tinggi belum tentu menunjukkan tingkat pengenalan yang baik pula pada setiap kelas data (Han dan Kamber, 2006). Oleh karena itu, di samping akurasi perlu dilihat pula tingkat pengenalan pada setiap kelas atau sensitivity tiap kelas. Classifier yang baik adalah classifier yang dapat menghasilkan nilai akurasi dan sensitivity tiap kelas yang tinggi (Zhang et al., 2007). Pada klasifikasi multikelas dapat digunakan minimum senisitivity yang menunjukkan kemampuan minimal classifier untuk mengenali data pada tiap kelas (Monedero et al., 2010). Oleh karena itu, classifier yang dibangun pada penelitian ini diukur nilai akurasi dan minimum sensitivity-nya untuk menunjukkan performa classifier yang dihasilkan. 5 1.2. Rumusan Masalah Rumusan masalah dalam penelitian ini adalah bagimana membangun sistem untuk klasifikasi data microarray yang memiliki lebih dari dua kelas (multikelas) dan memiliki dimensi yang tinggi, sehingga bagaimana cara yang digunakan untuk reduksi dimensi data microarray tersebut. 1.3. Batasan Masalah Dataset yang digunakan dalam penelitian ini adalah dataset microarray multikelas, yaitu dataset GCM (Global Cancer Map) yang terdiri atas 14 kelas dan dataset Subtypes-Leukemia yang terdiri atas 7 kelas. 1.4. Tujuan dan Manfaat Penelitian Tujuan penelitian ini adalah membangun sistem untuk klasifikasi data microarray multikelas menggunakan DWT untuk reduksi dimensi dan ELM pada RBFN untuk klasifikasi. Manfaat yang didapat dari penelitian ini adalah mengkaji penggunaan DWT untuk reduksi dimensi dan ELM pada RBFN sebagai classifier dalam permasalahan klasifikasi multikelas data microarray. Penelitian ini juga dapat digunakan untuk memprediksikan jenis kanker (pada GCM dan SubtypesLeukemia) berdasarkan tingkat ekspresi gen yang didapat dari hasil eksperimen microarray. 1.5. Metodologi Penelitian Tahap-tahap yang dilakukan dalam penelitian ini adalah sebagai berikut: 1) Studi pustaka dan literatur Tahapan ini dilakukan dengan mengumpulkan, membaca dan memahami berbagai pustaka dan literatur yang berkaitan dengan peneilitian ini, antara lain data microarray, discrete wavelet transform (DWT), radial basis function network (RBFN), extreme learning machine (ELM) dan pengujian hasil klasifikasi. 2) Pengumpulan data Tahapan ini dilakukan dengan mengumpulkan dataset microarray yang digunakan dalam penelitian ini, yaitu dataset GCM dan dataset SubtypesLeukemia. 6 3) Analisis dan perancangan Penyusunan langkah-langkah dan pemilihan metode yang digunakan untuk membangun sistem klasifikasi data microarray meliputi prapemrosesan, ekstraksi fitur, klasifikasi dan pengujian dengan mengacu pada landasan teori maupun penelitian-penelitian sebelumnya yang telah dikaji. 4) Implementasi Metode yang digunakan untuk pembagunan sistem klasifikasi data microarray dalam penelitian ini diimplementasikan ke dalam bahasa pemograman Matlab. 5) Pengujian dan pembahasan Sistem yang telah diimplementasikan diuji menggunakan dataset GCM dan dataset Subtypes-Leukemia, kemudian dihitung nilai akurasi dan minimum sensitivity dari sistem tersebut. Hasil yang didapat dari pengujian dicatat dan dianalisis. 1.6. Sistematika Penelitian BAB I PENDAHULUAN Bab ini berisi latar belakang, rumusan masalah, batasan masalah, tujuan dan manfaat, metodologi penelitian dan sistematika penulisan dalam penyusunan tesis ini. BAB II TINJAUAN PUSTAKA Bab ini berisi hasil kajian terhadap penelitian-penelitian sebelumnya yang berkaitan dengan klasifikasi data microarray sebagai bahan referensi dalam penelitian ini. BAB III LANDASAN TEORI Bab ini berisi uraian dasar teori yang berkaitan dengan penelitian ini yang digunakan sebagai referensi untuk menyelesaikan permasalahan dalam penelitian ini. BAB IV ANALISIS DAN PERANCANGAN SISTEM Bab ini berisi analisis dan perancangan sistem yang digunakan sebagai acuan dalam penyelesaian masalah, serta rancangan pelatihan dan pengujian yang akan dilakukan dalam penelitian. 7 BAB V IMPLEMENTASI Bab ini berisi implementasi kode program dari analisis dan perancangan yang telah diuraian pada bagian sebelumnya. BAB VI HASIL DAN PEMBAHASAN Bab ini berisi hasil dan pembahasan pengujian (analisis hasil percobaan) penelitan yang telah dilakukan. BAB VII KESIMPULAN DAN SARAN Bab ini berisi kesimpulan dari penelitian yang telah dilakukan dan saran untuk penelitian selanjutnya.