1. bab i pendahuluan

advertisement
1. BAB I
PENDAHULUAN
1.1. Latar Belakang
Diagnosis kanker dapat dilakukan berdasarkan struktur morfologisnya,
namun hal tersebut mengalami kesulitan karena perbedaan struktur morfologis
yang sangat tipis antar jenis kanker yang berbeda (Golub et al., 1999). Kesulitan
dalam diagnosis kanker juga dapat disebabkan oleh ketidaklengkapan informasi
klinis yang tersedia dari seorang pasien serta kemungkinan adanya faktor
subjektivitas pada interpretasi data tersebut. Sejumlah kesulitan tersebut telah
mendorong beberapa penelitian untuk menentukan jenis kanker berdasarkan
tingkat ekspresi gen (Ramaswamy et al., 2001). Tingkat ekspresi gen
menunjukkan keaktifan sebuah gen di dalam sel tubuh yang diukur berdasarkan
jumlah mRNA di dalam sel tubuh tersebut (Ghanem, 2004). Kematian sel atau
pertumbuhan sel yang tidak terkontrol, seperti kanker dapat terjadi karena ekspresi
gen yang tidak normal (Hine dan Martin, 2004).
Microarray merupakan suatu alat yang dapat digunakan untuk mengukur
tingkat ekspresi ribuan gen dari sebuah sampel (pasien) secara simultan dalam
sebuah eksperimen (Stekel, 2003). Kemampuan teknologi microarray tersebut
menjadikannya banyak digunakan dalam bidang biologi molekuler, salah satunya
adalah untuk diagnosis penyakit kanker. Pola ekspresi gen dari sejumlah pasien
yang telah diketahui jenis kankernya, dapat digunakan untuk memprediksikan
jenis kanker pada pasien yang baru. Permasalahan tersebut disebut sebagai
klasifikasi (Ramaswamy et al., 2001; Stekel, 2003; Quackenbush, 2006).
Permasalahan penting dalam klasifikasi data microarray adalah jumlah gen
yang sangat banyak sebagai dimensi data microarray (high dimensional), namun
jumlah sampel terbatas. Jumlah gen dapat mencapai puluhan ribu, sedangkan
jumlah sampel hanya berkisar puluhan atau ratusan. Hal tersebut dapat
menyebabkan waktu komputasi yang lama (Stekel, 2003) dan overvitting pada
classifier (Wang et al, 2013), sehingga diperlukan reduksi dimensi pada data
microarray sebelum proses klasifikasi. Salah satu cara untuk reduksi dimensi data
1
2
microarray adalah pemilihan gen (gene selection), yaitu memilih sejumlah gen
tertentu yang berfungsi sebagai pembeda di antara sejumlah kelas dalam data
sampel (Stekel, 2003). Pendekatan yang dapat diterapkan untuk pemilihan gen
secara umum adalah filter dan wrapper (Leung dan Hung, 2010). Pendekatan
filter, seperti t-statistic dan F-Test, memberikan skor ke setiap gen secara
individual berdasarkan kekuatannya sebagai pembeda (discriminative power) di
antara kelas-kelas dalam data sampel, kemudian memilih sejumlah gen tertentu
yang memiliki skor tertinggi. Pendekatan filter bersifat sederhana dan dapat
dilakukan dengan cepat, namun memiliki beberapa kelemahan, yaitu tidak
memperhatikan korelasi antar gen serta tidak ada dukungan teoritis untuk
menentukan jumlah gen yang sebaiknya digunakan untuk klasifikasi. Pendekatan
wrapper memilih subset gen yang optimal untuk classifier tertentu hingga
classifier mampu mencapai akurasi yang diinginkan. Pendekatan wrapper sangat
bergantung pada classifier yang digunakan dan membutuhkan waktu komputasi
yang sangat lama karena harus mencoba satu per satu kombinasi gen, sehingga
pendekatan ini jarang digunakan (Leung dan Hung, 2010).
Pendekatan lain yang dapat dilakukan untuk mereduksi dimensi data
microarray adalah ekstraksi fitur. Lio (2003) menyatakan bahwa discrete wavelet
transform (DWT), yang telah banyak diterapkan untuk pemrosesan sinyal digital,
merupakan salah satu metode yang berpotensi untuk ekstraksi fitur data
microarray. DWT merupakan salah satu jenis transformasi wavelet yang
digunakan untuk mendekomposisi sinyal menjadi bagian frekuensi rendah
(koefisien aproksimasi) dan bagian frekuensi tinggi (koefisien detail) (Fugal,
2009). Bagian sinyal yang berisi frekuensi rendah menggambarkan identitas atau
karakteristik sinyal (Misiti et al., 2012) sehingga bagian tersebut dapat mencirikan
sinyal dan berpotensi digunakan sebagai fitur sinyal. Liu (2008) menyatakan
bahwa koefisien aproksimasi dapat mengkompres dan mereduksi data microarray.
Beberapa penelitian mengenai ekstraksi fitur pada data microarray menggunakan
DWT telah dilakukan (Li et al., 2006; Liu, 2008; Liu 2009) dan menunjukkan
bahwa penggunaaan DWT dapat membantu classifier untuk menghasilkan akurasi
lebih dari 90%.
3
Tahap berikutnya setelah reduksi dimensi adalah klasifikasi. Berbagai
penelitian mengenai klasifikasi data microarray yang terdiri atas dua kelas
(klasifikasi biner) telah banyak dilakukan dan memberikan hasil yang baik (Li et
al., 2006; Huynh et al., 2007; Liu, 2008; Zhang et al., 2010; Rashid dan Maruf,
2011). Namun, hasil penelitian pada klasifikasi data microarray yang terdiri lebih
dari dua kelas (klasifikasi multikelas) tidak sebaik pada klasifikasi biner. Hal
tersebut dikarenakan semakin banyak jumlah kelas maka semakin tinggi tingkat
kesulitan dalam permasalahan klasifikasi (Stanikov et al., 2005). Metode SVM
(support vector machine) menghasilkan akurasi yang cukup tinggi dalam
permasalahan klasifikasi biner (Li et al., 2006; Liu, 2008, 2009; Zhang et al.,
2010; Rashid dan Maruf, 2011), namun saat jumlah kelas bertambah, SVM tidak
dapat digunakan secara langsung dan harus dimodifikasi, misalnya SVM-OVA
(one-versus-all) atau SVM-OVO (one-versus-one). Hal tersebut meningkatkan
kompleksitas classifier sehingga membutuhkan resource komputasi yang lebih
besar (Zhang et al., 2007).
Jaringan syaraf tiruan (JST) atau artificial neural network dapat diterapkan
secara langsung untuk klasifikasi multikelas, namun algoritma pelatihan yang
banyak diterapkan pada JST, yaitu gradient descent learning, masih memiliki
beberapa kelemahan, misalnya dapat terjebak pada local minima dan waktu
pelatihan yang lama. Huang et al. (2004) mengembangkan extreme learning
machine (ELM), yaitu algoritma pelatihan untuk single-hidden-layer feedforward
neural network yang dapat mengatasi kelemahan pada gradient descent learning.
ELM mampu melakukan pelatihan dalam waktu cepat karena tidak memerlukan
iterasi, serta tetap menghasilkan kemampuan generalisasi yang baik (Huang et al.,
2004).
Penggunaan ELM pada feedforward neural network dengan fungsi aktivasi
sigmoid untuk klasifikasi data microarray multikelas telah dilakukan pada
penelitian Zhang et al. (2007). Hasilnya menunjukkan bahwa ELM mampu
menghasilkan akurasi yang lebih baik daripada SVM saat jumlah kelas semakin
banyak. Monedero et al. (2010) membandingkan penerapan ELM pada
feedforward neural network yang menggunakan fungsi aktivasi sigmoid dengan
4
ELM pada RBFN (radial basis function network) untuk klasifikasi data
microarray dan menunjukkan bahwa ELM yang diterapkan pada RBFN dapat
memberikan performa yang lebih baik. Huang et al. (2012) mengembangkan
ELM untuk generalized single-hidden-layer feedforward network (SLFN) yang
memiliki performa lebih baik dibanding ELM semula dalam permasalahan
klasifikasi (biner maupun multikelas). Kelebihan lain dari ELM adalah parameter
pada hidden layer dapat dikomputasi secara random dan tidak perlu diperbaharui,
sehingga independen terhadap data latih (Huang et al., 2012).
Penelitian
ini
melakukan
klasifikasi
data
microarray
multikelas
menggunakan DWT untuk reduksi dimensi atau ekstraksi fitur data microarray
dan ELM untuk klasifikasi sebab DWT memiliki kemampuan yang baik untuk
ekstraksi fitur data microarray (Li et al., 2006; Liu, 2008; Rashid dan Maruf,
2011) dan ELM memiliki performa yang bagus untuk klasifikasi multikelas
(Zhang et al., 2007). ELM yang digunakan adalah ELM yang dikembangkan oleh
Huang et al. (2012) karena ELM tersebut memiliki performa yang lebih baik
dibanding ELM yang semula. ELM tersebut akan diterapkan pada RBFN karena
penggunaan ELM pada RBFN memberikan hasil yang lebih baik daripada
feedforward neural network dengan fungsi aktivasi sigmoid (Monedero et al.,
2010).
Performa sebuah classifier umumnya dinyatakan dengan akurasi, yaitu
kemampuan classifier untuk mengenali seluruh data dengan benar, namun nilai
akurasi yang tinggi belum tentu menunjukkan tingkat pengenalan yang baik pula
pada setiap kelas data (Han dan Kamber, 2006). Oleh karena itu, di samping
akurasi perlu dilihat pula tingkat pengenalan pada setiap kelas atau sensitivity tiap
kelas. Classifier yang baik adalah classifier yang dapat menghasilkan nilai akurasi
dan sensitivity tiap kelas yang tinggi (Zhang et al., 2007). Pada klasifikasi
multikelas dapat digunakan minimum senisitivity yang menunjukkan kemampuan
minimal classifier untuk mengenali data pada tiap kelas (Monedero et al., 2010).
Oleh karena itu, classifier yang dibangun pada penelitian ini diukur nilai akurasi
dan minimum sensitivity-nya untuk menunjukkan performa classifier yang
dihasilkan.
5
1.2. Rumusan Masalah
Rumusan masalah dalam penelitian ini adalah bagimana membangun sistem
untuk klasifikasi data microarray yang memiliki lebih dari dua kelas (multikelas)
dan memiliki dimensi yang tinggi, sehingga bagaimana cara yang digunakan
untuk reduksi dimensi data microarray tersebut.
1.3. Batasan Masalah
Dataset yang digunakan dalam penelitian ini adalah dataset microarray
multikelas, yaitu dataset GCM (Global Cancer Map) yang terdiri atas 14 kelas
dan dataset Subtypes-Leukemia yang terdiri atas 7 kelas.
1.4. Tujuan dan Manfaat Penelitian
Tujuan penelitian ini adalah membangun sistem untuk klasifikasi data
microarray multikelas menggunakan DWT untuk reduksi dimensi dan ELM pada
RBFN untuk klasifikasi. Manfaat yang didapat dari penelitian ini adalah mengkaji
penggunaan DWT untuk reduksi dimensi dan ELM pada RBFN sebagai classifier
dalam permasalahan klasifikasi multikelas data microarray. Penelitian ini juga
dapat digunakan untuk memprediksikan jenis kanker (pada GCM dan SubtypesLeukemia) berdasarkan tingkat ekspresi gen yang didapat dari hasil eksperimen
microarray.
1.5. Metodologi Penelitian
Tahap-tahap yang dilakukan dalam penelitian ini adalah sebagai berikut:
1) Studi pustaka dan literatur
Tahapan ini dilakukan dengan mengumpulkan, membaca dan memahami
berbagai pustaka dan literatur yang berkaitan dengan peneilitian ini, antara lain
data microarray, discrete wavelet transform (DWT), radial basis function
network (RBFN), extreme learning machine (ELM) dan pengujian hasil
klasifikasi.
2) Pengumpulan data
Tahapan ini dilakukan dengan mengumpulkan dataset microarray yang
digunakan dalam penelitian ini, yaitu dataset GCM dan dataset SubtypesLeukemia.
6
3) Analisis dan perancangan
Penyusunan langkah-langkah dan pemilihan metode yang digunakan untuk
membangun sistem klasifikasi data microarray meliputi prapemrosesan,
ekstraksi fitur, klasifikasi dan pengujian dengan mengacu pada landasan teori
maupun penelitian-penelitian sebelumnya yang telah dikaji.
4) Implementasi
Metode yang digunakan untuk pembagunan sistem klasifikasi data microarray
dalam penelitian ini diimplementasikan ke dalam bahasa pemograman Matlab.
5) Pengujian dan pembahasan
Sistem yang telah diimplementasikan diuji menggunakan dataset GCM dan
dataset Subtypes-Leukemia, kemudian dihitung nilai akurasi dan minimum
sensitivity dari sistem tersebut. Hasil yang didapat dari pengujian dicatat dan
dianalisis.
1.6. Sistematika Penelitian
BAB I
PENDAHULUAN
Bab ini berisi latar belakang, rumusan masalah, batasan masalah,
tujuan dan manfaat, metodologi penelitian dan sistematika penulisan
dalam penyusunan tesis ini.
BAB II
TINJAUAN PUSTAKA
Bab ini berisi hasil kajian terhadap penelitian-penelitian sebelumnya
yang berkaitan dengan klasifikasi data microarray sebagai bahan
referensi dalam penelitian ini.
BAB III
LANDASAN TEORI
Bab ini berisi uraian dasar teori yang berkaitan dengan penelitian ini
yang
digunakan
sebagai
referensi
untuk
menyelesaikan
permasalahan dalam penelitian ini.
BAB IV
ANALISIS DAN PERANCANGAN SISTEM
Bab ini berisi analisis dan perancangan sistem yang digunakan
sebagai acuan dalam penyelesaian masalah, serta rancangan
pelatihan dan pengujian yang akan dilakukan dalam penelitian.
7
BAB V
IMPLEMENTASI
Bab ini berisi implementasi kode program dari analisis dan
perancangan yang telah diuraian pada bagian sebelumnya.
BAB VI
HASIL DAN PEMBAHASAN
Bab ini berisi hasil dan pembahasan pengujian (analisis hasil
percobaan) penelitan yang telah dilakukan.
BAB VII
KESIMPULAN DAN SARAN
Bab ini berisi kesimpulan dari penelitian yang telah dilakukan dan
saran untuk penelitian selanjutnya.
Download