5 BAB 2 TINJAUAN PUSTAKA 2.1 Definisi Pengolahan Citra Citra disebut sebagai gambaran dari objek yang telah mengalami perubahan dalam pengolahan. Pengolahan citra digital adalah suatu metode yang digunakan untu mengolah citra digital (gambar/image) sehingga menghasilkan gambar yang sesuai dengan kebutuhan. Proses ini berupa manipulasi dan menganalisa citra dengan bantuan komputer. Operasi pengolahan citra digital umumnya dilakukan dengan tujuan memperbaiki kualitas gambar sehingga dapat diinpretasi oleh mata manusia dan untuk mengolah informasi yang terdapat pada suatu gambar untuk pengenalan objek secara otomatis. 2.1.1 Citra Digital Citra adalah gambar pada bidang dwimatra (dua dimensi). Ditinjau dari sudut pandang matematis, citra merupakan fungsi terus-menerus (continue) dari intensitas cahaya pada bidang dwimatra. Sumber cahaya menerangi objek, objek ditangkap oleh alat-alat optik misalnya mata pada manusia, kamera, pemindai (scanner) dan sebagainya sehingga bayangan objek yang disebut citra tersebut terekam. Sebuah citra adalah kumpulan pikselpiksel yang disusun dalam larik dua dimensi. Citra digital merupakan suatu larik dua dimensi atau suatu matriks yang elemenelemennya menyatakan tingkat keabuan dari elemen gambar. Jadi informasi yang terkandung bersifat diskret. Citra digital tidak selalu merupakan hasil langsung data rekaman suatu sistem. Kadang-kadang hasil rekaman data bersifat kontinu seperti gambar pada monitor televisi, foto x-ray, dan lain sebagainya. Dengan demikian untuk mendapatkan suatu citra digital diperlukan suatu proses konversi, sehingga citra tersebut selanjutnya dapat diproses dengan komputer. Universitas Sumatera Utara 6 2.2 Tujuan Pengolahan Citra Tujuan dari pengolahan citra adalah untuk mendapatkan informasi dari citra dan menghasilkan citra yang diinginkan. Terlebih dahulu citra harus diolah sebelum masuk ke proses. 2.2.1 Pembentukan Matriks Biner (Binarization) Proses ini akan menghasilkan citra hitam putih yang bersih dari tingkat keabun (grayscale), atau dengan kata lain metode ini mengonversi citra gray-level ke citra bilevel (binary image). Pada tahap ini setiap nilai pixel RGB akan diambil nilai rata-ratanya untuk kemudian dicek, jika nilai yang dihasilkan kurang dari nilai threshold yang dihasilkan maka nilai pixel tersebut diubah menjadi warna hitam, sebaliknya jika lebih besar dari nilai konstan maka akan diubah menjadi warna putih (Bandyopadhyay, 2010). Proses thresholding akan memproses citra yang memiliki nilai dengan intensitas kurang dari nilai ambang (T) akan di set menjadi 0 dan yang lebih dari atau sama dengan nilai ambang (T) akan di set menjadi 1. Operasi nilai ambang (thresholding) dilakukan dengan persamaan 3.1 berikut: ( ) { ( ( ) ) (2.1) Metode Otsu akan memberikan nilai threshold atau nilai ambang (T) yang optimal secara otomatis. Nilai ambang ini sangat penting karena dari nilai ambang ini akan ditentukan batasan-batasan untuk membuat segmentasi pada citra. 2.2.2 Thinning Thinning adalah proses pengurangan data yang mengikis (erode) sebuah objek hingga menjadi ukuran 1 piksel dan menghasilkan kerangka (skeleton) dari objek tersebut. Objek seperti huruf atau silhouettes dapat lebih mudah dikenali dengan melihat kepada kerangkanya saja (Samir, 2010). Pada penelitian ini digunakan algoritma thinning ZhangSuen. Universitas Sumatera Utara 7 Algoritma ini untuk citra biner, dimana piksel background citra bernilai 0, dan piksel foreground (region) bernilai 1. Algoritma ini cocok untuk aplikasi OCR (Optical Character Recognition), yang digunakan untuk bentuk yang diperpanjang (elongated). Algoritma ini terdiri dari beberapa penelusuran, dimana setiap penelusurannya terdiri dari 2 langkah dasar yang diaplikasikan terhadap titik yang pikselnya bernilai 1, dan memiliki paling sedikit 1 piksel dari 8-tetangganya yang bernilai 0. 2.3 Teori Kanker Payudara Kanker payudara merupakan jenis kanker yang paling umum diderita oleh wanita saat ini. Kanker payudara merupakan jenis kanker dengan angka kematian tertinggi pada wanita. Menurut Timp (2006) kisaran 22% dari semua jenis kanker yang terjadi pada wanita adalah kanker payudara Penyakit ini terjadi dimana sel-sel tidak normal (kanker) terbentuk pada jaringan payudara. 2.3.1 Tumor Payudara Tumor adalah benjolan tidak normal akibat pertumbuhan sel yang terjadi secara terus menerus. Tumor terbagi atas dua jenis, yaitu tumor jinak dan tumor ganas yang disebut dengan kanker. Sel kanker dapat menyebar ke seluruh tubuh sehingga penyakit ini dapat mematikan. Kanker payudara merupakan penyakit kanker yang menyerang pada kelenjar air susu, saluran kelenjar dan jaringan penunjang payudara. Untuk mengurangi faktor resiko, maka salah satu upaya yang dilakukan adalah melakukan pemeriksaan sedini mungkin. Tiga tahapan untuk melakukan pemeriksaan dini tersebut adalah (1) pemeriksaan sendiri, (2) pemeriksaan yang dilakukan oleh tenaga medis yang bertujuan untuk mengkonfirmasi hasil pemeriksaan sendiri atau bila terjadi keluhan dan (3) pemeriksaan lanjutan untuk melengkapi pemeriksaan dokter dilakukan dengan menggunakan alat bantu seperti mammogram yang menggunakan sinar-X sebagai sumber cahaya untuk menghasilkan sebuah citra. Universitas Sumatera Utara 8 Untuk pengambilan citra payudara, dilakukan dengan menggunakan 2 titik pandang pada kedua payudara. Titik pandang yang dimaksud adalah MLO (MedioLateral Oblique) mengambil titik pandang dari samping payudara dan CC (CranioCaudal) mengambil titik pandang dari atas ke bawah payudara (Malagelada, 2007). Setiap pengambilan citra selalu dilakukan untuk payudara kanan dan kiri. Berdasarkan citra yang diperoleh dari hasil pemeriksaan mamografi ini maka dapat dilihat normal atau tidaknya payudara. Gambar 2.3 menunjukkan citra hasil mamografi normal dimana kedua payudara terlihat simetris dengan strukturjaringan normal. (a)Right MLO (b)Left MLO Gambar 2.1. Citra Payudara Normal (Malagelada, 2007). Gambar 2.2 menunjukkan bahwa payudara sebelah kiri (yang diberi lingkaran merah) mengidentifikasikan adanya benjolan dan berdasarkan hasil pemeriksaan dokter ahli, citra di bawah ini termasuk ke dalam kelompok kasus tumor payudara jinak. Universitas Sumatera Utara 9 (a)Right MLO (b)Left MLO Gambar 2.2 Citra Tumor Payudara Jinak (Malagelada, 2007). Gambar 2.3 menunjukkan noda-noda terang berintensitas tinggi (yang diberi lingkaran merah) pada payudara sebelah kiri dan menurut dokter ahli, citra di bawah ini termasuk ke dalam kelompok tumor payudara ganas. (a)Right MLO (b)Left MLO Gambar 2.3 Citra Tumor Payudara Ganas (Malagelada, 2007). Berdasarkan karakteristik citra mamografi yang tampak secara visual, para dokter ahli dapat mengelompokkan tumor payudara berdasarkan pada benjolan dan batas tepi dalam Universitas Sumatera Utara 10 dua kelompok yaitu tumor jinak dan tumor ganas. Benjolan dapat dibedakan dalam 5 bentuk dasar yaitu oval, round, lobulated, irregular dan architectural distortion. (1) Bentuk dasar oval (2) Bentuk dasar roud (3) Bentuk dasar lobulated (4) Bentuk dasar irregular (5) Bentuk dasar architectural distortion Gambar 2.4 Bentuk Dasar Benjolan (Malagelada, 2007). Berdasarkan bentuk benjolan, tumor payudara dapat dikelompokkan menjadi tumor jinak atau ganas. Tabel 2.1 Kategori Tumor Jinak atau Ganas Berdasarkan Bentuk Benjolan No Nama Bentuk Benjolan Kategori 1. oval Tumor Jinak 2. roud Tumor Jinak 3. lobulated Tumor Ganas 4. irregular Tumor Ganas 5. architectural distortion Tumor Ganas (Malagelada, 2007). Universitas Sumatera Utara 11 Sedangkan batas tepi dapat dibedakan juga dalam 5 jenis, yaitu (1) circumscribed dapat menentukan dengan jelas transisi yang tajam antara luka dan sekitar jaringan, (2) obscured sebagian tertutup oleh jaringan normal, (3) micro-lobulated berbentuk lingkaran yang berombak sepanjang tepi, (4) ill-defined bersifat menyebar dan (5) speculated berupa penyebaran garis tipis. (1) batas tepi circumscribed (2) batas tepi obscured (3) batas tepi micro-lobulated (4) batas tepi ill-defined (5) batas tepi spiculated Gambar 2.5 Bentuk Dasar Batas Tepi (Malagelada, 2007). Berdasarkan bentuk batas tepi inilah, tumor payudara dapat dikelompokkan menjadi tumor jinak atau ganas. Universitas Sumatera Utara 12 Tabel 2.2 Kategori Tumor Jinak atau Ganas Berdasarkan Bentuk Batas Tepi No Nama Bentuk Batas Tepi Kategori 1. Circumscribed Tumor Jinak 2. Obscured Tumor Jinak 3. micro-lobulated Tumor Ganas 4. ill-defined Tumor Ganas 5. Speculated Tumor Ganas (Malagelada, 2007). 2.3.2 Citra Mammogram Mamografi (mammography) merupakan metode pencitraan payudara dengan menggunakan sinar X berdosis rendah (umumnya berkisar 0,7 mSv). Tes yang sesungguhnya disebut mammogram yang digunakan untuk melihat beberapa tipe tumor dan kista, dan telah terbukti dapat mengurangi mortalitas akibat kanker payudara. Sebagaimana penggunaan sinar-x lainnya, mammogram menggunakan radiasi ion untuk menghasilkan gambar. Radiolog kemudian menganalisa gambar untuk menemukan adanya pertumbuhan yang abnormal. Gambar 2.6 Citra Mammogram Sumber : http://abacus.ee.cityu.edu.hk/imagedb/cgi-bin/ ibrowser/ibrowser.cgi? folder=/ Medical_Image/mammogram/. Universitas Sumatera Utara 13 2.4 Ekstraksi Fitur (Feature Extraction) Feature extraction adalah proses pengukuran terhadap data yang telah dinormalisasi untuk membentuk sebuah nilai fitur. Nilai fitur digunakan oleh pengklasifikasi untuk mengenali unit masukan dengan unit target keluaran dan memudahkan pengklasifikasian karena nilai ini mudah untuk dibedakan (Kartar, et al 2011). Secara luas, fitur adalah semua hasil pengukuran yang bisa diperoleh. Fitur juga bisa menggambarkan karakteristik objek yang dipantau (Putra, 2009). Contoh dari fitur level rendah adalah intensitas sinyal. Fitur bisa berupa simbol, numerik atau keduanya. Contoh dari fitur simbol adalah warna. Contoh dari fitur numerik adalah berat. Fitur bisa diperoleh dengan mengaplikasikan algoritma pencari fitur pada data masukan. Fitur dapat dinyatakan dengan variabel kontinu, diskret atau diskret-biner. Fitur biner dapat digunakan untuk menyatakan ada tidaknya suatu fitur tertentu (Putra, 2009). Fitur yang baik memiliki syarat berikut, yaitu mudah dalam komputasi, memiliki tingkat keberhasilan yang tinggi dan besarnya data dapat diperkecil tanpa menghilangkan informasi penting (Putra, 2009). 2.5 Zoning Zoning merupakan salah satu metode feature extraction dari tipe statistical feature. Metode zoning adalah metode yang membagi karakter menjadi N x M wilayah. Dari setiap wilayah, feature diekstraksi untuk membentuk feature vector. Zoning digunakan untuk analisis informasi lokal pada partisi dari sebuah pola yang diberikan. Element pada partisi digunakan untuk mengidentifikasi pola fitur karakter. Wilayah ukuran zona atau wilayah pada zoning bisa memilkiki ukuran yang sama, bisa juga tidak. Tujuan dari metode zoning yaitu memperoleh karakteristik lokal disamping karakteristik global. Zoning digunakan untuk menghitung jumlah pixel putih pada suatu zona tertentu (Gatos, et al 2011). Dapat dilihat seperti contoh gambar dibawah ini : Universitas Sumatera Utara 14 Gambar 2.7 Zoning Metode Feature extraction dilakukan setelah proses preprocessing dilakukan dengan menggunakan metode zoning. Metode zoning membagi karakter ke dalam NxM wilayah, dimana setiap wilayah atau tiap segmen besarnya N/5pixel x M/5pixel. Dari tiap segmen dicari pixel hitam atau putih yang mengidentifikasi ciri angka yang diekstraksi, pixel tersebut akan dibagi kedalam N/10*M/10. Nilai yang didapat dari proses zoning tersebut akan dijadikan nilai untuk input vektor. Setelah nilai dari semua segmen dikumpulkan maka didapatkanlah input vektor [1,192] untuk dimensi zoning 16x12. Hasil dari proses zoning ini adalah feature vektor yang siap dimasukkan kedalam proses selanjutnya yaitu proses klasifikasi. Gambar 2.8 Besar pixel dalam tiap segmen Universitas Sumatera Utara 15 2.6 Nilai Eigen Proses menentukan nilai eigen digunakan untuk menentukan nilai karakteristik suatu matiks, dalam bagian ini nilai eigen digunakan untuk menentukan nilai karakteristik dari hasil ekstraksi fitur. Jika A adalah matriks m x m, maka setiap skalar λ memenuhi persamaan Ax = x ( 2.2) Untuk m x 1 vektor x ≠ 0, disebut eigen value dari A. Vektor x disebut eigen vector dari A yang berhubungan dengan eigenvalue , dan persamaan (2.2) diatas disebut persamaan eigen value – eigen vektor A. Kadang-kadang eigen value dan eigen vektor juga dinyatakan sebagai (latents root and vectors) atau karekteristik roots dan vektor. Persamaan (2.2) dapat juga dituliskan sebagai A - x = 0 ( 2.3 ) Setiap nilai eigenvalue harus memenuhi persamaan determinan, | A - = 0 ( 2.4 ) yang dikenal sebagai persamaan karakteristik A. 2.7 Pengertian SSVM (Smooth Support Vektor Machine). SSVM adalah pengembangan baru dari SVM dengan fungsi kernel dan non linier untuk analisis klasifikasi menggunakan metode smoothing. SVM pertama kali diperkenalkan oleh Boser, Guyon dan Vapnik pada tahun 1992 sebagai rangkaian harmonis konsepkonsep unggulan dalam statistical learning theory. Prinsip dasar SVM adalah linier classifier dan selanjutnya dikembangkan agar dapat bekerja pada problem non linier dengan memasukkan konsep kernel trick pada ruang kerja berdimensi tinggi (Vapnik, 1995). SVM adalah suatu teknologi pembelajaran statistik yang dapat menghasilkan performansi generalisasi terbaik. SVM diperkenalkan untuk pertama kalinya oleh Vapnik pada tahun 1995 dan sangat berhasil melakukan prediksi, baik dalam kasus klasifikasi Universitas Sumatera Utara 16 maupun regresi. Metode ini berusaha untuk menemukan fungsi pemisah optimal yang bisa memisahkan dua set data dari dua kelas atau disebut juga hyperplane terbaik diantara fungsi yang tidak terbatas (Gunn, 1998). SSVM merupakan pengembangan dari SVM yang menggunakan teknik smoothing. Metode ini pertama kali diperkenalkan oleh Lee (Lee, et al 2001) pada tahun 2001. Ide dasar dari SSVM adalah untuk mengkonversi SVM primal formulasi untuk masalah minimisasi non mulus tanpa kendala. Karena fungsi tujuan dari masalah optimisasi tidak dibatasi tidak dua kali differentiable, fungsi smoothing dapat diterapkan untuk halus masalah ini tidak dibatasi. Lee, et al (2001) telah mengusulkan integral dari fungsi sigmoid untuk mendekati fungsi ditambah. Kemudian, Yuan telah mengusulkan fungsi polinom dan fungsi spline. Metode Smoothing, banyak digunakan untuk memecahkan penting matematika masalah pemrograman ematical dan aplikasi, yang diterapkan di sini untuk menghasilkan dan memecahkan sebuah reformulasi mulus tak terbatas dari dukungan vektor mesin untuk klasifikasi pola menggunakan sepenuhnya sewenang-wenang kernel. Seperti reformulasi jangka dukungan kelancaran vector rmesin (SSVM). Algoritma NewtonArmijo cepat untuk memecahkan SSVM konvergen global dan kuadratik. Numerik hasil dan perbandingan diberikan untuk menunjukkan efektivitas dan kecepatan algoritma. Pada enam dataset tersedia untuk umum, sepuluh kali lipat lintas validation kebenaran SSVM adalah yang tertinggi dibandingkan dengan empat lain nya metode serta tercepat, SSVM dapat juga menghasilkan permukaan yang memisahkan sangat non linear seperti pemeriksa papan. Untuk masalah ini SVM standar diberikan oleh program kuadrat berikut: ( ) , ( ) (2.5) Dimana : v = Sebuah berat yang positif y = variable Slack e = Kolom vector satu dimensi Universitas Sumatera Utara 17 Dalam pendekatan SSVM (Lee et al., 2001) , masalah SVM dimodifikasi dihasilkan sebagai berikut: ( ( ) ( ) ) (2.6) Dengan demikian, kita dapat mengganti y dalam kendala dengan dan mengkonversi masalah SVM menjadi SVM setara yang merupakan masalah optimasi tanpa kendala sebagai berikut: ( ) ( ( )) ( ) (2.7) Fungsi ini dengan parameter pemulusan yang digunakan di sini untuk menggantikan fungsi plus untuk mendapatkan Smooth Vector Machine (SSVM) ( ( ) ( )) ( ) (2.8) Sama seperti sebelumnya, itu adalah memperoleh SSVM untuk masalah terpisahkan: ( ) ( ( )) ( ) (2.9) 2.8 Klasifikasi Klasifikasi adalah proses menemukan sekumpulan model/fungsi yang menjelaskan dan membedakan data kedalam kelas-kelas tertentu, dengan tujuan menggunakan model tersebut dalam menentukan kelas dari suatu objek yang belum diketahui kelasnya (Han, et al 2000). Ada 2 proses dalam klasifikasi, yaitu : a. Proses learning atau training melakukan pembangunan model menggunakan data training. Pada penelitian ini menggunakan model Smooth Support Vector Machine. Pada Smooth Support Vector Machine (SSVM), ini dilakukan dengan pemberian label pada setiap nilai fitur dimana label 1 untuk kategori tumor jinak dan label -1 untuk kategori tumor ganas. b. Proses testing melakukan tes terhadap data testing menggunakan model yang telah diperoleh dari proses training. Penggunaan model untuk mengklasifikasi Universitas Sumatera Utara 18 data baru. Di sini, sebuah rekord diumpankan ke model, dan model akan memberikan jawaban kelas hasil perhitungannya. Setelah data training dan testing bersih. Kemudian dilakukan implementasi metode smooth support vector machine pada proses training untuk membangun model probabilitas dari data training. Dan selanjutnya dilakukan pengujian model klasifikasi yang dihasilkan pada proses training dengan menggunakan data tweet baru (data testing). Pengujian model klasifikasi ini dilakukan pada sistem yang dikembangkan dan pengujian akurasi model klasifikasi dari hasil data bersih yang dihasilkan dengan menggunakan perangkat lunak lain yang digunakan sebagai data pembanding. Pengujian ini dilakukan dengan menggunakan teknik 10 fold cross validation. Pengujian dilakukan untuk menguji apakah diagnosis yang dilakukan sudah sesuai atau belum. Pengujian yang dilakukan dalam penelitian ini adalah dengan menghitung keakurasian sistem yaitu dengan menghitung hasil jumlah data yang sesuai dengan kenyataan dibagi dengan jumlah seluruh data. Secara matematis dapat dinyatakan dengan formula (Nithya & Santhi, 2011). Akurasi (%) = x 100 % (2.10) Universitas Sumatera Utara