PENGEMBANGAN SISTEM PENGENALAN HURUF ARAB M. ALBADR LUTAN NASUTION 13508011 Latar Belakang OCR sangat praktikal 50 bahasa Tertinggal vs latin 200 juta jiwa Segmentasi minim Rumusan Masalah Segmentasi yg mendukung Skema hubungan komponen Kinerja Tujuan citra • piksel • sulit diolah teks • huruf • dapat disunting • dapat dicari Studi Literatur • Tulisan Arab: 31 huruf, kursif, 4 bentuk, titik • Akuisisi Data: Online vs Offline • Tahapan Umum OCR: Piksel Praproses Fitur Segmentasi Huruf Kata Representasi Kalimat Pelatihan dan Pengenalan Makna Pascaproses Penelitian Terkait • Sarfraz, dkk (2003): Pengenalan nomor plat kendaraan dg. pencocokan templat • Al-Taani dan Al-Haj (2010): Pengenalan huruf online dg. pohon keputusan • Sarhan dan Al-Helalat (2007): Pengenalan huruf dg. JST dan fitur standar devisasi dan piksel • Zidouri (2010): Metode segmentasi baru dan pengenalan dua tingkat: templat dan JST • Abandah,dkk (2009): Ragam fitur huruf dan kombinasi pengenaan statistik Alur Proses Praolah Segmentasi Penipisan Ekstraksi Fitur Klasifikasi Praolah Median Filter Binerisasi Tinggi 64 Piksel Lini Basis P1’ = median (P1..P9) BLACK if RG||GB||RB lini basis 64 piksel Penipisan Algoritma Hilditch 2 < = B(p1) < = 6 A(p1)=1 p2.p4.p8=0 or A(p2)!= 1 p2.p4.p6=0 or A(p4)!= 1 Templat Cowell Hussain Templat Ketebalan Segmentasi Baris • Proyeksi horizontal Upakata • Analisis piksel bersambung • Badan utama vs objek sekunder Huruf • Algoritma Zidouri (2010) Segmentasi Baris Segmentasi Upakata Amin (2000) Tiap sangkar digolongkan ke: “badan utama”, “objek sekunder”, dan “derau” Segmentasi Huruf Tipiskan Cari deretan piksel Cek panjang deretan dan piksel atas bawah Masukkan sebagai pita kandidat Ekstrak fitur setiap kandidat Masukkan fitur ke rule Zidouri (2010) Ekstraksi Fitur • • • • Rasio aspek Proyeksi Distribusi piksel Jumlah lubang Badan Utama • • • • • Titik minat Rantai kode Panjang keliling Diag/keliling Rasio kekompakan Tulang & Keliling • Jumlah • Posisi • Jenis komponen Komponen Sekunder Klasifikasi C4.5 (J48) Pohon Keputusan Badan Utama Weka ++ Objek Sekunder Data Uji Teks Arab 37 Halaman Sumber: Wikipedia Prosedur Pengujian Fungsional • Cek sampel hasil setiap proses • Hingga fungsi dianggap cukup baik Segmentasi • Data uji: seluruh citra dokumen • Simpan citra hasil tiap segmentasi • Hitung citra hasil (manual) • Benar, Undersegmentasi, Oversegmentasi Klasifikasi • Pembelajaran dari citra huruf tunggal manual tiap font • Kinerja komponen: validasi silang setiap font pada data latih • Kinerja sistem: cek dan hitung tebakan seluruh huruf pada data uji citra dokumen Skrinsyut Citra asli Setelah praolah Penipisan Pengotakan Seg. huruf Antarmuka Hasil Uji: Seg. Baris Jenis Huruf B O K Arial 99% 1% 21% Arial Unicode MS 99% 1% 9% Microsoft Sans Serif 98% 2% 2% Segoe UI 98% 2% 27% Tahoma 98% 2% 13% Traditional Arabic 97% 3% 33% Benar 98%. Under 0%. Over 2%. Hasil Uji: Seg. Huruf Jenis Huruf B U O Arial 84% 11% 5% Arial Unicode MS 79% 17% 4% Microsoft Sans Serif 54% 43% 3% Segoe UI 91% 2% 7% Tahoma 92% 2% 6% Traditional Arabic 46% 50% 4% Benar 74%. 5%. 86%. Under 21%. 8%. Over 6%. demo? Terima kasih.