pengembangan sistem pengenalan huruf arab

advertisement
PENGEMBANGAN SISTEM
PENGENALAN HURUF ARAB
M. ALBADR LUTAN NASUTION
13508011
Latar Belakang
OCR sangat
praktikal
50 bahasa
Tertinggal
vs latin
200 juta
jiwa
Segmentasi
minim
Rumusan Masalah
Segmentasi yg mendukung
Skema hubungan komponen
Kinerja
Tujuan
citra
• piksel
• sulit diolah
teks
• huruf
• dapat disunting
• dapat dicari
Studi Literatur
• Tulisan Arab: 31 huruf, kursif, 4 bentuk, titik
• Akuisisi Data: Online vs Offline
• Tahapan Umum OCR:
Piksel
Praproses
Fitur
Segmentasi
Huruf
Kata
Representasi
Kalimat
Pelatihan
dan
Pengenalan
Makna
Pascaproses
Penelitian Terkait
• Sarfraz, dkk (2003): Pengenalan nomor plat kendaraan
dg. pencocokan templat
• Al-Taani dan Al-Haj (2010): Pengenalan huruf online dg.
pohon keputusan
• Sarhan dan Al-Helalat (2007): Pengenalan huruf dg. JST
dan fitur standar devisasi dan piksel
• Zidouri (2010): Metode segmentasi baru dan
pengenalan dua tingkat: templat dan JST
• Abandah,dkk (2009): Ragam fitur huruf dan kombinasi
pengenaan statistik
Alur Proses
Praolah
Segmentasi
Penipisan
Ekstraksi Fitur
Klasifikasi
Praolah
Median Filter
Binerisasi
Tinggi 64 Piksel
Lini Basis
P1’ = median (P1..P9)
BLACK if RG||GB||RB
lini basis
64 piksel
Penipisan
Algoritma
Hilditch
2 < = B(p1) < = 6
A(p1)=1
p2.p4.p8=0 or A(p2)!= 1
p2.p4.p6=0 or A(p4)!= 1
Templat Cowell
Hussain
Templat
Ketebalan
Segmentasi
Baris
• Proyeksi horizontal
Upakata
• Analisis piksel bersambung
• Badan utama vs objek sekunder
Huruf
• Algoritma Zidouri (2010)
Segmentasi Baris
Segmentasi Upakata
Amin (2000)
Tiap sangkar digolongkan ke:
“badan utama”, “objek sekunder”, dan “derau”
Segmentasi Huruf
Tipiskan
Cari deretan piksel
Cek panjang deretan dan piksel
atas bawah
Masukkan sebagai pita kandidat
Ekstrak fitur setiap kandidat
Masukkan fitur ke rule
Zidouri (2010)
Ekstraksi Fitur
•
•
•
•
Rasio aspek
Proyeksi
Distribusi piksel
Jumlah lubang
Badan
Utama
•
•
•
•
•
Titik minat
Rantai kode
Panjang keliling
Diag/keliling
Rasio kekompakan
Tulang &
Keliling
• Jumlah
• Posisi
• Jenis komponen
Komponen
Sekunder
Klasifikasi
C4.5
(J48)
Pohon Keputusan
Badan
Utama
Weka
++
Objek
Sekunder
Data Uji
Teks Arab 37 Halaman
Sumber: Wikipedia
Prosedur Pengujian
Fungsional
• Cek sampel hasil
setiap proses
• Hingga fungsi
dianggap cukup
baik
Segmentasi
• Data uji: seluruh
citra dokumen
• Simpan citra hasil
tiap segmentasi
• Hitung citra hasil
(manual)
• Benar,
Undersegmentasi,
Oversegmentasi
Klasifikasi
• Pembelajaran dari
citra huruf tunggal
manual tiap font
• Kinerja komponen:
validasi silang
setiap font pada
data latih
• Kinerja sistem: cek
dan hitung tebakan
seluruh huruf pada
data uji citra
dokumen
Skrinsyut
Citra asli
Setelah praolah
Penipisan
Pengotakan
Seg. huruf
Antarmuka
Hasil Uji: Seg. Baris
Jenis Huruf
B
O
K
Arial
99%
1%
21%
Arial Unicode MS
99%
1%
9%
Microsoft Sans Serif
98%
2%
2%
Segoe UI
98%
2%
27%
Tahoma
98%
2%
13%
Traditional Arabic
97%
3%
33%
Benar 98%. Under 0%. Over 2%.
Hasil Uji: Seg. Huruf
Jenis Huruf
B
U
O
Arial
84%
11%
5%
Arial Unicode MS
79%
17%
4%
Microsoft Sans Serif
54%
43%
3%
Segoe UI
91%
2%
7%
Tahoma
92%
2%
6%
Traditional Arabic
46%
50%
4%
Benar 74%.
5%.
86%. Under 21%.
8%. Over 6%.
demo?
Terima kasih.
Download