Pemilihan Alat Konversi - Repository Universitas Gunadarma

advertisement
Konferensi Nasional Sistem Informasi 2013, STMIK Bumigora Mataram 14-16 Pebruari 2013
Makalah Nomor: KNSI-307
PEMILIHAN ALAT KONVERSI TABEL FORMAT PDF
MENJADI FORMAT HTML UNTUK PROSES EKSTRAKSI TABEL
Detty Purnamasari1, Lintang Yuniar Banowosari2, Ardo Rama Wijaya 3 ,Hifshan Riesvicky 4
1
Teknologi Informasi, Fakultas Pascasarjana, Universitas Gunadarma, 2 Manajemen Informatika, Program
Diploma, Universitas Gunadarma, 3,4 Sistem Informasi, Fakultas Ilmu Komputer & TI, Universitas Gunadarma
1,2,3,4
Jl. Margonda Raya No. 100 Pondok Cina Depok
1
[email protected], 2 [email protected], 3 [email protected], 4
[email protected]
Abstrak
Internet merupakan sumber data dengan berbagai bentuk dan format. Salah satu bentuk penyajian data adalah
tabel. Ekstraksi tabel format PDF menjadi suatu database sulit dilakukan, karena format PDF adalah gambar,
sehingga membutuhkan teknik image processing untuk melakukannya. Cara lain yang dapat dilakukan adalah
dengan memanfaatkan alat konversi dokumen PDF yang sudah dikembangkan untuk mengubahnya ke format
lain, seperti HTML, Word Processing yang kemudian pada format hasil konversi tersebut dilakukan ekstraksi
tabel menjadi database. Pada artikel ini melakukan penelitian untuk memilih alat konversi dokumen PDF yang
mengandung tabel menjadi format HTML yang bermanfaat untuk melakukan ekstraksi tabel lebih lanjut. Ada 4
(empat) parameter yang digunakan dalam pengukuran, yaitu tabel yang terpisah dari teks, kesesuaian jumlah
baris, kesesuaian jumlah kolom, kesesuaian posisi isi cell. Pembobotan dilakukan pada 3 (tiga) alat konversi
PDF menjadi HTML (Adobe Acrobat 7.0 Profesional, PDF2HTML, Simpo PDF Converter), dan didapatkan alat
konversi terbaik adalah Adobe Acrobat dengan bobot tertinggi 98,75%.
Kata kunci : alat konversi, tabel PDF ,tabel HTML, website
1. Pendahuluan
Internet merupakan sumber data dengan
berbagai format dan bentuk, salah satunya adalah
bentuk tabel dengan beragam format seperti
HTML, dan PDF. Tabel terdiri dari cell, di mana
tiap cell dapat berisi cell label/nama atribut dan cell
data/isi/nilai atribut. [4].
Ekstraksi tabel berguna jika akan melakukan
pengambilan data dari tabel yang lebih dari satu
dan berasal dari berbagai sumber. Hasil ekstraksi
tabel yang disimpan dalam bentuk database dapat
digunakan untuk proses lebih lanjut seperti
dilakukan
penggabungan
untuk
proses
interoperabilitas selanjutnya.
Format Portable Document Format (PDF)
adalah salah satu format dokumen yang banyak
digunakan, karena dengan format PDF membuat isi
dan tampilan dokumen tetap sesuai dengan bentuk
asli
dokumen
walaupun
dibuka
dengan
sistem/aplikasi yang berbeda.
Pada penelitian terdahulu, telah dilakukan
pengembangan untuk pendekatan ekstraksi tabel
format HTML, sehingga dengan memanfaatkan
pendekatan yang sudah ada, ekstraksi tabel format
PDF dapat dilakukan dengan memanfaatkan alat
konversi dokumen PDF menjadi dokumen HTML.
Alat konversi format dokumen sudah banyak
dikembangkan saat ini, sehingga pada artikel ini
dilakukan survei terhadap alat konversi yang sudah
ada untuk mendapatkan hasil konversi yang sesuai
dengan format HTML yang memang asli dibuat
dengan aplikasi khusus HTML.
Berbagai
penelitian
mengenai
pendekatan/metode yang dikembangkan untuk
melakukan ekstraksi dokumen dengan format PDF
yaitu oleh Hui Chao [1] yang memisahkan
template/background
format
PDF
dari
dokumennya, Herve Dejeen et.al. [2] yang
menggunakan algoritma XY-cut untuk ekstraksi
gambar, dan ekstraksi struktur logik dari dokumen.
Yildiz et.al. [5] mengembangan metode
dengan menggunakan dua heuristik untuk
melakukan ekstraksi tabel dan menyimpannya
dalam format XML. Ekstraksi tabel dilakukan dari
dokumen XML hasil aplikasi pdftohtml dengan
membuat elemen teks pada posisi yang tepat dari
potongan teks di PDF. Penelitian yang telah
dilakukan oleh penelitian lain banyak dengan
teknik image processing.
Konferensi Nasional Sistem Informasi 2013, STMIK Bumigora Mataram 14-16 Pebruari 2013
Artikel ini terbagi dalam empat bagian, pada
bagian pertama merupakan pendahuluan yang berisi
definisi masalah dan melihat beberapa literatur
yang membahas topik sejenis. Bagian kedua
menguraikan cara pemilihan alat konversi format
dokumen, dan bagian ketiga adalah proses
pemilihan alat konversi. Bagian terakhir merupakan
penutup yang berisi kesimpulan.
2. Cara Pemilihan Alat Konversi Dokumen PDF
menjadi HTML dan Algoritma Ekstraksi
Tabel HTML
Berikut ini pada Gambar 1. adalah tahapan
yang dilakukan untuk melakukan pemilihan alat
konversi dokumen PDF menjadi HTML :
Gambar 1. Tahapan Pemilihan Alat Konversi
Pre processing dilakukan dengan menyiapkan
dokumen yang mengandung tabel, di mana
dokumen tersebut dibuat dengan word/sheet
processing, yang kemudian dokumen tersebut
diubah dengan alat konversi menjadi dokumen
format PDF.
Selanjutnya, tahapan dilakukan dengan
melakukan konversi dokumen PDF menjadi format
HTML dengan alat konversi, lalu dilakukan
pengamatan pada hasil konversi format HTML
tersebut dengan menggunakan 4 (empat) parameter
pengukuran untuk mendapatkan hasil konversi yang
terbaik.
Parameter yang digunakan untuk mengukur
alat konversi adalah :
1. Tabel dan teks yang terpisah
2. Kesesuaian jumlah baris
3. Kesesuaian jumlah kolom
4. Kesesuaian posisi isi cell
3. Proses Pemilihan Alat Konversi Dokumen
PDF menjadi HTML
Alat konversi format dokumen sudah banyak
dikembangkan. Menurut survei yang pernah
dilakukan tentang alat konversi format dokumen
PDF menjadi HTML yang terbaik di situs web
design yang ditulis oleh Jennnifer Kyrnin [3],
diantaranya yaitu : (i). Adobe Acrobat (berbayar),
dan (ii). PDF2HTML online (gratis). Sehingga 2
(dua) alat konversi yang digunakan pada penelitian
ini adalah Adobe Acrobat 7.0 Professional dan
PDF2HTML (http://www.pdfonline.com/convertpdf-to-html/).
Selain itu, alat konversi ke-3 yang digunakan
diambil dari salah satu hasil pencarian di Google
untuk alat konversi, yaitu : Simpo PDF Converter.
Pada ujicoba yang dilakukan untuk memilih
alat konversi, disiapkan dokumen yang dibuat
/bersumber dari :
1. Ms Word 2007 (extention .docx)
2. Ms. Excel 2007 (extention .xlsx)
3. Open Document Text (extention .odt)
4. Open Document Sheet (extention .ods)
5. Ms Word 2003 (extention .doc)
6. Ms. Excel 2003 (extention .xls)
Open Document Text dan Open Document
Sheet sudah menyediakan fasilitas konversi menjadi
format PDF, sedangkan pada Ms. Word dan Ms.
Excel yang sudah menyediakan fasilitas konversi
format PDF adalah mulai Ms. 2007, sehingga
digunakan 2 jenis Ms. Word dan Ms. Excel yaitu :
versi 2007 dan versi 2003 yang belum memiliki
fasilitas konversi ke PDF. Masing-masing dokumen
yang bersumber dari 6 (enam) word/sheet
processing tersebut diubah menjadi format PDF
dengan alat konversi :
A. Adobe Acrobat 7.0 Professional
B. Fasilitas dari word/sheet processing
masing-masing.
Tabel 1. Pembuatan Dokumen/File PDF
NO
1
2
3
4
5
6
7
….
24
25
26
27
28
29
....
40
Pembuat Dokumen
Ms. Word 2007
Ms Excel 2007
Open Document Text
Open Document Sheet
Ms. Word 2003
Ms. Excel 2003
Ms Word 2007
.......
Ms. Excel 2003
Ms. Word 2007
Ms Excel 2007
Open Document Text
Open Document Sheet
Ms. Word 2007
.......
Open Document Sheet
Menjadi
PDF
Adobe
Adobe
Adobe
Adobe
Adobe
Adobe
Adobe
....
Adobe
Fasilitas
Fasilitas
Fasilitas
Fasilitas
Fasilitas
.....
Fasilitas
Kode
Doc.
1.A.1
2.A.1
3.A.1
4.A.1
5.A.1
6.A.1
1.A.2
.....
6.A.4
1.B.1
2.B.1
3.B.1
4.B.1
1.B.2
......
4.B.4
Konferensi Nasional Sistem Informasi 2013, STMIK Bumigora Mataram 14-16 Pebruari 2013
Tabel 1. memperlihatkan cuplikan dari
pembuatan dokumen/file menjadi format PDF,
dimana pada dokumen selain berisi teks juga berisi
tabel yang sederhana dalam 4 (empat) tipe
penulisan tabel, yaitu :
1. Tabel dengan nama property di kiri kolom dan
font style biasa, serta instance ada yang berada
ditengah kolom.
2. Tabel dengan nama property di kiri kolom dan
font style tebal, serta instance ada yang berada
ditengah kolom.
3. Tabel dengan nama property di tengah kolom
dan font style biasa,serta instance ada yang
berada ditengah kolom.
4. Tabel dengan nama property di tengah kolom
dan font style tebal, serta instance juga ada
yang berada ditengah kolom.
Pada tabel 1. dibuat kode yang terdiri dari 3 (tiga)
digit untuk masing-masing dokumen yang
digunakan pada penelitian ini. Digit ke-1
menandakan alat pembuat dokumen, digit ke-2
menandakan alat konversi yang digunakan untuk
mengubah dokumen menjadi format PDF, dan digit
ke-3 menandakan tipe penulisan yang dibuat untuk
menuliskan tabel yang ada didalam dokumen.
Misalkan dokumen dengan kode 6.A.4 adalah
dokumen yang dibuat dengan Ms. Word 2003;
diubah menjadi format PDF dengan menggunakan
alat konversi Adobe Acrobat 7.0 Profesional ; tabel
ditulis dalam tipe penulisan 4, yaitu : tabel dengan
nama property di tengah kolom, font style tebal,
serta instance ada yang berada ditengah kolom.
Banyaknya file dokumen dalam format PDF
yang akan diujicobakan pada alat konversi PDF
menjadi HTML adalah 40 (empat puluh) dokumen.
Gambar 2 memperlihatkan salah satu contoh
tabel yang dibuat dengan Ms. Word 2003 dengan
nama property di tengah kolom dan font style biasa,
serta instance yang berada ditengah kolom (tipe
penulisan tabel yang ke-3).
Kemudian 40 (empat puluh) dokumen format
PDF tersebut di ubah menjadi format HTML
dengan menggunakan 3 (tiga) alat konversi, yaitu :
I.
Adobe Acrobat 7.0 Profesional
II.
PDF2HTML
III. Simpo PDF Converter
Parameter dalam pemilihan alat konversi ada 4
(empat), yaitu :
1. Tabel dan teks yang terpisah, dilihat dengan
adanya tag <table>...</table> pada HTML.
(pada Tabel 2. dikodekan dengan T-ok)
2. Kesesuaian jumlah baris dari tabel dilihat dari
jumlah tag <tr>...</tr> yang ada didalam tag
<table>...</table> mempunyai jumlah yang
sama dengan jumlah baris tabel. (pada Tabel 2.
dikodekan dengan B-ok)
3. Kesesuaian jumlah kolom, dengan melihat tag
<td>...</td>, yaitu jumlah tag <td>...</td>
yang ada didalam tag <tr>...</tr> sama dengan
jumlah kolom yang ada pada tabel. (pada Tabel
2. dikodekan dengan K-ok)
4. Kesesuaian posisi isi cell, dengan melihat jika
teks pada 1 cell mempunyai jumlah karakter
yang banyak atau teks bisa lebih dari 1 baris di
dalam 1 kolom/cell, maka teks tersebut tetap
berada di dalam satu tag <td>...</td>, selain itu
isi cell memang berada didalam tag
<td>...</td> yang sesuai dengan posisinya
didalam tabel. (pada Tabel 2. dikodekan
dengan C-ok)
Pada pengamatan yang dilakukan, 4 (empat)
tipe penulisan pada dokumen yang diujicoba tidak
mempunyai pengaruh signifikan, sehingga tipe
penulisan tidak diperhitungkan dalam mencari hasil
konversi yang terbaik.
Berikut ini pada Tabel 2. merupakan cuplikan
ringkasan hasil pengamatan 4 (empat) parameter
dari ketiga alat yang digunakan pada ujicoba.
Tabel 2. Ringkasan Hasil Pengamatan 4 Parameter
Gambar 2. Contoh Tabel yang dibuat dengan
Word/Sheet Processing Tipe 3
No.
Kode
Doc.
1
2
3
4
5
6
7
….
24
25
...
48
49
...
1.A.1
2.A.1
3.A.1
4.A.1
5.A.1
6.A.1
1.A.2
.......
6.A.4
1.A.1
.....
6.A.4
1.A.1
.....
Tool
PDF HTML
I.
I.
I.
I.
I.
I.
I.
....
I.
II.
.....
II.
III.
.....
Hasil
T-ok ; B-ok ; K-ok ; C-ok
T-ok ; B-ok ; K-ok ; C-ok
T-ok ; B-ok ; K-ok ; C-ok
T-ok ; B-ok ; K-ok ; C-ok
T-ok ; B-ok ; K-ok ; C-ok
T-ok ; B-ok ; K-no ; C-ok
T-ok ; B-ok ; K-ok ; C-ok
.....
T-ok ; B-ok ; K-ok ; C-ok
T-ok ; B-no ; K-no ; C-no
.....
T-ok ; B-no ; K-ok ; C-no
T-ok ; B-ok ; K-ok ; C-ok
.....
Konferensi Nasional Sistem Informasi 2013, STMIK Bumigora Mataram 14-16 Pebruari 2013
No.
Kode
Doc.
Tool
PDF HTML
III.
I.
I.
I.
I.
I.
.....
I.
II.
.....
II.
III.
.....
III.
Hasil
72
6.A.4
T-ok ; B-ok ; K-ok ; C-no
73
1.B.1
T-ok ; B-ok ; K-ok ; C-ok
74
2.B.1
T-ok ; B-ok ; K-ok ; C-ok
75
3.B.1
T-ok ; B-ok ; K-ok ; C-ok
76
4.B.1
T-ok ; B-ok ; K-ok ; C-ok
77
1.B.2
T-ok ; B-ok ; K-ok ; C-ok
....
.......
......
88
4.B.4
T-ok ; B-ok ; K-ok ; C-ok
89
1.B.1
T-ok ; B-no ; K-no ; C-no
....
......
......
104 4.B.4
T-ok ; B-no ; K-no ; C-no
105 1.B.1
T-ok ; B-ok ; K-ok ; C-ok
....
.....
.......
120 4.B.4
T-no ; B-no ; K-no ; C-no
Keterangan :
- T : Tabel yang terpisah dari teks (kondisi : ok/no)
- B : kesesuaian jumlah baris ( kondisi : ok/no)
- K : Kesesuaian jumlah kolom (kondisi : ok/no)
- C : Kesesuaian posisi isi cell (kondisi : ok/no)
Berdasarkan pada parameter yang ditemukan
pada dokumen yang digunakan pada pemilihan alat
konversi seperti terlihat pada Tabel 2. diatas,
kemudian dilakukan pembobotan untuk masingmasing alat konversi format PDF menjadi format
HTML.
Pembobotan dilakukan dengan menggunakan
rumusan sebagai berikut yang diformulasikan
secara formal pada F.1.
…F.1
Persentase bobot rata-rata dari masing-masing
alat konversi didapatkan dengan rumusan F.2.
…F.2
Keterangan rumus :
1. BAK : Bobot Alat Konversi
2. I/II/III : 3 (tiga) jenis alat konversi PDF HTML
3. BP : Bobot Parameter
4. 1..6 : Alat pembuat dokumen di word/sheet
processing
5. A : Alat konversi doc PDF (Adobe)
6. B : Alat konversi doc PDF (Fasilitasnya)
7. 1..4 : Tipe penulisan pada tabel didalam
dokumen
8. BR : Bobot Rata-rata dalam persen (%)
Berdasarkan kedua rumusan diatas, maka pada
Tabel 3. memperlihatkan persentase hasil
pembobotan parameter (Bobot Rata-rata ) untuk
ketiga alat konversi tersebut. Semakin tinggi nilai
bobot rata-rata, maka menunjukkan hasil konversi
yang semakin baik, dan bobot rata-rata tertinggi
pada penelitian ini menunjukkan alat konversi yang
terbaik.
Tabel 3. Bobot Rata-rata Hasil Pengamatan Alat
Konversi
No.
1
2
3
Alat Konversi
Adobe Acrobat 7.0 Profesional
PDF2HTML
Simpo PDF Konverter
Bobot (%)
98,75
36,56
53,54
Tampak pada Tabel 3. untuk bobot rata-rata
dari perhitungan parameter yang memiliki nilai
tertinggi adalah Adobe Acrobat 7.0. Profesional,
sehingga alat konversi dokumen format PDF
menjadi format HTML yang terbaik adalah Adobe
Acrobat 7.0. Profesional.
4. Penutup
Penelitian ini melakukan pemilihan dari 3
(tiga) alat konversi yang sudah dikembangkan
untuk memilih hasil konversi yang terbaik dari
dokumen format PDF menjadi format HTML. Pada
pemilihan alat konversi digunakan 4 (empat)
parameter, yaitu : tabel yang terpisah dengan teks di
dokumen, kesesuaian jumlah baris, kesesuaian
jumlah kolom, dan kesesuaian isi cell.
Dokumen yang mengandung tabel dibuat
dengan 6 (enam) jenis word/sheet processing dan di
ubah menjadi format PDF dengan menggunakan 2
alat yaitu Adobe Acrobat 7.0 Profesional dan
fasilitas yang dimiliki oleh word/sheet processing.
Alat konversi yang dibandingkan adalah Adobe
Acrobat 7.0 Professional (berbayar), PDF2HTML
(gratis), dan Simpo PDF Converter (gratis). Hasil
pembobotan untuk paramater dari masing-masing
alat konversi PDF menjadi HTML memperlihatkan
bahwa alat konversi yang memiliki bobot tertinggi
adalah alat konversi terbaik dari 3 (alat) alat yang
diujicobakan, yaitu Adobe Acrobat 7.0 Profesional
dengan bobot rata-rata 98,75%, sedangkan untuk
Simpo PDF Converter mempunyai bobot rata-rata
sebesar 53,54% dan PDF2HTML mempunyai
bobot rata-rata 36,56%.
Penelitian pada artikel ini, selanjutnya dapat
digunakan untuk melakukan ekstraksi pada tabel
format PDF yang diawali dengan mengubah format
menjadi HTML, dimana sudah ada penelitian yang
dilakukan untuk pendekatan ekstraksi tabel HTML.
Daftar Pustaka:
[1] Chao, H. 2003. Background Pattern Recognition
Konferensi Nasional Sistem Informasi 2013, STMIK Bumigora Mataram 14-16 Pebruari 2013
[2]
[3]
[4]
[5]
in Multi-page PDF Document. Proceedings of
the Third International Workshop in Document
Analysis and its Applications.
Dejean, H., Meunier, J-L. 2006. A System for
Converting PDF Documents into Structured
XML Format. Document Analysis Systems'06.
Pg. 129-140
Kyrnin,J. 5 Great Tools for Converting PDF to
HTML,
http://webdesign.about.com/od/pdf/tp/tools-forconverting-pdf-to-html.htm,
tgl
akses
4
September 2012
Tengli,A., Yang, Y., Ma, N. L. 2004. Learning
Table Extraction from Examples. Proceeding
COLING '04 Proceedings of The 20th
International Conference on Computational
Linguistics
Yildiz, B., Kaiser, K., Miksch, S. 2005.
pdf2table : A Method to Extract Table
Information from PDF Files. Proceedings of the
2nd Indian International Conference on
Artificial Intelligence IICAI05 Pune India.
Download