Konferensi Nasional Sistem Informasi 2013, STMIK Bumigora Mataram 14-16 Pebruari 2013 Makalah Nomor: KNSI-307 PEMILIHAN ALAT KONVERSI TABEL FORMAT PDF MENJADI FORMAT HTML UNTUK PROSES EKSTRAKSI TABEL Detty Purnamasari1, Lintang Yuniar Banowosari2, Ardo Rama Wijaya 3 ,Hifshan Riesvicky 4 1 Teknologi Informasi, Fakultas Pascasarjana, Universitas Gunadarma, 2 Manajemen Informatika, Program Diploma, Universitas Gunadarma, 3,4 Sistem Informasi, Fakultas Ilmu Komputer & TI, Universitas Gunadarma 1,2,3,4 Jl. Margonda Raya No. 100 Pondok Cina Depok 1 [email protected], 2 [email protected], 3 [email protected], 4 [email protected] Abstrak Internet merupakan sumber data dengan berbagai bentuk dan format. Salah satu bentuk penyajian data adalah tabel. Ekstraksi tabel format PDF menjadi suatu database sulit dilakukan, karena format PDF adalah gambar, sehingga membutuhkan teknik image processing untuk melakukannya. Cara lain yang dapat dilakukan adalah dengan memanfaatkan alat konversi dokumen PDF yang sudah dikembangkan untuk mengubahnya ke format lain, seperti HTML, Word Processing yang kemudian pada format hasil konversi tersebut dilakukan ekstraksi tabel menjadi database. Pada artikel ini melakukan penelitian untuk memilih alat konversi dokumen PDF yang mengandung tabel menjadi format HTML yang bermanfaat untuk melakukan ekstraksi tabel lebih lanjut. Ada 4 (empat) parameter yang digunakan dalam pengukuran, yaitu tabel yang terpisah dari teks, kesesuaian jumlah baris, kesesuaian jumlah kolom, kesesuaian posisi isi cell. Pembobotan dilakukan pada 3 (tiga) alat konversi PDF menjadi HTML (Adobe Acrobat 7.0 Profesional, PDF2HTML, Simpo PDF Converter), dan didapatkan alat konversi terbaik adalah Adobe Acrobat dengan bobot tertinggi 98,75%. Kata kunci : alat konversi, tabel PDF ,tabel HTML, website 1. Pendahuluan Internet merupakan sumber data dengan berbagai format dan bentuk, salah satunya adalah bentuk tabel dengan beragam format seperti HTML, dan PDF. Tabel terdiri dari cell, di mana tiap cell dapat berisi cell label/nama atribut dan cell data/isi/nilai atribut. [4]. Ekstraksi tabel berguna jika akan melakukan pengambilan data dari tabel yang lebih dari satu dan berasal dari berbagai sumber. Hasil ekstraksi tabel yang disimpan dalam bentuk database dapat digunakan untuk proses lebih lanjut seperti dilakukan penggabungan untuk proses interoperabilitas selanjutnya. Format Portable Document Format (PDF) adalah salah satu format dokumen yang banyak digunakan, karena dengan format PDF membuat isi dan tampilan dokumen tetap sesuai dengan bentuk asli dokumen walaupun dibuka dengan sistem/aplikasi yang berbeda. Pada penelitian terdahulu, telah dilakukan pengembangan untuk pendekatan ekstraksi tabel format HTML, sehingga dengan memanfaatkan pendekatan yang sudah ada, ekstraksi tabel format PDF dapat dilakukan dengan memanfaatkan alat konversi dokumen PDF menjadi dokumen HTML. Alat konversi format dokumen sudah banyak dikembangkan saat ini, sehingga pada artikel ini dilakukan survei terhadap alat konversi yang sudah ada untuk mendapatkan hasil konversi yang sesuai dengan format HTML yang memang asli dibuat dengan aplikasi khusus HTML. Berbagai penelitian mengenai pendekatan/metode yang dikembangkan untuk melakukan ekstraksi dokumen dengan format PDF yaitu oleh Hui Chao [1] yang memisahkan template/background format PDF dari dokumennya, Herve Dejeen et.al. [2] yang menggunakan algoritma XY-cut untuk ekstraksi gambar, dan ekstraksi struktur logik dari dokumen. Yildiz et.al. [5] mengembangan metode dengan menggunakan dua heuristik untuk melakukan ekstraksi tabel dan menyimpannya dalam format XML. Ekstraksi tabel dilakukan dari dokumen XML hasil aplikasi pdftohtml dengan membuat elemen teks pada posisi yang tepat dari potongan teks di PDF. Penelitian yang telah dilakukan oleh penelitian lain banyak dengan teknik image processing. Konferensi Nasional Sistem Informasi 2013, STMIK Bumigora Mataram 14-16 Pebruari 2013 Artikel ini terbagi dalam empat bagian, pada bagian pertama merupakan pendahuluan yang berisi definisi masalah dan melihat beberapa literatur yang membahas topik sejenis. Bagian kedua menguraikan cara pemilihan alat konversi format dokumen, dan bagian ketiga adalah proses pemilihan alat konversi. Bagian terakhir merupakan penutup yang berisi kesimpulan. 2. Cara Pemilihan Alat Konversi Dokumen PDF menjadi HTML dan Algoritma Ekstraksi Tabel HTML Berikut ini pada Gambar 1. adalah tahapan yang dilakukan untuk melakukan pemilihan alat konversi dokumen PDF menjadi HTML : Gambar 1. Tahapan Pemilihan Alat Konversi Pre processing dilakukan dengan menyiapkan dokumen yang mengandung tabel, di mana dokumen tersebut dibuat dengan word/sheet processing, yang kemudian dokumen tersebut diubah dengan alat konversi menjadi dokumen format PDF. Selanjutnya, tahapan dilakukan dengan melakukan konversi dokumen PDF menjadi format HTML dengan alat konversi, lalu dilakukan pengamatan pada hasil konversi format HTML tersebut dengan menggunakan 4 (empat) parameter pengukuran untuk mendapatkan hasil konversi yang terbaik. Parameter yang digunakan untuk mengukur alat konversi adalah : 1. Tabel dan teks yang terpisah 2. Kesesuaian jumlah baris 3. Kesesuaian jumlah kolom 4. Kesesuaian posisi isi cell 3. Proses Pemilihan Alat Konversi Dokumen PDF menjadi HTML Alat konversi format dokumen sudah banyak dikembangkan. Menurut survei yang pernah dilakukan tentang alat konversi format dokumen PDF menjadi HTML yang terbaik di situs web design yang ditulis oleh Jennnifer Kyrnin [3], diantaranya yaitu : (i). Adobe Acrobat (berbayar), dan (ii). PDF2HTML online (gratis). Sehingga 2 (dua) alat konversi yang digunakan pada penelitian ini adalah Adobe Acrobat 7.0 Professional dan PDF2HTML (http://www.pdfonline.com/convertpdf-to-html/). Selain itu, alat konversi ke-3 yang digunakan diambil dari salah satu hasil pencarian di Google untuk alat konversi, yaitu : Simpo PDF Converter. Pada ujicoba yang dilakukan untuk memilih alat konversi, disiapkan dokumen yang dibuat /bersumber dari : 1. Ms Word 2007 (extention .docx) 2. Ms. Excel 2007 (extention .xlsx) 3. Open Document Text (extention .odt) 4. Open Document Sheet (extention .ods) 5. Ms Word 2003 (extention .doc) 6. Ms. Excel 2003 (extention .xls) Open Document Text dan Open Document Sheet sudah menyediakan fasilitas konversi menjadi format PDF, sedangkan pada Ms. Word dan Ms. Excel yang sudah menyediakan fasilitas konversi format PDF adalah mulai Ms. 2007, sehingga digunakan 2 jenis Ms. Word dan Ms. Excel yaitu : versi 2007 dan versi 2003 yang belum memiliki fasilitas konversi ke PDF. Masing-masing dokumen yang bersumber dari 6 (enam) word/sheet processing tersebut diubah menjadi format PDF dengan alat konversi : A. Adobe Acrobat 7.0 Professional B. Fasilitas dari word/sheet processing masing-masing. Tabel 1. Pembuatan Dokumen/File PDF NO 1 2 3 4 5 6 7 …. 24 25 26 27 28 29 .... 40 Pembuat Dokumen Ms. Word 2007 Ms Excel 2007 Open Document Text Open Document Sheet Ms. Word 2003 Ms. Excel 2003 Ms Word 2007 ....... Ms. Excel 2003 Ms. Word 2007 Ms Excel 2007 Open Document Text Open Document Sheet Ms. Word 2007 ....... Open Document Sheet Menjadi PDF Adobe Adobe Adobe Adobe Adobe Adobe Adobe .... Adobe Fasilitas Fasilitas Fasilitas Fasilitas Fasilitas ..... Fasilitas Kode Doc. 1.A.1 2.A.1 3.A.1 4.A.1 5.A.1 6.A.1 1.A.2 ..... 6.A.4 1.B.1 2.B.1 3.B.1 4.B.1 1.B.2 ...... 4.B.4 Konferensi Nasional Sistem Informasi 2013, STMIK Bumigora Mataram 14-16 Pebruari 2013 Tabel 1. memperlihatkan cuplikan dari pembuatan dokumen/file menjadi format PDF, dimana pada dokumen selain berisi teks juga berisi tabel yang sederhana dalam 4 (empat) tipe penulisan tabel, yaitu : 1. Tabel dengan nama property di kiri kolom dan font style biasa, serta instance ada yang berada ditengah kolom. 2. Tabel dengan nama property di kiri kolom dan font style tebal, serta instance ada yang berada ditengah kolom. 3. Tabel dengan nama property di tengah kolom dan font style biasa,serta instance ada yang berada ditengah kolom. 4. Tabel dengan nama property di tengah kolom dan font style tebal, serta instance juga ada yang berada ditengah kolom. Pada tabel 1. dibuat kode yang terdiri dari 3 (tiga) digit untuk masing-masing dokumen yang digunakan pada penelitian ini. Digit ke-1 menandakan alat pembuat dokumen, digit ke-2 menandakan alat konversi yang digunakan untuk mengubah dokumen menjadi format PDF, dan digit ke-3 menandakan tipe penulisan yang dibuat untuk menuliskan tabel yang ada didalam dokumen. Misalkan dokumen dengan kode 6.A.4 adalah dokumen yang dibuat dengan Ms. Word 2003; diubah menjadi format PDF dengan menggunakan alat konversi Adobe Acrobat 7.0 Profesional ; tabel ditulis dalam tipe penulisan 4, yaitu : tabel dengan nama property di tengah kolom, font style tebal, serta instance ada yang berada ditengah kolom. Banyaknya file dokumen dalam format PDF yang akan diujicobakan pada alat konversi PDF menjadi HTML adalah 40 (empat puluh) dokumen. Gambar 2 memperlihatkan salah satu contoh tabel yang dibuat dengan Ms. Word 2003 dengan nama property di tengah kolom dan font style biasa, serta instance yang berada ditengah kolom (tipe penulisan tabel yang ke-3). Kemudian 40 (empat puluh) dokumen format PDF tersebut di ubah menjadi format HTML dengan menggunakan 3 (tiga) alat konversi, yaitu : I. Adobe Acrobat 7.0 Profesional II. PDF2HTML III. Simpo PDF Converter Parameter dalam pemilihan alat konversi ada 4 (empat), yaitu : 1. Tabel dan teks yang terpisah, dilihat dengan adanya tag <table>...</table> pada HTML. (pada Tabel 2. dikodekan dengan T-ok) 2. Kesesuaian jumlah baris dari tabel dilihat dari jumlah tag <tr>...</tr> yang ada didalam tag <table>...</table> mempunyai jumlah yang sama dengan jumlah baris tabel. (pada Tabel 2. dikodekan dengan B-ok) 3. Kesesuaian jumlah kolom, dengan melihat tag <td>...</td>, yaitu jumlah tag <td>...</td> yang ada didalam tag <tr>...</tr> sama dengan jumlah kolom yang ada pada tabel. (pada Tabel 2. dikodekan dengan K-ok) 4. Kesesuaian posisi isi cell, dengan melihat jika teks pada 1 cell mempunyai jumlah karakter yang banyak atau teks bisa lebih dari 1 baris di dalam 1 kolom/cell, maka teks tersebut tetap berada di dalam satu tag <td>...</td>, selain itu isi cell memang berada didalam tag <td>...</td> yang sesuai dengan posisinya didalam tabel. (pada Tabel 2. dikodekan dengan C-ok) Pada pengamatan yang dilakukan, 4 (empat) tipe penulisan pada dokumen yang diujicoba tidak mempunyai pengaruh signifikan, sehingga tipe penulisan tidak diperhitungkan dalam mencari hasil konversi yang terbaik. Berikut ini pada Tabel 2. merupakan cuplikan ringkasan hasil pengamatan 4 (empat) parameter dari ketiga alat yang digunakan pada ujicoba. Tabel 2. Ringkasan Hasil Pengamatan 4 Parameter Gambar 2. Contoh Tabel yang dibuat dengan Word/Sheet Processing Tipe 3 No. Kode Doc. 1 2 3 4 5 6 7 …. 24 25 ... 48 49 ... 1.A.1 2.A.1 3.A.1 4.A.1 5.A.1 6.A.1 1.A.2 ....... 6.A.4 1.A.1 ..... 6.A.4 1.A.1 ..... Tool PDF HTML I. I. I. I. I. I. I. .... I. II. ..... II. III. ..... Hasil T-ok ; B-ok ; K-ok ; C-ok T-ok ; B-ok ; K-ok ; C-ok T-ok ; B-ok ; K-ok ; C-ok T-ok ; B-ok ; K-ok ; C-ok T-ok ; B-ok ; K-ok ; C-ok T-ok ; B-ok ; K-no ; C-ok T-ok ; B-ok ; K-ok ; C-ok ..... T-ok ; B-ok ; K-ok ; C-ok T-ok ; B-no ; K-no ; C-no ..... T-ok ; B-no ; K-ok ; C-no T-ok ; B-ok ; K-ok ; C-ok ..... Konferensi Nasional Sistem Informasi 2013, STMIK Bumigora Mataram 14-16 Pebruari 2013 No. Kode Doc. Tool PDF HTML III. I. I. I. I. I. ..... I. II. ..... II. III. ..... III. Hasil 72 6.A.4 T-ok ; B-ok ; K-ok ; C-no 73 1.B.1 T-ok ; B-ok ; K-ok ; C-ok 74 2.B.1 T-ok ; B-ok ; K-ok ; C-ok 75 3.B.1 T-ok ; B-ok ; K-ok ; C-ok 76 4.B.1 T-ok ; B-ok ; K-ok ; C-ok 77 1.B.2 T-ok ; B-ok ; K-ok ; C-ok .... ....... ...... 88 4.B.4 T-ok ; B-ok ; K-ok ; C-ok 89 1.B.1 T-ok ; B-no ; K-no ; C-no .... ...... ...... 104 4.B.4 T-ok ; B-no ; K-no ; C-no 105 1.B.1 T-ok ; B-ok ; K-ok ; C-ok .... ..... ....... 120 4.B.4 T-no ; B-no ; K-no ; C-no Keterangan : - T : Tabel yang terpisah dari teks (kondisi : ok/no) - B : kesesuaian jumlah baris ( kondisi : ok/no) - K : Kesesuaian jumlah kolom (kondisi : ok/no) - C : Kesesuaian posisi isi cell (kondisi : ok/no) Berdasarkan pada parameter yang ditemukan pada dokumen yang digunakan pada pemilihan alat konversi seperti terlihat pada Tabel 2. diatas, kemudian dilakukan pembobotan untuk masingmasing alat konversi format PDF menjadi format HTML. Pembobotan dilakukan dengan menggunakan rumusan sebagai berikut yang diformulasikan secara formal pada F.1. …F.1 Persentase bobot rata-rata dari masing-masing alat konversi didapatkan dengan rumusan F.2. …F.2 Keterangan rumus : 1. BAK : Bobot Alat Konversi 2. I/II/III : 3 (tiga) jenis alat konversi PDF HTML 3. BP : Bobot Parameter 4. 1..6 : Alat pembuat dokumen di word/sheet processing 5. A : Alat konversi doc PDF (Adobe) 6. B : Alat konversi doc PDF (Fasilitasnya) 7. 1..4 : Tipe penulisan pada tabel didalam dokumen 8. BR : Bobot Rata-rata dalam persen (%) Berdasarkan kedua rumusan diatas, maka pada Tabel 3. memperlihatkan persentase hasil pembobotan parameter (Bobot Rata-rata ) untuk ketiga alat konversi tersebut. Semakin tinggi nilai bobot rata-rata, maka menunjukkan hasil konversi yang semakin baik, dan bobot rata-rata tertinggi pada penelitian ini menunjukkan alat konversi yang terbaik. Tabel 3. Bobot Rata-rata Hasil Pengamatan Alat Konversi No. 1 2 3 Alat Konversi Adobe Acrobat 7.0 Profesional PDF2HTML Simpo PDF Konverter Bobot (%) 98,75 36,56 53,54 Tampak pada Tabel 3. untuk bobot rata-rata dari perhitungan parameter yang memiliki nilai tertinggi adalah Adobe Acrobat 7.0. Profesional, sehingga alat konversi dokumen format PDF menjadi format HTML yang terbaik adalah Adobe Acrobat 7.0. Profesional. 4. Penutup Penelitian ini melakukan pemilihan dari 3 (tiga) alat konversi yang sudah dikembangkan untuk memilih hasil konversi yang terbaik dari dokumen format PDF menjadi format HTML. Pada pemilihan alat konversi digunakan 4 (empat) parameter, yaitu : tabel yang terpisah dengan teks di dokumen, kesesuaian jumlah baris, kesesuaian jumlah kolom, dan kesesuaian isi cell. Dokumen yang mengandung tabel dibuat dengan 6 (enam) jenis word/sheet processing dan di ubah menjadi format PDF dengan menggunakan 2 alat yaitu Adobe Acrobat 7.0 Profesional dan fasilitas yang dimiliki oleh word/sheet processing. Alat konversi yang dibandingkan adalah Adobe Acrobat 7.0 Professional (berbayar), PDF2HTML (gratis), dan Simpo PDF Converter (gratis). Hasil pembobotan untuk paramater dari masing-masing alat konversi PDF menjadi HTML memperlihatkan bahwa alat konversi yang memiliki bobot tertinggi adalah alat konversi terbaik dari 3 (alat) alat yang diujicobakan, yaitu Adobe Acrobat 7.0 Profesional dengan bobot rata-rata 98,75%, sedangkan untuk Simpo PDF Converter mempunyai bobot rata-rata sebesar 53,54% dan PDF2HTML mempunyai bobot rata-rata 36,56%. Penelitian pada artikel ini, selanjutnya dapat digunakan untuk melakukan ekstraksi pada tabel format PDF yang diawali dengan mengubah format menjadi HTML, dimana sudah ada penelitian yang dilakukan untuk pendekatan ekstraksi tabel HTML. Daftar Pustaka: [1] Chao, H. 2003. Background Pattern Recognition Konferensi Nasional Sistem Informasi 2013, STMIK Bumigora Mataram 14-16 Pebruari 2013 [2] [3] [4] [5] in Multi-page PDF Document. Proceedings of the Third International Workshop in Document Analysis and its Applications. Dejean, H., Meunier, J-L. 2006. A System for Converting PDF Documents into Structured XML Format. Document Analysis Systems'06. Pg. 129-140 Kyrnin,J. 5 Great Tools for Converting PDF to HTML, http://webdesign.about.com/od/pdf/tp/tools-forconverting-pdf-to-html.htm, tgl akses 4 September 2012 Tengli,A., Yang, Y., Ma, N. L. 2004. Learning Table Extraction from Examples. Proceeding COLING '04 Proceedings of The 20th International Conference on Computational Linguistics Yildiz, B., Kaiser, K., Miksch, S. 2005. pdf2table : A Method to Extract Table Information from PDF Files. Proceedings of the 2nd Indian International Conference on Artificial Intelligence IICAI05 Pune India.