Tugas-1 :: Statistik Teks

Tugas-1 :: Statistik Teks
Buat program menggunakan bahasa PERL untuk memproses korpus untuk
menghasilkan beberapa nilai statistik teks. Program Anda membaca sebuah file
korpus yang terdiri dari beberapa dokumen. Program Anda menampilkan output
untuk menjawab beberapa pertanyaan berikut:
•
Banyaknya dokumen dalam koleksi
•
Daftar 10 kata yang frekuensinya paling tinggi pada koleksi.
•
Daftar 10 kata yang frekuensinya paling rendah pada koleksi.
•
Jumlah seluruh kata dalam koleksi
•
Jumlah kata unik dalam seluruh koleksi
•
Jumlah kata unik yang mengandung kata ‘tani’ dalam seluruh koleksi
•
Urutan (descending) id-dokumen berdasarkan jumlah kata unik yang
mengandung kata ‘tani’ di setiap dokumen masing-masing.
•
Jumlah kalimat dalam seluruh koleksi
•
Jumlah paragraf dalam seluruh koleksi (dibatasi tag <p>…</p>)
•
Banyaknya frase ‘luas lahan’ dalam seluruh koleksi
•
Apakah kata-kata pada koleksi dokumen ini mengikuti sebaran Zipf?
Gambarkan grafiknya (bisa menggunakan Excel atau program lainnya)
Ketentuan
•
Program dan output dicetak ke kertas A4 dan dikumpulkan pada 1 Oktober
2009 saat kuliah. Keterlambatan akan mengurangi nilai 15 per hari.
•
Program otomatis membaca file koleksi yang sudah disediakan.
•
Pengolahan teks dilakukan hanya pada bagian tag <TEXT> …. </TEXT> di
setiap dokumen dalam koleksi.
•
Beri keterangan (comment) secukupnya pada program Anda agar mudah
dipahami.
•
Kata merupakan kumpulan karakter alfabet saja. Hilangkan semua tanda
baca yang terdapat pada kata. Satu kata adalah yang dibatasi oleh
'whitespace', sehingga kata majemuk ataupun pengulangan tetap dianggap
sebagai sebuah kata.