Tugas-1 :: Statistik Teks Buat program menggunakan bahasa PERL untuk memproses korpus untuk menghasilkan beberapa nilai statistik teks. Program Anda membaca sebuah file korpus yang terdiri dari beberapa dokumen. Program Anda menampilkan output untuk menjawab beberapa pertanyaan berikut: • Banyaknya dokumen dalam koleksi • Daftar 10 kata yang frekuensinya paling tinggi pada koleksi. • Daftar 10 kata yang frekuensinya paling rendah pada koleksi. • Jumlah seluruh kata dalam koleksi • Jumlah kata unik dalam seluruh koleksi • Jumlah kata unik yang mengandung kata ‘tani’ dalam seluruh koleksi • Urutan (descending) id-dokumen berdasarkan jumlah kata unik yang mengandung kata ‘tani’ di setiap dokumen masing-masing. • Jumlah kalimat dalam seluruh koleksi • Jumlah paragraf dalam seluruh koleksi (dibatasi tag <p>…</p>) • Banyaknya frase ‘luas lahan’ dalam seluruh koleksi • Apakah kata-kata pada koleksi dokumen ini mengikuti sebaran Zipf? Gambarkan grafiknya (bisa menggunakan Excel atau program lainnya) Ketentuan • Program dan output dicetak ke kertas A4 dan dikumpulkan pada 1 Oktober 2009 saat kuliah. Keterlambatan akan mengurangi nilai 15 per hari. • Program otomatis membaca file koleksi yang sudah disediakan. • Pengolahan teks dilakukan hanya pada bagian tag <TEXT> …. </TEXT> di setiap dokumen dalam koleksi. • Beri keterangan (comment) secukupnya pada program Anda agar mudah dipahami. • Kata merupakan kumpulan karakter alfabet saja. Hilangkan semua tanda baca yang terdapat pada kata. Satu kata adalah yang dibatasi oleh 'whitespace', sehingga kata majemuk ataupun pengulangan tetap dianggap sebagai sebuah kata.