BAB I PENDAHULUAN 1.1. Latar Belakang Seiring dengan semakin mudahnya dalam memperoleh koneksi internet, jumlah pengguna internet juga bertambah secara pesat. Hal ini dapat dilihat dari jumlah pengguna internet yang berkembang pesat, dimana pada tahun 1993, jumlah pengguna internet dunia hanya berjumlah ± 14 juta pengguna dibandingkan dengan jumlah pengguna internet dunia pada tahun 2014 yang berjumlah hampir 3 milyar pengguna (Internet Live Stats, 2014). Pertambahan pengguna internet yang pesat memberikan kontribusi yang besar pada berbagai bidang. Salah satunya, seperti yang diutarakan oleh Argamon dkk. (2009), misalnya pada bidang komersial, di mana perusahaan bisa menganalisis konsumen yang membeli produk perusahaan tersebut, terutama untuk konsumen yang menulis blog ataupun review terhadap produk tersebut. Jumlah pengguna internet yang semakin banyak berarti data yang bisa diperoleh pun semakin banyak, sehingga data yang diperoleh pun semakin mendekati kebenaran statistik. Hal yang sama juga disinggung oleh Pham dkk. (2009), dimana dengan mengidentifikasi pengarang ataupun karakteristik pengarang dari tulisan tertentu dapat membantu perusahaan dalam menentukan strategi marketing yang cocok dan mengembangkan produk yang memenuhi permintaan konsumen, seperti mengetahui tipe orang yang suka atau tidak suka produk tertentu ataupun apakah produk tertentu populer di kalangan perempuan ataupun laki-laki. Secara garis besar suatu proses identifikasi pengarang terbagi atas dua bagian utama yaitu author attribution ataupun author profiling. Jika author attribution bertujuan untuk memprediksi siapa, dari sekumpulan kandidat yang ada, yang merupakan pengarang sebenarnya dari text yang diberikan (Koppel dkk., 2006), maka berbeda dengan author attribution yang merupakan text classification berdasarkan nama pengarang, author profiling adalah text classification yang 1 2 mengklasifikasikan suatu tulisan berdasarkan karakteristik ataupun profil dari pengarang, di mana profil pengarang merupakan kumpulan dari karakteristik yang diprediksi(Pham dkk., 2009). Selain itu Pham dkk. (2009) juga menjelaskan perbedaan mendasar antara author attribution dan author profiling. Pada author attribution, diperlukan lebih dari satu hasil tulisan dari pengarang sama, sedangkan author profiling dapat dilakukan meskipun hasil tulisan dari pengarang yang sama hanya satu, bahkan performa dari author profiling akan lebih baik jika data memuat beragam pengarang yang berbeda. Oleh karena alasan tersebut, maka author profiling mungkin untuk diaplikasikan pada tulisan online di mana mayoritas pengarang dari tulisan tersebut menggunakan suatu identitas virtual. Alasan author profiling mungkin dilakukan tanpa memerlukan tulisan pengarang yang bersangkutan adalah karena manusia mempunyai kebiasaan tertentu yang cenderung konsisten sehingga walaupun perempuan dan laki laki menggunakan bahasa yang sama dalam percakapan akan tetapi bukti empiris menyatakan bahwa dalam komunikasi tertulis, interaksi langsung ataupun komunikasi melalui komputer terdapat perbedaan antara cara laki-laki dan perempuan dalam berkomunikasi (Corney dkk., 2002). Salah satu perbedaannya diutarakan oleh Singh (2001), yaitu percakapan yang dilakukan oleh laki-laki menggunakan kosakata yang lebih banyak dan cenderung menggunakan kalimat panjang sedangkan percakapan yang dilakukan oleh perempuan cenderung menggunakan lebih banyak kata kerja dan struktur kalimat yang pendek. Penelitian mengenai author profiling telah banyak dilakukan misalnya pengkategorian tulisan berdasarkan jenis kelamin pengarang menggunakan algoritma Balanced Winnow yang dilakukan oleh Koppel dkk. (2002). Selain itu ada juga penelitian mengenai efek dari jenis kelamin terhadap postingan blog yang dilakukan menggunakan Multi-Class Real Winnow (Schler dkk., 2006). Satu tahun setelah Schler dkk., Estival dkk. (2007) juga melakukan penelitian mengenai author 3 profiling pada email berbahasa inggris menggunakan berbagai algoritma – algoritma yang disediakan oleh WEKA (Witten dkk., 2011). Pada tahun yang sama Lin (2007) juga melakukan penelitian mengenai author profiling terhadap log percakapan online menggunakan algoritma Support Vector Machine. Dua tahun setelah Lin, Argamon dkk. (Argamon dkk., 2009) juga melakukan penelitian author profiling terhadap tulisan anonim menggunakan algoritma Bayesian Multinominal Regression. Walaupun telah banyak penelitian yang telah dilakukaan, akan tetapi masih banyak algoritma machine learning yang dapat diterapkan dalam mengimplementasikan author profiling seperti algoritma k-Nearest Neighbour (kNN). Author profiling bukanlah hal yang mudah untuk diterapkan terutama jika berkaitan dengan data real-time. Banyak masalah yang perlu dihadapi dalam menerapkan author profiling pada data real-time. Dalam jurnalnya, Diao dan Shen (2012) menyebutkan bahwa kebanyakan masalah yang umum terjadi pada saat menganalisis data real-time, terutama dalam kasus text processing ataupun text classification, merupakan masalah yang berhubungan dengan jumlah fitur (atau yang biasa dikenal sebagai curse of dimensionality (Bellman, 1957)). Jumlah fitur yang berlebihan tidak hanya akan mempengaruhi waktu komputasi, tetapi juga akan menurunkan akurasi dalam proses klasifikasi. Oleh karena itu, isu terpenting dalam text classification adalah isu yang berhubungan dengan ruang fitur berdimensi tinggi (Uysal & Gunal 2014). Salah satu solusi yang bisa digunakan untuk menyelesaikan isu tersebut adalah dengan mengaplikasikan feature selection. Dimana, menurut Diao dan Shen (2012), tujuan utama dari feature selection adalah untuk menemukan subset fitur terkecil dari suatu domain permasalahan, dengan cara menghilangkan fitur yang tidak relevan, berulang ataupun fitur yang menyesatkan, tanpa mengurangi nilai akurasi dalam merepresentasikan data original. Banyak algoritma yang dapat digunakan dalam mengimplementasikan 4 feature selection misalnya Harmony Search yang digunakan oleh Diao dan Shen (2012) ataupun Genetic Algorithm yang digunakan oleh Uysal dan Gunal (2014). Penelitian yang berhubungan dengan author profiling memang bukan termasuk penelitian yang baru akan tetapi masih banyak aspek yang belum diteliti. Hal tersebut yang melatar belakangi dilakukan penelitian author profiling dengan mengimplementasikan algoritma k-NN disertai dengan feature selection menggunakan algoritma Harmony Search. 1.2. Rumusan Masalah Berdasarkan permasalahan yang telah disinggung sebelumnya maka disimpulkan beberapa rumusan masalah dalam peneletian ini antara lain sebagai berikut: 8. Bagaimana memprediksi profil dari pengarang tertentu menggunakan k-NN berdasarkan data tulisan yang ada. 9. Bagaimana pengaruh feature selection menggunakan HSA terhadap performa sistem. 1.3. Batasan Masalah Dalam penelitian ini, diberikan beberapa batasan masalah yang akan diteliti antara lain sebagai berikut: 1. Data yang digunakan dalam penelitian ini diperoleh dari suatu laman yang menyelenggarakan kompetisi author profiling. 2. Data tersebut berupa kumpulan tulisan online baik melalui blog, media sosial ataupun Twitter. 3. Data yang digunakan merupakan data tulisan dalam bahasa inggris dan tersimpan dalam format xml. 5 1.4. Tujuan Penelitian Adapun tujuan dilakukan penelitian ini sebagai berikut: 1. Mengimplementasikan k-NN dalam author profiling guna memprediksi profil dari pengarang tertentu. 2. Mengaplikasikan feature selection dalam author profiling menggunakan HSA guna meningkatkan akurasi sistem. 3. Menbandingkan performa dari author profiling dengan dan tanpa menggunakan HSA guna mengetahui pengaruh fitur yang digunakan dengan performa sistem. 1.5. Manfaat Penelitian Manfaat yang diperoleh dari penelitian ini adalah: 1. Sebagai dasar pengembangan sistem author profiling. 2. Sebagai pembanding author profiling menggunakan k-NN dengan author profiling menggunakan metode lainnya. 3. Sebagai pembanding nilai akurasi author profiling menggunakan HSA-kNN dengan metode lainnya. 1.6. Metodologi Penelitian Berikut metode penelitian author profiling untuk data-data tulisan online (blog, posting pada media sosial ataupun Twitter’s tweet) dalam bahasa inggris: 1. Studi literatur Studi literatur dilakukan dengan tujuan mencari jurnal ataupun literature yang telah dipublikasi guna mempelajari algoritma ataupun metode yang menjadi basis dalam penelitian ini. Selain itu, studi literatur juga dilakukan untuk membandingkan penelitian-penelitian yang ada sebelumnya dengan penelitian yang dilakukan. 2. Perancangan Struktur Struktur dari suatu sistem itu sendiri meliputi bahasa pemograman yang digunakan, perangkat lunak yang digunakan beserta algoritma yang akan 6 diimplementasikan. Secara garis besar, yang dilakukan pada tahap ini merupakan perancangan beberapa struktur kecil yang merupakan bagian dari sistem yang akan dibangun. Beberapa rancangan struktur-struktur kecil tersebut kemudian digabung menjadi satu rancangan struktur dari keseluruhan sistem. 3. Implementasi Rancangan Berdasarkan rancangan sturuktur sistem yang telah dibuat, dibangun suatu aplikasi siap pakai menggunakan perangkat lunak tertentu sehingga aplikasi tersebut dapat mengimplementasikan fungsionalitas dari sistem yang telah dirancang. 4. Pengujian Sistem Sistem yang telah selesai diimplementasi diuji menggunakan beberapa skema pengujian, dimana pada masing-masing skema tersebut terdapat variasi parameter yang membedakan antara satu skema dengan skema peneletian lainnya. 5. Penulisan Laporan Hasil uji dari beberapa skema pengujian tersebut kemudian digunakan sebagai basis dalam menarik kesimpulan atas penelitian yang telah dilakukan yang kemudian kesimpulan dan dokumentasi proses penelitian dirangkum dalam satu laporan akhir. 1.7. Sistematika Penulisan BAB I PENDAHULUAN Bagian ini membahas latar belakang yang mendasari alasan penelitian ini dilakukan, rumusan dan batasan masalah dalam penelitian ini. Dalam bagian ini juga dibahas tujuan dan manfaat yang diperoleh dari penelitian ini. BAB II TINJAUAN PUSTAKA Bagian ini membahas penelitian-penelitian yang sudah pernah dilakukan dan juga membahas perbedaan yang ada antara penelitian sebelumnya dengan penelitian ini. 7 BAB III LANDASAN TEORI Bagian ini membahas beberapa teori-teori yang digunakan sebagai landasan dalam melakukan penelitian ini. BAB IV PERANCANGAN SISTEM Bagian ini membahas rancangan dari sistem yang akan dibangun beserta dengan fungsionalitas dari sistem. BAB V IMPLEMENTASI SISTEM Bagian ini membahas implementasi dari rancangan sistem dengan menggunakan bahasa pemograman java. BAB VI HASIL PENELITIAN Bagian ini membahas hasil dari beberapa skema pengujian yang diaplikasikan terhadap sistem. BAB VII PENUTUP Bagian ini membahas kesimpulan yang diperoleh dari beberapa pengujian yang dilakukan dan juga saran untuk penelitian selanjutnya.