bab i pendahuluan

advertisement
BAB I
PENDAHULUAN
1.1.
Latar Belakang
Seiring dengan semakin mudahnya dalam memperoleh koneksi internet,
jumlah pengguna internet juga bertambah secara pesat. Hal ini dapat dilihat dari
jumlah pengguna internet yang berkembang pesat, dimana pada tahun 1993, jumlah
pengguna internet dunia hanya berjumlah ± 14 juta pengguna dibandingkan dengan
jumlah pengguna internet dunia pada tahun 2014 yang berjumlah hampir 3 milyar
pengguna (Internet Live Stats, 2014).
Pertambahan pengguna internet yang pesat memberikan kontribusi yang besar
pada berbagai bidang. Salah satunya, seperti yang diutarakan oleh Argamon dkk.
(2009), misalnya pada bidang komersial, di mana perusahaan bisa menganalisis
konsumen yang membeli produk perusahaan tersebut, terutama untuk konsumen
yang menulis blog ataupun review terhadap produk tersebut. Jumlah pengguna
internet yang semakin banyak berarti data yang bisa diperoleh pun semakin banyak,
sehingga data yang diperoleh pun semakin mendekati kebenaran statistik. Hal yang
sama juga disinggung oleh Pham dkk. (2009), dimana dengan mengidentifikasi
pengarang ataupun karakteristik pengarang dari tulisan tertentu dapat membantu
perusahaan dalam menentukan strategi marketing yang cocok dan mengembangkan
produk yang memenuhi permintaan konsumen, seperti mengetahui tipe orang yang
suka atau tidak suka produk tertentu ataupun apakah produk tertentu populer di
kalangan perempuan ataupun laki-laki.
Secara garis besar suatu proses identifikasi pengarang terbagi atas dua bagian
utama yaitu author attribution ataupun author profiling. Jika author attribution
bertujuan untuk memprediksi siapa, dari sekumpulan kandidat yang ada, yang
merupakan pengarang sebenarnya dari text yang diberikan (Koppel dkk., 2006),
maka berbeda dengan author attribution yang merupakan text classification
berdasarkan nama pengarang, author profiling adalah text classification yang
1
2
mengklasifikasikan suatu tulisan berdasarkan karakteristik ataupun profil dari
pengarang, di mana profil pengarang merupakan kumpulan dari karakteristik yang
diprediksi(Pham dkk., 2009).
Selain itu Pham dkk. (2009) juga menjelaskan perbedaan mendasar antara
author attribution dan author profiling. Pada author attribution, diperlukan lebih
dari satu hasil tulisan dari pengarang sama, sedangkan author profiling dapat
dilakukan meskipun hasil tulisan dari pengarang yang sama hanya satu, bahkan
performa dari author profiling akan lebih baik jika data memuat beragam
pengarang yang berbeda. Oleh karena alasan tersebut, maka author profiling
mungkin untuk diaplikasikan pada tulisan online di mana mayoritas pengarang dari
tulisan tersebut menggunakan suatu identitas virtual.
Alasan author profiling mungkin dilakukan tanpa memerlukan tulisan
pengarang yang bersangkutan adalah karena manusia mempunyai kebiasaan
tertentu yang cenderung konsisten sehingga walaupun perempuan dan laki laki
menggunakan bahasa yang sama dalam percakapan akan tetapi bukti empiris
menyatakan bahwa dalam komunikasi tertulis, interaksi langsung ataupun
komunikasi melalui komputer terdapat perbedaan antara cara laki-laki dan
perempuan dalam berkomunikasi (Corney dkk., 2002). Salah satu perbedaannya
diutarakan oleh Singh (2001), yaitu percakapan yang dilakukan oleh laki-laki
menggunakan kosakata yang lebih banyak dan cenderung menggunakan kalimat
panjang sedangkan percakapan yang dilakukan oleh perempuan cenderung
menggunakan lebih banyak kata kerja dan struktur kalimat yang pendek.
Penelitian mengenai author profiling telah banyak dilakukan misalnya
pengkategorian tulisan berdasarkan jenis kelamin pengarang menggunakan
algoritma Balanced Winnow yang dilakukan oleh Koppel dkk. (2002). Selain itu
ada juga penelitian mengenai efek dari jenis kelamin terhadap postingan blog yang
dilakukan menggunakan Multi-Class Real Winnow (Schler dkk., 2006). Satu tahun
setelah Schler dkk., Estival dkk. (2007) juga melakukan penelitian mengenai author
3
profiling pada email berbahasa inggris menggunakan berbagai algoritma –
algoritma yang disediakan oleh WEKA (Witten dkk., 2011). Pada tahun yang sama
Lin (2007) juga melakukan penelitian mengenai author profiling terhadap log
percakapan online menggunakan algoritma Support Vector Machine. Dua tahun
setelah Lin, Argamon dkk. (Argamon dkk., 2009) juga melakukan penelitian author
profiling terhadap tulisan anonim menggunakan algoritma Bayesian Multinominal
Regression. Walaupun telah banyak penelitian yang telah dilakukaan, akan tetapi
masih banyak algoritma machine learning yang dapat diterapkan dalam
mengimplementasikan author profiling seperti algoritma k-Nearest Neighbour (kNN).
Author profiling bukanlah hal yang mudah untuk diterapkan terutama jika
berkaitan dengan data real-time. Banyak masalah yang perlu dihadapi dalam
menerapkan author profiling pada data real-time. Dalam jurnalnya, Diao dan Shen
(2012) menyebutkan bahwa kebanyakan masalah yang umum terjadi pada saat
menganalisis data real-time, terutama dalam kasus text processing ataupun text
classification, merupakan masalah yang berhubungan dengan jumlah fitur (atau
yang biasa dikenal sebagai curse of dimensionality (Bellman, 1957)). Jumlah fitur
yang berlebihan tidak hanya akan mempengaruhi waktu komputasi, tetapi juga akan
menurunkan akurasi dalam proses klasifikasi. Oleh karena itu, isu terpenting dalam
text classification adalah isu yang berhubungan dengan ruang fitur berdimensi
tinggi (Uysal & Gunal 2014). Salah satu solusi yang bisa digunakan untuk
menyelesaikan isu tersebut adalah dengan mengaplikasikan feature selection.
Dimana, menurut Diao dan Shen (2012), tujuan utama dari feature selection adalah
untuk menemukan subset fitur terkecil dari suatu domain permasalahan, dengan
cara menghilangkan fitur yang tidak relevan, berulang ataupun fitur yang
menyesatkan, tanpa mengurangi nilai akurasi dalam merepresentasikan data
original. Banyak algoritma yang dapat digunakan dalam mengimplementasikan
4
feature selection misalnya Harmony Search yang digunakan oleh Diao dan Shen
(2012) ataupun Genetic Algorithm yang digunakan oleh Uysal dan Gunal (2014).
Penelitian yang berhubungan dengan author profiling memang bukan
termasuk penelitian yang baru akan tetapi masih banyak aspek yang belum diteliti.
Hal tersebut yang melatar belakangi dilakukan penelitian author profiling dengan
mengimplementasikan
algoritma
k-NN
disertai
dengan
feature
selection
menggunakan algoritma Harmony Search.
1.2.
Rumusan Masalah
Berdasarkan permasalahan yang telah disinggung sebelumnya maka
disimpulkan beberapa rumusan masalah dalam peneletian ini antara lain sebagai
berikut:
8. Bagaimana memprediksi profil dari pengarang tertentu menggunakan k-NN
berdasarkan data tulisan yang ada.
9. Bagaimana pengaruh feature selection menggunakan HSA terhadap performa
sistem.
1.3.
Batasan Masalah
Dalam penelitian ini, diberikan beberapa batasan masalah yang akan diteliti
antara lain sebagai berikut:
1. Data yang digunakan dalam penelitian ini diperoleh dari suatu laman yang
menyelenggarakan kompetisi author profiling.
2. Data tersebut berupa kumpulan tulisan online baik melalui blog, media sosial
ataupun Twitter.
3. Data yang digunakan merupakan data tulisan dalam bahasa inggris dan
tersimpan dalam format xml.
5
1.4.
Tujuan Penelitian
Adapun tujuan dilakukan penelitian ini sebagai berikut:
1. Mengimplementasikan k-NN dalam author profiling guna memprediksi profil
dari pengarang tertentu.
2. Mengaplikasikan feature selection dalam author profiling menggunakan HSA
guna meningkatkan akurasi sistem.
3. Menbandingkan performa dari author profiling dengan dan tanpa menggunakan
HSA guna mengetahui pengaruh fitur yang digunakan dengan performa sistem.
1.5.
Manfaat Penelitian
Manfaat yang diperoleh dari penelitian ini adalah:
1. Sebagai dasar pengembangan sistem author profiling.
2. Sebagai pembanding author profiling menggunakan k-NN dengan author
profiling menggunakan metode lainnya.
3. Sebagai pembanding nilai akurasi author profiling menggunakan HSA-kNN
dengan metode lainnya.
1.6.
Metodologi Penelitian
Berikut metode penelitian author profiling untuk data-data tulisan online
(blog, posting pada media sosial ataupun Twitter’s tweet) dalam bahasa inggris:
1. Studi literatur
Studi literatur dilakukan dengan tujuan mencari jurnal ataupun literature yang
telah dipublikasi guna mempelajari algoritma ataupun metode yang menjadi basis
dalam
penelitian
ini.
Selain
itu,
studi
literatur
juga
dilakukan
untuk
membandingkan penelitian-penelitian yang ada sebelumnya dengan penelitian yang
dilakukan.
2. Perancangan Struktur
Struktur dari suatu sistem itu sendiri meliputi bahasa pemograman yang
digunakan, perangkat lunak yang digunakan beserta algoritma yang akan
6
diimplementasikan. Secara garis besar, yang dilakukan pada tahap ini merupakan
perancangan beberapa struktur kecil yang merupakan bagian dari sistem yang akan
dibangun. Beberapa rancangan struktur-struktur kecil tersebut kemudian digabung
menjadi satu rancangan struktur dari keseluruhan sistem.
3. Implementasi Rancangan
Berdasarkan rancangan sturuktur sistem yang telah dibuat, dibangun suatu
aplikasi siap pakai menggunakan perangkat lunak tertentu sehingga aplikasi
tersebut dapat mengimplementasikan fungsionalitas dari sistem yang telah
dirancang.
4. Pengujian Sistem
Sistem yang telah selesai diimplementasi diuji menggunakan beberapa skema
pengujian, dimana pada masing-masing skema tersebut terdapat variasi parameter
yang membedakan antara satu skema dengan skema peneletian lainnya.
5. Penulisan Laporan
Hasil uji dari beberapa skema pengujian tersebut kemudian digunakan sebagai
basis dalam menarik kesimpulan atas penelitian yang telah dilakukan yang
kemudian kesimpulan dan dokumentasi proses penelitian dirangkum dalam satu
laporan akhir.
1.7.
Sistematika Penulisan
BAB I PENDAHULUAN
Bagian ini membahas latar belakang yang mendasari alasan penelitian ini
dilakukan, rumusan dan batasan masalah dalam penelitian ini. Dalam bagian ini
juga dibahas tujuan dan manfaat yang diperoleh dari penelitian ini.
BAB II TINJAUAN PUSTAKA
Bagian ini membahas penelitian-penelitian yang sudah pernah dilakukan dan
juga membahas perbedaan yang ada antara penelitian sebelumnya dengan penelitian
ini.
7
BAB III LANDASAN TEORI
Bagian ini membahas beberapa teori-teori yang digunakan sebagai landasan
dalam melakukan penelitian ini.
BAB IV PERANCANGAN SISTEM
Bagian ini membahas rancangan dari sistem yang akan dibangun beserta
dengan fungsionalitas dari sistem.
BAB V IMPLEMENTASI SISTEM
Bagian ini membahas implementasi dari rancangan sistem dengan
menggunakan bahasa pemograman java.
BAB VI HASIL PENELITIAN
Bagian ini membahas hasil dari beberapa skema pengujian yang diaplikasikan
terhadap sistem.
BAB VII PENUTUP
Bagian ini membahas kesimpulan yang diperoleh dari beberapa pengujian
yang dilakukan dan juga saran untuk penelitian selanjutnya.
Download