Uploaded by User44315

cyberbullying

advertisement
PROPOSAL TUGAS AKHIR
RENCANA JUDUL
IDENTIFIKASI CYBERBULLYING PADA KOLOM KOMENTAR
INSTAGRAM MENGGUNAKAN ALGORITMA NAïVE BAYES DAN
INFORMATION GAIN SEBAGAI SELEKSI FITUR
RINA AYU WULAN SARI
161402097
PROGRAM STUDI TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
2019
1. Latar Belakang
Media sosial saat ini memiliki peran yang cukup besar bagi kehidupan sosial
masyarakat Indonesia. Salah satu media sosial yang banyak digunakan saat ini
adalah Instagram. Instagram merupakan sebuah platform media sosial yang
digunakan sebagai media berbagi foto dan video. Menurut hasil survei
WeAreSocial.net dan Hootsuit, pengguna aktif Instagram di Indonesia pada
tahun 2018 telah mencapai kurang lebih 53 juta pengguna aktif (Kemp, 2018).
Pengguna Instagram tentu saja bukan hanya orang dewasa namun remaja dan
anak – anak pun menggunakan media sosial ini.
Disamping kegunaannya yang positif sebagai media berbagi foto, video
bahkan pemasaran bisnis, Instagram juga memiliki dampak negatif dari
kebebasan pengguna menggunakan media sosial ini yaitu cyberbullying yang
terdapat pada kolom komentar pengguna Instagram. Cyberbullying merupakan
tindakan kekerasan yang dilakukan berulang – ulang oleh seseorang atau
kelompok terhadap seseorang atau kelompok lain menggunakan bantuan alat
elektronik (Smith, et al., 2008). Dampak yang ditimbulkan dari cyberbullying
terhadap psikologi korban antara lain tidak percaya diri, menarik diri dari
lingkungan sosial, perubahan kepribadian bahkan dapat memicu keinginan
untuk bunuh diri. Hal ini tentunya harus menjadi perhatian bagi para pengguna,
orang tua , keluarga bahkan pemerintah untuk dapat meminimalisir perbuatan
merugikan tersebut.
Penelitian oleh Miftah Andriansyah tahun 2017 tentang cyberbullying
yang berjudul Cyberbullying Comment Classification on Indonesian Selebgram
Using Support Vector Machine (SVM) Method dimana cyberbullying di
fokuskan pada komen sebuah akun seorang selebgram (selebritis Instagram) di
aplikasi Instagram. Data yang digunakan diambil dari comment section salah
satu foto yang diunggah oleh akun selebgram Awkarin, dan hasil akurasi yang
didapatkan cukup tinggi. Masalah dalam penelitian klasifikasi ini adalah ketika
bahasa dari comment yang digunakan tidak termasuk dalam bullying, tetapi
dalam artinya komen tersebut termasuk dalam bullying (Andriansyah, et al.,
2017).
Pada tahun 2018, penelitian tentang cyberbullying pada kolom komentar
Instagram telah di buat oleh Wanda Athira Luqyana, Imam Cholissodin dan
Rizal Setya Perdana dari Universitas Brawijaya. Penelitian ini dilakukan dengan
metode klasifikasi Support Vector Machine (SVM) dan untuk mengetahui setiap
sentimen pada komentar digunakan fitur Term Frequency-Inverse Document
Frequency (TF-IDF). Pada penelitian ini didapatkan hasil akurasi tertinggi
sebesar 90% pada komposisi data latih 50% dan komposisi data uji 50%
(Luqyana, et al., 2018).
Pada penelitian ini penulis menggunakan metode yang berbeda dengan
penelitian sebelumnya yaitu dengan menggunakan algoritma Naïve Bayes dan
Information Gain (IG) sebagai feature selection dengan tujuan untuk
membangun sebuah sistem yang mampu mengidentifikasi cyberbullying pada
kolom komentar pengguna Instagram.
2. Rumusan Masalah
Dampak negatif yang ditimbulkan dari penggunaan Instagram yaitu adanya
tindakan cyberbullying yang terdapat di kolom komentar pengguna Instagram.
Tindakan tersebut dapat berakibat fatal bagi kondisi psikologis korban
cyberbullying . Oleh karena itu diperlukan sistem yang dapat mengidentifikasi
komentar – komentar yang mengandung cyberbullying.
3. Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk menghasilkan sistem yang mampu
mengidentifikasi komentar – komentar yang mengandung cyberbullying pada
kolom komentar Instagram dengan menggunakan algoritma Naïve Bayes dan
Information Gain (IG) sebagai feature selection.
4. Batasan Masalah
Batasan masalah pada penilitian ini adalah :
1. Data yang digunakan pada penelitian ini diambil dari komentar
Instagram Berbahasa Indonesia
2. Teks yang dianalisis hanya teks yang dikategorikan mengandung kata
kasar atau bermakna negatif
5. Manfaat
Adapun manfaat dari penelitian ini adalah implementasi sistem untuk membantu
pengguna mengidentifikasi komentar yang mengandung kata – kata yang di
kategorikan sebagai cyberbullying pada kolom komentar pengguna Instagram.
6. Metodologi Penelitian
Tahapan – tahapan yang dilakukan dalam penelitian ini antara lain adalah :
1. Pengumpulan data merupakan tahap pengumpulan berbagai komentar
dari comment section pengguna Instagram dengan cara crawling.
2. Pre – processing merupakan tahapan awal yang dilakukan dalam
memproses teks. Tahapan pre – processing pada penelitian ini terdiri
dari case folding, data cleaning, normalisasi bahasa tidak baku,
stopword removal, stemming dan tokenisasi.
3. Term weighting merupakan tahap dimana data yang telah diolah pada
tahap pre – processing akan diproses kembali dengan melakukan
pembobotan pada setiap kata (term)
4. Seleksi fitur (feature selection) merupakan tahap dimana hasil dari
proses term weighting digunakan untuk melakukan seleksi fitur dengan
Information Gain (IG).
5. Identifikasi merupakan tahap dimana data yang telah diolah dari proses
seleksi fitur akan diklasifikasi dengan menggunakan algoritma Naïve
Bayes. Hasil yang diperoleh dengan algoritma ini adalah klasifikasi kelas
positif dan kelas negatif yang didapat berdasarkan bobot pada setiap fitur
dokumen teks.
6.
Output merupakan hasil akhir dari penelitian ini dimana hasil yang akan
diberikan pada tahap ini berupa identifikasi apakah komentar tersebut
mengandung cyberbullying atau tidak.
Arsitektur umum pada penelitian ini dapat dilihat pada gambar 1.
Gambar 1. Arsitektur Umum
Penjelasan arsitektur umum pada gambar 1. adalah sebagai berikut :
6.1 Pengumpulan Data
Data yang digunakan berupa berbagai komentar dari comment section
pengguna Instagram dengan cara crawling. Data tersebut kemudian akan
dibagi menjadi 2 bagian yaitu sebagai data latih dan sebagai data uji.
6.2 Pre – processing
Tahap ini terdiri dari beberapa proses diantaranya:
1. Case Folding : Proses mengubah setiap kata menjadi huruf kecil atau
lowercase.
2. Data Cleaning : Proses ini bertujuan untuk menghilangkan noise
yaitu dengan menghapus seluruh tanda baca seperti koma (,) , titik
(.) dan tanda baca lainnya.
3. Normalisasi Bahasa : Proses pengembalian kata tidak baku menjadi
kata baku yang sesuai dengan Kamus Besar Bahsa Indonesia
(KBBI).
4. Stopword Removal : Proses menghilangkan kata umum yang tidak
memiliki arti penting dan tidak digunakan dalam proses klasifikasi
seperti : di, ke, dari, yang, atau dan sebagainya.
5. Stemming : Teknik yang digunakan untuk mencari kata dasar (stem)
dari kata yang telah dilakukan stopword removal (filtering).
6. Tokenisasi : Proses dimana suatu kalimat dilakukan pemecahan
string/kata serta dihilangkan tanda hubung dan tanda bacanya.
Tokenisasi bertujuan memisah setiap kata agar kata – kata tersebut
dapat dibedakan menjadi karakter – karakter khusus yang nantinya
akan diperlakukan sebagai pemisah kata atau bukan. Didalam proses
tokenisasi, karakter yang sangat diandalkan sebagai pemisah kata
adalah karakter spasi yang terdapat pada dokumen.
6.3 Term Weighting
Data mentah dari proses pre – processing akan diproses kembali dengan
melakukan pembobotan pada setiap kata (term). Hasil akhir dari proses
pembobotan tersebut adalah berupa bobot TF – IDF.
6.4 Feature Selection
Tahap dimana hasil dari proses term weighting digunakan untuk melakukan
seleksi fitur dengan Information Gain (IG). Tahap ini berfungsi untuk
menentukan atribut mana yang akan dibuang atau digunakan. Atribut yang
memenuhi kriteria pembobotan nantinya akan digunakan untuk proses
identifikasi.
6.5 Identifikasi
Proses dimana data akan di klasifikasi menggunakan algoritma Naïve Bayes
sehingga diperoleh hasil klasifikasi kelas positif dan kelas negatif yang
didapat berdasarkan bobot pada setiap fitur dokumen teks.
6.6 Output
Hasil akhir dari penelitian ini dimana hasil yang akan diberikan pada tahap
ini berupa identifikasi apakah komentar tersebut mengandung cyberbullying
atau tidak.
7. Tinjauan Pustaka
7.1 Instagram
Instagram adalah sebuah aplikasi smartphone yang memungkinkan
penggunanya untuk dapat berkomunikasi dan berbagi informasi dalam
bentuk foto atau video. Didalam Instagram, pengguna dapat menggunakan
fitur – fitur yang menarik untuk membuat foto atau video pengguna menjadi
lebih menarik dan artistik (Atmoko, 2012:10).
7.2 Cyberbullying
Cyberbullying adalah suatu bentuk perbuatan dimana individu atau suatu
kelompok merasa mendapat perlakuan yang tidak menyenangkan dari
seseorang atau kelompok lain dengan menggunakan media teks elektronik
yang dilakukan dengan sengaja dan berulang – ulang (Stauffer, et al., 2012).
Sumber lain menyatakan bahwa cyberbullying adalah suatu tindakan
pembullyan yang dilakukan didalam dunia cyber. Aspek – aspek terkait dari
cyberbullying antara lain adalah flaming, harrassment, cyberstalking dan
lainnya (Pratiwi, 2017).
7.3 Text Mining
Text mining merupakan ilmu atau proses menganalisis suatu text untuk
memperoleh sumber atau informasi yang berguna melalui kecenderungan
pola statistik dan peramalan pola (Jiawei, et al., 2012). Tujuan dari text
mining adalah mengolah, menganalisis dan memahami pendapat, sikap /
perbuatan, emosi, penilaian dan sentiment untuk diperoleh sebuah sumber
dan informasi yang terkait dengan suatu peristiwa, topik, organisasi atau
individu tertentu (Liu, 2012).
7.4 Algoritma Naïve Bayes
Algoritma Naïve Bayes adalah algoritma untuk mengklasifikasikan
probabilitas anggota class dalam suatu dataset yang telah diberikan yang
didasarkan pada teorema Bayes . Pada teorema Bayes, semua atribut yang
diberikan oleh nilai pada variabel kelas di asumsikan independen atau tidak
saling ketergantungan (Saleh, 2010). Bayesian classification terbukti
memiliki akurasai dan kecepatan yang tinggi saat diaplikasikan ke dalam
database dengan data yang besar (Widiastuti, et al., 2014). Kelebihan dari
menggunakan algoritma Naïve Bayes adalah data yang di butuhkan untuk
data latih (Taraining Data) tidak besar. Data latih tersebut akan digunakan
untuk keperluan penetapan estimasi parameter didalam suatu proses
pengklasifikasian. Naïve Bayes juga merupakan algoritma yang terkadang
mempunyai kemampuan bekerja jauh lebih baik daripada yang diharapkan
di dunia nyata yang memiliki keadaan yang kompleks (Saleh, 2010).
7.5 Seleksi Fitur (Feature Selection)
Seleksi fitur (feature selection) adalah suatu upaya atau cara dalam
melakukan proses pemilihan fitur yang sesuai untuk pembelajaran target
data yang ada. Adapun tujuan diberikannya seleksi fitur adalah agar fitur –
fitur yang berlebihan serta tidak relevan dapat dihapus sehingga dapat
meningkatkan kinerja dari algoritma klasisfikasi yang digunakan
(Bangsheng, 2013).
7.6 Information Gain (IG)
Information Gain (IG) adalah suatu metode seleksi fitur paling sederhana
yang berfungsi untuk menetapkan batas dari setiap kepentingan milik
sebuah atribut (Deng & Runger, 2012). Information Gain sangat membantu
dalam megurangi noise yang di peroleh dari adanya fitur – fitur yang tidak
relevan serta dapat mengetahui dan mengidentifikasi fitur – fitur yang
mempunyai informasi paling banyak berdasarkan pada suatu kelas tertentu
(Aini, et al., 2018). Seleksi fitur Information Gain 𝐼𝐺(𝑡) dirumuskan pada
persamaan (1).
|C|
IG(t)= - ∑
i=1
|C|
P(Ci ) log P(Ci )+P(t) ∑
P(Ci |t) log P(Ci |t)+P(t̅) ∑
i=1
|C|
P(Ci |t̅) log P(Ci |t̅)
i=1
(1)
Keterangan :
Ci = kelas data
P(Ci ) = peluang dari kelas data
P(t) dan P(t)̅ = peluang term t yang muncul atau tidak muncul dalam
dokumen
Dalam machine learning, informasi yang didapat dapat digunakan sebagai
penentu peringkat fitur (Bangsheng, 2013).
7.7 Tokenisasi
Tokenisasi adalah proses dimana suatu kalimat dilakukan pemecahan
string/kata serta dihilangkan tanda hubung dan tanda bacanya. Tokenisasi
bertujuan memisah setiap kata agar kata – kata tersebut dapat dibedakan
menjadi karakter – karakter khusus yang nantinya akan diperlakukan
sebagai pemisah kata atau bukan. Didalam proses tokenisasi, karakter yang
sangat diandalkan sebagai pemisah kata adalah karakter spasi yang terdapat
pada dokumen (Garcia, 2005).
7.8 Stemming
Stemming merupakan teknik yang digunakan untuk mencari kata dasar
(stem) dari kata yang telah dilakukan stopword removal (filtering). Ada dua
aturan ketika melakukan stemming antara lain dengan pendekatan kamus
dan pendekatan aturan (Utomo, 2013).
7.9 Penelitian Terdahulu
Beberapa rangkuman penelitian terdahulu dapat dilihat pada Tabel 1.
Tabel 1. Penelitian Terdahulu
No
1
Peneliti

Judul
Tahun
Keterangan Hasil
Miftah
Cyberbullying
2017
Second Pada penelitian ini
Andriansyah
Comment
International

Ali Akbar
Classification on Conference on mampu

Afina Ahwan Indonesian
Informatics
model SVM
mengklasifikasikan
data uji dengan
tingkat akurasi




Ardiono
Selebgram Using and Computing sebesar 79,412 %.
Roma
Support
Nugraha
Machine Method
Vector (ICIC)
Dari 34 komentar
yang diuji, 27
Nico Ariesto
diantaranya
Gilani
menghasilkan hasil
Rizki Nofita
yang sama dengan
Sari
klasifikasi manual
Remi
baik yang
Senjaya
diklasifikasi positif
cyberbullying
maupun yang
diklasifikasi
menjadi nonbullying
(Andriansyah, et
al., 2017).
2



Wanda
Analisis Sentimen 2018
Pada penelitian ini
Athira
Cyberbullying
didapatkan
Luqyana
pada
akurasi
Imam
Instagram dengan
sebesar 90% pada
Cholissodin
Metode
komposisi
data
latih
dan
Rizal
Komentar
Setya Klasifikasi
Perdana3
Support
Machine
Vector
hasil
tertinggi
50%
komposisi data uji
50% (Luqyana, et
al., 2018).
DAFTAR PUSTAKA
Luqyana, W. A., Cholissodin, I. & Perdana, R. S., 2018. Analisis Sentimen
Cyberbullying pada Komentar Instagram dengan Metode Klasifikasi Support Vector
Machine. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer , 2(11), pp.
4704-4713.
Andriansyah , M. et al., 2017. Cyberbullying Comment Classification on Indonesian
Selebgram Using Support Vector Machine Method.
Atmoko, B. D., 2012. Instagram Handbook. Jakarta: Media Kita.
Deng, H. & Runger, G., 2012. Feature Selection via Regularized Trees. The 2012
International Joint Conference on Neural Networks (IJCNN), Volume 3.
Kemp, S., 2018. DIGITAL IN 2018: WORLD’S INTERNET USERS PASS THE 4
BILLION MARK. [Online] Available at: https://wearesocial.com/blog/2018/01/globaldigital-report-2018 [Diakses 1 Juni 2019].
Pratiwi, A., 2017. Cyberbullying [Wawancara] (18 10 2017).
Saleh, A., 2010. Implementasi Metode Klasifikasi Naive Bayes dalam Memprediksi
Besarnya Penggunaan Listrik Rumah Tangga. Citec Journal, 2(3), p. 209.
Smith, P. K. et al., 2008. Cyberbullying: its nature and impact in secondary school
pupils. Child Psychology and Psychiatry, 49(4), p. 376–385.
Stauffer, S., Heath, M. A., Coyne, S. M. & Ferrin, S., 2012. High School Teachers
Perceptions of Cyberbullying Prevention and Intervention Strategies. Psychology in the
Schools, Volume 49.
Jiawei, H., Kamber, M. & Pei, J., 2012. Data Mining: Concepts and Techniques Third
Edition. MA: Morgan Kaufmann.
Liu, B., 2012. Sentiment Analysis and Opinion Mining. In: Chicago: Morgan &
Claypool Publisher.
Widiastuti, N. A., Santosa, S., & Supriyanto, C., 2014. Algoritma Klasifikasi Data
Mining Naïve Bayes Berbasis Particle Swarm Optimization Untuk Deteksi Penyakit
Jantung. Jurnal Pseudocode, Issue 1, pp. 11–14.
Aini, Syafitri Hidayatul Annur, dkk., 2018. Seleksi Fitur Information Gain untuk
Klasifikasi Penyakit Jantung Menggunakan Kombinasi Metode K-Nearest Neighbor
dan Naïve Bayes. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer.
Volume 2, pp. 2546-2554.
Bangsheng, S., 2013. Information Gain Feature Selection Based on Feature
Interactions. Houston: s.n.
Garcia,
E.
2005.
Document
Indexing
Tutorial.
[Online]
Available
at:
http://www.miislita.com/informationretrieval-tutorial/indexing.html [Diakses 27 Juni
2019].
Utomo, M. S., 2013. Implementasi Stemmer Tala pada Aplikasi Berbasis Web. Jurnal
Teknologi Informasi DINAMIK, Volume 18, pp. 41-45.
Download