PROPOSAL TUGAS AKHIR RENCANA JUDUL IDENTIFIKASI CYBERBULLYING PADA KOLOM KOMENTAR INSTAGRAM MENGGUNAKAN ALGORITMA NAïVE BAYES DAN INFORMATION GAIN SEBAGAI SELEKSI FITUR RINA AYU WULAN SARI 161402097 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA 2019 1. Latar Belakang Media sosial saat ini memiliki peran yang cukup besar bagi kehidupan sosial masyarakat Indonesia. Salah satu media sosial yang banyak digunakan saat ini adalah Instagram. Instagram merupakan sebuah platform media sosial yang digunakan sebagai media berbagi foto dan video. Menurut hasil survei WeAreSocial.net dan Hootsuit, pengguna aktif Instagram di Indonesia pada tahun 2018 telah mencapai kurang lebih 53 juta pengguna aktif (Kemp, 2018). Pengguna Instagram tentu saja bukan hanya orang dewasa namun remaja dan anak – anak pun menggunakan media sosial ini. Disamping kegunaannya yang positif sebagai media berbagi foto, video bahkan pemasaran bisnis, Instagram juga memiliki dampak negatif dari kebebasan pengguna menggunakan media sosial ini yaitu cyberbullying yang terdapat pada kolom komentar pengguna Instagram. Cyberbullying merupakan tindakan kekerasan yang dilakukan berulang – ulang oleh seseorang atau kelompok terhadap seseorang atau kelompok lain menggunakan bantuan alat elektronik (Smith, et al., 2008). Dampak yang ditimbulkan dari cyberbullying terhadap psikologi korban antara lain tidak percaya diri, menarik diri dari lingkungan sosial, perubahan kepribadian bahkan dapat memicu keinginan untuk bunuh diri. Hal ini tentunya harus menjadi perhatian bagi para pengguna, orang tua , keluarga bahkan pemerintah untuk dapat meminimalisir perbuatan merugikan tersebut. Penelitian oleh Miftah Andriansyah tahun 2017 tentang cyberbullying yang berjudul Cyberbullying Comment Classification on Indonesian Selebgram Using Support Vector Machine (SVM) Method dimana cyberbullying di fokuskan pada komen sebuah akun seorang selebgram (selebritis Instagram) di aplikasi Instagram. Data yang digunakan diambil dari comment section salah satu foto yang diunggah oleh akun selebgram Awkarin, dan hasil akurasi yang didapatkan cukup tinggi. Masalah dalam penelitian klasifikasi ini adalah ketika bahasa dari comment yang digunakan tidak termasuk dalam bullying, tetapi dalam artinya komen tersebut termasuk dalam bullying (Andriansyah, et al., 2017). Pada tahun 2018, penelitian tentang cyberbullying pada kolom komentar Instagram telah di buat oleh Wanda Athira Luqyana, Imam Cholissodin dan Rizal Setya Perdana dari Universitas Brawijaya. Penelitian ini dilakukan dengan metode klasifikasi Support Vector Machine (SVM) dan untuk mengetahui setiap sentimen pada komentar digunakan fitur Term Frequency-Inverse Document Frequency (TF-IDF). Pada penelitian ini didapatkan hasil akurasi tertinggi sebesar 90% pada komposisi data latih 50% dan komposisi data uji 50% (Luqyana, et al., 2018). Pada penelitian ini penulis menggunakan metode yang berbeda dengan penelitian sebelumnya yaitu dengan menggunakan algoritma Naïve Bayes dan Information Gain (IG) sebagai feature selection dengan tujuan untuk membangun sebuah sistem yang mampu mengidentifikasi cyberbullying pada kolom komentar pengguna Instagram. 2. Rumusan Masalah Dampak negatif yang ditimbulkan dari penggunaan Instagram yaitu adanya tindakan cyberbullying yang terdapat di kolom komentar pengguna Instagram. Tindakan tersebut dapat berakibat fatal bagi kondisi psikologis korban cyberbullying . Oleh karena itu diperlukan sistem yang dapat mengidentifikasi komentar – komentar yang mengandung cyberbullying. 3. Tujuan Penelitian Tujuan dari penelitian ini adalah untuk menghasilkan sistem yang mampu mengidentifikasi komentar – komentar yang mengandung cyberbullying pada kolom komentar Instagram dengan menggunakan algoritma Naïve Bayes dan Information Gain (IG) sebagai feature selection. 4. Batasan Masalah Batasan masalah pada penilitian ini adalah : 1. Data yang digunakan pada penelitian ini diambil dari komentar Instagram Berbahasa Indonesia 2. Teks yang dianalisis hanya teks yang dikategorikan mengandung kata kasar atau bermakna negatif 5. Manfaat Adapun manfaat dari penelitian ini adalah implementasi sistem untuk membantu pengguna mengidentifikasi komentar yang mengandung kata – kata yang di kategorikan sebagai cyberbullying pada kolom komentar pengguna Instagram. 6. Metodologi Penelitian Tahapan – tahapan yang dilakukan dalam penelitian ini antara lain adalah : 1. Pengumpulan data merupakan tahap pengumpulan berbagai komentar dari comment section pengguna Instagram dengan cara crawling. 2. Pre – processing merupakan tahapan awal yang dilakukan dalam memproses teks. Tahapan pre – processing pada penelitian ini terdiri dari case folding, data cleaning, normalisasi bahasa tidak baku, stopword removal, stemming dan tokenisasi. 3. Term weighting merupakan tahap dimana data yang telah diolah pada tahap pre – processing akan diproses kembali dengan melakukan pembobotan pada setiap kata (term) 4. Seleksi fitur (feature selection) merupakan tahap dimana hasil dari proses term weighting digunakan untuk melakukan seleksi fitur dengan Information Gain (IG). 5. Identifikasi merupakan tahap dimana data yang telah diolah dari proses seleksi fitur akan diklasifikasi dengan menggunakan algoritma Naïve Bayes. Hasil yang diperoleh dengan algoritma ini adalah klasifikasi kelas positif dan kelas negatif yang didapat berdasarkan bobot pada setiap fitur dokumen teks. 6. Output merupakan hasil akhir dari penelitian ini dimana hasil yang akan diberikan pada tahap ini berupa identifikasi apakah komentar tersebut mengandung cyberbullying atau tidak. Arsitektur umum pada penelitian ini dapat dilihat pada gambar 1. Gambar 1. Arsitektur Umum Penjelasan arsitektur umum pada gambar 1. adalah sebagai berikut : 6.1 Pengumpulan Data Data yang digunakan berupa berbagai komentar dari comment section pengguna Instagram dengan cara crawling. Data tersebut kemudian akan dibagi menjadi 2 bagian yaitu sebagai data latih dan sebagai data uji. 6.2 Pre – processing Tahap ini terdiri dari beberapa proses diantaranya: 1. Case Folding : Proses mengubah setiap kata menjadi huruf kecil atau lowercase. 2. Data Cleaning : Proses ini bertujuan untuk menghilangkan noise yaitu dengan menghapus seluruh tanda baca seperti koma (,) , titik (.) dan tanda baca lainnya. 3. Normalisasi Bahasa : Proses pengembalian kata tidak baku menjadi kata baku yang sesuai dengan Kamus Besar Bahsa Indonesia (KBBI). 4. Stopword Removal : Proses menghilangkan kata umum yang tidak memiliki arti penting dan tidak digunakan dalam proses klasifikasi seperti : di, ke, dari, yang, atau dan sebagainya. 5. Stemming : Teknik yang digunakan untuk mencari kata dasar (stem) dari kata yang telah dilakukan stopword removal (filtering). 6. Tokenisasi : Proses dimana suatu kalimat dilakukan pemecahan string/kata serta dihilangkan tanda hubung dan tanda bacanya. Tokenisasi bertujuan memisah setiap kata agar kata – kata tersebut dapat dibedakan menjadi karakter – karakter khusus yang nantinya akan diperlakukan sebagai pemisah kata atau bukan. Didalam proses tokenisasi, karakter yang sangat diandalkan sebagai pemisah kata adalah karakter spasi yang terdapat pada dokumen. 6.3 Term Weighting Data mentah dari proses pre – processing akan diproses kembali dengan melakukan pembobotan pada setiap kata (term). Hasil akhir dari proses pembobotan tersebut adalah berupa bobot TF – IDF. 6.4 Feature Selection Tahap dimana hasil dari proses term weighting digunakan untuk melakukan seleksi fitur dengan Information Gain (IG). Tahap ini berfungsi untuk menentukan atribut mana yang akan dibuang atau digunakan. Atribut yang memenuhi kriteria pembobotan nantinya akan digunakan untuk proses identifikasi. 6.5 Identifikasi Proses dimana data akan di klasifikasi menggunakan algoritma Naïve Bayes sehingga diperoleh hasil klasifikasi kelas positif dan kelas negatif yang didapat berdasarkan bobot pada setiap fitur dokumen teks. 6.6 Output Hasil akhir dari penelitian ini dimana hasil yang akan diberikan pada tahap ini berupa identifikasi apakah komentar tersebut mengandung cyberbullying atau tidak. 7. Tinjauan Pustaka 7.1 Instagram Instagram adalah sebuah aplikasi smartphone yang memungkinkan penggunanya untuk dapat berkomunikasi dan berbagi informasi dalam bentuk foto atau video. Didalam Instagram, pengguna dapat menggunakan fitur – fitur yang menarik untuk membuat foto atau video pengguna menjadi lebih menarik dan artistik (Atmoko, 2012:10). 7.2 Cyberbullying Cyberbullying adalah suatu bentuk perbuatan dimana individu atau suatu kelompok merasa mendapat perlakuan yang tidak menyenangkan dari seseorang atau kelompok lain dengan menggunakan media teks elektronik yang dilakukan dengan sengaja dan berulang – ulang (Stauffer, et al., 2012). Sumber lain menyatakan bahwa cyberbullying adalah suatu tindakan pembullyan yang dilakukan didalam dunia cyber. Aspek – aspek terkait dari cyberbullying antara lain adalah flaming, harrassment, cyberstalking dan lainnya (Pratiwi, 2017). 7.3 Text Mining Text mining merupakan ilmu atau proses menganalisis suatu text untuk memperoleh sumber atau informasi yang berguna melalui kecenderungan pola statistik dan peramalan pola (Jiawei, et al., 2012). Tujuan dari text mining adalah mengolah, menganalisis dan memahami pendapat, sikap / perbuatan, emosi, penilaian dan sentiment untuk diperoleh sebuah sumber dan informasi yang terkait dengan suatu peristiwa, topik, organisasi atau individu tertentu (Liu, 2012). 7.4 Algoritma Naïve Bayes Algoritma Naïve Bayes adalah algoritma untuk mengklasifikasikan probabilitas anggota class dalam suatu dataset yang telah diberikan yang didasarkan pada teorema Bayes . Pada teorema Bayes, semua atribut yang diberikan oleh nilai pada variabel kelas di asumsikan independen atau tidak saling ketergantungan (Saleh, 2010). Bayesian classification terbukti memiliki akurasai dan kecepatan yang tinggi saat diaplikasikan ke dalam database dengan data yang besar (Widiastuti, et al., 2014). Kelebihan dari menggunakan algoritma Naïve Bayes adalah data yang di butuhkan untuk data latih (Taraining Data) tidak besar. Data latih tersebut akan digunakan untuk keperluan penetapan estimasi parameter didalam suatu proses pengklasifikasian. Naïve Bayes juga merupakan algoritma yang terkadang mempunyai kemampuan bekerja jauh lebih baik daripada yang diharapkan di dunia nyata yang memiliki keadaan yang kompleks (Saleh, 2010). 7.5 Seleksi Fitur (Feature Selection) Seleksi fitur (feature selection) adalah suatu upaya atau cara dalam melakukan proses pemilihan fitur yang sesuai untuk pembelajaran target data yang ada. Adapun tujuan diberikannya seleksi fitur adalah agar fitur – fitur yang berlebihan serta tidak relevan dapat dihapus sehingga dapat meningkatkan kinerja dari algoritma klasisfikasi yang digunakan (Bangsheng, 2013). 7.6 Information Gain (IG) Information Gain (IG) adalah suatu metode seleksi fitur paling sederhana yang berfungsi untuk menetapkan batas dari setiap kepentingan milik sebuah atribut (Deng & Runger, 2012). Information Gain sangat membantu dalam megurangi noise yang di peroleh dari adanya fitur – fitur yang tidak relevan serta dapat mengetahui dan mengidentifikasi fitur – fitur yang mempunyai informasi paling banyak berdasarkan pada suatu kelas tertentu (Aini, et al., 2018). Seleksi fitur Information Gain 𝐼𝐺(𝑡) dirumuskan pada persamaan (1). |C| IG(t)= - ∑ i=1 |C| P(Ci ) log P(Ci )+P(t) ∑ P(Ci |t) log P(Ci |t)+P(t̅) ∑ i=1 |C| P(Ci |t̅) log P(Ci |t̅) i=1 (1) Keterangan : Ci = kelas data P(Ci ) = peluang dari kelas data P(t) dan P(t)̅ = peluang term t yang muncul atau tidak muncul dalam dokumen Dalam machine learning, informasi yang didapat dapat digunakan sebagai penentu peringkat fitur (Bangsheng, 2013). 7.7 Tokenisasi Tokenisasi adalah proses dimana suatu kalimat dilakukan pemecahan string/kata serta dihilangkan tanda hubung dan tanda bacanya. Tokenisasi bertujuan memisah setiap kata agar kata – kata tersebut dapat dibedakan menjadi karakter – karakter khusus yang nantinya akan diperlakukan sebagai pemisah kata atau bukan. Didalam proses tokenisasi, karakter yang sangat diandalkan sebagai pemisah kata adalah karakter spasi yang terdapat pada dokumen (Garcia, 2005). 7.8 Stemming Stemming merupakan teknik yang digunakan untuk mencari kata dasar (stem) dari kata yang telah dilakukan stopword removal (filtering). Ada dua aturan ketika melakukan stemming antara lain dengan pendekatan kamus dan pendekatan aturan (Utomo, 2013). 7.9 Penelitian Terdahulu Beberapa rangkuman penelitian terdahulu dapat dilihat pada Tabel 1. Tabel 1. Penelitian Terdahulu No 1 Peneliti Judul Tahun Keterangan Hasil Miftah Cyberbullying 2017 Second Pada penelitian ini Andriansyah Comment International Ali Akbar Classification on Conference on mampu Afina Ahwan Indonesian Informatics model SVM mengklasifikasikan data uji dengan tingkat akurasi Ardiono Selebgram Using and Computing sebesar 79,412 %. Roma Support Nugraha Machine Method Vector (ICIC) Dari 34 komentar yang diuji, 27 Nico Ariesto diantaranya Gilani menghasilkan hasil Rizki Nofita yang sama dengan Sari klasifikasi manual Remi baik yang Senjaya diklasifikasi positif cyberbullying maupun yang diklasifikasi menjadi nonbullying (Andriansyah, et al., 2017). 2 Wanda Analisis Sentimen 2018 Pada penelitian ini Athira Cyberbullying didapatkan Luqyana pada akurasi Imam Instagram dengan sebesar 90% pada Cholissodin Metode komposisi data latih dan Rizal Komentar Setya Klasifikasi Perdana3 Support Machine Vector hasil tertinggi 50% komposisi data uji 50% (Luqyana, et al., 2018). DAFTAR PUSTAKA Luqyana, W. A., Cholissodin, I. & Perdana, R. S., 2018. Analisis Sentimen Cyberbullying pada Komentar Instagram dengan Metode Klasifikasi Support Vector Machine. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer , 2(11), pp. 4704-4713. Andriansyah , M. et al., 2017. Cyberbullying Comment Classification on Indonesian Selebgram Using Support Vector Machine Method. Atmoko, B. D., 2012. Instagram Handbook. Jakarta: Media Kita. Deng, H. & Runger, G., 2012. Feature Selection via Regularized Trees. The 2012 International Joint Conference on Neural Networks (IJCNN), Volume 3. Kemp, S., 2018. DIGITAL IN 2018: WORLD’S INTERNET USERS PASS THE 4 BILLION MARK. [Online] Available at: https://wearesocial.com/blog/2018/01/globaldigital-report-2018 [Diakses 1 Juni 2019]. Pratiwi, A., 2017. Cyberbullying [Wawancara] (18 10 2017). Saleh, A., 2010. Implementasi Metode Klasifikasi Naive Bayes dalam Memprediksi Besarnya Penggunaan Listrik Rumah Tangga. Citec Journal, 2(3), p. 209. Smith, P. K. et al., 2008. Cyberbullying: its nature and impact in secondary school pupils. Child Psychology and Psychiatry, 49(4), p. 376–385. Stauffer, S., Heath, M. A., Coyne, S. M. & Ferrin, S., 2012. High School Teachers Perceptions of Cyberbullying Prevention and Intervention Strategies. Psychology in the Schools, Volume 49. Jiawei, H., Kamber, M. & Pei, J., 2012. Data Mining: Concepts and Techniques Third Edition. MA: Morgan Kaufmann. Liu, B., 2012. Sentiment Analysis and Opinion Mining. In: Chicago: Morgan & Claypool Publisher. Widiastuti, N. A., Santosa, S., & Supriyanto, C., 2014. Algoritma Klasifikasi Data Mining Naïve Bayes Berbasis Particle Swarm Optimization Untuk Deteksi Penyakit Jantung. Jurnal Pseudocode, Issue 1, pp. 11–14. Aini, Syafitri Hidayatul Annur, dkk., 2018. Seleksi Fitur Information Gain untuk Klasifikasi Penyakit Jantung Menggunakan Kombinasi Metode K-Nearest Neighbor dan Naïve Bayes. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer. Volume 2, pp. 2546-2554. Bangsheng, S., 2013. Information Gain Feature Selection Based on Feature Interactions. Houston: s.n. Garcia, E. 2005. Document Indexing Tutorial. [Online] Available at: http://www.miislita.com/informationretrieval-tutorial/indexing.html [Diakses 27 Juni 2019]. Utomo, M. S., 2013. Implementasi Stemmer Tala pada Aplikasi Berbasis Web. Jurnal Teknologi Informasi DINAMIK, Volume 18, pp. 41-45.