Wijoyo, Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas User Dan Topik Monomorphism Pada Data Twitter untuk Promosi Produk Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas User Dan Topik Monomorphism Pada Data Twitter untuk Promosi Produk Satrio Hadi Wijoyo1, Chastine Fatichah2, Diana Purwitasari3 Program Studi Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember Email: [email protected], [email protected], [email protected] ABSTRAK User berpengaruh merupakan sebuah user yang biasanya populer di twitter dengan ditandai memiliki banyak follower, isi tweet atau pendapatnya sering dikutip atau diikuti oleh akun lainnya dengan ditandai tweet yang sering di retweet, dan namanya sering disebut atau dimention. Akan tetapi, ketertarikan tweet user berpengaruh tidak dapat dilihat hanya dari fitur retweet dan mention saja, melainkan dapat dilihat dari fitur topik monomorphism.Berdasarkan permasalahan tersebut, suatu metode diusulkan kombinasi fitur popularitas user dan topik monomorphism untuk mendeteksi user berpengaruh pada data twitter untuk promosi produk. Berdasarkan hasil ujicoba, nilai rata-rata akurasi algoritma fuzzy inference system dari produk Iphone sebesar 75,75%, produk Samsung sebesar 79,25%, dan produk Apple sebesar 74,5%. Hasil ini menunjukkan bahwa deteksi user berpengaruh berdasarkan kombinasi fitur popularitas user dan topik monomorphism menghasilkan keluaran cukup baik. Kata Kunci: Deteksi user berpengaruh, fitur popularitas user, topik monomorphism fuzzy inference system,twitter. ABSTRACT User influence is a user who is usually popular on twitter with marked has many followers, tweet contents or opinions often quoted or followed by other accounts with tweets that are often marked retweet, and his name is often referred to, or mention. However, interest tweet user influence can not be seen only from the feature retweet and mention only, but can be seen from the features monomorphism topic. Based on this problems, a method is proposed combination of features user popularity and monomorphism topic to detect an user influence on the data user twitter for product promotion. Based on the test results, the average value of the accuracy of the algorithm fuzzy inference system of products amounted to 75.75% Iphone, Samsung products amounted to 79.25%, and 74.5% of Apple products. These results indicate that the effect on user detection based on a combination of features user popularity and monomorphism topic produce output is quite good. Keywords: User influence detection, feature user popularity, monomorphism topic fuzzy inference system, twitter. 1. Pendahuluan Twitter adalah salah satu platform yang paling populer dari media sosial lainnya sebagai sumber informasi. Twitter merupakan sebuah microblog yang dapat menyebarkan atau membagikan informasi berupa tweet dengan sangat cepat dan berbasis real-time. Tweet adalah teks tulisan 140 karakter yang ditampilkan pada halaman profil user (pengguna) [1]. Twitter telah dimanfaatkan banyak perusahaan melakukan promosi-promosi produk baru mereka melalui jaringan sosial. Keberhasilan perusahaan untuk promosi produk baru agar banyak pelanggan tertarik menggunakan produk mereka, tidak serta merta hanya karena user milik perusahaan sendiri di twitter. Melainkan adanya peran aktif user berpengaruh (influencer) yang melakukan promosi keunggulan produk ke jaringan pertemanannya. Sehingga banyak orang tertarik menggunakan produk perusahaan tersebut [2]. User berpengaruh merupakan 9 Jurnal Inspiraton, Volume 6, Nomor 1, Juni 2016: 9 - 18 sebuah user yang biasanya populer di twitter dengan ditandai memiliki banyak follower. Selain itu, isi tweet atau pendapatnya sering dikutip atau diikuti oleh akun lainnya dengan ditandai tweet yang sering di retweet dan namanya sering disebut atau di-mention [3]. Banyak metode telah digunakan untuk mengetahui user berpengaruh pada data twitter. Pembentukan Graph digunakan untuk mengetahui user berpengaruh berdasarkan perhitungan jumlah friends, jumlah followers, jumlah mention, jumlah retweet, dan jumlah URLs posted per user [4], [5], [6], dan [7]. Penelitian tersebut menemukan bahwa jumlah followers tidak menunjukkan pengaruh signifikan pada penyebaran tweet dari user berpengaruh. Tetapi jumlah retweet menunjukkan pengaruh interaksi antar user. Keempat penelitian tersebut menggunakan Graph untuk mengetahui user berpengaruh memberikan hasil yang cukup baik, akan tetapi dalam pembentukan Graph membutuhkan node banyak. Semakin banyak node yang dibutuhkan maka semakin memakan waktu proses yang banyak. Deteksi atau identifikasi user berpengaruh tidak selalu menggunakan pembentukan Graph hubungan antar user. Pada penelitian [3] menggunakan fitur popularitas user seperti fitur jumlah follower, jumlah retweet, dan jumlah mention. Hasil penelitian menunjukkan jika jumlah follower dari user tinggi maka menunjukkan user tersebut hanya popular di twitter. Sedangkan jika jumlah retweet dan jumlah mention yang tinggi maka menunjukkan bahwa tweet dari user menarik dan user tersebut memiliki pengaruh. Untuk mengetahui ketertarikan tweet user berpengaruh terhadap suatu topik tidak dapat dilihat hanya dari fitur retweet dan mention. Akan tetapi, tweet user dapat diketahui dengan melihat kesamaan (similarity) tweet user tersebut pada topik-topik tertentu. 10 Ketertarikan seorang individu atau user terhadap suatu opini atau pendapat pada satu topik disebut monomorphism. Sedangkan polymorphism adalah ketertarikan seorang individu terhadap pendapat pada topik yang bervariasi [8]. Pada penelitian [9] menggunakan fitur monomorphism vs. polymorphism, high latency vs. Low latency, dan information inventor vs. information spreader untuk melakukan prediksi user berpengaruh di twitter dari segi penyebaran informasi secara dinamik. Cosine similarity digunakan untuk menghitung kesamaan antara dua topik sebagai topik similarity dari tweet user. Berdasarkan permasalahan tersebut, suatu metode diusulkan untuk mendeteksi user berpengaruh berdasarkan kombinasi fitur popularitas user dan topik monomorphism pada data twitter untuk promosi produk. Selain itu, pada penelitian ini akan melakukan leveling atau tingkatan dari user berpengaruh menggunakan fuzzy untuk mengetahui seberapakah user tersebut berpengaruh di twitter. Dengan adanya usulan tersebut diharapkan pemilik produk atau perusahaan dapat mengetahui user berpengaruh yang sedang popular di twitter. 2. Deteksi User Berpengaruh pada Twitter Twitter adalah sebuah situs web yang dimiliki dan dioperasikan oleh Twitter Inc., yang menawarkan jaringan sosial berupa mikroblog sehingga memungkinkan penggunanya untuk mengirim dan membaca pesan yang disebut kicauan (tweets). Tweets adalah teks tulisan hingga 140 karakter yang ditampilkan pada halaman profil pengguna (User). Pengguna dapat melihat tweets pengguna lain yang dikenal dengan sebutan pengikut (followers). Tweet yang menyebut nama user dan menunjukkan kemampuan user yang terlibat dengan user lain dalam percakapan disebut mention. Sedangkan retweet adalah tweet yang mengandung nama user dan menunjukkan Wijoyo, Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas User Dan Topik Monomorphism Pada Data Twitter untuk Promosi Produk kemampuan user yang menghasilkan konten dengan nilai bersamaan [1]. User berpengaruh (influencer) bisa siapa saja, bukan hanya artis ataupun selebritis dunia hiburan seperti televisi dan perfileman tetapi juga pada bidang-bidang lain seperti politik, budaya, ekonomi, olahraga, dan sebagainya. Para selebriti tersebut, kemudian menggunakan twitter sebagai media mereka menyampaikan informasi kepada para penggemarnya. Banyak user yang berperan untuk menjadikan dirinya sebagai selebriti di twitter. Berbagai jenis profesi bisa dianggap sebagai selebriti seperti user berpengaruh. Peran selebriti untuk mendorong banyaknya promosi produk serta kampanye periklanan di twitter. Sehingga dibutuhkan deteksi user berpengaruh pada twitter. User berpengaruh merupakan sebuah user yang biasanya populer di twitter dengan ditandai memiliki banyak follower. Selain itu, isi tweet atau pendapatnya sering dikutip atau diikuti oleh akun lainnya dengan ditandai tweet yang sering di retweet dan namanya sering disebut atau di-mention [3]. User berpengaruh ini akan menyebarkan informasi di twitter dan nantinya diharapkan akan menyebar dan diperbincangkan banyak followers. 3. Monomorphism dan Polymorphism Pengertian monomorphism adalah kecenderungan atau ketertarikan bagi seseorang individu terhadap opini atau pendapat untuk hanya satu topik atau tunggal topik. Sedangkan polymorphism adalah kecenderungan atau ketertarikan suatu individu terhadap opini untuk berbagai topik atau bervariasi topik [8]. Dalam media sosial, pengguna dengan monomorphism tinggi biasanya selalu fokus pada satu topik yang tetap, sedangkan pengguna polymorphism tinggi akan melakukan posting berbagai topik dari waktu ke waktu. Mengetahui hal ini, pengguna media sosial bisa mendapatkan keuntungan aplikasi dengan tujuan yang berbeda. Misal, user berpengaruh monomorphism tinggi harus peringkatnya lebih tinggi dari user berpengaruh polymorphism dalam aplikasi rekomendasi. Namun, user berpengaruh polymorphism tinggi akan lebih diinginkan untuk pengguna bertujuan untuk mengumpulkan informasi umum [9]. Cosine similarity adalah salah satu metode untuk mengukur kemiripan teks dengan menggunakan nilai cosinus sudut antara dua vektor. Konsepnya adalah jika terdapat dua vektor dokumen π·π dan π·π maka nilai cosinus antara dua pasangan teks tersebut dapat dihitung dengan menggunakan persamaan (1). βββπ , π· ββββπ ) = πππ π ππ(π· ∑π β=1 π€πβ × π€πβ 2 π 2 √∑π π=1(π€πβ ) × √∑π=1(π€πβ ) (1) dimana π·π dan π·π adalah tweet yang dilakukan user, π€πβ adalah bobot dari term ke-h pada π·π , π€πβ adalah bobot dari tweet term ke-h pada π·π , dan h adalah indek dari term yang didapatkan. 4. Metodologi Penelitian 4.1. Metode yang Diusulkan Pada bagian ini akan dibahas tentang deteksi user berpengaruh berdasarkan kombinasi fitur popularitas user dan topik monomorphism pada data twitter untuk promosi produk. Desain sistem dalam penelitian ini terdiri atas tiga bagian utama yaitu: praproses (preprocessing), ekstraksi fitur popularitas user dan topik monomorphism, dan konstruksi kombinasi atau pembobotan dari dua fitur tersebut. Diagram alir desain sistem dapat dilihat pada Gambar 1. 11 Jurnal Inspiraton, Volume 6, Nomor 1, Juni 2016: 9 - 18 Gambar 2. Contoh Tweet Yang Sebuah Produk Gambar 1. Diagram Metode Penelitian 4.1.1. Data Uji Coba Tahap berikutnya adalah pengumpulan data yang digunakan dalam penelitian ini adalah data tweet atau dokumen tweet dengan memanfaatkan Search API yang disediakan oleh twitter. Sebuah aplikasi dibangun untuk mengambil data tweet tersebut dari twitter dengan menggunakan search API dengan dibatasi wilayah geografis indonesia untuk mendapatkan data bahasa Indonesia. Dengan menggunakan search API ini, diharapkan mendapatkan berbagai informasi yang dibutuhkan. Data tweet hanya dibatasi topik-topik produk dari brand antara lain : Apple, Iphone, dan Samsung. Data tweet dikumpulkan atau dikoleksi selama 2 bulan dengan rentang dari tanggal 17 Maret 2015 sampai 16 Juni 2015. Gambar 2. menunjukkan contoh tweet sebuah produk dari brand. Pada suatu tweet tersebut dapat informasi jumlah retweet secara langsung. Contohnya pada tweet yang dilakukan user dari kompas TV, dapat diperoleh jumlah retweet sebanyak 7. Berarti tweet tersebut sudah di retweet oleh 7 orang. Pada penelitian ini, jumlah retweet dan jumlah mention diperoleh dari informasi teks tweet. 12 4.1.2. Tahap Praproses Data Setelah diperoleh dataset yang dibutuhkan untuk penelitian ini. Kemudian dilakukan tahap praproses data untuk menyiapkan data tweet agar siap diproses pada tahap selanjutnya. Tahap praproses dalam penelitian ini terdiri tiga bagian yaitu : pembersihan kata (cleaning term), pemenggalan kata (tokening term), penghapusan stopword (stopword removal), dan perhitungan bobot tf_idf. Term Frequency Inverse Document Frequency (tf_idf) adalah konsep pembobotan term pada sebuah dokumen. Metode ini melakukan perbandingan antara frekuensi kemunculan term j pada kalimat i (π‘πππ ) dengan frekuensi kalimat yang mengandung term j (πππ ). Bobot tf_idf dari term j dapat dihitung dengan menggunakan persamaan (2), dimana π‘πππ adalah frekuensi kata term ke-i pada dokumen ke-j. Konsep tersebut memberikan pengukuran terhadap pentingnya kata term ke-i pada dokumen tersebut. Sedangkan ππππ ditentukan melalui persamaan (3), dimana N adalah jumlah dokumen, πππ adalah jumlah dari dokumen yang mengandung kata term kei. π‘π_πππππ = π‘πππ × ππππ (2) π ππππ = log (ππ ) π (3) Wijoyo, Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas User Dan Topik Monomorphism Pada Data Twitter untuk Promosi Produk 4.1.3. Ekstraksi Fitur Popularitas User Perhitungan retweet pada penelitian ini diperoleh dari teks atau isi tweet. Tweet user yang diposting ulang dengan adanya tanda atau simbol tambahan seperti RT, retweeting, retweet, dan lainnya, serta simbol @nama_user [3]. Bobot retweet adalah menghitung jumlah retweet dari tweet user berpengaruh yang terdapat pada twitter. Perhitungan bobot retweet dari tweet user mengikuti persamaan (4) seperti berikut. ∑ πππ‘π€πππ‘(π’π πππ ) π€1 (π’π πππ ) = (4) max (πππ‘π€πππ‘(π’π πππ )) dimana π€1 (π’π πππ ) merupakan bobot retweet dari user ke-i, ∑ πππ‘π€πππ‘(π’π πππ ) merupakan jumlah retweet dari user ke-i, dan max (πππ‘π€πππ‘(π’π πππ )) merupakan nilai maksimal dari jumlah retweet dari sebuah koleksi retweet user, dan p merupakan jumlah user. Bobot mention adalah menghitung jumlah mention dari user yang terdapat pada tweet. Nama user yang disebut dalam tweet user lain dengan adanya tanda atau simbol tambahan seperti @ serta nama dari user tersebut. Perhitungan bobot mention mengikuti persamaan (5) seperti berikut. ∑ ππππ‘πππ(π’π πππ ) π€2 (π’π πππ ) = (5) max (ππππ‘πππ(π’π πππ )) dimana π€2 (π’π πππ ) merupakan bobot mention dari user ke-i, ∑ ππππ‘πππ(π’π πππ ) merupakan jumlah mention nama dari user ke-i, dan max (ππππ‘πππ(π’π πππ )) merupakan nilai maksimal dari jumlah mention dari koleksi ππππ‘πππ user. 4.1.4. Ekstraksi Fitur Topik Monomorphism Pada penelitian ini untuk mengetahui user berpengaruh yang termasuk topik monomorphism atau polymorphism dalam melakukan tweet dihitung dengan cara lain, tidak dihitung menggunakan cosine similarity. Akan tetapi, dengan cara menghitung bobot kemunculan user dalam klaster topik tweet. Adapun proses ekstraksi fitur topik monomorphism terdapat 2 tahapan, yaitu : tahap klasterisasi tweet dan perhitungan bobot kemunculan user dalam klaster. Pada tahap klasterisasi ini digunakan untuk mengkelompokkan atau membagi koleksi tweet ke dalam sejumlah cluster. Algoritma klasterisasi yang digunakan dalam penelitian ini adalah algoritma klasterisasi hierarkikal agglomerative. Setelah itu, dilakukan perhitungan bobot kemuculan user ini mengadopsi dari konsep perhitungan bobot tf_idf dengan merubah nama variabel agar tidak sama dengan variabel sebelumnya. Sehingga pembobotan kemunculan user dalam klaster disebut User Frequency Inverse Cluster Frequency (uf_icf). Metode ini melakukan perbandingan antar frekuensi kemunculan user i pada cluster j (π’πππ ) dengan frekuensi cluster yang mengandung user i (πππ ). Bobot uf_icf dari user i dapat dihitung dengan menggunakan persamaan (6). π’π_πππππ = π’πππ × ππππ (6) dimana π’πππ adalah frekuensi user ke-i pada cluster ke-j. Sedangkan ππππ ditentukan melalui persamaan (7) berikut ini. π ππππ = log (ππ ) (7) π dimana πππ adalah jumlah dari cluster yang mengandung user ke-i dan N adalah jumlah cluster. Hasil dari perhitungan bobot kemunculan user berupa koleksi user (π’π ) dan frekuensinya (πππ ), dimana π merupakan total jumlah user sebuah cluster. Setelah didapatkan bobot uf_icf masing-masing user dalam klaster. Kemudian dilakukan perhitungan bobot topik monomorphism dari user. Perhitungan bobot topik monomorphism adalah menghitung jumlah bobot uf – icf dari user yang terdapat pada cluster. Perhitungan bobot topik monomorphism mengikuti persamaan (8) seperti berikut. π€3 (π’π πππ ) = ∑ π’π _πππ(π’π πππ ) max (π’π_πππ(π’π πππ )) (8) 13 Jurnal Inspiraton, Volume 6, Nomor 1, Juni 2016: 9 - 18 dimana π€3 (π’π πππ ) merupakan bobot monomorphism dari user ke-i, ∑ π’π_πππ(π’π πππ ) merupakan jumlah bobot π’π_πππ dari user ke-i, dan max (π’π_πππ(π’π πππ )) merupakan nilai maksimal dari jumlah bobot π’π_πππ dari semua bobot π’π_πππ user. Rentang nilai π€3 (π’π πππ ) antara 0 sampai 1. Jika nilai π€3 (π’π πππ ) mendekati angka 1 maka tweet user tersebut termasuk topik monomorphism. 1; 0,395−π€2 ππππΏ (π€2 ) = {0,395− 0.32 0; π€2 ≥ 0,395 0; π€2 ≤ 0,32 ππ‘ππ’ π€2 ≥ 0,525 π€2 − 0,32 ; 0,32 ≤ π€2 ≤ 0,42 ππππ (π€2 ) = 0,42 − 0,32 0,525 − π€2 ; 0,42 ≤ π€2 ≤ 0,525 { 0,525 − 0,42 0; π€2 ≤ 0,48 π€2 − 0,48 ; 0,48 ≤ π€2 ≤ 0,525 ππππ» (π€2 ) = π2 − 0,48 { 1; π€2 ≥ 0,525 1; π€1 ≤ 0,401 0,413 − π€1 ππ π‘πΏ (π€1 ) = { ; 0,401 ≤ π€1 ≤ 0,413 0,413 − 0,401 0; π€1 ≥ 0,413 0; π€1 ≤ 0,401 ππ‘ππ’ π€1 ≥ 0,688 π€1 − 0,401 ; 0,401 ≤ π€1 ≤ 0,545 ππ π‘π (π€1 ) = 0,545 − 0,401 0,688 − π€1 ; 0,545 ≤ π€1 ≤ 0,688 { 0,688 − 0,545 0; π€1 ≤ 0,675 π€1 − 0,675 ππ π‘π» (π€1 ) = { ; 0.675 ≤ π€1 ≤ 0,688 0,688 − 0,675 1; π€1 ≥ 0,688 (9) Nilai fungsi keanggotaan dari rasio mention mengikutin persamaan (10). 14 (10) Nilai fungsi keanggotaan dari bobot monomorphism mengikuti persamaan (11). 1; π€3 ≤ 0,32 0,35−π€3 ππππΏ (π€3 ) = {0,35−0,32 ; 4.1.5. Implentasi Fuzzy Inference System untuk Deteksi User Berpengaruh FIS (Fuzzy Inference System) untuk deteksi user berpengaruh mempunyai 3 variabel input dan 1 variabel output. Variabel input terdiri atas rasio retweet, rasio mention, dan monomorphism. Sedang untuk variabel keputusan atau user berpengaruh didapatkan dari perbandingan nilai variabel rasio retweet, rasio mention, dan nilai monomorphism. Fungsi derajat keanggotaan linear turun digunakan untuk merepresentasikan himpunan fuzzy rendah dan fungsi derajat keanggotaan linear naik untuk himpunan fuzzy tinggi. Fungsi derajat keanggotaan segitiga digunakan untuk merepresentasikan himpunan fuzzy normal. Untuk fungsi keanggotaan rasio retweet memiliki label L (rendah), M (sedang), dan H (tinggi). Nilai fungsi keanggotaan dari rasio retweet mengikuti persamaan (9). π€2 ≤ 0,32 ; 0,32 ≤ π€2 ≤ 0,395, 0,32 ≤ π€3 ≤ 0,35, 0; π€3 ≥ 0,35 0; π€3 ≤ 0,3 ππ‘ππ’ π€3 ≥ 0,525 π€3 − 0,3 ; 0,3 ≤ π€3 ≤ 0,433 ππππ (π€3 ) = 0,433 − 0,3 0,565 − π€3 ; 0,433 ≤ π€3 ≤ 0,565 { 0,565 − 0,433 0; π€3 ≤ 0,5 π€3 − 0,5 ππππ» (π€3 ) = { ; 0,5 ≤ π€3 ≤ 0,565 0,565 − 0,5 1; π€3 ≥ 0,565 (11) Keputusan (output), ada tiga kondisi (label) yang mewakili parameter ini yang antara lain meliputi : L (rendah), M (sedang), dan H (tinggi). Nilai fungsi keanggotaan dari output mengikuti persamaan (12) 1; π§ ≤ 0,055 0,06 − π§ πππΏ (π§) = { ; 0,055 ≤ π§ ≤ 0,06 0,06 − 0,055 0; π§ ≥ 0,06 πππ (π§) 0; π§ ≤ 0,055 ππ‘ππ’ π§ ≥ 0,1 π§ − 0,055 ; 0,055 ≤ π§ ≤ 0,0775 = 0,0775 − 0,055 0.1 − π§ ; 0,0775 ≤ π§ ≤ 0,1 { 0,1 − 0,0775 0; π§ ≤ 0,095 π§ − 0,095 πππ» (π§) = { ; 0,095 ≤ π§ ≤ 0,1 0,1 − 0,095 1; π§ ≥ 0,1 (12) Pembentukan Aturan Fuzzy, dari tiga variabel input dan sebuah variabel output, dengan melakukan analisa data terhadap batas tiap – tiap himpunan fuzzy pada tiaptiap variabelnya maka terdapat 22 aturan fuzzy yang akan dipkai dalam sistem ini, dengan susunan aturan IF Retweet AND Mention AND Monomomorphism THAN User Berpengaruh, contoh hasil aturan fuzzy pada Tabel 1. Wijoyo, Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas User Dan Topik Monomorphism Pada Data Twitter untuk Promosi Produk Tabel 1. Contoh Aturan Fuzzy Id Rule R1 R2 R3 R4 R5 R6 R7 R8 R9 R10 R11 R12 R13 R14 R15 R16 R17 R18 R19 R20 R21 R22 Variabel Input Retweet Mention Mono Rendah Rendah Rendah Rendah Rendah Sedang Rendah Rendah Tinggi Rendah Sedang Rendah Rendah Sedang Sedang Rendah Sedang Tinggi Rendah Tinggi Rendah Rendah Tinggi Sedang Rendah Tinggi Tinggi Sedang Rendah Rendah Sedang Rendah Sedang Sedang Rendah Tinggi Sedang Sedang Rendah Sedang Sedang Sedang Sedang Sedang Tinggi Sedang Tinggi Rendah Tinggi Rendah Rendah Tinggi Rendah Sedang Tinggi Rendah Tinggi Tinggi Sedang Rendah Tinggi Sedang Sedang Tinggi Tinggi Rendah User Berpengaruh Rendah Rendah Rendah Rendah Sedang Rendah Tinggi Rendah Rendah Rendah Rendah Rendah Sedang Rendah Tinggi Tinggi Rendah Sedang Sedang Sedang Tinggi Tinggi Setelah didapatkan aturan inferensi untuk mendapatkan suatu himpunan fuzzy digunakan sebagai input dari proses defuzzifikasi. Hasil dari defuzzifikasi ini merupakan output dari sistem kendali logika fuzzy. Metode defuzzifikasi yang digunakan adalah metode centroid atau center of area seperti pada persamaan (13). π§∗ = ∫ ππ(π§)π§ππ§ ∫ ππ(π§)ππ§ (13) 4.2. Pengujian 4.2.1. Pengujian Kualitas Clustering Pada penelitian ini yang akan digunakan untuk uji akurasi adalah internal evaluation, secara khusus dengan menggunakan metode evaluasi Silhouette Coefficient [11] (Rousseeuw, 1987). Silhouette coefficient akan mengukur kualitas cluster yang dihasilkan sekaligus mengindikasikan derajat kepemilikan setiap objek atau data yang berada di dalam cluster. Nilai shilhoutte dari sebuah objek berada pada rentang antara -1 sampai dengan 1. Semakin dekat nilai silhouette objek ke 1, maka semakin tinggi derajat kepemilikan objek di dalam cluster. Dimana objek direpresentasikan dengan tweet. Adapun perhitungan nilai silhoutte (π (π)) untuk tiap tweet menggunakan persamaan (14) dan (15). π(π) = maxπΆπ≠π {π(π, πΆπ )} (14) π(π)−π(π) π (π) = max{π(π),π(π)} (15) dimana π(π) adalah jarak kedekatan tweet ke-i terhadap seluruh tweets yang ada di cluster internal, yaitu cluster tempat tweet ke-i berada. Sedangkan π(π) adalah jarak kedekatan antara tweet ke-i terhadap seluruh cluster eksternal, yaitu seluruh cluster selain cluster internal. Nilai silhouette akan mengindikasikan derajat kepemilikian tiap objek berdasarkan 3 kriteria yaitu negatif, nol, dan positif. Nilai (π (π)) dengan kriteria negatif overlapping tinggi yang menunjukkan bahwa tweet ke-i tidak berada dalam cluster U. Nilai (π (π)) dengan kriteria nol menunjukkan bahwa tweet ke-i adalah irisan dari cluster U dan V. Sedangkan nilai (π (π)) dengan kriteria positif menunjukkan bahwa objek tepat berada pada cluster U. Setelah didapatkan nilai (π (π)) untuk tiap tweet pada tiap cluster langkah selanjutnya adalah rata-rata nilai (π (π)) untuk tiap cluster atau yang lebih dikenal dengan Average Silhouette Width (ASW). Nilai ASW ini mampu mengindikasikan kualitas clustering. Berdasarkan range nilai ASW yang dihasilkan dibedakan menjadi 4 kriteria (Rousseeuw, 1987), yaitu : sangat baik (dengan range 0,71≤ASW≤1), sudah baik (0,51≤ASW<0,71), cukup baik (0,26≤ASW<0,51), dan kurang baik (ASW<0,26). 4.2.2. Pengujian Pengukuran Kinerja Klasifikasi Sebuah sistem yang melakukan klasifikasi diharapkan dapat melakukan 15 Jurnal Inspiraton, Volume 6, Nomor 1, Juni 2016: 9 - 18 klasifikasi semuat set data dengan benar, tetapi tidak dapat dimungkiri bahwa kinerja suatu sistem tidak bisa 100% benar. sehingga sistem klasfikasi juga harus diukur kinerjanya. Umumnya, pengukuran kinerja klasifikasi dilakukan dengan matriks konfusi (confusion matrix). Matrik konfusi merupakan tabel pencatat hasil kerja klasifikasi. Kita dapat mengetahui jumlah data dari masingmasing kelas yang diprediksi secara benar dan data yang diklasifikasikan secara salah. Kuantitas matriks konfusi dapat di ringkas manjadi dua nilai, yaitu akurasi dan laju eror. Untuk menghitung akurasi digunakan persamaan (16). π½π’πππβ πππ‘π π¦πππ πππππππππ π π πππππ πππππ π΄ππ’πππ π = (16) π½π’πππβ πππππππ π π¦πππ ππππππ’πππ 5. Hasil dan Pembahasan Pada bab ini dijelaskan mengenai skenario pengujian beserta hasil pengujian yang dilakukan dan analisis hasil uji yang diperoleh. Pengujian dilakukan untuk mengetahui kualitas clustering dari algoritma hirarkikal agglomerative dan nilai akurasi dari algoritma fuzzy inference system. Pengujian dilakukan dengan membandingkan nilai betweenness centrality dari hasil software nodexl. Data uji coba yang digunakan pada penelitian ini data twiiter selama 25 hari sebanyak 285.883 tweet dan total user sebanyak 183.564 user. Pada uji coba 1 menggunakan dataset produk brand samsung, iphone, dan apple dengan jumlah masing-masing tweet sebesar 500 tweets dan 600 tweets dari data untuk setiap produk brand. Pemberian beberapa variasi jumlah centroid (k) terhadap clustering untuk mendapatkan satu hasil clustering yang terbaik untuk proses selanjutnya. Ujicoba nilai k dimulai dari k=3 sampai k=10. Selanjutnya hasil clustering untuk setiap nilai k akan dihitung validasinya menggunakan metode Silhouette pada persamaan (14) dan (15). 16 Tabel 2. Nilai k untuk 500 Data Data Tweet Tiap Produk AWS (500 Data) Jumlah k Iphone Samsung Apple 3 0.7864 0.7456 0.8365 4 0.7709 0.8538 0.8263 5 0.8169 0.8804 0.6842 6 0.6726 0.8108 0.5506 7 0.5996 0.7555 0.7404 8 0.6764 0.7484 0.6572 9 0.5951 0.6179 0.6959 10 0.5103 0.6308 0.7231 Tabel 2. menunjukkan nilai k optimal untuk 500 dataset dan 600 dataset dari ketiga produk. Pada sampel 500 dataset yang digunakan ketiga produk menghasilkan kualitas clustering dengan kriteria “sangat bagus”. Nilai ASW terbesar ada pada produk Samsung sebesar 0,8804 dengan nilai k optimal adalah 5. Sedangkan untuk produk Iphone dan Apple masing-masing menghasilkan kualitas clustering dengan nilai ASW sebesar 0.8365 di k optimal adalah 3 dan nilai ASW sebesar 0.8263 di k optimal adalah 4. Nilai ASW terkecil ada pada topik produk Iphone sebesar 0.5103 dan nilai k optimal adalah 10. Tabel 3. Nilai k untuk 600 Data Data Tweet Tiap Produk AWS (600 Data) Jumlah k Iphone Samsung Apple 3 0,7773 0,7656 0,7841 4 0,8253 0,8083 0,8292 5 0,8611 0,8598 0,7463 6 0,8599 0,6880 0,7774 7 0,8232 0,6463 0,6613 8 0,7314 0,5913 0,5713 9 0,5909 0,5692 0,5009 10 0,5736 0,5038 0,5148 Tabel 3 menunjukkan hasil dari sampel 600 dataset yang digunakan ketiga produk menghasilkan kualitas clustering dengan kriteria “sangat bagus”. Nilai ASW Wijoyo, Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas User Dan Topik Monomorphism Pada Data Twitter untuk Promosi Produk terbesar ada pada produk Iphone sebesar 0,8611 dengan nilai k optimal adalah 5. Sedangkan untuk produk Samsung dan Apple masing-masing menghasilkan kualitas clustering dengan nilai ASW sebesar 0,8598 di k optimal adalah 5 dan nilai ASW sebesar 0,8292 di k optimal adalah 4. Nilai ASW terkecil ada pada topik produk Apple sebesar 0,5009 dan nilai k optimal adalah 9. Hasil dan analisa tentang kualitas clustering yang telah dijelaskan dengan menggunakan metode evaluasi silhouette dapat disimpulkan bahwa nilai ASW untuk ketiga topik produk dengan bervariasi jumlah dataset pada range 0.71≤ASW≤1 yang berarti bahwa kualitas clustering yang dihasilkan “sangat baik”. Pada uji coba 2 menggunakan dataset produk brand samsung, iphone, dan apple dengan jumlah masing-masing tweet sebesar dengan jumlah data tweet dari total 5 hari pertama (dari hari ke-1 sampai hari ke-5),5 hari kedua (dari hari ke-6 sampai hari ke-10), 5 hari ketiga (dari hari ke-11 sampai hari ke-15), dan 5 hari keempat (dari hari ke-16 sampai hari ke-20) untuk setiap produk brand. Data tweet dari 5 hari pertama sebagai data training digunakan untuk mendapatkan fungsi membership dan aturan inference dari fuzzy inference system. Sedangkan data testing menggunakan data tweet dari hari kedua, 5 hari ketiga, dan 5 hari keempat. Tabel 4. Hasil System Nama Produk Iphone Samsung Apple Akurasi Fuzzy Inference Data Ke-2 80% 82% 75% Data Ke-3 74% 77% 74% Data Ke-4 77% 84% 73% Tabel 4. menunjukkan bahwa nilai akurasi fuzzy inference system dari produk Samsung tertinggi daripada produk Iphone dan Samsung sebesar 82% pada dataset hari ke-6 sampai hari ke-10. Sedangkan untuk nilai akurasi terendah adalah produk Apple dengan nilai akurasi sebesar 73% pada hari ke-16 sampai hari ke-20. Hasil dan analisa tentang kualitas klasifikasi yang telah dijelaskan dengan menggunakan metode evaluasi nilai akurasi dapat disimpulkan bahwa performa dari algoritma fuzzy inference system dihasilkan “cukup baik”. Nilai rata-rata akurasi dari produk Iphone sebesar 77%, produk Samsung sebesar 81%, dan produk Apple sebesar 74%. 6. Kesimpulan Berdasarkan ujicoba dan analisa hasil, maka dapat ditarik kesimpulan. Hasil ujicoba pengelompokkan tweets dari ketiga produk dengan menggunakan algoritma Agglomerative hierarchical clustering telah memberikan kualitas clustering masuk kriteria “sangat baik” pada range 0.71≤ASW≤1. Nilai ASW 0.8804 untuk 500 Dataset pada produk Samsung dan 0,8611 untuk 600 dataset pada produk Iphone. Hasil ujicoba klasifikasi user berpengaruh menggunakan algoritma fuzzy inference system dihasilkan “cukup baik”. Nilai rata-rata akurasi dari produk Iphone sebesar 77%, produk Samsung sebesar 781, dan produk Apple sebesar 74%. 7. Saran Pengembangan selanjutnya dari metode deteksi user berpengaruh untuk promosi produk adalah mencari atau memilih fitur yang lain yang digunakan sebagai fitur tambahan, selain fitur popularitas user dan fitur topik monomorphism. Sehingga memungkinkan dapat mendeteksi user berpengaruh lebih baik. Penambahan metode deteksi tweet yang tidak sesuai dengan kata kunci yang digunakan. Daftar Pustaka [1] Twitter.(2015). https://support.twitter. com/. Diakses tanggal 10 Maret 2015. [2] Zhu, T., Bai, W., Bin, W., & Chuanxi, Z. (2014). Maximixing the spread of 17 Jurnal Inspiraton, Volume 6, Nomor 1, Juni 2016: 9 - 18 influence rangking in social networks. Information Sciences, 535-544. [3] Cha, M., H. Haddadi, F. Benevenuto, & K. P. Gummadi. (2010). Measuring user influence in twitter: the million follower fallacy. In Proceedings of 4th international AAAI conference on weblogs and social media (ICWSM ‘10), 10-17. [4] Weng, J., E. P. Lim, J. Jiang, & Q. He. (2010). TwitterRank: Finding topicsensitive influential twitterers. In Proceedings of the 3rd ACM international conference on web search and data mining (WSDM ‘10), 261-270. [5] Romero, D. M., W. Galuba, S. Asur, & B. A. Huberman. (2011). Influence and passivity in social media. In Proceedings of the 20th international conference companion on world wide web (WWW ‘11), 113-114. [6] Bakshy, E., J. M. Hofman, W. A. Mason, & D. J. Watts. (2011). Everyone’s an influencer: Quantifying influence on twitter. In Proceedings of the 4th ACM international conference on web search and data mining (WSDM ‘11). 65-74. [7] Luiten, M., W. A. Kosters, & F. W. Takes. (2012). Topical influence on twitter: a feature construction approach. [8] Rogers, E. M. (2013). Diffusion of innovations. Vol. 27. Free press. [9] Jingxuan, L., W. Peng, T. Li, T. Sun, Q. Li, & J. Xu. (2014). Social network user influence sense-making and dynamics prediction. Expert systems with application, 5115-5124. 18