Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas

advertisement
Wijoyo, Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas User Dan Topik Monomorphism
Pada Data Twitter untuk Promosi Produk
Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas User Dan
Topik Monomorphism Pada Data Twitter untuk Promosi Produk
Satrio Hadi Wijoyo1, Chastine Fatichah2, Diana Purwitasari3
Program Studi Teknik Informatika, Fakultas Teknologi Informasi,
Institut Teknologi Sepuluh Nopember
Email: [email protected], [email protected], [email protected]
ABSTRAK
User berpengaruh merupakan sebuah user yang biasanya populer di twitter dengan ditandai
memiliki banyak follower, isi tweet atau pendapatnya sering dikutip atau diikuti oleh akun
lainnya dengan ditandai tweet yang sering di retweet, dan namanya sering disebut atau dimention. Akan tetapi, ketertarikan tweet user berpengaruh tidak dapat dilihat hanya dari fitur
retweet dan mention saja, melainkan dapat dilihat dari fitur topik monomorphism.Berdasarkan
permasalahan tersebut, suatu metode diusulkan kombinasi fitur popularitas user dan topik
monomorphism untuk mendeteksi user berpengaruh pada data twitter untuk promosi produk.
Berdasarkan hasil ujicoba, nilai rata-rata akurasi algoritma fuzzy inference system dari produk
Iphone sebesar 75,75%, produk Samsung sebesar 79,25%, dan produk Apple sebesar 74,5%.
Hasil ini menunjukkan bahwa deteksi user berpengaruh berdasarkan kombinasi fitur popularitas user
dan topik monomorphism menghasilkan keluaran cukup baik.
Kata Kunci: Deteksi user berpengaruh, fitur popularitas user, topik monomorphism fuzzy inference
system,twitter.
ABSTRACT
User influence is a user who is usually popular on twitter with marked has many followers,
tweet contents or opinions often quoted or followed by other accounts with tweets that are
often marked retweet, and his name is often referred to, or mention. However, interest tweet
user influence can not be seen only from the feature retweet and mention only, but can be
seen from the features monomorphism topic. Based on this problems, a method is proposed
combination of features user popularity and monomorphism topic to detect an user influence
on the data user twitter for product promotion. Based on the test results, the average value of
the accuracy of the algorithm fuzzy inference system of products amounted to 75.75%
Iphone, Samsung products amounted to 79.25%, and 74.5% of Apple products. These results
indicate that the effect on user detection based on a combination of features user popularity
and monomorphism topic produce output is quite good.
Keywords: User influence detection, feature user popularity, monomorphism topic fuzzy inference
system, twitter.
1. Pendahuluan
Twitter adalah salah satu platform
yang paling populer dari media sosial
lainnya sebagai sumber informasi. Twitter
merupakan sebuah microblog yang dapat
menyebarkan atau membagikan informasi
berupa tweet dengan sangat cepat dan
berbasis real-time. Tweet adalah teks
tulisan 140 karakter yang ditampilkan pada
halaman profil user (pengguna) [1].
Twitter telah dimanfaatkan banyak
perusahaan melakukan promosi-promosi
produk baru mereka melalui jaringan
sosial. Keberhasilan perusahaan untuk
promosi produk baru agar banyak
pelanggan tertarik menggunakan produk
mereka, tidak serta merta hanya karena
user milik perusahaan sendiri di twitter.
Melainkan adanya peran aktif user
berpengaruh (influencer) yang melakukan
promosi keunggulan produk ke jaringan
pertemanannya. Sehingga banyak orang
tertarik menggunakan produk perusahaan
tersebut [2]. User berpengaruh merupakan
9
Jurnal Inspiraton, Volume 6, Nomor 1, Juni 2016: 9 - 18
sebuah user yang biasanya populer di
twitter dengan ditandai memiliki banyak
follower. Selain itu, isi tweet atau
pendapatnya sering dikutip atau diikuti
oleh akun lainnya dengan ditandai tweet
yang sering di retweet dan namanya sering
disebut atau di-mention [3].
Banyak metode telah digunakan
untuk mengetahui user berpengaruh pada
data
twitter.
Pembentukan
Graph
digunakan untuk
mengetahui
user
berpengaruh berdasarkan perhitungan
jumlah friends, jumlah followers, jumlah
mention, jumlah retweet, dan jumlah URLs
posted per user [4], [5], [6], dan [7].
Penelitian tersebut menemukan bahwa
jumlah followers tidak menunjukkan
pengaruh signifikan pada penyebaran tweet
dari user berpengaruh. Tetapi jumlah
retweet menunjukkan pengaruh interaksi
antar user. Keempat penelitian tersebut
menggunakan Graph untuk mengetahui
user berpengaruh memberikan hasil yang
cukup
baik,
akan
tetapi
dalam
pembentukan Graph membutuhkan node
banyak. Semakin banyak node yang
dibutuhkan maka semakin memakan waktu
proses yang banyak.
Deteksi atau identifikasi user
berpengaruh tidak selalu menggunakan
pembentukan Graph hubungan antar user.
Pada penelitian [3] menggunakan fitur
popularitas user seperti fitur jumlah
follower, jumlah retweet, dan jumlah
mention. Hasil penelitian menunjukkan
jika jumlah follower dari user tinggi maka
menunjukkan user tersebut hanya popular
di twitter. Sedangkan jika jumlah retweet
dan jumlah mention yang tinggi maka
menunjukkan bahwa tweet dari user
menarik dan user tersebut memiliki
pengaruh. Untuk mengetahui ketertarikan
tweet user berpengaruh terhadap suatu
topik tidak dapat dilihat hanya dari fitur
retweet dan mention. Akan tetapi, tweet
user dapat diketahui dengan melihat
kesamaan (similarity) tweet user tersebut
pada topik-topik tertentu.
10
Ketertarikan seorang individu atau
user terhadap suatu opini atau pendapat
pada satu topik disebut monomorphism.
Sedangkan
polymorphism
adalah
ketertarikan seorang individu terhadap
pendapat pada topik yang bervariasi [8].
Pada penelitian [9] menggunakan fitur
monomorphism vs. polymorphism, high
latency vs. Low latency, dan information
inventor vs. information spreader untuk
melakukan prediksi user berpengaruh di
twitter dari segi penyebaran informasi
secara
dinamik.
Cosine
similarity
digunakan untuk menghitung kesamaan
antara dua topik sebagai topik similarity
dari tweet user.
Berdasarkan
permasalahan
tersebut, suatu metode diusulkan untuk
mendeteksi user berpengaruh berdasarkan
kombinasi fitur popularitas user dan topik
monomorphism pada data twitter untuk
promosi produk. Selain itu, pada penelitian
ini akan melakukan leveling atau tingkatan
dari user berpengaruh menggunakan fuzzy
untuk mengetahui seberapakah user
tersebut berpengaruh di twitter. Dengan
adanya usulan tersebut diharapkan pemilik
produk atau perusahaan dapat mengetahui
user berpengaruh yang sedang popular di
twitter.
2. Deteksi User Berpengaruh pada Twitter
Twitter adalah sebuah situs web
yang dimiliki dan dioperasikan oleh
Twitter Inc., yang menawarkan jaringan
sosial
berupa
mikroblog
sehingga
memungkinkan
penggunanya
untuk
mengirim dan membaca pesan yang
disebut kicauan (tweets). Tweets adalah
teks tulisan hingga 140 karakter yang
ditampilkan pada halaman profil pengguna
(User). Pengguna dapat melihat tweets
pengguna lain yang dikenal dengan
sebutan pengikut (followers). Tweet yang
menyebut nama user dan menunjukkan
kemampuan user yang terlibat dengan user
lain dalam percakapan disebut mention.
Sedangkan retweet adalah tweet yang
mengandung nama user dan menunjukkan
Wijoyo, Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas User Dan Topik Monomorphism
Pada Data Twitter untuk Promosi Produk
kemampuan user yang menghasilkan
konten dengan nilai bersamaan [1].
User berpengaruh (influencer) bisa
siapa saja, bukan hanya artis ataupun
selebritis dunia hiburan seperti televisi dan
perfileman tetapi juga pada bidang-bidang
lain seperti politik, budaya, ekonomi,
olahraga, dan sebagainya. Para selebriti
tersebut, kemudian menggunakan twitter
sebagai media mereka menyampaikan
informasi kepada para penggemarnya.
Banyak user yang berperan untuk
menjadikan dirinya sebagai selebriti di
twitter. Berbagai jenis profesi bisa
dianggap sebagai selebriti seperti user
berpengaruh. Peran selebriti untuk
mendorong banyaknya promosi produk
serta kampanye periklanan di twitter.
Sehingga
dibutuhkan
deteksi
user
berpengaruh pada twitter.
User
berpengaruh
merupakan
sebuah user yang biasanya populer di
twitter dengan ditandai memiliki banyak
follower. Selain itu, isi tweet atau
pendapatnya sering dikutip atau diikuti
oleh akun lainnya dengan ditandai tweet
yang sering di retweet dan namanya sering
disebut atau di-mention [3].
User
berpengaruh ini akan menyebarkan
informasi di twitter dan nantinya
diharapkan
akan
menyebar
dan
diperbincangkan banyak followers.
3. Monomorphism dan Polymorphism
Pengertian monomorphism adalah
kecenderungan atau ketertarikan bagi
seseorang individu terhadap opini atau
pendapat untuk hanya satu topik atau
tunggal topik. Sedangkan polymorphism
adalah kecenderungan atau ketertarikan
suatu individu terhadap opini untuk
berbagai topik atau bervariasi topik [8].
Dalam media sosial, pengguna dengan
monomorphism tinggi biasanya selalu
fokus pada satu topik yang tetap,
sedangkan pengguna polymorphism tinggi
akan melakukan posting berbagai topik
dari waktu ke waktu. Mengetahui hal ini,
pengguna media sosial bisa mendapatkan
keuntungan aplikasi dengan tujuan yang
berbeda.
Misal,
user
berpengaruh
monomorphism tinggi harus peringkatnya
lebih tinggi dari user berpengaruh
polymorphism
dalam
aplikasi
rekomendasi. Namun, user berpengaruh
polymorphism tinggi akan lebih diinginkan
untuk
pengguna
bertujuan
untuk
mengumpulkan informasi umum [9].
Cosine similarity adalah salah satu
metode untuk mengukur kemiripan teks
dengan menggunakan nilai cosinus sudut
antara dua vektor. Konsepnya adalah jika
terdapat dua vektor dokumen 𝐷𝑗 dan π·π‘˜
maka nilai cosinus antara dua pasangan
teks tersebut dapat dihitung dengan
menggunakan persamaan (1).
⃗⃗⃗𝑗 , 𝐷
βƒ—βƒ—βƒ—βƒ—π‘˜ ) =
π‘π‘œπ‘ π‘ π‘–π‘š(𝐷
∑π‘š
β„Ž=1 π‘€π‘—β„Ž × π‘€π‘˜β„Ž
2
π‘š
2
√∑π‘š
𝑗=1(π‘€π‘—β„Ž ) × √∑𝑗=1(π‘€π‘˜β„Ž )
(1)
dimana 𝐷𝑗 dan π·π‘˜ adalah tweet yang
dilakukan user, π‘€π‘—β„Ž adalah bobot dari
term ke-h pada 𝐷𝑗 , π‘€π‘˜β„Ž adalah bobot dari
tweet term ke-h pada π·π‘˜ , dan h adalah
indek dari term yang didapatkan.
4. Metodologi Penelitian
4.1. Metode yang Diusulkan
Pada bagian ini akan dibahas
tentang
deteksi
user
berpengaruh
berdasarkan kombinasi fitur popularitas
user dan topik monomorphism pada data
twitter untuk promosi produk. Desain
sistem dalam penelitian ini terdiri atas tiga
bagian
utama
yaitu:
praproses
(preprocessing), ekstraksi fitur popularitas
user dan topik monomorphism, dan
konstruksi kombinasi atau pembobotan
dari dua fitur tersebut. Diagram alir desain
sistem dapat dilihat pada Gambar 1.
11
Jurnal Inspiraton, Volume 6, Nomor 1, Juni 2016: 9 - 18
Gambar 2. Contoh Tweet Yang Sebuah
Produk
Gambar 1. Diagram Metode Penelitian
4.1.1. Data Uji Coba
Tahap
berikutnya
adalah
pengumpulan data yang digunakan dalam
penelitian ini adalah data tweet atau
dokumen tweet dengan memanfaatkan
Search API yang disediakan oleh twitter.
Sebuah
aplikasi
dibangun
untuk
mengambil data tweet tersebut dari twitter
dengan menggunakan search API dengan
dibatasi wilayah geografis indonesia untuk
mendapatkan data bahasa Indonesia.
Dengan menggunakan search API ini,
diharapkan
mendapatkan
berbagai
informasi yang dibutuhkan. Data tweet
hanya dibatasi topik-topik produk dari
brand antara lain : Apple, Iphone, dan
Samsung. Data tweet dikumpulkan atau
dikoleksi selama 2 bulan dengan rentang
dari tanggal 17 Maret 2015 sampai 16 Juni
2015.
Gambar 2. menunjukkan contoh
tweet sebuah produk dari brand. Pada
suatu tweet tersebut dapat informasi
jumlah
retweet
secara
langsung.
Contohnya pada tweet yang dilakukan user
dari kompas TV, dapat diperoleh jumlah
retweet sebanyak 7. Berarti tweet tersebut
sudah di retweet oleh 7 orang. Pada
penelitian ini, jumlah retweet dan jumlah
mention diperoleh dari informasi teks
tweet.
12
4.1.2. Tahap Praproses Data
Setelah diperoleh dataset yang
dibutuhkan untuk penelitian ini. Kemudian
dilakukan tahap praproses data untuk
menyiapkan data tweet agar siap diproses
pada tahap selanjutnya. Tahap praproses
dalam penelitian ini terdiri tiga bagian
yaitu : pembersihan kata (cleaning term),
pemenggalan kata (tokening term),
penghapusan
stopword
(stopword
removal), dan perhitungan bobot tf_idf.
Term Frequency Inverse Document
Frequency
(tf_idf)
adalah
konsep
pembobotan term pada sebuah dokumen.
Metode ini melakukan perbandingan
antara frekuensi kemunculan term j pada
kalimat i (𝑑𝑓𝑖𝑗 ) dengan frekuensi kalimat
yang mengandung term j (𝑑𝑓𝑗 ). Bobot
tf_idf dari term j dapat dihitung dengan
menggunakan persamaan (2), dimana 𝑑𝑓𝑖𝑗
adalah frekuensi kata term ke-i pada
dokumen
ke-j.
Konsep
tersebut
memberikan
pengukuran
terhadap
pentingnya kata term ke-i pada dokumen
tersebut. Sedangkan 𝑖𝑑𝑓𝑖 ditentukan
melalui persamaan (3), dimana N adalah
jumlah dokumen, 𝑑𝑓𝑖 adalah jumlah dari
dokumen yang mengandung kata term kei.
𝑑𝑓_𝑖𝑑𝑓𝑖𝑗 = 𝑑𝑓𝑖𝑗 × π‘–π‘‘π‘“π‘–
(2)
𝑁
𝑖𝑑𝑓𝑖 = log (𝑑𝑓 )
𝑖
(3)
Wijoyo, Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas User Dan Topik Monomorphism
Pada Data Twitter untuk Promosi Produk
4.1.3. Ekstraksi Fitur Popularitas User
Perhitungan retweet pada penelitian
ini diperoleh dari teks atau isi tweet. Tweet
user yang diposting ulang dengan adanya
tanda atau simbol tambahan seperti RT,
retweeting, retweet, dan lainnya, serta
simbol @nama_user [3]. Bobot retweet
adalah menghitung jumlah retweet dari
tweet user berpengaruh yang terdapat pada
twitter. Perhitungan bobot retweet dari
tweet user mengikuti persamaan (4) seperti
berikut.
∑ π‘Ÿπ‘’π‘‘π‘€π‘’π‘’π‘‘(π‘’π‘ π‘’π‘Ÿπ‘– )
𝑀1 (π‘’π‘ π‘’π‘Ÿπ‘– ) =
(4)
max (π‘Ÿπ‘’π‘‘π‘€π‘’π‘’π‘‘(π‘’π‘ π‘’π‘Ÿπ‘ ))
dimana 𝑀1 (π‘’π‘ π‘’π‘Ÿπ‘– ) merupakan bobot
retweet dari user ke-i, ∑ π‘Ÿπ‘’π‘‘π‘€π‘’π‘’π‘‘(π‘’π‘ π‘’π‘Ÿπ‘– )
merupakan jumlah retweet dari user ke-i,
dan max (π‘Ÿπ‘’π‘‘π‘€π‘’π‘’π‘‘(π‘’π‘ π‘’π‘Ÿπ‘ )) merupakan
nilai maksimal dari jumlah retweet dari
sebuah koleksi retweet user, dan p
merupakan jumlah user.
Bobot mention adalah menghitung
jumlah mention dari user yang terdapat
pada tweet. Nama user yang disebut dalam
tweet user lain dengan adanya tanda atau
simbol tambahan seperti @ serta nama dari
user tersebut. Perhitungan bobot mention
mengikuti persamaan (5) seperti berikut.
∑ π‘šπ‘’π‘›π‘‘π‘–π‘œπ‘›(π‘’π‘ π‘’π‘Ÿπ‘– )
𝑀2 (π‘’π‘ π‘’π‘Ÿπ‘– ) =
(5)
max (π‘šπ‘’π‘›π‘‘π‘–π‘œπ‘›(π‘’π‘ π‘’π‘Ÿπ‘ ))
dimana 𝑀2 (π‘’π‘ π‘’π‘Ÿπ‘– ) merupakan bobot
mention dari user ke-i, ∑ π‘šπ‘’π‘›π‘‘π‘–π‘œπ‘›(π‘’π‘ π‘’π‘Ÿπ‘– )
merupakan jumlah mention nama dari user
ke-i,
dan
max (π‘šπ‘’π‘›π‘‘π‘–π‘œπ‘›(π‘’π‘ π‘’π‘Ÿπ‘ ))
merupakan nilai maksimal dari jumlah
mention dari koleksi π‘šπ‘’π‘›π‘‘π‘–π‘œπ‘› user.
4.1.4. Ekstraksi Fitur Topik Monomorphism
Pada
penelitian
ini
untuk
mengetahui user berpengaruh yang
termasuk topik monomorphism atau
polymorphism dalam melakukan tweet
dihitung dengan cara lain, tidak dihitung
menggunakan cosine similarity. Akan
tetapi, dengan cara menghitung bobot
kemunculan user dalam klaster topik
tweet. Adapun proses ekstraksi fitur topik
monomorphism terdapat 2 tahapan, yaitu :
tahap klasterisasi tweet dan perhitungan
bobot kemunculan user dalam klaster.
Pada
tahap
klasterisasi
ini
digunakan untuk mengkelompokkan atau
membagi koleksi tweet ke dalam sejumlah
cluster. Algoritma klasterisasi yang
digunakan dalam penelitian ini adalah
algoritma
klasterisasi
hierarkikal
agglomerative. Setelah itu, dilakukan
perhitungan bobot kemuculan user ini
mengadopsi dari konsep perhitungan bobot
tf_idf dengan merubah nama variabel agar
tidak sama dengan variabel sebelumnya.
Sehingga pembobotan kemunculan user
dalam klaster disebut User Frequency
Inverse Cluster Frequency (uf_icf).
Metode ini melakukan perbandingan antar
frekuensi kemunculan user i pada cluster j
(𝑒𝑓𝑖𝑗 ) dengan frekuensi cluster yang
mengandung user i (𝑐𝑓𝑖 ). Bobot uf_icf dari
user i dapat dihitung dengan menggunakan
persamaan (6).
𝑒𝑓_𝑖𝑐𝑓𝑖𝑗 = 𝑒𝑓𝑖𝑗 × π‘–π‘π‘“π‘–
(6)
dimana 𝑒𝑓𝑖𝑗 adalah frekuensi user ke-i
pada cluster ke-j. Sedangkan 𝑖𝑐𝑓𝑖
ditentukan melalui persamaan (7) berikut
ini.
𝑁
𝑖𝑐𝑓𝑖 = log (𝑐𝑓 )
(7)
𝑖
dimana 𝑐𝑓𝑖 adalah jumlah dari cluster yang
mengandung user ke-i dan N adalah
jumlah cluster. Hasil dari perhitungan
bobot kemunculan user berupa koleksi
user (𝑒𝑗 ) dan frekuensinya (𝑓𝑖𝑗 ), dimana 𝑝
merupakan total jumlah user sebuah
cluster.
Setelah didapatkan bobot uf_icf
masing-masing user dalam klaster.
Kemudian dilakukan perhitungan bobot
topik
monomorphism
dari
user.
Perhitungan bobot topik monomorphism
adalah menghitung jumlah bobot uf – icf
dari user yang terdapat pada cluster.
Perhitungan bobot topik monomorphism
mengikuti persamaan (8) seperti berikut.
𝑀3 (π‘’π‘ π‘’π‘Ÿπ‘– ) =
∑ 𝑒𝑓 _𝑖𝑐𝑓(π‘’π‘ π‘’π‘Ÿπ‘— )
max (𝑒𝑓_𝑖𝑐𝑓(π‘’π‘ π‘’π‘Ÿπ‘ ))
(8)
13
Jurnal Inspiraton, Volume 6, Nomor 1, Juni 2016: 9 - 18
dimana 𝑀3 (π‘’π‘ π‘’π‘Ÿπ‘– ) merupakan bobot
monomorphism
dari
user
ke-i,
∑ 𝑒𝑓_𝑖𝑐𝑓(π‘’π‘ π‘’π‘Ÿπ‘– ) merupakan jumlah bobot
𝑒𝑓_𝑖𝑐𝑓
dari
user
ke-i,
dan
max (𝑒𝑓_𝑖𝑐𝑓(π‘’π‘ π‘’π‘Ÿπ‘ )) merupakan nilai
maksimal dari jumlah bobot 𝑒𝑓_𝑖𝑐𝑓 dari
semua bobot 𝑒𝑓_𝑖𝑐𝑓 user. Rentang nilai
𝑀3 (π‘’π‘ π‘’π‘Ÿπ‘– ) antara 0 sampai 1. Jika nilai
𝑀3 (π‘’π‘ π‘’π‘Ÿπ‘– ) mendekati angka 1 maka tweet
user
tersebut
termasuk
topik
monomorphism.
1;
0,395−𝑀2
πœ‡π‘€π‘’πΏ (𝑀2 ) = {0,395− 0.32
0; 𝑀2 ≥ 0,395
0; 𝑀2 ≤ 0,32 π‘Žπ‘‘π‘Žπ‘’ 𝑀2 ≥ 0,525
𝑀2 − 0,32
;
0,32 ≤ 𝑀2 ≤ 0,42
πœ‡π‘€π‘’π‘€ (𝑀2 ) =
0,42 − 0,32
0,525 − 𝑀2
;
0,42 ≤ 𝑀2 ≤ 0,525
{ 0,525 − 0,42
0; 𝑀2 ≤ 0,48
𝑀2 − 0,48
; 0,48 ≤ 𝑀2 ≤ 0,525
πœ‡π‘€π‘’π» (𝑀2 ) =
𝑑2 − 0,48
{
1; 𝑀2 ≥ 0,525
1; 𝑀1 ≤ 0,401
0,413 − 𝑀1
πœ‡π‘…π‘‘πΏ (𝑀1 ) = {
; 0,401 ≤ 𝑀1 ≤ 0,413
0,413 − 0,401
0; 𝑀1 ≥ 0,413
0; 𝑀1 ≤ 0,401 π‘Žπ‘‘π‘Žπ‘’ 𝑀1 ≥ 0,688
𝑀1 − 0,401
;
0,401 ≤ 𝑀1 ≤ 0,545
πœ‡π‘…π‘‘π‘€ (𝑀1 ) = 0,545 − 0,401
0,688 − 𝑀1
;
0,545 ≤ 𝑀1 ≤ 0,688
{ 0,688 − 0,545
0; 𝑀1 ≤ 0,675
𝑀1 − 0,675
πœ‡π‘…π‘‘π» (𝑀1 ) = {
; 0.675 ≤ 𝑀1 ≤ 0,688
0,688 − 0,675
1; 𝑀1 ≥ 0,688
(9)
Nilai fungsi keanggotaan dari rasio
mention mengikutin persamaan (10).
14
(10)
Nilai fungsi keanggotaan dari bobot
monomorphism mengikuti persamaan (11).
1; 𝑀3 ≤ 0,32
0,35−𝑀3
πœ‡π‘€π‘’πΏ (𝑀3 ) = {0,35−0,32 ;
4.1.5. Implentasi Fuzzy Inference System
untuk Deteksi User Berpengaruh
FIS (Fuzzy Inference System) untuk
deteksi user berpengaruh mempunyai 3
variabel input dan 1 variabel output.
Variabel input terdiri atas rasio retweet,
rasio mention, dan monomorphism. Sedang
untuk variabel keputusan atau user
berpengaruh didapatkan dari perbandingan
nilai variabel rasio retweet, rasio mention,
dan nilai monomorphism.
Fungsi derajat keanggotaan linear
turun digunakan untuk merepresentasikan
himpunan fuzzy rendah dan fungsi derajat
keanggotaan linear naik untuk himpunan
fuzzy tinggi. Fungsi derajat keanggotaan
segitiga
digunakan
untuk
merepresentasikan himpunan fuzzy normal.
Untuk fungsi keanggotaan rasio retweet
memiliki label L (rendah), M (sedang), dan
H (tinggi). Nilai fungsi keanggotaan dari
rasio retweet mengikuti persamaan (9).
𝑀2 ≤ 0,32
; 0,32 ≤ 𝑀2 ≤ 0,395,
0,32 ≤ 𝑀3 ≤ 0,35,
0; 𝑀3 ≥ 0,35
0; 𝑀3 ≤ 0,3 π‘Žπ‘‘π‘Žπ‘’ 𝑀3 ≥ 0,525
𝑀3 − 0,3
;
0,3 ≤ 𝑀3 ≤ 0,433
πœ‡π‘€π‘’π‘€ (𝑀3 ) =
0,433 − 0,3
0,565 − 𝑀3
;
0,433 ≤ 𝑀3 ≤ 0,565
{ 0,565 − 0,433
0; 𝑀3 ≤ 0,5
𝑀3 − 0,5
πœ‡π‘€π‘’π» (𝑀3 ) = {
; 0,5 ≤ 𝑀3 ≤ 0,565
0,565 − 0,5
1; 𝑀3 ≥ 0,565
(11)
Keputusan (output), ada tiga kondisi
(label) yang mewakili parameter ini yang
antara lain meliputi : L (rendah), M
(sedang), dan H (tinggi). Nilai fungsi
keanggotaan dari output mengikuti
persamaan (12)
1; 𝑧 ≤ 0,055
0,06 − 𝑧
πœ‡π‘ˆπΏ (𝑧) = {
; 0,055 ≤ 𝑧 ≤ 0,06
0,06 − 0,055
0; 𝑧 ≥ 0,06
πœ‡π‘ˆπ‘€ (𝑧)
0; 𝑧 ≤ 0,055 π‘Žπ‘‘π‘Žπ‘’ 𝑧 ≥ 0,1
𝑧 − 0,055
;
0,055 ≤ 𝑧 ≤ 0,0775
= 0,0775 − 0,055
0.1 − 𝑧
;
0,0775 ≤ 𝑧 ≤ 0,1
{ 0,1 − 0,0775
0; 𝑧 ≤ 0,095
𝑧 − 0,095
πœ‡π‘ˆπ» (𝑧) = {
; 0,095 ≤ 𝑧 ≤ 0,1
0,1 − 0,095
1; 𝑧 ≥ 0,1
(12)
Pembentukan Aturan Fuzzy, dari tiga
variabel input dan sebuah variabel output,
dengan melakukan analisa data terhadap
batas tiap – tiap himpunan fuzzy pada tiaptiap variabelnya maka terdapat 22 aturan
fuzzy yang akan dipkai dalam sistem ini,
dengan susunan aturan IF Retweet AND
Mention AND Monomomorphism THAN
User Berpengaruh, contoh hasil aturan
fuzzy pada Tabel 1.
Wijoyo, Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas User Dan Topik Monomorphism
Pada Data Twitter untuk Promosi Produk
Tabel 1. Contoh Aturan Fuzzy
Id
Rule
R1
R2
R3
R4
R5
R6
R7
R8
R9
R10
R11
R12
R13
R14
R15
R16
R17
R18
R19
R20
R21
R22
Variabel Input
Retweet Mention Mono
Rendah
Rendah Rendah
Rendah
Rendah
Sedang
Rendah
Rendah
Tinggi
Rendah
Sedang
Rendah
Rendah
Sedang
Sedang
Rendah
Sedang
Tinggi
Rendah
Tinggi
Rendah
Rendah
Tinggi
Sedang
Rendah
Tinggi
Tinggi
Sedang
Rendah Rendah
Sedang
Rendah
Sedang
Sedang
Rendah
Tinggi
Sedang
Sedang
Rendah
Sedang
Sedang
Sedang
Sedang
Sedang
Tinggi
Sedang
Tinggi
Rendah
Tinggi
Rendah Rendah
Tinggi
Rendah
Sedang
Tinggi
Rendah
Tinggi
Tinggi
Sedang
Rendah
Tinggi
Sedang
Sedang
Tinggi
Tinggi
Rendah
User
Berpengaruh
Rendah
Rendah
Rendah
Rendah
Sedang
Rendah
Tinggi
Rendah
Rendah
Rendah
Rendah
Rendah
Sedang
Rendah
Tinggi
Tinggi
Rendah
Sedang
Sedang
Sedang
Tinggi
Tinggi
Setelah didapatkan aturan inferensi
untuk mendapatkan suatu himpunan fuzzy
digunakan sebagai input dari proses
defuzzifikasi. Hasil dari defuzzifikasi ini
merupakan output dari sistem kendali
logika fuzzy. Metode defuzzifikasi yang
digunakan adalah metode centroid atau
center of area seperti pada persamaan
(13).
𝑧∗ =
∫ πœ‡π‘(𝑧)𝑧𝑑𝑧
∫ πœ‡π‘(𝑧)𝑑𝑧
(13)
4.2. Pengujian
4.2.1. Pengujian Kualitas Clustering
Pada penelitian ini yang akan
digunakan untuk uji akurasi adalah
internal evaluation, secara khusus dengan
menggunakan metode evaluasi Silhouette
Coefficient [11] (Rousseeuw, 1987).
Silhouette coefficient akan mengukur
kualitas cluster yang dihasilkan sekaligus
mengindikasikan derajat kepemilikan
setiap objek atau data yang berada di
dalam cluster. Nilai shilhoutte dari sebuah
objek berada pada rentang antara -1
sampai dengan 1. Semakin dekat nilai
silhouette objek ke 1, maka semakin tinggi
derajat kepemilikan objek di dalam cluster.
Dimana objek direpresentasikan dengan
tweet. Adapun perhitungan nilai silhoutte
(𝑠(𝑖)) untuk tiap tweet menggunakan
persamaan (14) dan (15).
𝑏(𝑖) = max𝐢𝑗≠π‘ˆ {𝑑(𝑖, 𝐢𝑗 )}
(14)
𝑏(𝑖)−π‘Ž(𝑖)
𝑠(𝑖) = max{π‘Ž(𝑖),𝑏(𝑖)}
(15)
dimana π‘Ž(𝑖) adalah jarak kedekatan tweet
ke-i terhadap seluruh tweets yang ada di
cluster internal, yaitu cluster tempat tweet
ke-i berada. Sedangkan 𝑏(𝑖) adalah jarak
kedekatan antara tweet ke-i terhadap
seluruh cluster eksternal, yaitu seluruh
cluster selain cluster internal.
Nilai
silhouette
akan
mengindikasikan derajat kepemilikian tiap
objek berdasarkan 3 kriteria yaitu negatif,
nol, dan positif. Nilai (𝑠(𝑖)) dengan
kriteria negatif overlapping tinggi yang
menunjukkan bahwa tweet ke-i tidak
berada dalam cluster U. Nilai (𝑠(𝑖))
dengan kriteria nol menunjukkan bahwa
tweet ke-i adalah irisan dari cluster U dan
V. Sedangkan nilai (𝑠(𝑖)) dengan kriteria
positif menunjukkan bahwa objek tepat
berada pada cluster U.
Setelah didapatkan nilai (𝑠(𝑖)) untuk
tiap tweet pada tiap cluster langkah
selanjutnya adalah rata-rata nilai (𝑠(𝑖))
untuk tiap cluster atau yang lebih dikenal
dengan Average Silhouette Width (ASW).
Nilai ASW ini mampu mengindikasikan
kualitas clustering. Berdasarkan range
nilai ASW yang dihasilkan dibedakan
menjadi 4 kriteria (Rousseeuw, 1987),
yaitu : sangat baik (dengan range
0,71≤ASW≤1),
sudah
baik
(0,51≤ASW<0,71),
cukup
baik
(0,26≤ASW<0,51), dan kurang baik
(ASW<0,26).
4.2.2. Pengujian Pengukuran Kinerja
Klasifikasi
Sebuah sistem yang melakukan
klasifikasi diharapkan dapat melakukan
15
Jurnal Inspiraton, Volume 6, Nomor 1, Juni 2016: 9 - 18
klasifikasi semuat set data dengan benar,
tetapi tidak dapat dimungkiri bahwa
kinerja suatu sistem tidak bisa 100%
benar. sehingga sistem klasfikasi juga
harus diukur kinerjanya. Umumnya,
pengukuran kinerja klasifikasi dilakukan
dengan matriks konfusi (confusion matrix).
Matrik konfusi merupakan tabel pencatat
hasil kerja klasifikasi. Kita dapat
mengetahui jumlah data dari masingmasing kelas yang diprediksi secara benar
dan data yang diklasifikasikan secara
salah. Kuantitas matriks konfusi dapat di
ringkas manjadi dua nilai, yaitu akurasi
dan laju eror. Untuk menghitung akurasi
digunakan persamaan (16).
π½π‘’π‘šπ‘™π‘Žβ„Ž π‘‘π‘Žπ‘‘π‘Ž π‘¦π‘Žπ‘›π‘” π‘‘π‘–π‘π‘Ÿπ‘’π‘‘π‘–π‘˜π‘ π‘– π‘ π‘’π‘π‘Žπ‘Ÿπ‘Ž π‘π‘’π‘›π‘Žπ‘Ÿ
π΄π‘˜π‘’π‘Ÿπ‘Žπ‘ π‘– =
(16)
π½π‘’π‘šπ‘™π‘Žβ„Ž π‘π‘Ÿπ‘’π‘‘π‘–π‘˜π‘ π‘– π‘¦π‘Žπ‘›π‘” π‘‘π‘–π‘™π‘Žπ‘˜π‘’π‘˜π‘Žπ‘›
5. Hasil dan Pembahasan
Pada bab ini dijelaskan mengenai
skenario pengujian beserta hasil pengujian
yang dilakukan dan analisis hasil uji yang
diperoleh. Pengujian dilakukan untuk
mengetahui kualitas clustering dari
algoritma hirarkikal agglomerative dan
nilai akurasi dari algoritma fuzzy inference
system. Pengujian dilakukan dengan
membandingkan
nilai
betweenness
centrality dari hasil software nodexl. Data
uji coba yang digunakan pada penelitian
ini data twiiter selama 25 hari sebanyak
285.883 tweet dan total user sebanyak
183.564 user.
Pada uji coba 1 menggunakan
dataset produk brand samsung, iphone, dan
apple dengan jumlah masing-masing tweet
sebesar 500 tweets dan 600 tweets dari
data untuk setiap produk brand. Pemberian
beberapa variasi jumlah centroid (k)
terhadap clustering untuk mendapatkan
satu hasil clustering yang terbaik untuk
proses selanjutnya. Ujicoba nilai k dimulai
dari k=3 sampai k=10. Selanjutnya hasil
clustering untuk setiap nilai k akan
dihitung validasinya menggunakan metode
Silhouette pada persamaan (14) dan (15).
16
Tabel 2. Nilai k untuk 500 Data Data
Tweet Tiap Produk
AWS (500 Data)
Jumlah
k
Iphone Samsung Apple
3
0.7864 0.7456
0.8365
4
0.7709
0.8538 0.8263
5
0.8169
0.8804 0.6842
6
0.6726
0.8108 0.5506
7
0.5996
0.7555 0.7404
8
0.6764
0.7484 0.6572
9
0.5951
0.6179 0.6959
10
0.5103
0.6308 0.7231
Tabel 2. menunjukkan nilai k
optimal untuk 500 dataset dan 600 dataset
dari ketiga produk. Pada sampel 500
dataset yang digunakan ketiga produk
menghasilkan kualitas clustering dengan
kriteria “sangat bagus”. Nilai ASW
terbesar ada pada produk Samsung sebesar
0,8804 dengan nilai k optimal adalah 5.
Sedangkan untuk produk Iphone dan
Apple
masing-masing
menghasilkan
kualitas clustering dengan nilai ASW
sebesar 0.8365 di k optimal adalah 3 dan
nilai ASW sebesar 0.8263 di k optimal
adalah 4. Nilai ASW terkecil ada pada
topik produk Iphone sebesar 0.5103 dan
nilai k optimal adalah 10.
Tabel 3. Nilai k untuk 600 Data Data
Tweet Tiap Produk
AWS (600 Data)
Jumlah
k
Iphone Samsung Apple
3
0,7773
0,7656 0,7841
4
0,8253
0,8083 0,8292
5
0,8611
0,8598 0,7463
6
0,8599
0,6880 0,7774
7
0,8232
0,6463 0,6613
8
0,7314
0,5913 0,5713
9
0,5909
0,5692 0,5009
10
0,5736
0,5038 0,5148
Tabel 3 menunjukkan hasil dari
sampel 600 dataset yang digunakan ketiga
produk menghasilkan kualitas clustering
dengan kriteria “sangat bagus”. Nilai ASW
Wijoyo, Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas User Dan Topik Monomorphism
Pada Data Twitter untuk Promosi Produk
terbesar ada pada produk Iphone sebesar
0,8611 dengan nilai k optimal adalah 5.
Sedangkan untuk produk Samsung dan
Apple
masing-masing
menghasilkan
kualitas clustering dengan nilai ASW
sebesar 0,8598 di k optimal adalah 5 dan
nilai ASW sebesar 0,8292 di k optimal
adalah 4. Nilai ASW terkecil ada pada
topik produk Apple sebesar 0,5009 dan
nilai k optimal adalah 9.
Hasil dan analisa tentang kualitas
clustering yang telah dijelaskan dengan
menggunakan metode evaluasi silhouette
dapat disimpulkan bahwa nilai ASW untuk
ketiga topik produk dengan bervariasi
jumlah dataset pada range 0.71≤ASW≤1
yang berarti bahwa kualitas clustering
yang dihasilkan “sangat baik”.
Pada uji coba 2 menggunakan
dataset produk brand samsung, iphone, dan
apple dengan jumlah masing-masing tweet
sebesar dengan jumlah data tweet dari total
5 hari pertama (dari hari ke-1 sampai hari
ke-5),5 hari kedua (dari hari ke-6 sampai
hari ke-10), 5 hari ketiga (dari hari ke-11
sampai hari ke-15), dan 5 hari keempat
(dari hari ke-16 sampai hari ke-20) untuk
setiap produk brand. Data tweet dari 5 hari
pertama sebagai data training digunakan
untuk mendapatkan fungsi membership
dan aturan inference dari fuzzy inference
system.
Sedangkan
data
testing
menggunakan data tweet dari hari kedua, 5
hari ketiga, dan 5 hari keempat.
Tabel 4. Hasil
System
Nama
Produk
Iphone
Samsung
Apple
Akurasi Fuzzy Inference
Data
Ke-2
80%
82%
75%
Data
Ke-3
74%
77%
74%
Data
Ke-4
77%
84%
73%
Tabel 4. menunjukkan bahwa nilai
akurasi fuzzy inference system dari produk
Samsung tertinggi daripada produk Iphone
dan Samsung sebesar 82% pada dataset
hari ke-6 sampai hari ke-10. Sedangkan
untuk nilai akurasi terendah adalah produk
Apple dengan nilai akurasi sebesar 73%
pada hari ke-16 sampai hari ke-20. Hasil
dan analisa tentang kualitas klasifikasi
yang
telah
dijelaskan
dengan
menggunakan metode evaluasi nilai
akurasi dapat disimpulkan bahwa performa
dari algoritma fuzzy inference system
dihasilkan “cukup baik”. Nilai rata-rata
akurasi dari produk Iphone sebesar 77%,
produk Samsung sebesar 81%, dan produk
Apple sebesar 74%.
6. Kesimpulan
Berdasarkan ujicoba dan analisa
hasil, maka dapat ditarik kesimpulan. Hasil
ujicoba pengelompokkan tweets dari ketiga
produk dengan menggunakan algoritma
Agglomerative hierarchical clustering
telah memberikan kualitas clustering
masuk kriteria “sangat baik” pada range
0.71≤ASW≤1. Nilai ASW 0.8804 untuk
500 Dataset pada produk Samsung dan
0,8611 untuk 600 dataset pada produk
Iphone.
Hasil ujicoba klasifikasi user
berpengaruh menggunakan algoritma fuzzy
inference system dihasilkan “cukup baik”.
Nilai rata-rata akurasi dari produk Iphone
sebesar 77%, produk Samsung sebesar
781, dan produk Apple sebesar 74%.
7. Saran
Pengembangan selanjutnya dari
metode deteksi user berpengaruh untuk
promosi produk adalah mencari atau
memilih fitur yang lain yang digunakan
sebagai fitur tambahan, selain fitur
popularitas user dan fitur topik
monomorphism. Sehingga memungkinkan
dapat mendeteksi user berpengaruh lebih
baik. Penambahan metode deteksi tweet
yang tidak sesuai dengan kata kunci yang
digunakan.
Daftar Pustaka
[1] Twitter.(2015). https://support.twitter.
com/. Diakses tanggal 10 Maret 2015.
[2] Zhu, T., Bai, W., Bin, W., & Chuanxi,
Z. (2014). Maximixing the spread of
17
Jurnal Inspiraton, Volume 6, Nomor 1, Juni 2016: 9 - 18
influence rangking in social networks.
Information Sciences, 535-544.
[3] Cha, M., H. Haddadi, F. Benevenuto,
& K. P. Gummadi. (2010). Measuring
user influence in twitter: the million
follower fallacy. In Proceedings of 4th
international AAAI conference on
weblogs and social media (ICWSM
‘10), 10-17.
[4] Weng, J., E. P. Lim, J. Jiang, & Q. He.
(2010). TwitterRank: Finding topicsensitive influential twitterers. In
Proceedings of the 3rd ACM
international conference on web
search and data mining (WSDM ‘10),
261-270.
[5] Romero, D. M., W. Galuba, S. Asur, &
B. A. Huberman. (2011). Influence
and passivity in social media. In
Proceedings of the 20th international
conference companion on world wide
web (WWW ‘11), 113-114.
[6] Bakshy, E., J. M. Hofman, W. A.
Mason, & D. J. Watts. (2011).
Everyone’s an influencer: Quantifying
influence on twitter. In Proceedings of
the 4th ACM international conference
on web search and data mining
(WSDM ‘11). 65-74.
[7] Luiten, M., W. A. Kosters, & F. W.
Takes. (2012). Topical influence on
twitter:
a feature
construction
approach.
[8] Rogers, E. M. (2013). Diffusion of
innovations. Vol. 27. Free press.
[9] Jingxuan, L., W. Peng, T. Li, T. Sun,
Q. Li, & J. Xu. (2014). Social network
user influence sense-making and
dynamics prediction. Expert systems
with application, 5115-5124.
18
Download