Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia dengan

advertisement
Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104
Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia dengan
Pendekatan Grammatical Tagging untuk Visualisasi Trend Produk Brand
Septiyan Andika Isanta1, Chastine Fatichah2, Diana Purwitasari3
Program Studi Teknik Informatika, Fakultas Teknologi Informasi,
Institut Teknologi Sepuluh Nopember
Email: [email protected], [email protected], [email protected]
ABSTRAK
Diketahui bahwa informasi dari twitter banyak mengandung teks yang berisikan produk
sebuah brand. Pemilik brand biasanya mengamati kata kunci apa yang sedang populer dalam
twitter. Kata dengan jumlah kemunculan terbesar pada umumnya dijadikan kata kunci. Selain
fitur frekuensi tweet, terdapat metadata twitter yang bisa digunakan untuk menganalisa tweet
tersebut, contohnya favourite dan retweet. Selain itu, jika hanya menggunakan jumlah
kemunculan kata, kata yang didapatkan belum tentu adalah target dari sebuah tweet. Oleh
karena itu, penelitian ini mengusulkan metode ekstraksi kata kunci dari metadata twitter
dengan pendekatan grammatical tagging untuk visualisai trend produk brand. Metode dibagi
menjadi empat tahap yaitu praproses, ekstraksi kata kunci, ekstraksi target, dan asosiasi serta
visualiasi target dengan kata kunci. Berdasarkan pengujian menggunakan tweet dari brand
Apple dan Nexus, didapatkan bahwa nilai kemunculan kata lebih berpengaruh dari pada nilai
retweet dan nilai favourite. Metode yang diusulkan dapat mengenali target sebuah tweet,
dengan nilai precision 81.3%, serta dapat mengenali dengan baik hubungan antara target
dengan kata kunci tweet dengan nilai f-measure 52.5%
Kata Kunci:Ekstraksi, target, kata kunci, twitter, graph, grammatical tagging, part-of-speech
tagging,association rule.
ABSTRACT
It is known that twitter have text that are contains with a lot of information of a product brand.
Owner of a brand usually doing some observe about keywords that now happening in twitter.
The word with the largest number of occurrences usually become the keyword. Beside
frequency of tweet, there is twitter metadata that can be used to analyze those tweets, for
example retweet and favorite. Moreover, if only use the number of occurrences of the word,
the word obtained is not necessarily the target of a tweet. Therefore in this research, proposed
a keyword extraction method form twitter metadata with gramatical tagging approach, for
visualization trend of brand products. The method divided into four stages, there are
preprocessing, keywords extraction, target extraction, and associations along with visualize
the target keywords. Based on testing using tweets from Apple and Nexus, found that the
occurrence of the word is more influential than the value of retweet and favorite. The
proposed method can identify the target of a tweet, with a precision value 81.3% precision,
also can recognize the relationship between the target with the keyword tweet nicely with fmeasure value 52.5%.
Keywords:Extraction, target, keyword, twitter, graph, grammatical tagging, part-of-speech tagging.
association rule.
twitter biasanya menunjukkan kejadian
yang sedang terjadi dan sering disebut
sebagai kata kunci. Pemilik brand
biasanya mengamati kata kunci apa yang
1. Pendahuluan
Twitter merupakan salah satu
media sosial yang sedang ramai digunakan
pada saat ini, kata yang lagi popular dari
92
92
Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging
Untuk Visualisasi Trend Produk Brand
sedang popular dari sebuah produk mereka
atau produk kompetitor. Visualisasi kata
yang
popular
tersebut
umumnya
ditampilkan dalam bentuk grafik batang
atau
grafik
lingkaran.
Dengan
memvisualisasikan dalam bentuk grafik
batang atau grafik lingkaran setiap kata
kunci dianggap berdiri sendiri, padahal ada
hubungan semantic antara kata kunci
tersebut. Sehingga dibutuhkan sebuah
visualisasi yang dapat mengetahui
hubungan relasi semantics antara kata
kunci.
Beberapa penilitian melakukan
visualisasi hubungan antar kata atau
hashtag dalam twitter dalam bentuk graph,
seperti yang dilakukan oleh Abscal dia
melakukan visualisasi hubungan antara
hashtag bedasarkan hashtag tertentu [2].
Amma juga melakukan visualisasi topik
tweet dari twitter stream dalam bentuk
graph[3]. Pada kedua penelitian tersebut
dalam
pembuatan
graph
mereka
menggunakan fitur frekuensi jumlah kata
atau kata kunci yang muncul didalam
kumpulan tweet.
Sebelum pembentukan relasi antara
kata kunci terlebih dahulu diperlukan
metode untuk mengeksktraksi kata kunci
dan metode untuk merelasasikan kata
kunci tersebut. Pada penelitian yang
dilakukan Medvet dan Bartoli, mereka
menggunakan
metode
perbandingan
frekuensi word dengan jumlah tweet dan
riwayat tweet untuk mendapatkan kata
kunci yang sedang populer pada suatu
event tertentu dari sebuah brand[4]. Dalam
penelitian tersebut mereka tidak hanya
melakukan ektrasi 1 keyword, melainkan
set of word dari kumpulan tweet. Sebagai
contoh dalam tweet “@.... did you pre
order your iPad”, “@.... discount 5% for
pre order iPad ” kata yang penting adalah
pre, order dan ipad, sehingga set of word
yang dihasilkan adalah “pre order ipad”.
Akan tetapi dengan hanya menghitung
kemunculan kata, kata kunci yang
dihasilkan belum tentu sebuah produk atau
target opini dari tweet tersebut, sehingga
dibutuhkan sebuah metode natural
language
processing
(NLP)
untuk
mengetahui target yang dikomentari dari
sebuah tweet.
Untuk mendapatkan
infomasi
struktur kata dalam tweet, Hasby
mengusulkan sebuah metode untuk
ekstraksi
informasi
dalam
twitter
menggunakan
NLP,
metode
yang
digunakan adalah melakukan ekstraksi
named
entity
recognition
untuk
mendapatkan tagging dari tweet berbahasa
indonesia [5]. Selain menggunakan named
entity recognition untuk mendapatkan tag
dari kalimat bisa menggunakan POS
Tagging atau biasa disebut grammatical
tagging. Alfan Farizki menggunakan
metode Hidden Markov Model untuk
mendapatkan grammatical tagging dari
dokumen news berbahasa Indonesia,
sehingga dapat mengetahui apakah kata
dari sebuah dokumen tersebut adalah kata
benda, kata kerja, kata sifat dll [12].
Setelah mendapatkan tagging dari sebuah
kata dalam tweet, bagaimana menentukan
kata yang menjadi target tweet tersebut.
Terdapat sebuah penelitian lain yang
melakukan ekstraski fitur produk dalam
dokumen review yang dilakukan oleh Qiu,
dia mengusulkan metode berbasis rule
untuk mendapatkan fitur produk dari
sebuah kalimat opini [6]. Yang menjadi
permasalahan
adalah
bagaimana
menerapkan rule untuk melakukan
ekstraksi target tweet dalam twitter
berbahasa Indonesia.
Permasalahan lain yang muncul
adalah bagaimana jika set of word yang
penting dari sebuah kumpulan tweet lebih
dari satu, seperti dalam tweet “ Lazada
Buka Pre-Order Xiaomi Redmi Note:
Redmi Note dibanderol Rp1,99 juta. ” dan
“Xiaomi luncurkan Redmi Note di
Indonesia, Mi3 tidak akan dijual”, produk
yang dikomentari adalah Redmi Note dan
Mi3 sedangkan kata kunci yang penting
adalah
preorder,
lazada.
Sehingga
dibutuhkan
suatu
metode
untuk
93
Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104
merepresentasikan
hubungan
antara
produk dan kata kunci .
Sebagian besar peneliti yang
melakukan penelitian menggunakan twitter
hanya menggunakan fitur frekuensi tweet.
Padahal selain fitur frekuensi atau jumlah
kata kunci dalam tweet, masih banyak
metadata twitter yang bisa digunakan
untuk
menganalisa
bobot
sebuah
tweetcontohnya, favourite dan retweet.
Fitur favourite dan retweet bisa digunakan
untuk mengetahui tweet itu penting atau
tidak. Karena jika tweet tersebut di
favourite atau di retweet orang lain maka
tweet tersebut dianggap penting oleh orang
lain.
Berdasarkan
permasalahan
tersebut, dalam penelitian ini diusulkan
suatu metode untuk ekstraksi kata kunci
berdasarkan
metadata
tweet
dan
contenttweet
dengan
pendekatan
grammatical tagging untuk visualisasi tren
produk sebuah brand. Dengan adanya
usulan tersebut diharapkan pemilik brand
dapat mengetahui produk dan kata kunci
apa yang sedang populer dalam brand
tersebut.
2. Ekstraksi Kata Kunci dan target
Tweet
2.1 Ekstraksi Kata Kunci Tweet
Twitter merupakan layanan jejaring
social yang memiliki perbedaan dengan
jejaring social media yang lain yaitu
memiliki ukuran panjang teks terbatas 140
karakter
[8].
Batasan
tersebut
menyebabkan pengguna dengan mudah
mengirim tweet dengan cepat tentang
informasi yang akan disampaikan.
Pengguna bisa mengirim pesan singkat
berupa kritik, saran, opini, kabar, berita,
suasana hati, peristiwa, fakta dan lain-lain
yang tidak terkatagorikan. Pesan yang
dikirim cenderung secara singkat dan
langsung pada inti dari informasi yang
disampaikan.
Saat ini jumlah pengguna twitter
telah mencapi 140 juta pengguna aktif
yang rata-rata per hari mengirimkan pesan
94
singkat sejumlah 400 juta pesan [9].
Angka-angka tersebut menujukkan bahwa
twitter banyak digunakan karena beberapa
hal seperti portabilitas, mudah digunakan,
berisi pesan singkat dan tidak ada batasan
pengguna untuk menyebarkan informasi
dalam media tersebut. Dari sekian banyak
pesan singkat yang dikirimkan tersebut,
terdapat tweet yang berisakan opini
terhadap sebuah produk dan promo sebuah
produk. Untuk mendapatkan kata kunci
dalam tweet dapat menggunakan metode
statistik seprerti yang digunakan oleh
peneliti sebelumnya [4] yaitu menghitung
jumlah
kemunculan
term
dalam
sekumpulan tweet, term yang memiliki
jumlah kemunculan paling tinggi dapat
diartikan sebagai kata kunci dalam
sekumpulan tweet.
2.2 Ekstraksi target tweetdengan Hidden
Markov Model (HMM) ModelPOS
Tagging
Metode statistik yang digunakan
dalam ektraksi kata kunci tidak bisa
digunakan untuk mendapatkan target opini
dari sebuah tweet karena untuk
mendapatkan target tweet kita perlu tahu
tag atau makna dari masing-masing kata
dalam tweet. Oleh sebab itu perlu
digunakan grammatical tagging dan rule,
untuk mendapatkan target tweet, algoritma
yang dipakai untuk ekstraksi tagging
dalam penilitian ini adalah
Hidden
Markov Model (HMM).
Pada kasus Part of Speech
Tagging, urutan kelas kata tidak dapat
diamati
secara
langsung
sehingga
dijadikan sebagai hidden state dan yang
menjadi observed state adalah urutan katakata [12]. Dari urutan kata-kata harus
dicari urutan kelas kata yang paling tepat.
HMM POS Tagger menggunakan dua
buah asumsi, asumsi yang pertama adalah
probabilitas kemunculan suatu kata hanya
tergantung pada tag- nya, dan tidak
tergantung dengan kata lain di sekitarnya
atau tag lain di sekitarnya. Asumsi yang
kedua
adalah
probabilitas
suatu
Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging
Untuk Visualisasi Trend Produk Brand
kemunculan tag hanya bergantung dari tag
sebelumnya[1]. Dengan kedua buah
asumsi teresebut persamaan dari Hidden
Markov Model untuk kasus Part of Speech
Tagging adalah .
π‘‡π‘Žπ‘”π‘›
= π‘€π‘Žπ‘₯ 𝑃 π‘€π‘œπ‘Ÿπ‘‘π‘– π‘‘π‘Žπ‘”π‘– 𝑃 π‘‘π‘Žπ‘”π‘– π‘‘π‘Žπ‘”π‘–−1
(1)
dimana Tagn adalah kelas kata yang dicari,
tag i adalah kelas kata dari word ke i yang
ada di corpus, wordi adalah kata yang
dicari kelas katanya, tag i−1 adalah kelas
kata sebelum kelas kata dari word ke i
yang ada di corpus dan P adalah nilai
probabilitas.
Untuk
melakukan
perhitungan probabilitas transisi tag
𝑃 π‘‘π‘Žπ‘”π‘– π‘‘π‘Žπ‘”π‘–−1
dan
probabilitas
kemiripan
kata
(word
likelihood)
𝑃 π‘€π‘œπ‘Ÿπ‘‘π‘– π‘‘π‘Žπ‘”π‘– diperlukan koleksi data
tweet atau kalimat yang telah diberikan tag
sebelumnya
(corpus).
Untuk
menghitungnya
dapat
digunakan
persamaan :
𝐢(π‘‘π‘Žπ‘”π‘–−1 , π‘‘π‘Žπ‘”π‘– ) (2)
𝑃 π‘‘π‘Žπ‘”π‘– π‘‘π‘Žπ‘”π‘–−1 =
𝐢(π‘‘π‘Žπ‘”π‘–−1 )
𝐢 π‘‘π‘Žπ‘”π‘– , π‘€π‘œπ‘Ÿπ‘‘π‘–
𝑃 π‘€π‘œπ‘Ÿπ‘‘π‘– π‘‘π‘Žπ‘”π‘– =
𝐢 π‘‘π‘Žπ‘”π‘–
Tabel 1. POS Tag
POS Deskripsi
Tag
(English)
OP
Open
Parenthesis
CP
Close
Parenthesis
GM
Slash
,
Semicolon
Colon
Quotation
Sentence
Terminator
Comma
-
...
Dash
Ellipsis
JJ
RB
Adjective
Adverb
;
:
“
.
Deskripsi
(Indonesia)
Kurung
Buka
Kurung
Tutup
Garis
Miring
Titik Koma
Titik Dua
Tanda Kutip
Tanda Titik
Tanda
Koma
Garis
Tanda
Pengganti
Kata Sifat
Kata
(3)
Contoh
POS
Tag
Deskripsi
(Indonesia)
Keterangan
NN
Common
Kata
Noun
Benda
NNP Proper
Benda
Noun
Bernama
NNG Genitive
Benda
Noun
Berpemilik
VBI Intransitive Kata Kerja
Verb
Intransitif
VBT Transitive
Kata Kerja
verb
Transitif
IN
Preposition Preposisi
MD
Modal
Modal
CC
CoorKata
Conjunction Sambung
Setara
SC
SuborKata
Conjunction Sambung
Tidak
Setara
DT
Determiner Determiner
UH
Interjection Interjection
CD
CDO
/
;
:
" dan '
.
,
-
...
Baik, Bagus
Sementara,
Cardinal
Number
Ordinal
Numerals
CDC
Collective
Numerals
CDP
Primary
Numerals
CDI
Irregular
Numerals
({[
)}]
Deskripsi
(English)
PRP
Personal
pronoun
WP
Whpronoun
PRN Number
Pronouns
PRL Locative
Pronouns
NEG Negation
SYM Symbol
RP
Particle
FW
Foreign
word
Bilangan
Contoh
Nanti
Meja, Kulkas
Samsung,
Sony
Handphonenya
Pergi
Membeli
Di, Dari, Ke
Bisa
Dan,
Atau,
tetapi
Jika, Ketika
Para, Ini, Itu
Wah, Aduh,
Oi
1, 2
Kata
Bilangan
Berurut
Kata
Bilangan
Kolektif
Kata
Bilangan
Pokok
Kata
Bilangan
Tidak Biasa
Kata Ganti
Orang
Kata tanya
Pertama,
Kedua
Kata Ganti
Bilangan
Kata Ganti
Lokasi
Negasi
Simbol
Particle
Kata Asing
Keduaduanya
Sini, Situ
Berdua
Satu,
Tiga
Dua,
Beberapa
Saya, Mereka
Apa, Siapa,
Bukan, Tidak
#,%,^,&,*
Pun, Kah
Word
95
Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104
3. Asosiasi target dan kata kunci tweet
dengan algoritma Association Rule
Association Rule adalah suatu
metode data mining yang bertujuan untuk
mencari sekumpulan items yang sering
muncul bersamaan. Association rule
umumnya mengambil bentuk IF-THEN
yang menggabungkan beberapa items
menjadi satu, misalnya: IF A THEN B.
Association rule meliputi dua tahap :
1. Mencari kombinasi yang paling sering
terjadi dari suatu itemset.
2. Mendefinisikan Condition dan Result
(untuk conditional association rule)
Dalam
menentukan
suatu
association
rule,
terdapat
suatu
interestingness
measure
(ukuran
kepercayaan) yang didapatkan dari hasil
pengolahan data dengan perhitungan
tertentu. Umumnya ada dua ukuran, yaitu:
a) Support : suatu ukuran yang
menunjukkan seberapa besar tingkat
dominasi suatu item/itemset dari
keseluruhan transaksi. Ukuran ini akan
menentukan apakah suatu item/itemset
layak untuk dicari confidence-nya
(misal, dari seluruh transaksi yang ada,
seberapa besar tingkat dominasi yang
menunjukkan bahwa item A dan B
dibeli bersamaan) dapat juga digunakan
untuk mencari tingkat dominasi item
tunggal. Adapun rumus yang digunakan
untuk menghitung support adalah
sebagai berikut:
(4)
𝜎(𝐴, 𝐡)
𝑠=
|𝑇|
𝑐=
𝜎(𝐴, 𝐡)
𝜎(𝐴)
(5)
dimana c adalah nilai confidence,
s (A, B) total transaksi item A dan B
secara bersamaan, dan s (A) adalah
jumlah transaksi item A.
Pada penelitian ini yang akan
diasosiasikan adalah target tweet dan kata
kunci hasil ekstraksi tweet, asosiasi
tersebut bertujuan untuk mengetahui
seberapa kuat relasi antara target tweet dan
kata kunci. Agar dapat menghitung
seberapa sering kata kunci muncul dalam
tweet yang mengandung target, dapat
dilakukan dengan menghitung nilai
confidence target tweet dan kata kunci.
Sehingga kita bisa tahu seberapa besar
nilai kedekatan atau relasi antara target dan
kata kunci dalam tweet.
4.
Metodologi Penelitian
4.1. Metode yang Diusulkan
Pada bagian ini akan dibahas
tentang ekstraksi kata kunci metadata
twitter berbahasa indonesia dengan
pendekatan grammatical tagging untuk
visualisasi trend produk brand. Desain
sistem dalam penelitian ini terdiri atas
empat bagian utama yaitu: praproses
(preprocessing), ekstraksi kata kunci,
ekstraksi target tweet, dan asosiasi serta
visualisai target dan kata kunci tweet.
Diagram desain sistem dapat dilihat pada
Gambar 1.
dimana s adalah nilai support,
s (A, B) total transaksi item A dan B
secara bersamaan, dan
jumlah transaksi total.
| T| adalah
b) Confidence : suatu ukuran yang
menunjukkan hubungan antar 2 item
secara conditional (misal, seberapa
sering item B dibeli jika orang membeli
item A). Adapun rumus yang digunakan
untuk menghitung confidence adalah
sebagai berikut:
96
Gambar 1. Diagram Metode Penelitian
Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging
Untuk Visualisasi Trend Produk Brand
4.1.1. Data Uji Coba
Data uji coba yang digunakan dalam
penelitian ini berasal dari data tweet atau
dokumen tweet dengan memanfaatkan
search API yang disediakan oleh twitter.
Sebuah
aplikasi
dibangun
untuk
mengambil data tweet tersebut dari twitter
dengan menggunakan search API dengan
query languange ID yang berarti tweet
yang berbahasa Indonesia yang diambil.
Data tweet hanya dibatasi topik-topik
produk dari brand antara lain : Apple dan
Nexus. Data tweet dikumpulkan atau
dikoleksi selama 10 hari dari tanggal 5
Desember 2015 sampai 14 Desember
2015. Seluruh data rawtweets disimpan
dalam format json.
Gambar 2. menunjukkan contoh
tweetsebuah produk dari brand. Pada suatu
tweettersebut dapat informasi jumlah
retweetsecara langsung. Contohnya pada
tweetyang dilakukan user dari kompas TV,
dapat diperoleh jumlah retweetsebanyak 7.
Berarti tweettersebut sudah di retweetoleh
7 orang. Pada penelitian ini, jumlah
retweetdan jumlah mention diperoleh dari
informasi teks tweet.
Gambar 2. Contoh Tweet Yang Sebuah
Produk
4.1.2. Tahap Praproses Data
Setelah diperoleh dataset yang dibutuhkan
untuk penelitian ini. Kemudian dilakukan
tahap praproses data untuk menyiapkan
data tweetagar siap diproses pada tahap
selanjutnya. tahap praproses tweet dimulai
dengan membaca data tweet dari hasil
serach API yang telah disimpan dalam
format json Metadatatweet yang digunakan
dalam pengujian ini adalah text,
retweet_count dan favourites_count, untuk
metadata
lainnya
seperti
location,
coordinate tidak digunakan. sebelum
dilakukan praproses terlebih dahulu dibuat
sebuah sistem untuk mengekstrak value
dari meta data text, retweet_count dan
favourite s_count.
Setiap text tweet dilakukan proses
untuk memformalkan text tweet, langkahlangkah
yang
dilakukan
untuk
memformalkan text tweet terdapat 4
langkah yaitu:
1. Memisahkan angka di depan atau di
belakang text dengan text yang
mengikutinya. Contohnya “2hari”,
menjadi 2 hari
2. Mengubah angka di dalam text
menjadi huruf, contohnya “ga2l”
menjadi gagal
3. Menghapus huruf yang berulang,
contohnya adalah kata “tidaaak”,
menjadi tidak.
4. Mengubah kata allay menajdi kata
formal berdasarkan dictionary yang
didapat
dari
http://kamusmania.com/component/gl
ossary/Kamus-Alay-9/,
contonya
“ciyus” menjadi serius.
Dari hasil prepocessing texttweets
akan diperoleh data text tweets yang
menggunakan kata-kata formal, data
tersebut akan dijadikan sebagai text yang
akan di proses ke tahapan selanjutnya
yaitu ektraksi kata kunci dan ekstraksi
target tweet.
4.1.3. Ekstraksi Kata Kunci tweet
Pada tahap ekstraksi kata kunci
tweet terdapat 2 proses tahapan, tahapan
pertama adalah prepocessing text yang
meliputi Case folding, Tokenizing,
Filtering dan Stemming. Tahapan kedua
adalah pemfilteran kata kunci dengan
berdasarkan kemunculan kata didalam
tweet, persamaan yang digunakan adalah :
π‘€π‘˜π‘Žπ‘‘π‘Ž −π‘˜π‘’π‘›π‘π‘– =
log ⁑
(| π·π‘‘π‘’π‘Ÿ π‘š 𝑖 |)
π‘™π‘œπ‘” (| 𝐷 |)
,
(6)
97
Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104
Pemfilteran kata kunci digunakan
untuk mereduksi dimensi kata kunci yang
didapat pada tahapan selanjutnya sehingga
akan mempecepat komputasi dan hanya
kata kunci yang sering muncul yang akan
dipakai. Kata kunci yang melebihi nilai
threshold akan digunakan sebagai kata
kunci yang akan diasosiasikan dengan
target tweet yang diperoleh pada tahapan
ekstraksi target.
4.1.4. Ekstraksi target tweet
Pada tahapan ektraksi target tweet
terdapat 2 proses utama yaitu, ekstraksi tag
menggunakan grammatical tagging dan
penyeleksian
term
yang
didapat
menggunakan rula yang di buat pada
Ekstraksi tag berbasis grammatical
menggunakan metode Hidden Markov
Model yang telah dijelaskan pada subbab.
Tabel 2. Rule Ekstraksi Target
tweet tersebut diretweet dan favourite oleh
orang lain, maka tweet tersebut dianggap
penting.
Persamaan
pembobotannya
seperti berikut :
a. Pembobotan term tweet
Pembobotan term tweet adalah
menghitung jumlah kemunculan term
target yang muncul didalam tweet.
Perhitungan
bobotnya
mengikuti
persamaan seperti berikut:
𝑀1 (π‘‘π‘’π‘Ÿπ‘šπ‘– ) =
| π·π‘‘π‘’π‘Ÿ π‘š 𝑖 |
|𝐷|
,
(7)
dimana 𝑀1 (termi ) adalah bobot term
target ke-i, Dter m i adalah total dokumen
tweet yang memiliki term target ke-i, dan
|D| adalah total dokumen tweet.
b. Pembobotan term retweet
Pembobotan term retweet adalah
menghitung jumlah Retweet dari term
target yang terdapat pada tweet.
Perhitungan
bobotnya
mengikuti
persamaan seperti berikut:
Arti
Contoh
Rule
NN
NNG
NNP
NN NN
NN RB
NN CD
NN
NNP
NNP
CD
Kata Benda
Kata Benda
Berpemilik
Kata Benda
Bermakna
Kata Benda
diikuti dengan
Kata Benda
Kata Benda
diikuti dengan
Kata keterangan
Kata Benda
diikuti dengan
angka
Kata Benda
diikuti dengan
Kata Benda
Bermakna
Kata Benda
Bermakna diikuti
dengan angka
Laptop, kamera
macbooknya
Iphone, Android
Galaxy Note
Iphone 5S, Galaxy
s6
Iphone 5, Zenfone
5
Redmi Note
Note 6
Setelah didapatkan target tweet,
selanjutnya adalah pembobotan target.
yang diusulkan dalam melakukan tahap
pembobotan dalam penelitian ini adalah
metode pembobotan term, pembobotan
jumlah favourite, dan pembobotan jumlah
retweet. Pembobotan jumlah favourite dan
jumlah retweet dimasukkan karena jika
98
𝑀2 (π‘‘π‘’π‘Ÿπ‘šπ‘– )
log⁑
( 𝑗 ∈ 𝑑𝑀𝑒𝑒𝑑 π‘Ÿπ‘’π‘‘π‘€π‘’π‘’π‘‘ π‘‘π‘’π‘Ÿπ‘šπ‘–, 𝑑𝑀𝑒𝑒𝑑𝑗 )
=
π‘šπ‘Žπ‘₯ _π‘Ÿπ‘’π‘‘π‘€π‘’π‘’π‘‘ (π‘‘π‘’π‘Ÿπ‘š π‘₯ , 𝑑𝑀𝑒𝑒𝑑 𝑗 )
log⁑
( π‘₯ ∈ π‘‘π‘’π‘Ÿπ‘š
)
(8)
𝑗 ∈ 𝑑𝑀𝑒𝑒𝑑
dimana 𝑀2 (termi ) adalah bobot
retweet dari term target
ke-i,
π‘Ÿπ‘’π‘‘π‘€π‘’π‘’π‘‘(termi, 𝑑𝑀𝑒𝑒𝑑j ), adalah jumlah
retweet dari term target ke-i pada tweet
ke-j,
dan
max_π‘Ÿπ‘’π‘‘π‘€π‘’π‘’π‘‘(termi, 𝑑𝑀𝑒𝑒𝑑j )adalah nilai
maksimal dari jumlah retweet sebuah
koleksi term ke-i di dalam koleksi tweet.
c. Pembobotan term favourite
Pembobotan term favourite adalah
menghitung jumlah favourite dari term
target yang terdapat pada tweet.
Perhitungan
bobotnya
mengikuti
persamaan seperti berikut:
𝑀3 (π‘‘π‘’π‘Ÿπ‘šπ‘– )
log⁑( 𝑗 ∈ 𝑑𝑀𝑒𝑒𝑑 π‘“π‘Žπ‘£π‘œπ‘’π‘Ÿπ‘–π‘‘π‘’(π‘‘π‘’π‘Ÿπ‘šπ‘–, 𝑑𝑀𝑒𝑒𝑑𝑗 ))
=
π‘šπ‘Žπ‘₯ _π‘“π‘Žπ‘£π‘œπ‘’π‘Ÿπ‘–π‘‘π‘’ (π‘‘π‘’π‘Ÿπ‘š π‘₯ , 𝑑𝑀𝑒𝑒𝑑 𝑗 )
log⁑
( π‘₯ ∈ π‘‘π‘’π‘Ÿπ‘š
)
𝑗 ∈ 𝑑𝑀𝑒𝑒𝑑
(9)
dimana 𝑀3 (termi ) adalah bobot
π‘“π‘Žπ‘£π‘œπ‘’π‘Ÿπ‘–π‘‘π‘’ dari term target
ke-i,
π‘“π‘Žπ‘£π‘œπ‘’π‘Ÿπ‘–π‘‘π‘’(termi, 𝑑𝑀𝑒𝑒𝑑j ), adalah jumlah
Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging
Untuk Visualisasi Trend Produk Brand
π‘“π‘Žπ‘£π‘œπ‘’π‘Ÿπ‘–π‘‘π‘’ dari term target ke-i pada
tweet
ke-j,
max_π‘“π‘Žπ‘£π‘œπ‘’π‘Ÿπ‘–π‘‘π‘’(termi, 𝑑𝑀𝑒𝑒𝑑j ) adalah
nilai maksimal dari jumlah retweet sebuah
koleksi term ke-i didalam koleksi tweet.
d. Bobot total term
Berdasarkan 3 pembobotan di atas
term, retweet dan favourite, maka nilai
total bobot dari term target ke i adalah
sebagai berikut.
𝑀𝑑 (π‘‘π‘’π‘Ÿπ‘šπ‘– ) = π‘Ž ∗ 𝑀1 (π‘‘π‘’π‘Ÿπ‘šπ‘– + 𝑏 ∗ 𝑀2 (π‘‘π‘’π‘Ÿπ‘šπ‘– ) + 𝑐
(10)
∗ 𝑀3 (π‘‘π‘’π‘Ÿπ‘šπ‘– )
Nilai bobot π‘Ž, 𝑏, dan 𝑐 jika di total
harus bernilai 1, dimana nanti dalam tahap
pengujian dilakukan penentuan bobot a, b,
dan c yang optimal, sehingga bisa
mengetahui bobot mana yang paling
berpengaruh pada ekstrkasi target tweet.
4.1.5. Asosiasi dan visualisasi relasi
target dengan kata kunci atau target
lainnya
Setalah didapatkan kata kunci dan
target dari tweet dilkukakan asosiasi target
dengan kata kunci dan target dengan target
agar dapat mengetahui apakah kedua kata
tersebut
berhubungan
atau
tidak.
Perhitungan asosiasi menggunakan nilai
confidence dari metode Association Rule.
Tahapan untuk
mendapatkan nilai
confidence dari relasi target dan kata kunci
adalah sebagai berikut :
1. Menghitung jumlah tweet yang
mengandung target
2. Menghitung jumlah tweet yang
mengandung target dan kata kunci
secara bersamaan
3. Menghitung nilai confidence kata
kunci ke target, dengan cara membagi
jumlah tweet yang mengandung target
dan kata kunci secara bersamaan
dengan jumlah tweet yang mengadung
target
Semakin tinggi nilai confidence
tersebut maka target dan kata kunci sering
muncul bersamaan didalam sekumpulan
tweet, hal tersebut dapat berarti bahwa
relasi antara target dan kata kunci tersebut
kuat. Dalam pemilihan relasi yang akan
digunakan untuk visualisasi graph di
lakukan pemfilteran nilai confidence,
pemfilteran tersebut bertujuan hanya relasi
yang kuat saja yang akan digunakan dalam
visualisasi graph. Jika nilai confidence
yang dihasilkan dari relasi kata kunci dan
target melebihi nilai threshold yang
ditentukan, maka kata kunci dan target
tersebut akan divisualisasikan dalam
bentuk graph.
Dalam pembuatan graph, node
produk di beri warna biru, sedangkan
untuk kata kunci diberi warna hijau. Besar
kecilnya node itu berdasarkan pada nilai
bobot wt dan besar kecilnya garis
tergantung pada nilai confidence antara
produk dan kata kunci.
Gambar 3. Visualisasi trend produk apple
4.2. Pengujian
4.2.1. Pengujian Ekstraksi Target Tweet
Evaluiasi ujicoba ekstraksi target
tweetmenggunakan nilaiprecision dan
recall. precision adalah presentase jumlah
target tweet yang relevan dari jumlah
target tweet ditemukan. Sedangkan recall
adalah presentase tingkat keberhasilan
system menemukan target tweet yang
relevan dari seluruh koleksi target tweet
99
Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104
yang relevan.Tujuan dari pengujian ini
adalah untuk mengetahui fitur mana yang
lebih berpengaruh antaraa (kemunculan), b
(retweet), danc (favourite) serta sebaragu
bagus ekstraksi target yang dihasilkan.
π‘Ÿπ‘’π‘π‘–π‘ π‘–π‘œπ‘› =
π‘‘π‘Ÿπ‘’π‘’ π‘π‘œπ‘ π‘–π‘‘π‘–π‘£π‘’
π‘‘π‘Ÿπ‘’π‘’ π‘π‘œπ‘ π‘–π‘‘π‘–π‘£π‘’ + π‘“π‘Žπ‘™π‘ π‘’ π‘π‘œπ‘ π‘–π‘‘π‘–π‘£π‘’
π‘‘π‘Ÿπ‘’π‘’ π‘π‘œπ‘ π‘–π‘‘π‘–π‘£π‘’
π‘…π‘’π‘π‘Žπ‘™π‘™ =
π‘‘π‘Ÿπ‘’π‘’ π‘π‘œπ‘ π‘–π‘‘π‘–π‘£π‘’ + π‘“π‘Žπ‘™π‘ π‘’ π‘›π‘’π‘”π‘Žπ‘‘π‘–π‘“
(12)
mengetahu seberapa baik hasil asosiasi target
dan kata kunci yang dihasilkan oleh metode
yang diusulkan.
2(π‘π‘Ÿπ‘’π‘π‘–π‘ π‘–π‘œπ‘› ∗ π‘…π‘’π‘π‘Žπ‘™π‘™)
π‘π‘Ÿπ‘’π‘π‘–π‘ π‘–π‘œπ‘› + π‘…π‘’π‘π‘Žπ‘™π‘™
(13)
5. Hasil dan Pembahasan
Pada bab ini dijelaskan mengenai
skenario pengujian beserta hasil pengujian
yang dilakukan dan analisis hasil uji yang
diperoleh. Pengujian dilakukan untuk
mengetahui kualitas ekstrasi target dan
hasil asosiasi target dan kata kunci.
Pada uji coba 1 menggunakan
dataset produk apple dengan Data tweet
yang digunakan adalah tweet dengan
keyword produk dari Apple sebanyak
72.286 tweet, tweet dengan total tweet
yang mengandung nilai retweet sebanyak
33651 tweet dan yang mengandung nilai
favouritesebanyak 2955 tweet.
Tabel 3. Ujicoba ekstrkasi target tweet
brand apple
Nilai a
(w1)
Nilai b
(w2)
Nilai c
(w3)
Nilai
threshold
(wt)
Precsion
0.8
0.9
0.9
0.2
0.1
0
0
0
0.1
0.2
0.1
0.1
0.857
0.429
0.714
100
Nilai b
(w2)
Nilai c
(w3)
Nilai
threshold
(wt)
Precsion
0.7
0.6
0.7
0.5
0
0.2
0.2
0.4
0.3
0.2
0.1
0.1
0.2
0.3
0.2
0.4
0.333
0.417
0.219
0.385
0.5
0.6
.....
0
0
0.1
0.3
.....
0.9
0.8
0.4
0.1
.....
0.1
0.2
0.3
0.3
.....
0.1
0.2
0.25
0.25
.....
0.022
0.015
(11)
4.2.2. Pengujian Asosisasi Target dan
kata kunci tweet
Evaluasi ujicoba Asosisi target dan
kata kunci juga menggunakan nilai fmeasure.Tujuan dari uji coba ini adalah untuk
𝑓 − π‘šπ‘’π‘Žπ‘ π‘’π‘Ÿπ‘’ =
Nilai a
(w1)
Tabel menampilkan 3 nilai
kombinasi a, b, c dan threshold yang
memilkin nilai f-measure tertinggi dan 2
nilai f-measure terendah yang nilainya
bukan 0, untuk kesuluruhan kombinasi a,
b, c dan threshold dapat dilihat di
lampiran. Dimana f-measure tertinggi
diperoleh saat nilai a = 0.8, b = 0.2 , c = 0
dan nilai threshold = 0.2, hal ini
menunjukkan bahwa nilai kombinasi
tersebut memiliki hasil yang lebih baik
dari hasil kombinasi lainnya. Nilai a = 0.8,
b = 0.2, dan c = 0 menunjukkan bahwa
nilai kemunculan berpengaruh lebih besar
pada dari pada nilai retweet dan favourite
pada etraksi target tweet.
Tabel 4.Ujicoba asosiasi target dan kata
kunci brand apple
Nilai
threshold
confidence
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.55
0.6
0.65
0.7
0.75
0.8
Precsion
Recall
Fmeasure
0.273
0.444
0.56
0.526
0.526
0.643
0.692
0.7
1
1
1
1
1
1
1
1
0.551
0.483
0.345
0.345
0.310
0.310
0.241
0.103
0.103
0.103
0.103
0.103
0.103
0.103
0.423
0.492
0.52
0.417
0.417
0.419
0.429
0.359
0.188
0.188
0.188
0.188
0.188
0.188
0.188
Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging
Untuk Visualisasi Trend Produk Brand
Nilai
threshold
confidence
0.85
0.9
0.95
Precsion
Recall
Fmeasure
1
1
1
0.0345
0.0345
0.0345
0.067
0.067
0.067
Nilai precission akan cenderung
meningkat jika nilai threshold semakin
besar. Berkebalikan dengan nilai recall,
nilai recall cendurung menurun jika
threshold semakin besar. Untuk nilai fmeasure akan meningkat jika nilai
threshold tidak melebihi 0.15, jika lebih
dari 0.15 maka nilai threshold akan
menurun jadi nilai optimal untuk threshold
f-measure adalah 0.15. Precission, recall
dan f-measure nilainya hampir sama atau
selisihnya kecil jika nilai threshold yang
digunakanadalah 0.15, itu berarti jumlah
tingkat ketepatan antara hasil asosiasi
benar yang di dapat dan tingkat
keberhasilan sistem dalam menemukan
asosiasi benar nilainya sama atau
selisihnya kecil, sehingga nilai threshold
yang digunakan pada pemfilteran asosiasi
asosiasi target dengan kata kunci tweet
yang mengandung produk dari brand
Gambar
4
menunjukkan
3
kelompok network, kelompok pertama
memilki pusat graph iphone, kelompok
kedua memilki pusat graph iphone 6s, dan
kelompok ketiga memilki pusat graph
iphone 7. Pada kelompok pertama iphone
berelasi kuat dengan camera ditunjukkan
dengan egde yang tebal (nilai confidence
0.98), dan camera juga berelasi kuat
dengan selfie dengan egde yang tebal
(nilai confidence 0.81), dari kumpulan
tweet
yang membicarakan camera
sebanyak 3557 tweet yang juga
membicarakan iphone 3512 tweet, dan
yang membicarakan juga selfie 2889
tweet. Sehingga dapat ditarik kesimpulan
tweet yang membicarakan camera sebegian
besar pasti juga membicarakan iphone dan
selfie. Pada kelompok ke dua dengan
iphone 6s berelasi dengan emas dan
berbalut. Nilai edge untuk berbalut dan
emas kurang lebih sama yaitu 0.15. dari
kumpulan tweet yang membicarakan
iphone 6s sebanyak 4078 tweet yang juga
membicarakan berbalut dan emas 619
tweet. Sehingga dapat ditarik kesimpulan
tweet yang membicarakan iphone 6s
sebegian kecil pasti juga membicarakan
berbalut dan emas iphone.
Pada uji coba 2 menggunakan
dataset produk nexus dengan data tweet
yang digunakan adalah tweet dengan
keyword produk dari Nexusse banyak
4.486tweet, tweet dengan total tweet yang
mengandung nilai retweet sebanyak306
tweet dan yang mengandung nilai
favouritesebanyak105 tweet.
Gambar 4. Visualisasi trend produk apple
101
Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104
Tabel 5. Ujicoba ekstrkasi target tweet
brand nexus
Nilai
Nilai Nilai Nilai thresho
Precsion
a (w1) b (w2) c (w3)
ld
bobot
0.769
0.6
0.2
0.2
0.2
0.8
0.1
0.1
0.1
0.625
0.8
0
0.2
0.1
0.727
0.6
0
0.4
0.2
0.875
0.9
0.1
0
0.1
0.778
0.9
0
0.1
0.1
0.778
0.6
0.1
0.3
0.2
0.778
0.7
0.1
0.2
0.2
1
0.8
0.2
0
0.1
0.45
.....
.....
.....
.....
.....
0.4
0.5
0.1
0.5
0.333
0.4
0.5
0.1
0.5
0.333
Tabel 6 menampilkan 10 nilai
kombinasi a, b, c dan threshold yang
memiliki nilai f-measure tertinggi dan 2
nilai f-measure terendah yang nilainya
bukan 0, untuk kesuluruhan kombinasi a,
b, c dan threshold dapat dilihat di
lampiran. Dimana f-measure tertinggi
diperoleh saat nilai a = 0.6, b = 0.2 , c =
0.2 dan nilai threshold = 0.2, hal ini
menunjukkan bahwa nilai kombinasi
tersebut memiliki hasil yang lebih baik
dari hasil kombinasi lainnya. Nilai a = 0.6,
b = 0.2, danc = 0.2 menunjukkan bahwa
nilai kemunculan berpengaruh lebih besar
pada dari pada nilai retweet dan
favouritepada ekstraksi target tweet.
Tabel 6.Ujicoba asosiasi target dan kata
kunci brand nexus
Jumlah Jumla
Nilai
asosiasi
h
Fthreshold
yang
asosias measur
confidenc
didapa i yang
e
e
t
benar
0.05
150
48
0.485
0.1
70
28
0.475
0.15
52
27
0.54
0.2
48
19
0.396
0.25
45
16
0.344
0.3
42
15
0.333
102
Nilai
threshold
confidenc
e
0.35
0.4
0.45
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
Jumlah
asosiasi
yang
didapa
t
37
28
23
23
22
20
17
12
11
10
8
8
8
Jumla
h
asosias
i yang
benar
13
7
5
5
4
4
3
3
2
2
1
1
1
Fmeasur
e
0.306
0.184
0.141
0.141
0.114
0.118
0.092
0.1
0.068
0.069
0.036
0.036
0.036
nilai precission akan cenderung
meningkat jika nilai threshold semakin
besar. Berkebalikan dengan nilai recall,
nilai recall cendurung menurun jika
threshold semakin besar. Untuk nilai fmeasureakan
meningkat
jika
nilai
threshold tidak melebihi 0.15, jika lebih
dari 0.15 maka nilai threshold akan
menurun jadi nilai optimal untuk
thresholdf-measure
adalah
0.15.
Precission, recall dan f-measure nilainya
hampir sama atau selisihnya kecil jika nilai
threshold yang digunakanadalah 0.15, itu
berarti jumlah tingkat ketepatan antara
hasil asosiasi benar yang di dapat dan
tingkat
keberhasilan
sistem dalam
menemukan asosiasi benar nilainya sama
atau selisihnya kecil, sehingga nilai
threshold
yang
digunakan
pada
pemfilteran asosiasi-asosiasi target dengan
kata kunci tweet yang mengandung produk
dari bran Apple adalah 0.15 dengan nilai
precission = 0.56 , recall= 0.48, dan fmeasure= 0.52.
Gambar 5 menunjukkan 3 buah
kelompok network, kelompok pertama
memilki pusat graph nexus 6p, kelompok
kedua memilki pusat graph huawei, dan
kelompok ketiga memilki pusat graph
nexus. Pada kelompok pertama google
Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging
Untuk Visualisasi Trend Produk Brand
berelasi dengan merilis ditunjukkan
dengan egde yang ketebalanya sedang
(nilai confidence 0.46), dan merilis juga
berelasi dengan nexus 6 (nilai confidence
0.5),dan nexus 6p (nilai confidence 0.27).
Sehingga dapat ditarik kesimpulan bahwa
tweet yang membahas google merilis
nexus 6 lebih banyak dari pada tweet yang
mebahas google merilis nexus 6p. Pada
kelompok ke dua dengan huawei berelasi
dengan akan dan 820, dengan ketebalan
dan nilai edge yang hampir sama yaitu
0.63 dan 0.64. Dari kumpulan tweet yang
membicarakan huawei sebanyak 321 tweet
yang juga membicarakan 820 dan akan
206 tweet. Sehingga dapat ditarik
kesimpulan tweet yang membicarakan
huaweisebagian
besar
pasti
juga
membicarakan akan dan 820.
Gambar 5.Visualisasi trend produk nexus
6. Kesimpulan
Berdasarkan ujicoba dan analisa
hasil, maka dapat ditarik kesimpulan.Hasil
ujicoba ekstraksi target menujukkan
bahwa
Nilai
kemunculan
lebih
berpengaruh besar dari pada nilai retweet
dan nilai favourite dalam ekstrakasi target,
dan
metode
Grammatical
tagging
digabungkan
dengan
rule,
dapat
mengestraksi target dalam sebuah tweet
dengan baikdengan nilai precision 81.3 %.
Hasil ujicoba asosiasi target dengan
kata kunci atau target lain, didapatkan nilai
f-measure 52.5 %, mengindikasikan bahwa
dapat mengenali hubungan antara target
dengan kata kunci
7. Saran
Pengembangan selanjutnya dari
metode Ekstraksi Kata Kunci Metadata
Twitter Berbahasa Indonesia dengan
Pendekatan Grammatical Tagging untuk
Visualisasi Trend Produk Brand adalah
improvisasi grammatical tagging supaya
dapat mengesktraksi tag dari tweet yang
tidak memakai kata-kata formal.
Daftar Pustaka
[1] Rozi, I. F. (2013., April).
Implementasi Rule-Based
Document Subjectivity Pada Sistem
Opinion Mining. Jurnal ELTEK, 11.
[2] Abascal-Mena, R., Lema, R., &
Sedes, F. (2014). From tweet to
graph: Social network analysis for
semantic information extraction.
Research Challenges in Information
Science (RCIS), 2014 IEEE Eighth
International Conference on, (hal. 1
- 10).
[3] Amma, K., Wada, S., Nakayama,
K., Akamatsu, Y., Yaguchi, Y., &
Naruse, K. (2014). Visualization of
spread of topic words on Twitter
using stream graphs and relational
graphs. Soft Computing and
Intelligent Systems (SCIS), 2014
Joint 7th International Conference
on and Advanced Intelligent Systems
(ISIS), 15th International
Symposium on, (hal. 3-6).
[4] Medvet, E., & Bartoli, A. (2012,
Dec). Brand-Related Events
Detection, Classification and
Summarization on Twitter. Web
Intelligence and Intelligent Agent
Technology (WI-IAT), 2012
IEEE/WIC/ACM International
Conferences on , (hal. 297 - 302).
[5] Hasby, M., & Khodra, M. (2013).
103
Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
104
Optimal path finding based on
traffic information extraction from
Twitter. ICT for Smart Society
(ICISS), 2013 International
Conference on , (hal. 1 - 5).
Qiu, G. L. (2014). Opinion word
expansion and target extraction
through double propagation.
Computational linguistics, (hal. 927).
Jones, B. (1994 ). Can punctuation
help parsing . In 15 th International
Conference on Computational
Linguistics . Kyoto, Japan.
Cordeiro, M. (2012). Twitter event
detection: Combining wavelet
analysis and topic inference
summarization. Doctoral
Symposium on Informatics
Engineering, DSIE.
Farzindar Atefeh, W. K. (2013). A
Survey of Techniques for Event
Detection in Twitter. Computational
Intelligence.
Jurafsky, D. (2000). Speech and
Language Processing: An
Introduction to Natural Language
Processing, Computational
Linguistics and Speech Recognition.
Wibisono, Y. (2008). Penggunaan
Hidden Markov Model untuk
Kompresi Kalimat.Thesis. Program
Magister Informatika. Institut
Teknologi Bandung.
Alfan Farizki Wicaksono, A. P.
(2010). HMM Based Part-of-Speech
Tagger for Bahasa Indonesia .
Proceeding of the Fourth
Internationul MALINDO Workshop
(MALINDO2010) .
Arifin, A., Mahendra, I., &
Ciptaningtyas, H. (2009). Enhanced
Confix Stripping Stemmer and Ants
Algorithm for Classifying News
Document in Indonesian Language.
Proceeding of International
Conference on Information &
Communication Technology and
Systems (ICTS).
Download