Preprocessing Text untuk Meminimalisir Kata yang

advertisement
Preprocessing Text untuk Meminimalisir Kata ... Aris Tri Jaka H
Preprocessing Text untuk Meminimalisir Kata yang Tidak Berarti
dalam Proses Text Mining
Aris Tri Jaka H.
Program Studi Informatika, Fakultas TEKNIK, Universitas PGRI Semarang
Gedung B Lantai 3, Kampus 1 Jl. Sidodadi Timur 24, Semarang
E-mail : [email protected]
Abstract—The growing world of information technology course, the growing impact of
data outstanding and continues to grow significantly, and initial data processing or
preprocessing text in text mining process is expected to reduce by eliminating the word - the
word or text that are not necessary or do not have the meaning of text database or document. By
decreasing the amount of text was expected to ease further processing in order to mine the
information contained within the document - document or text - text in a miraculous process by
applying existing methods to produce useful information from the text without reducing the
sense or meaning and information contained in the document.
Keyword : data, text mining, information, preprocessing
Abstrak—Berkembangnya dunia teknologi informasi tentu saja membawa dampak
semakin besarnya data yang beredar dan terus bertambah besar secara signifikan, dan
pengolahan data awal atau preprocessing text dalam proses text mining di harapkan dapat
mengurangi dengan menghilangkan kata – kata atau teks yang tidak perlu atau tidak mempunyai
arti dari database teks atau dokumen. Dengan berkurangnya jumlah teks diharpakan dapat
meringankan proses selanjutnya dalam rangka menambang informasi yang berada dalam
dokumen – dokumen ataupun teks- teks yang di proses dengan menerapkan bebrapa metode
yang ada untuk dapat menghasilkan informasi yang berguna dari teks tersebut tanpa mengurangi
arti ataupun makna serta informasi yang dikandung dalam dokumen tersebut.
Kata Kunci : data, text mining, informasi, preprocessing
PENDAHULUAN
Dengan perkembangan teknologi
yang semakin besar maka kebutuhan akan
penyajian informasi yang cepat dan akurat
menjadi salah satu focus utama dalam
penelitaian dan pengembangan guna
memenuhi kebutuhan informasi yang
semakin cepat dan akurat. Data Mining
merupakan kompleks teknologi yang berakar
pada berbagai disiplin ilmu: matematika,
statistik, ilmu komputer, fisika, teknik,
biologi, dll, dan dengan beragam aplikasi
dalam berbagai macam domain yang
berbeda: bisnis, kesehatan, sains dan teknik ,
dll Pada dasarnya, data mining dapat dilihat
sebagai ilmu menjelajahi dataset besar untuk
mengekstraksi informasi tersirat, yang
sebelumnya tidak diketahui dan berpotensi
berguna [1].
Sedangkan Text mining adalah salah
satu penambangan informasi yang berguna
dari data – data yang berupa tulisan,
1
dokumen atau text dalam bentuk klasifikasi
maupun clustering. Text mining masih
merupakan bagian dari data mining dimana
akan memproses data – data atau text – text
serta dokumen – dokumen yang bisa jadi
dalam jumlah sangat besar.
Untuk
memproses data yang sangat besar tentulah
akan memakan sumber daya yang tidak
sedikit kaitanya dengan pengolahan data
tersebut. Disinilah diperukanya sebuah
pemrosesan awal atau preprocessing data text
tersebut sebelum data tersebut di lakukan
proses text mining sesuai algoritma yang
akan diterapkan.
Dengan text mining maka kita akan
melakukan proses mencari atau penggalian
informasi yang berguna dari data tekstual[2].
Ini juga merupakan salah satu kajian
penelitian yang sangat menarik dan juga
sangat berguna di kemudian hari dimana
seperti
mencoba
untuk
menemukan
pengetahuan dari dokumen–dokumen atau
teks - teks yang tidak terstruktur. Text mining
sekarang juga memiliki peran yang semakin
penting dalam negara berkembangaplikasi,
seperti mengetahui isi dari teks secara
langsung dari proses text mining tanpa perlu
membaca satu persatu teks atau tulisan yang
ada. Proses Text mining adalah sama dengan
data mining, kecuali, beberapa metode dan
data yang di kelola nya seperti data teks yang
tidak terstruktur, terstruktur sebagian
maupun terstruktur seperti teks email, teks
HTML, maupun teks komentar serta dari
berbagai sumber[3].
2
Gambar. 1. Proses Teks Mining
Untuk
dapat
melakukan
penambangan informasi atau text mining
maka perlu dilakukan beberapa tahapan yang
harus dilakukan untuk mengolah sumber data
baik yang terstruktur, terstuktur sebagian dan
yang tidak terstruktur dari beberapa sumber
maka data-data tersebut perlu dilakukan
proses awal atau di sebut sebagai
preprocessing
text
yang
bermaksud
mengolah data awal yang masih bermacam –
macam untuk dijadikan sebuah data teratur
yang dapat dikenai atau diterapkan beberapa
metode text mining yang ada.
PREPROCESSING TEXT
Dalam penelitain ini di terapkan text
preprocessing untuk data yang akan di
gunakan dalam proses analisa sentimen,
dimana data yang kita proses akan kita ambil
informasi yang terkandung didalmnya dalam
hal sentimen penulisnya yaitu negaitf atu
positif. Guna memudahkan dalam mengelola
data maka data perlu kita berikan analisa
sentimen secara manual dengan membaca
maksud dari kalimat yang ada dalam
sentimen tersebut, sehingga dapat diberikan
penilaian
bahwa
sentimen
tersebut
merupakan setimen negatif atau positif.
Preprocessing Text untuk Meminimalisir Kata ... Aris Tri Jaka H
Transform Cases
Raw Data
Filter Stop Word
Filter Tokenize
Data Set
Gambar 2. Alur preprocessing text
Transform Cases
Dengan fitur transform cases kita
dapat secara otomatis mengubah semua huruf
pada teks menjadi huruf kecil semua atau
menjadi huruf kapital semua, pada penelitian
ini semua huruf dirubah kedalam huruf kecil
karena mayoritas teks berupa tulisan opini
yang sebagian besar merupakan huruf kecil
semua[4].
Filter Stop Word
Dengan fitur ini maka teks sebelum
di klasifikasikan di hilangkan dulu teks yang
tidak berhubungan dengan analisa sentimen
sehingga dimensi teks akan berkurang tanpa
mengurangi isi sentimen dari teks
tersebut[5].
Fiter stopword bahasa indonesia ini
penulis ambil dari internet yang dibuat oleh
Wang Pidong seorang Ph.D dari National
University Singapore dengan penulis
menambahkan beberapa kata yang memiliki
arti sama dengan kata – kata yang sudah ada
dalam daftar stopword tersebut.
Filter Tokenize
Tahapan ini juga menghilangkan
karakter-karakter tertentu seperti tanda baca
serta memfilter berdasarkan panjang teks[6].
Untuk metode pengujian atau evaluasi
dilakukan pengujian terhadap model-model
yang diteliti untuk mendapatkan informasi
model diusulkan.
EXPERIMEN DAN PENGUJIAN
Tools yang digunakan dalam
experimen ini adalah Rapidminer [7]yang di
update dengan penambahan plugin text
processing yang telah memiliki fitur
pemrosesan teks diataranya:
Transform Cases
Dengan fitur transform cases kita
dapat secara otomatis mengubah semua huruf
pada teks menjadi huruf kecil semua atau
menjadi huruf kapital semua, pada penelitian
ini semua huruf dirubah kedalam huruf kecil
karena mayoritas teks berupa tulisan opini
yang sebagian besar merupakan huruf kecil
semua.
Filter Stop Word (Indonesia)
Dengan fitur ini maka teks sebelum
di klasifikasikan di hilangkan dulu teks yang
tidak berhubungan dengan analisa sentimen
sehingga dimensi teks akan berkurang tanpa
mengurangi isi sentimen dari teks tersebut.
Fiter stopword bahasa indonesia ini
penulis ambil dari internet yang dibuat oleh
Wang Pidong seorang Ph.D dari National
University Singapore dengan penulis
menambahkan beberapa kata yang memiliki
arti sama dengan kata – kata yang sudah ada
dalam daftar stopword tersebut.
Filter Tokenize
Tahapan ini juga menghilangkan
karakter-karakter tertentu seperti tanda baca
serta memfilter berdasarkan panjang teks.
Untuk metode pengujian atau
3
evaluasi dilakukan pengujian terhadap
model-model
yang
diteliti
untuk
mendapatkan informasi model diusulkan.
Evaluasi dan validasi menggunakan metode
sebagai berikut:
Mengubah Teks Menjadi Matrix
Untuk dapat diolah atau di proses
maka data awal yang berupa kalimat setelah
dilakukan pemrosesan awal data akan
menjadi suatu atribut berupa teks, dan utnuk
dapat
diterpakan
kedalam
algoritma
selanjutnya maka dibutuhkan adanya
transformasi data dari teks kedalam sebuah
matrix yang berisi numerik.
Pada
penelitian
ini
penulis
menggunakan proses pembentukan vector
kalimat dengan menggunakan TF-IDF (term
frequency-inverse document frequency)
Matrix yang dirumuskan sebagai berikut:
TF-IDF = TF*IDF = TF*log(n/df)
Dimana: tf = frekuensi teks
df = frekuensi dokument
n = jumlah dokumen
contoh perhitungan matriks TF-IDF
jika ada tabel atribut sebagai berikut :
Tabel 1Tabel Atribut contoh Perhitungan TF-IDF
Dok 1 Dok 2 Dok 3
df
Aplikasi
6
0
7
2
Bagus
9
2
3
3
Buruk
10
4
0
2
Maka perhitungna matrix TF-IDF nya
Tabel 2. Tabel Perhitungan TF-IDF
Dok 1
Dok 2
Dok 3
Aplikasi 6*log(3/2)
0
7*log(3/2)
Bagus
9*log(3/3) 2*log(3/3) 3*log(3/3)
Buruk 10*log(3/2) 4*log(3/2)
0
Dan hasil matrix TF-IDF nya adalah
sebagai berikut:
Tabel 3.Tabel Matrix TF-IDF
Dok 1
Dok 2
Dok 3
Aplikasi
1.06
0.00
1.23
Bagus
0.00
0.00
0.00
Buruk
1.76
0.70
0.00
HASIL DAN PEMBAHASAN
Hasil Eksperimen Transform Cases
Pada tahapan pemrosesan awal data
dengan menggunakan transform case ini
mengubah semua huruf kedalam huruf kecil
semua, namun jika teks sudah dalam huruf
kecil maka tidak di ubah. Dari dataset refiew
aplikasi android berbahas indonesia ini ada
beberapa teks atau huruf yang yang dirubah
dari huruf besar kedalam huruf kecil seperti
Tabel 4 berikut.
Tabel 4.Trasform cases dari huruf besar ke huruf kecil
Text Awal
Ini aplikasi hlr lookup no tsb dikeluarkan
didaerah mana. Tp kl misal no tsb dbawa ke
luar daerah ttp ngga bs update alias ttp
ngebaca daerah asal..totally useless! , yg
komen jg sok tau ttg telekomunikasi modal
ngenet, bocah jaman skr..
4
Text Akhir
ini aplikasi hlr lookup no tsb dikeluarkan
didaerah mana. tp kl misal no tsb dbawa ke
luar daerah ttp ngga bs update alias ttp
ngebaca daerah asal..totally useless! , yg
komen jg sok tau ttg telekomunikasi modal
ngenet, bocah jaman skr..
Preprocessing Text untuk Meminimalisir Kata ... Aris Tri Jaka H
Proses tranform cases ini dilakukan
pada seluruh data sentimen yang ada di
folder dataset, baik sentimen positif maupun
negatif. Jadi dihasilkan fitur atau kata – kata
dalam format teks huruf kecil semua.
Hasil Eksperimen Filter Tokens
Pada tahapan ini menyeleksi fitur
atau kata kata yang bukan merupakan kata,
dalam hal
ini
peneliti
mengambil
menghilangkan semua tanda baca dan segala
sesuatu yang bukan huruf jadi teks menjadi
bersih dari tanda baca dan angka ataupun
apapun yang bukan huruf. Juga dilakukan
limitasi minimal huruf dan maksimal huruf
yang terdapat dalam satu kata. Karena dalam
sentimen berbahasa Indonesia ini peneliti
memasukkan minimal satu huruf sudah dapat
di anggap sebagai kata karena banyak review
berbahasa Indonesia tidak menggunakan
bahasa baku dan menggunakan bahasa alay
atau bahasa gaul yang beberapa hanya terdiri
satu huruf saja dalam tiap kata.
Tabel 5. Proses Filter tokens
Teks sebelum di tokenize
Teks setelah di tokenize
Buat pengguna multi operator sangat
buat pengguna multi operator sangat berguna
berguna. Tarif normal serta paket nelpon tiap tarif normal serta paket nelpon tiap operator
operator tidaklah sama. Ada yang murah ke
tidaklah sama ada yang murah ke sesama
sesama operator saja. Ada yang murah walau operator saja ada yang murah walau beda
beda operator, tetapi hanya nomor-nomor
operator tetapi hanya nomor nomor lokal
lokal saja. Ada yang sedikit lebih mahal,
saja ada yang sedikit lebih mahal tetapi
tetapi pukul rata untuk semua operator.! Dan pukul rata untuk semua operator dan lain lain
lain-lain. Dengan mengetahui tempat asal
dengan mengetahui tempat asal nomor
nomor dikeluarkan, kita jadi bisa
dikeluarkan kita jadi bisa menentukan
menentukan sebaiknya pakai nomor yang
sebaiknya pakai nomor yang mana buat
mana buat menelpon..:D
menelpon d
Hasil Ekspeimen Filter Stopword
Pada tahapan ini filter stopword
berfungsi untuk mengurangi atau menghilangkan
beberapa kata yang tidak memiliki hubungan
terhadap sentimen, yaitu kata kata yang tidak
berpengaruh terhadap hasil sentimen pada review
tersebut.dari dataset awal yang berjumlah 2.000
file yang terdiri dari 1.000 sentimen positif dan
1.000 sentimen negatif di hasilkan atribut atau
kata sebanyak 228 atribut, setelah di kurangi
dengan stopword makan fitur yang perlu
diperhitungkan maka tinggal 114 atribut. Hasil
dari beberapa kata yang dihilangkan pada dataset
ini adalah seperti pada Tabel 6 berikut:
Tabel 6 Daftar kata yang dihilangkan dengan filter stopword
No.
Kata
Nama Atribut
1
2
3
4
ada
akan
anak
and
ada
akan
anak
and
Jumlah
Muncul
255
26
31
23
Jumlah
Dokumen
227
26
28
20
Positif
Negatif
110
19
31
18
145
7
0
5
5
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
6
ane
apa
atau
awal
baik
banget
banyak
baru
belum
berita
bintang
bisa
boleh
bs
buat
close
cukup
cuma
dalam
dan
dari
dengan
detik
dgn
di
dibuka
dong
dr
dulu
for
g
ga
gak
gk
gw
hanya
harus
i
iklan
in
indonesia
ini
ane
apa
atau
awal
baik
banget
banyak
baru
belum
berita
bintang
bisa
boleh
bs
buat
close
cukup
cuma
dalam
dan
dari
dengan
detik
dgn
di
dibuka
dong
dr
dulu
for
g
ga
gak
gk
gw
hanya
harus
i
iklan
in
indonesia
ini
54
40
40
20
62
91
64
49
21
92
48
410
23
53
134
48
22
56
27
272
67
63
41
26
423
31
51
20
52
36
29
263
170
36
36
49
57
54
57
24
29
261
42
37
37
20
60
90
62
48
21
70
43
350
22
46
121
47
22
55
27
239
65
59
33
25
331
28
51
20
51
33
26
209
142
26
30
46
54
46
48
22
28
233
8
11
11
1
29
52
28
15
4
33
16
153
20
13
88
2
11
4
24
165
30
45
15
10
101
3
23
8
14
27
5
39
32
7
4
10
16
30
16
6
19
146
46
29
29
19
33
39
36
34
17
59
32
257
3
40
46
46
11
52
3
107
37
18
26
16
322
28
28
12
38
9
24
224
138
29
32
39
41
24
41
18
10
115
Preprocessing Text untuk Meminimalisir Kata ... Aris Tri Jaka H
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
it
itu
jadi
jalan
jangan
jd
jelas
jg
juga
kalau
kalo
kan
karena
kata
ke
kecil
keluar
kenapa
kita
klo
kok
kompas
kurang
lagi
lah
lain
lama
langsung
lbh
lebih
lg
lokasi
luar
makin
malah
mana
masa
masih
mau
membantu
mudah
muncul
it
itu
jadi
jalan
jangan
jd
jelas
jg
juga
kalau
kalo
kan
karena
kata
ke
kecil
keluar
kenapa
kita
klo
kok
kompas
kurang
lagi
lah
lain
lama
langsung
lbh
lebih
lg
lokasi
luar
makin
malah
mana
masa
masih
mau
membantu
mudah
muncul
55
42
94
38
23
47
29
36
65
52
81
21
27
26
130
20
31
22
49
40
59
32
23
106
21
38
81
35
23
122
56
27
20
39
54
29
31
66
66
102
44
44
47
38
88
36
21
40
28
31
63
50
75
20
27
20
113
20
30
21
38
38
56
32
21
103
21
37
74
33
22
108
52
23
20
31
50
27
29
63
63
101
39
42
28
12
33
4
3
17
7
13
32
33
34
9
14
16
42
6
8
2
30
17
9
13
2
55
8
17
7
9
13
47
25
7
15
21
1
5
1
12
17
100
35
8
27
30
61
34
20
30
22
23
33
19
47
12
13
10
88
14
23
20
19
23
50
19
21
51
13
21
74
26
10
75
31
20
5
18
53
24
30
54
49
2
9
36
7
89
n
90
nggak
91
ni
92
no
93
nomor
94
not
95
nya
96
orang
97
pada
98
padahal
99
paling
100
perlu
101
saat
102
saja
103
sama
104
sangat
105
satu
106
saya
107 sebelumnya
108
sekali
109
sekarang
110
selalu
111
semua
112
seperti
113
sering
114
setelah
115
setiap
116
sudah
117
tambah
118
tapi
119
tau
120
tdk
121
terlalu
122
terus
123
tetep
124
the
125
this
126
tidak
127
to
128
tp
129
trus
130
udah
8
n
nggak
ni
no
nomor
not
nya
orang
pada
padahal
paling
perlu
saat
saja
sama
sangat
satu
saya
sebelumnya
sekali
sekarang
selalu
semua
seperti
sering
setelah
setiap
sudah
tambah
tapi
tau
tdk
terlalu
terus
tetep
the
this
tidak
to
tp
trus
udah
34
23
29
32
40
32
210
30
24
35
25
37
37
38
58
241
30
167
28
62
31
42
38
27
50
60
28
47
24
100
25
39
23
79
21
47
38
102
45
56
33
74
32
21
27
22
27
31
175
27
22
35
25
36
34
35
54
218
28
140
27
60
31
40
37
26
48
60
26
44
24
97
24
34
23
79
21
36
34
94
37
54
31
69
23
4
9
4
19
2
93
21
10
3
16
20
24
8
16
203
14
98
2
38
8
19
20
14
11
8
15
23
19
21
10
7
3
44
3
27
23
30
22
14
12
21
11
19
20
28
21
30
117
9
14
32
9
17
13
30
42
38
16
69
26
24
23
23
18
13
39
52
13
24
5
79
15
32
20
35
18
20
15
72
23
42
21
53
Preprocessing Text untuk Meminimalisir Kata ... Aris Tri Jaka H
131
132
133
134
135
136
137
138
139
140
141
udh
untuk
up
utk
versi
very
waktu
ya
yang
yg
you
udh
untuk
up
utk
versi
very
waktu
ya
yang
yg
you
20
121
31
63
73
26
45
92
196
355
28
KESIMPULAN DAN SARAN
Dari prepossessing text maka banyak
sekali di hasilkan beberapa pengurangan atau
ringkasan terhadap berbagai kata yang tidak
diperlukan untuk proses text mining
selanjutnya, dalam penelitaian ini adalah
untuk proses sentiment analisis. Dalam
pemrosesan
penghilangan
atau
peminimalisiran kata ini di perluakn
beberapa tahapan diataranya penyesuaian
jenis huruf (transform cases) penghilanagn
tanda baca (filter tokenized) serta
penghilangan stop word dalam bahasa
Indonesia,
dengan
adanya
proses
preprosesing teks ini maka data yang banyak
dan tidak terpakai akan tereliminasi terlebih
dahulu sebelum dataset dikenakan metode
penelusuran sentiment analisis yang ada.
Saran untuk selanjutnya mungkin
dapat di gunakan berbagai kombinasi
penggurangan kata, maupun stopword
dengan bahasa yang lain atau campuran,
karena banyak kata kata bahasa asing atau
bahasa gaul yang di gunakan. Sehingga jika
semakin kompleks stopword yang digunakan
diharapkan dapat menambah pengurangan
kata yang tidak berarti tanpa mengurangi
sentimen yang ada dalam kalimat atau kata
tersebut.
20
112
30
48
65
24
42
89
161
287
28
[1]
[2]
[3]
[4]
[5]
[6]
[7]
3
75
17
43
18
19
33
35
115
184
24
17
46
14
20
55
7
12
57
81
171
4
DAFTAR PUSTAKA
F. Gorunescu, Data Mining, vol. 12.
Berlin, Heidelberg: Springer Berlin
Heidelberg, 2011.
J. Han and M. Kamber, Data mining:
concepts and techniques. 2006.
S. Vijayarani, M. J. Ilamathi, and M.
Nithya, “Preprocessing Techniques
for Text Mining - An Overview,” vol.
5, no. 1, pp. 7–16.
R. a Baeza-Yates, “Text retrieval:
Theory and practice,” Proc. 12th
{IFIP} World Comput. Congr., vol. I,
no. JANUARY 1998, pp. 465–476,
1992.
V. Srividhya and R. Anitha,
“Evaluating preprocessing techniques
in text categorization,” Int. J. Comput.
Sci. Appl., no. 2010, pp. 49–51, 2010.
S. Krishna and S. Bhavani, “An
efficient approach for text clustering
based on frequent itemsets,” Eur. J.
Sci. …, vol. 42, no. 3, pp. 385–396,
2010.
S. Land and S. Fischer, “RapidMiner
5,” docs.rapid-i.com.
9
Download