2 bab ii landasan teori

advertisement
2 BAB II
LANDASAN TEORI
Pada bab ini mendeskripsikan teori-teori yang berkaitan dengan penelitian.
Terdapat dua hal utama yang menjadi landasan teori yaitu online child grooming
dan text mining. Sebelum membahas online child grooming akan dijelaskan
mengenai pelecehan seksual terhadap anak (subbab2.1). Proses pendekatanyang
dilakukan pelaku untuk melakukan pelecehan seksual terhadap anakdinamakan
dengan child grooming (subbab2.2).Salah satu cara dalam melakukan child
grooming yaitu memanfaatkan teknologi internet. Pendekatan tersebut dikenal
dengan istilahonline child grooming (subbab2.3). Kemudian akan dideskripsikan
mengenai
penelitian
lima
tahun
terakhiryang
melakukananalisis
dan
identifikasionline child grooming pada percakapan teks(subbab2.4).
Sebelum
membahas
mengenai
text
miningakan
dijelaskan
data
mining(subbab2.5).Text mining(subbab2.6) merupakan salah satu pengaplikasian
data mining. Untuk melakukan klasfikasi dalam text mining(subbab2.7),terdapat
beberapa metode yang dapat digunakan seperti SVM(subbab2.8) dan NN(subbab2.9). Untuk mengetahui keakuratan, kecepatan, robustness dan
skalabilitasmodel klasifikasi yang dibangun maka perlu dilakukanevaluasi
terhadap model klasifikasi yang dibangun (subbab2.10).
2.1 Pelecehan Seksual Terhadap Anak
Pelecehan seksual terhadap anak melibatkan anakdi bawah umursebagai
korban dan orang yang lebih dewasa sebagai pelakuyang melanggar hak-hak
7
8
korban sehingga mengakibatkan kerugian bagi korbannya.Pelecehan seksual
terhadap anak didefinisikan sebagai tindakan memaksa atau merayu anak untuk
melakukan aktivitas seksual termasuk prostitusi baik anak tersebut menyadari atau
tidak menyadari apa yang terjadi serta melibatkan kegiatan kontak fisik atau nonfisik(Borg, Snowdon, & Hodes, 2014).
2.1.1 Bentuk Pelecehan Seksual
Bentuk pelecehan seksual terhadap anak dapat secara fisik atau non-fisik.
Bentuk pelecehan seksual terhadap anak secara fisik dapat dibagi menjadi empat
bentuk (Stoltenborgh, Ijzendoorn, Euser, & Bakermans-Kranenburg, 2011) yaitu
1. Penggunaan alat kelamin
Pelecehan seksual menggunakan alat kelamin meliputi oral seks, sodomi,
hubungan kelamin baik sesama jenis atau berlawanan jenis.
2. Penggunaan tangan atau barang ke dalam alat kelamin
Pelecehan seksual menggunakan tangan atau barang lainnya untuk
melakukan penetrasi terhadap alat kelamin korban atau pelaku.
3. Pelecehan terhadap alat kelamin
Pelecehan seksual yang meliputi memegang, menyentuh atau merangsang
alat kelamin pria atau wanita baik oleh korban atau terhadapkorban.
4. Lainnya
Pelecehan seksual lainnya dengan melakukan kontak fisik selain alat
kelamin seperti mencium, memeluk, meraba payudara, pantat dan bagian
organ tubuh lainnya.
9
Sedangkan bentuk pelecehan seksual non-fisik dapat meliputi voyeurism,
memgambil gambar atau memotret bagian intim korban, memperlihatkan alat
kelamin kepada korban, memaksa korban melihat pelaku melakukan masturbasi,
memaksa korban melihat konten berbau pornografi dan menulis komentar
mengandung pornografi secara langsung maupun tidak langsung.
2.1.2 Pelaku Pelecehan Seksual Terhadap Anak
Pelaku pelecehan seksual tidak hanya orang yang tidak dikenal oleh
korban atau orang asing yang tertarik untuk mendekati korban, tapi bisa saja
pelaku merupakan orang yang dikenal oleh korban seperti teman, kerabat dekat
bahkan keluarga. Banyak faktor yang menyebabkan seseorang menjadi pelaku
pelecehan seksual. Faktor utamanya yaitu pelaku memiliki kecanduan seks.71%
pelaku merupakan pecandu seks(Herkov, 2013). Kecanduan seks dapat
dideskripsikan sebagai kelainan pada seseorang yang memiliki kebutuhan seksual
lebih yang ditandai dengan pemikiran dan tindakan seksual yang dilakukan terus
menerus(Herkov, 2013).
Pecandu seks tidak selalu menjadi pelaku pelecehan seksual dan tidak
semua pelaku pelecehan seksual merupakan pecandu seks. Sekitar 55% pelaku
pelecehan seksual merupakan pecandu seks. Menurut Sedlak et al (2015), Pelaku
yang melakukan pelecehan seksual sebanyak 87% berjenis kelamin pria dan 13%
berjenis kelamin perempuan.
10
2.1.3 Dampak Pelecehan Seksual Terhadap Anak
Dampak dari pelecehan seksual memberikan trauma mendalam bagi
korbannya baik secara psikologis atau fisik termasuk emosi, tingkah laku dan
psychosocial. Dampak yang diakibatkan khususnya psikologis tidak dapat
disembuhkan dalam waktu singkat dan membutuhkan terapi dalam waktu yang
lama bagi korbannya (Michalopoulos dan Mavridis, 2011). Dalam pelecehan
seksual anak, korban pelecehan seksual lebih banyak berjenis kelamin perempuan
dibandingkan pria yaitu sebesar 67.7%.
2.2 Child Grooming
Child grooming merupakan proses mendekati anak dengan tujuan
membujuk mereka agar bersedia melakukan aktivitas seksual (Eneman, Gillespie,
& Bernd, 2010). Pelaku menggunakan berbagai teknik untuk mengakses dan
mengontrol korban. Proses ini membutuhkan akses, waktu, dan keterampilan
interpersonal pelaku. Jika child grooming dilakukan dengan baik, korban secara
tidak sadar akan mudah ‘bekerjasama’ dengan pelaku. Semakin mahir
keterampilan pelaku dalam memilih dan merayu korban yang rentan, semakin
sukses child grooming dilakukan. Keterampilan pelaku mencakup cara memilih
korban, mengidentifikasi dan mengetahui kebutuhan korban, waktu yang
dibutuhkan oleh pelaku untuk mendekati korban, merayu dan mengendalikan
korban(Lanning, 2010).
Dalam child grooming, pelaku mendekati dan merayu korban dengan
memberikan perhatian, kasih sayang, kebaikan, hak istimewa, pengakuan, hadiah,
alkohol, obat-obatan, atau uang sampai korban dapat ‘bekerjasama’ dengan
11
pelaku. Pelaku biasanya menyesuaikan metode yang digunakan sesuai dengan
karakteristik korban.
Dalam beberapa kasus saat melakukan child grooming terhadap anak yang
masih muda (di bawah 10 tahun), pelaku tidak mendekatikorban melainkan
orangtuanya(Lanning, 2010). Pelaku mendekati orangtuanya untuk mendapatkan
kepercayaan mereka sehingga pelaku akan memiliki aksesuntuk mendekati anak
yang menjadi targetnya. Pelaku menggunakan teknik seperti bermain untuk
memanipulasi korbannya dalam melakukan hubungan seks.Sedangkan dalam
melakukan child grooming terhadap anak yang lebih tua (di atas 10 tahun)
biasanya pelaku
menggunakan
teknik yang
melibatkan
pemberontakan,
pengalaman, dan rasa ingin tahu untuk memanipulasi korbannya agar mau
melakukan aktivitas seksual (Lanning, 2010). Selain itu, pelaku biasanya berusaha
membuat korban percaya bahwa korban memiliki hubungan istimewa dengan
pelaku dan aktivitas seksual dilakukan sebagai bagian dari hubungannya dengan
pelaku.
Menurut Dr. Michael Welner terdapat enam tahapan child grooming
yaitu(Welner, 2010)
1. Tahap 1: Targeting the victim
Pelaku menargetkan korban berdasarkan kerentanan, kebutuhan emosional,
isolasi dan kepercayaan diri yang dimiliki. Anak yang kurang mendapat
pengawasan dari orangtua merupakan korban yang paling berpotensial.
12
2. Tahap 2: Gaining the victim's trust
Pelaku meningkatkan kepercayaan korbandengan mengumpulkan informasi
tentang korban, mengetahui kebutuhan korban dan tahu cara memenuhi
kebutuhan korban.
3. Tahap 3: Filling a need
Pelaku mengisi kebutuhan korban sehingga korban menurunkan kecurigaan
dan meningkatkan hubungan antara pelaku dengan korban. Korban akan
menganggap pelaku adalah orang yang penting dalam hidupnya. Hadiah,
perhatian ekstra, kasih sayang yang diberikan oleh pelaku dapat
meningkatkan hubungan emosional antara pelaku dan korban.
4. Tahap 4: Isolating The Child
Setelah hubungan dan ikatan antara pelaku dengan korban dibentuk.
Perlahan-lahan pelaku menciptakan situasi di mana mereka berdua saja.
Isolasi ini memperkuat hubungan antara pelaku dengan korban. Penitipan
anak, bimbingan, pembinaan dan traveling merupakan hal-hal yang
memungkinkan isolasi antara pelaku dan korban. Hubungan istimewa dapat
lebih diperkuat ketika pelaku menanamkan kasih sayang sehingga korban
merasa dicintai atau dihargai dengan cara yang lain yang mungkin tidak
diberikan oleh orang tuanya.
5. Tahap 5: Sexualizing the relationship
Pada tahap ini pelaku meningkatkan hubungan mereka ke dalam hubungan
seksual dengan cara melakukan percakapan intim, mengirim gambar, bahkan
menciptakan situasi. Selain itu, pelaku mengeksploitasi rasa ingin tahu
13
anaksecara alami serta menggunakan perasaan yang dimiliki korban untuk
bersedia melakukan hubungan seksual.
6. Tahap 6: Maintaining control
Setelah pelecehan seksual terjadi, pelaku biasanya meminta korban
merahasiakan dan menyalahkan korban. Selanjutnya pelaku meminta korban
untuk diam karena aktivitas seksual dapat menyebabkan anak menarik diri
dari hubungan yang sudah dibangun. Selain itu, pelaku dapat mengancam
korban apabila memutuskan hubungan dengan pelaku maka pelaku akan
mengekspos,
mempermalukan
dan
membuat
korban
ditolak
oleh
lingkungannya.
2.3 Online Child Grooming
Meningkatnya pelecehan seksual terhadap anak terjadi karena adanya
kemudahan akses terhadap korbannya, dan teknologi internet mempermudah
pelaku mengakses korban untuk melakukan child grooming (Katz, 2013). Hal ini
biasa dikenal dengan online child grooming. Dengan kata lain, online child
grooming merupakan proses mendekati anak dengan menggunakan teknologi
internet yang bertujuan membujuk mereka untuk bersedia melakukan aktivitas
seksual secara online atauoffline.
Online child grooming dilakukan dengan berbagai tipe, durasi dan itensitas
tergantung dari karakteristik dan perilaku masing-masing pelaku. Diantara
berbagai cara dan variasi dalam melakukan online child grooming, terdapat enam
hal umum yang mendasarionline child grooming yaitu sebagai berikut:
14
1. Manipulation
Online child grooming melibatkan beberapa bentuk manipulasi. Terdapat
berbagai jenis manipulasi yang dapat dilakukan oleh pelaku terhadap
korbannya. Berbagai teknik manipulasi digunakan untuk meningkatkan
kekuatan dan kontrol pelaku terhadap korbanserta meningkatkan
ketergantungan korban pada pelaku sepertimemberikan pujian untuk
membuat korban merasa istimewa. Cara manipulasi ini dilakukan agar
korban merasa dicintai dan diperhatikan. Di sisi lain, pelaku dapat
mengontrol korban dengan cara mengintimidasi sehingga korban merasa
takut dengan pelaku.
2. Accessibility
Kemudahan akses untuk berinteraksi dengan korban menjadi salah satu
faktor terjadinyaonline child grooming. Pelaku dapat mengakses korban
melalui internet tanpa harus bertatap muka secara langsung dan tanpa
harus membuka identitas aslinya. Dalam dunia nyata, orang tua lebih
berwaspada terhadap orang yang berinteraksi langsung dengan anak
mereka. Namun, mereka tidak waspada dengan interaksi onlinedan kurang
terlibat dalam kehidupan online anak mereka. Menurut penelitian, 20%
anak yang menggunakan jejaring sosial mengatakanpernah berbicara
dengan orang asingdi internet dan 20% diantara mereka berumur 9 hingga
12 tahun (Whittle, Hamilton-Giachritsis, Beech, & Collings, 2013).Pelaku
memanfaatkan teknologi internet untuk berinteraksi baik satu atau dua
arah dengan korbanmelalui chat room, blog, mediasosial, forum atau
bulletin.
15
3. Rapport Building
Sebagai
bagian
dari
membangun
hubungan,
pelaku
melakukan
penyesuaian perilaku dan gaya berkomunikasi sehingga membuat korban
nyaman
berbicara
dengan
pelaku.
Selain
itu
pelaku
mencari
tahuketertarikandan keadaan sekeliling korbannya. Agar tindakan yang
dilakukan oleh pelaku dengan korban tidak diketahui oleh orang lain,
pelaku biasanya meminta korban merahasiakan hubungan mereka.
4. Sexual Context
Hubungan seksual merupakan tujuanonline child grooming. Untuk kapan
dan bagaimana hubungan seksualitas dimulai tergantung dari masingmasing pelaku. Untuk memulai hubungan seksual dapat dilakukan dengan
berbagai macam seperti berbicara jorok, merayu korban, mengirim gambar
porno atau menghubungkan ke dalam hal-hal berbau pornografi.
5. Risk Assessment
Penilaian resiko terhadap korban dilakukan sebelum dan pada saat online
child grooming. Penilaian resiko dilihat dari beberapa aspek yaitu individu
korban,
faktor
yang
berkaitan
dengan
internet
dan
lingkungan
sekitarnya(Houtepen, Sijtsema, & Bogaerts, 2014). Selain itu, pelaku
melakukan manajemen resiko. Terdapat tiga cara yang dilakukan oleh
pelaku dalam management resiko (Whittle, Hamilton-Giachritsis, Beech,
& Collings, 2013) yaitu
a. Berhubungan dengan teknologi yang digunakan dan logistik yang
terkait dengan pelaku. Sebagai contoh menggunakan beberapa
16
hardware, alamat IP yang berbeda, dan berbagai metode
penyimpanan.
b. Pelaku menahan diri berkomunikasi dengan korban di ruang publik
dan memilih penggunaan email pribadi atau ponsel.
c. Pelakubertemu dengan korban dengan melakukan pertemuan yang
jauh dari lingkungan korban.
Namun, ada penelitian yangmengatakan bahwa managemen resiko tidak
dimanfaatkan oleh semua pelaku, karena mereka mengganggap tidak
melakukan sesuatu yang salah sehingga tidak ada yang perlu
disembunyikan.
6. Deception
Dalam online child grooming, terkadang pelaku menyamar sebagai teman
sebaya atau anak muda. Penelitian mencatat bahwa 5% pelaku menyamar
sebagai anak muda ketika berkomunikasi dengan korban (Whittle,
Hamilton-Giachritsis, Beech, & Collings, 2013). Sebagian besar pelaku
memberitahu korban bahwa mereka adalah orang dewasa yangingin
membangun hubungan khusus dengan korban. Sebagian besar korban
bertemu pelakusecara langsung dan melakukan hubungan seks. Sehingga
dapat disimpulkan sebagian besar korban sadar mereka berkomunikasi
dengan orang dewasa dan mengambil risiko untuk berinteraksi dengan
pelaku.
17
2.3.1 Tipe Pelaku Online Child Grooming
Terdapat dua tipe pelaku dalam melakukan online child grooming (Katz,
2013) yaitu
1. Contact Driven Offender
Pelaku memanfaatkan teknologi internet seperti chat room untuk
mendekati dan membangun hubungan seksual dengan korbannya.
Teknologi
internet
digunakan
sebagai
media
untuk
mencari,
berkomunikasi dan melakukan pendekatan dengan korban.
2. Fantasy Driven Offender
Pelaku
memanfaatkan
teknologi
internet
sebagai
media
untuk
berhubungan dengan korban dengan tujuan cybersex dan masturbasi.
2.3.2 Proses Online Child Grooming
Menurut O’Connell (2004), proses online child grooming terdiri dari lima
proses. Kemudian disempurnakan kembali oleh Gupta, Kumaraguru, dan
Ashish(2014) sehingga proses online child grooming terdiri enam proses yaitu:
1. Friendship Forming Stage
Pada tahap ini pelaku berkenalan dengan korbannya seperti bertukar nama,
lokasi, umur, dan lainnya. Selain itu, pelaku biasa menanyakan infomasi
akun online lainnya serta meminta gambar dari korban untuk memastikan
korban yang didekati belum dewasa.
2. Relationship Forming Stage
Pada tahap ini, pelaku dan korban berbicara tentang keluarga dan sekolah
kehidupan korban. Pelaku mencoba mengetahui minat dan hobi korban
18
sehingga pelaku dapat memanfaatkan informasi tersebut untuk membuat
korban percaya bahwa mereka berada dalam suatu hubungan.
3. Risk Assessment Stage
Pada tahap ini, pelaku mencoba untuk mengukur tingkat resiko, ancaman
dan bahaya berhubungan dengan korban. Pelaku memastikan hubungan
dengan korban tidak diketahui orang lain dari pihak korban dan
memastikan orang lain tidak membaca percakapan mereka. Biasanya
pelaku meminta korban menghapus history chat.
4. Execlusivity Stage
Pada tahap ini, pelaku mencoba mendapatkan kepercayaan dari korban.
Pelaku menegaskan kepada korban bahwa mereka mempunyai ikatan
khusus. Seringkali konsep cinta dan perhatiandigunakan oleh pelaku pada
tahap ini.
5. Sexual Stage
Tahap ini yang paling berbeda dengan tahap lainnya karena rasa percaya
dan 'cinta' telah dibangun oleh pelaku pada tahap ini. Pelaku
membicarakan aktivitas seksual. Menurut O’Connell (2004) dalam tahap
ini terdapat perilaku fantasi yang dilakukan. Berikut tahap-tahapnya yaitu:
a. Initial Stage
Pada tahap awal biasanya menggambarkan skenario tertentu.
Misalnya “I am lying naked in warm bath and you are sitting at the
edge of the bath wearing only a silk robe that falls open” (Pelaku).
b. Fantasy enactment based on perception of mutuality
19
Berbagai pendekatan berbeda dilakukan untuk mengajak atau
mempengaruhi korban
secara
emosional
untuk
melakukan
cybersex seperti masturbasi, oral sex, virtual penetrativedan sex
secara online.
c. Fantasy enactment overt coercion counter balanced with
intimacy
Beberapa pelaku menerapkan pemaksaan terhadap korbannya agar
bersedia menjadi bagian dari fantasi seks pelaku. Berikut contoh
percakapan pelaku memaksa korban:
Pelaku
: tell me how you would touch my c***k
Korban
: i fell uncomfortable
Pelaku
: just do it,come on just do it, what are you waiting
for?
d. Cyber-rape fantasy enactment overt coercion, control and
aggression
Pada tahap ini, pelaku akan menggunakan kata-kata yang lebih
agresif untuk memaksa korban. Pada tahap ini, pelaku seakan-akan
memerintah korbannya. Berikut contohnya: “do as I f**king say
right now bitch or you will be in big f**king trouble” (Pelaku)
6. Conclusion Stage
Pada tahap ini, pelaku mengajak korban untuk bertemu secara pribadi.
Pelaku biasanya membahas tentang di mana mereka dapat bertemu dan
apa yang akan dilakukan ketika bertemu.
20
Untuk deskripsi dari masing-masing tahap yang telah dijelaskan di atas
dapat dilihat pada Tabel 2.1.
Tabel 2.1 Deskripsi Setiap Tahap Proses Online Child Grooming
Tahap
Deskripsi 1
Deskripsi 2
Deskripsi 3
Deskripsi 4
Friendship
Bertukar alamat
Membicarakan
Mendapatkan
Menanyakan umur,
forming
email, foto,
tentang pacar
informasi
jenis kelamin, lokasi,
informasi
tentang akun
nama, informasi
webcam
online korban
pribadi, detil tentang
lainnya
keluarga korban
Relationship
Bertukar alamat
memberikan
Membicarakan
Membicarakan
forming
email, foto,
pujian seperti
hobi, aktivitas
tentang sekolah,
informasi lebih
manis, cantik
dan kesukaan
prestasi disekolah,
anak
tugas sekolah
mendalam
Risk
Mengecek orang
Meminta korban
Mengecek
Secara langsung
assessment
tua korban ada
untuk
apakah korban
memastikan bahwa
didekatnya atau
menghapus chat
bersedia dekat
korban bukan polisi
siapa saja yang
log, memastikan
dengan pelaku
atau agen yang
menggunakan
tidak ada orang
menyamar sebagai
komputer korban
lain yang
anak
mengetahui
password korban
Exclusivity
Sexual
Mengekpresikan
Menjelaskan
Memberikan
Membangun rasa
jatuh cinta dan
aktivitas seksual
pujian yang kuat
percaya korban
memberikan
dan pengalaman
ekslusivitas
pelaku kepada
kepada korban
korban
Memberikan
Menjalin
Bertukar foto
Memberikan pujian
penjelasan
hubungan
seksual atau
yang mengandung
tentang istilah
(berpacaran)
bagian dari tubuh
seksualitas
Mengatur waktu
Mendiskusikan
Memastikan
Menentukan apa yang
dan lokasi untuk
bagaimana cara
korban akan
akan dilakukan ketika
bertemu secara
pulang pergi dari
datang sendiri
bertemu nanti
langsung
tempat
kepada pelaku
yang
mengandung
seksualitas
Conclusion
pertemuan
21
2.3.3 Percakapan dalam Online Child Grooming
Wollis (2011) melakukan penelitian untuk mengetahui kata-kata yang
sering digunakan dalam percakapan online child grooming yang kemudian
disempurnakan kembali oleh Black, Wollis, Woodworth, Hancock (2015). Katakata tersebut dikategorikan berdasarkan proses online child grooming menurut
O’Connell (2004) pada Tabel 2.2.
Tabel 2.2 Kata-Kata yang Sering Digunakan Dalam Percakapan Online
Child Grooming
Tahap
Friendship
forming
Relationship
forming
Risk
assessment
stage
Kategori
You
Friend
Social
Work
Leisure
Positive emotion
Achieve
Money
Religion
Family
Home
They
Negative emotion
Exclusivity
Anxious
Negate
We
Quantitative
Discrepancy
Exclusive
Sexual
Sexual
Conclusion
Feel
Biology
Body
Time
Motion
Space
Relative
Kata
You
Friend, boyfriend, girlfriend, lover
Adult, anyone, personal, party, outsider, fight, story, mentions,
dating, helpful, phone, private, public, gossip
Homework, office, school
Art, bands, game, hangout, sport, television, movie
Cares, casual, cherish, comfort, cute, nice, LMAO
Best, better, confidence, control, important, work
Income, store, value, rich, wealth, compensate
Church, God, heaven, hell, sacred, paradise
Daughter, mother, husband, aunt, , brother, mom, dad,
sister,uncle, family, and folks
Apartment, kitchen, family, Bedroom, home, neighbor,
Rooms
They, their, they’d
Crap, cry, difficult, hate, heartbreak, tough, unimportant, punish,
sad, lose
Worried, fearful, nervous
Needn’t, neither, no, never, nope, nothing, shouldn’t, wasn’t,
won’t
We
Greatest, lots, part, same, somewhat, single, several
Could, couldn’t, desire, hope, need, normal, ought, prefer,
rather, want, wish, would, wouldn’t
But, without, exclude
Hug, hump, make out, love, p*nis,prude, pussy, sex, vagina,
virgin,dick, breast, cock, fuck, orgasm
Caress, feel, grab, hot, rough, rub, squeeze, touch, wet
Erection, jizz, sex, foreplay, nipple, fucked, hug, condom
Anal, ass, breast, chest, cock, dick, pussy, horny, tit, vagina
After, anytime, date, early, evening, fast, hurry, immediately,
whenever, today, tomorrow, tonight, soon, now
Appear, arrive, car, change, coming, drive, go, going, leaving,
visit
Anywhere, around, near, everywhere, street, map, where
Sexual Anytime, city, close, far, heading, rush, whenever,
weekend Horny, love, incest
22
2.3.4 Karakteristik Online Child Grooming
Terdapat 20 karakteristikyang menggambarkan tindakan online child
grooming (Pranoto, Gunawan, & Soewito, 2015):
1. Asking Question To Know Risk Of Conversation
Pelaku mencari tahu resiko dari korban yang sedang didekati. Biasanya
pelaku menanyakan apakah orangtua atau keluarga korban mengetahui
percakapan yang dilakukan. Selain itu, pelaku menanyakan siapa saja yang
menggunakan komputer ini, di mana letak komputer, dan menanyakan
apakah orang tua korban mengetahui password dari aplikasi yang mereka
gunakan untuk berkomunikasi.
2. Acknowledging wrong doing
Pelaku memastikan korban menyadari resiko yang akan dihadapi. Pelaku
akan menginformasikan kepada korban apa yang mereka lakukan salah,
dan memiliki risiko hukum bagi pelaku. Dengan mengatakan ini kepada
korban, pelaku berharap tidak terjerat kasus hukum karena hubungan
mereka dibangun berdasarkan kemauan korban.
3. Asking relationship with parents
Pelaku menanyakan hubungan korban dengan orangtuanya. Apabila
korban memiliki hubungan yang buruk dengan orangtuanya maka akan
menguntungkan pelaku. Karena anaktersebut akan membutuhkan kasih
sayang dan perhatian. Dengan memanfaatkan ini pelaku mendekati korban
dengan memberikan kasih sayang, perhatian besar dan memenuhi apa
yang dibutuhkan oleh korban.
23
4. Asking if child is alone or adult supervision or friend
Pelaku memastikan bahwa komputer tidak digunakan oleh orang lain,
sehingga tidak ada kemungkinan pelaku akan terkena kasus hukum jika
orang dewasa, kakak, dan teman korban melaporkan percakapan mereka
kepada orang tua korban.
5. Other way contact
Pelaku akan menanyakan cara lain untuk berkomunikasi dengan korban
sehingga pelaku akan memiliki alternatif lain untuk berkomunikasi dengan
korban baik suara, video ataupun gambar yang dapat meningkatakan
kepuasan dalam berkomunikasi dengan korbannya.
6. Trying building mutual trust
Pelaku mencoba untuk membangun rasa percaya dari korban karena jika
mendapatkan kepercayaan dari korban maka akan memudahkan pelaku
untuk membangun hubungan dengan korban ke tingkat berikutnya
7. Using word in feel category
Dalam percakapan antara pelaku dan korban mengunakan kata-kata yang
berhubungan dengan perasaan untuk mengungkapkan perasaan mereka.
8. Using word in biology, body, and sexual category
Dalam percakapan antara pelaku dan korbanmenggunakan kata-kata yang
mengandung konteks seksual.
9. Using child related vocabulary
Pelaku kadang-kadang menggunakan istilah yang biasa digunakan oleh
anak-anak saat menyebut organ seksual mereka.
24
10. Calling intimate parts using popular name or using slang word instead
intimate parts
Pelaku menggunakan istilah popular atau slang untuk menyebutkan bagian
intim mereka.
11. Reframing
Pelaku membawa topik pembicaraan kedalam topik yang berhubungan
dengan seks. Pada saat membawa pembicaraan ke topik tersebut, pelaku
memanipulasinya dengan hal lain seperti mengajak bermain, latihan dan
mengajar.
12. Asking hot picture
Pelaku meminta foto seksual korban. Foto tersebut akan digunakan untuk
berimajinasi, atau sebagai alat untuk mengancam korbannya sehingga
korban menuruti apa yang diminta oleh pelaku.
13. Communication desensitizing
Untuk membuat korban merasa nyaman saat membahas sesuatu yang
berhubungan dengan seks, pelaku akan melakukan proses desensitizing.
Pelaku akan berpura-pura salah ketik dengan kata-kata yang termasuk
dalam kategori seks, misalnya kata "pick" ditulis menjadi "d*ck”.
14. Telling the sexual preferences or desires and sexual experiences
Pelaku
mencoba
mengetahui
preferensi
seksual
korban
dengan
menanyakanseperti apakah korban tidak keberatan untuk berhubungan
seks dengan pelaku. Pelaku juga menanyakan pengalaman seksual korban.
Menurut pelaku, korban yang pernah berhubungan seks akan lebih mudah
25
untuk berhubungan seks dengan pelaku, dan tidak tabu untuk
membicarakan seks.
15. Introduced sexual stage
Pelaku melakukan percakapan yang berhubungan dengan seks, namun
belum sampai tahap imajinasi seks.
16. Fantasy enactment initial stage
Pelaku akan membawa percakapan yang melibatkan imajinasi yang
biasanya menggambarkan skenario tertentu
17. Fantasy enactment based activity
Pelaku mengajak atau mempengaruhi korban secara emosional untuk
melakukan cybersex seperti masturbasi, oral sex, virtual penetrative sex.
18. Fantasy enactment overt coercion counter balanced with intimacy
Pelaku membawa percakapan ke dalam tahap imajinasi seksual dengan
menggunakan kata-kata yang menunjukan aktivitas yang melibatkan
keintiman dengan korbannya. Beberapa pelaku mungkin menerapkan
pemaksaan agar korban bersedia menjadi bagian dari fantasi seks pelaku.
19. Fantasy enactment rape fantasy control and aggression
Pelaku menggunakan kata-kata yang lebih agresif untuk memaksa korban
menjadi bagian fantasi seksnya. Pelaku seakanmemerintah korbannya.
20. Arrange further contact and meeting
Pelaku mengajak korban bertemu secara langsung baik dirumah korban
maupun di tempat lainnya.
26
2.4 Penelitian Online Child Grooming Sebelumnya
Beberapa tahun terakhir, beberapa peneliti melakukan penelitian terkait
analisi dan deteksionline child grooming pada percakapan teks secara otomatis.
Pada tahun 2010, Kontostathis, Edwards dan Leatherman mengidentifikasi tipetipe pelaku berdasarkan pola percakapanmenggunakan algoritma k-means.
Terdapat delapan kategori yang digunakan untuk menentukan tipe pelaku yaitu
activities,
personal
information,
compliment,
relationship,
reframing,
communicative desensitization, isolation,dan approach.
Pada tahun 2011, Mcghee et al melakukan klasifikasi percakapan ke dalam
kategori strategi yang digunakan pelaku dalam online child grooming. Peneliti
membuat sistem yang dinamakan bernama ChatCoder 2 yang merupakan
perbaikan dari ChatCoder 1 yang telah buat sebelumnya. ChatCoder 2 didesain
untuk menentukan baris dari percakapan yang mengandung online child
grooming. Peneliti menggunakan algoritma rule-base untuk mengklasifikasi
percakapan ke dalam empat kategori komunikasi yang dilakukan pelaku dalam
yaitu exchange personal information, grooming, approach dan tidak mengandung
ketiganya.
Pada tahun 2012, Pandey, Klapaftis dan Manandhar melakukan klasifikasi
percakapan teks untuk mendeteksionline child grooming. Peneliti menggunakan
konsep N-gramdi mana setiap N baris percakapan (satu baris sama dengan satu
percakapan user) dikelompokan sebagai satu vektorpadasetiap dokumen
percakapan. Perhitungan bobot setiap N-gram menggunakan TF-IDF. Untuk
klasifikasi, peneliti menggunakan metode SVMdi mana setiap vektor (N-gram)
akan diklasifikasi ke dalamkelas predatory atau non-predatory. Kemudian dari
27
hasil klasifikasi, sebuah percakapan dianggap online child grooming apabila hasil
pembagian jumlah N-gramkelas predatory dengan jumlah N-gram percakapan
lebih besar dari nilaithreshold yang ditentukan oleh peneliti. Akurasi klasifikasi
paling baik didapatkan dengan menggunakan 3-gram, namun hasil akurasi
klasifikasi meningkat dengan menambahkan stylistic untuk membedakan gaya
penulisan. Hasil stylistic tersebut ditambahkan dengan hasil pembobotanTFIDFsebelum dilakukan klasifikasi.
Pada tahun 2015, Pranoto, Gunawan dan Soewito melakukan penelitian
klasifikasi percakapan teks untuk mendeteksi online child grooming. Setiap
percakapan ditransformasi kedalam model vector space dengan melakukan
ekstraksi fitur menggunakanTF-IDF. Kemudian, setiap percakapan diidentifikasi
untuk mengetahui karakteristik online child grooming apa saja yang terdapat pada
percakapan. Karakteristik tersebut dibatasi ke dalam dua puluh karakteristik yang
ditandai dengan 1 apabila mengandung karakteristik tersebut atau 0 apabila tidak
mengandung karakteristik tersebut. Peneliti membangun model logistic untuk
mengetahui karakteristik yang paling menentukanhasil klasifikasi percakapan.
Terdapat tiga model yang dihasilkan dan model ketiga menyatakan karakteristik
“Other way contact” dan “Telling the sexual preference or desire and sexual
experience” merupakan karakteristik yang paling menentukan percakapan
sebagaipercakapanonline child grooming. Model logistic ketiga tersebut
digunakan untuk klasifikasi percakapan.
28
2.5 Data Mining
Data miningmerupakan proses menemukan pola menarik dan pengetahuan
dari data berkapasitas besar (Han, Kamber, & Pei, 2012). Data miningakan
mengekstrak informasi berharga dengan menganalisis pola-pola ataupun
hubungan keterkaitan dari data-data. Data mining dapat diartikan sebagai
“knowledge mining from data” atau menggali pengetahuan dari data.
2.5.1 Kategori Data Mining
Data miningdibagi menjadi dua kategori (Han, Kamber, & Pei, 2012)
yaitu:
1. Prediktif
Tujuannya untuk memprediksi nilai dari atribut tertentu berdasarkan nilai
atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai
target atau variabel tak bebas, sedangkan atribut yang digunakan untuk
membuat prediksi dikenal sebagai explanatory atau variabel bebas.
2. Deskriptif
Tujuannya untuk mengidentifikasi karakteristik data dalam set data target.
2.5.2 Fungsionalitas Data Mining
Fungsionalitas data mining digunakan untuk melakukan spesifikasi jenis
pola yang ditemukan saat melakukan data mining. Berikut fungsionalitas data
mining(Han, Kamber, & Pei, 2012):
29
1. Class/Concept Description: Characterization and Discrimination
Bertujuan untuk mendapatkan karakteristik yaitu rangkuman dari
karakteristik umum atau fitur dari kelas set data targetdan mendeteksi
perbedaan
denganmembandingkanfiturumumobjekdata
targetdenganfiturumumobjek dari satuatausatu set datalainnya.
2. The Mining of frequent patterns, Associations, and Correlations
Frequent Patterns adalah pola yang sering terjadi di dalam data. Ada
banyak jenis dari frequent patterns, termasuk di dalamnya pola,
sekelompok item set, sub-sequence, dan sub-struktur. Sebuah frequent
patterns biasanya mengacu pada satu set item yang sering muncul
bersama-sama dalam suatu kumpulan data transaksional. Associations
Analysis adalah pencarian aturan-aturan asosiasi yang menunjukan
kondisi-kondisi nilai atribut yang sering terjadi bersama-sama dalam
sekumpulan data. Analisis asosiasi sering digunakan untuk menganalisa
Market Basket Analysis dan data transaksi.
3. Classification and Regression
Klasifikasi adalah proses menemukan model (atau fungsi) yang
menggambarkan dan membedakan kelas data atau konsep. Model dibuat
berdasarkan analisis data pelatihan (yaitu, objek data yang label kelas
diketahui) yang kemudian digunakan untuk memprediksi label kelas objek
yang label kelas tidak diketahui. Sedangkan regressionadalah metodologi
statistik yang sering digunakan untuk prediksi numerik. Regressionjuga
mencakup identifikasi distribusi tren berdasarkan data yang tersedia.
30
4. Clustering Analysis
Tidak seperti classification dan regression yang melakukan analisis data
yang label kelasnyasudah diketahui, clustering menganalisa data yang
tidak mempunyai label class.Clusteringbertujuan untuk melakukan
segmentasi data yang heterogen ke dalam subgrup berdasarkan kemiripan
karakteristikdata.
5. Outlier Analysis
Digunakan untuk menganalisis data yang tidak sesuai dengan model data.
Data tersebut dinamakan outlier yang dianggap sebagai noise atau
pengecualian. Teknik ini berguna dalam fraud detection dan rare events
analysis
6. Evolution analysis
Analisis evolusi memodelkan trend dari objek yang memiliki perilaku
yang berubah setiap waktu. Teknik ini dapat meliputi karakterisasi,
diskriminasi, asosiasi, klasifikasi, atau clustering dari data yang berkaitan
dengan waktu.
2.5.3 AplikasiData Mining
Data miningdapat diaplikasikan ke dalam berbagai domain. Berikut
beberapa contoh:
1. Relational Marketing
Data
mining
digunakan
untuk
mendukung
marketing
seperti
mengidentifikasi customer segmen yang untuk target marketing,
memprediksi respon positif untuk kampanye produk.
31
2. Fraud Detection
Data mining digunakan untuk mendeteksi penipuan dalam industri seperti
asuransi (klaim palsu) atau banking (penggunaan kartu kredit secara
ilegal).
3. Risk Evaluation
Data mining digunakan untuk analisis resiko untuk memperkirakan resiko
yang berhubungan dengan keputusan masa depan.
4. Medical diagnosis
Data mining digunakan untuk diagnosis medis seperti
mendeteksi
penyakit sejak dini dengan menggunakan hasil tes lab.
5. Text mining
Data mining digunakan untuk menganalisis teks yang tidak berstruktur
untuk melakukan klasifikasi artikel, buku, dokumenatau halaman web.
6. Image Recognition
Data mining digunakan untuk pengobatan dan klasifikasi citra digital, baik
statis (gambar) dan dinamis (video) seperti mengidentifikasi tulisan,
membandingkan dan mengidentifikasi wajah manusia, dan mendeteksi
gerakan mencurigakan pada kamera tersembunyi.
7. Web Mining
Data mining digunakan untuk menganalisa web seperti untuk menganalisis
click stream (urutan halaman yang dikunjungi dan dipilih oleh pengunjung
web).
32
2.6 Text Mining
Text miningmerupakan salah satu aplikasi dari data mining. Text
miningberusaha untuk mengekstrak informasi yang berguna dari sumber data
melalui identifikasi dan eksplorasi pola yang menarik. Dalam text mining, sumber
data berupa koleksi dokumen sehingga informasi maupun pola yang menarik
ditemukan pada data yang berada pada koleksi dokumen(Feldman & Sanger,
2007). Dokumen berupa teks biasanya tidak terstruktur oleh karena itu text mining
akan memproses data yang tidak terstruktur.
2.6.1 PreprocessingText Mining
Text mining akan menggali dokumen berupa teks yang bentuknya tidak
terstruktur sehingga informasi pada sumber data akan sulit untuk diekstrak.
Dokumen merupakan entitas abstrak yang memilliki berbagai kemungkinan
representasi yang sebenarnya. Oleh karena itu perlu dilakukan preprocessing
terhadap sumber data yaitu teks sehingga menjadi lebih terstruktur. Untuk
melakukan strukturisasi terhadap sumber data terdapat beberapa tahap yang perlu
dilakukan yaitu (Feldman & Sanger, 2007):
1. Preparatory Processing
Pada tahap ini struktur sumber data mentah ditransformasi menjadi
struktur yang cocok untuk diproses lebih lanjut. Sebagai contoh, sumber
data dari dokumen PDF, hasil scan, atau pidato. Pada tahap ini dilakukan
konversi sumber data dalam bentuk teks seperti paragraf, kolom, atau
tabel. Jumlah sumber data dokumen sangat besar, dan kemungkinanformat
sumber data berbeda sehingga diperlukan beberapa teknik untuk
33
mengkonversi dari beberapa format menjadi bentuk teks seperti Optical
Character Recognition (OCR), pengenalan suara, dan konversi file
elektronik lainnya.
2. Natural Language Process
Pada tahap ini, isi dari dokumen diproses agar dapat dipahami oleh
komputer. Berikut beberapa natural languange process yang dapat
dilakukan pada preprocessing:
a. Tokenization
Merupakan proses pemecahan dokumen. Dokumen dapat dipecah
menjadi beberapa tingkat berbeda seperti bab, paragraf, kalimat,
kata-kata bahkan suku kata.
b. Stop Word Removal
Merupakan proses menghapus kata yang terdapat dalam stop list
(daftar kata umum yang tidak penting) pada dokumen.
c. Stemming
Merupakan
proses
mengubah
kata
menjadi
bentuk
kata
dasar.Proses stemming dilakukan dengan menghilangkan semua
imbuhan (afiks) baik yang terdiri dari awalan (prefiks), sisipan
(infiks) maupun akhiran (sufiks) dan kombinasi dari awalan dan
akhiran (konfiks). Contoh: running menjadi run. Algoritma yang
sering digunakan dalam bahasa inggris yaitu algoritma porter yang
terdiri dari 5 langkah. Pada setiap langkah terdapat beberapa aturan
dan kondisi untuk menghilangkan imbuhan(Porter, 1980).
34
d. Syntactical Parsing
Merupakan proses melakukan analisis sintaksis kalimat menurut
teori tata bahasa yang benar.
e. Part-of-Speech (POS) Tagging
Merupakan proses pemberian label kelas kata pada suatu kata.Tag
POS ini akan memberikan informasi tentang isi semantik dari
sebuah kata. Tag yang umum yaituarticle, noun, verb, adjective,
preposition, number, dan proper noun.
2.6.2 Text Representation
Text representation merupakan salah satu bagian utama dari text mining.
Text representation merupakan hal mendasar dan diperlukan untuk pengolahan
informasi inteligen berbasis teks (Wen, Yoshida, & Tang, 2011). Kemampuan
klasifikasi dalam text miningsecara akurat bergantung pada representasi teks dari
sumber data dokumen. Hal ini dikarenakan text miningmenggunakan data yang
tidak terstruktur.
Text
representation
digunakan
untuk
transformasi
teks
menjadi
vektoryang biasa dikenal dengan model vector space atau Vector Space Model
yang disingkat VSM(Wen, Yoshida, & Tang, 2011).Dalam model vector space,
dokumen diwakili dengan vektor dari fitur-fitur yangdiekstrak. Untuk
mendapatkan
nilai
vektor
bobotyangmewakiliseberapa
dari
dokumen
tersebutdilakukanperhitungan
pentingfiturdalamdokumendan
dalamkeseluruhankoleksi dokumen. Fitur-fitur yang akan dilakukan perhitungan
bobot yaitu sebagai berikut(Khan, Baharudin, Lee, & Khan, 2010):
35
1. Fitur Unigram
Dalam fitur ini, kata dan simbol dalam dokumendihitung sebagai satu fitur
yang kemudian direpresentasikan dalam bentuk vektor.
2. Fitur N-gram
Dalam fitur ini, gabungan N kata dan simbol dalam dokumendihitung
sebagai satu fitur yang kemudian direpresentasikan dalam bentuk vektor.
Semua fitur yang diekstrak dinyatakan dengan
,
,…,
yang membentuk
daftar kata. Sehingga dokumendirepresentasikan dalam vektor
di mana
,
,…,
merupakan hasil perhitungan bobot fitur . Perhitungan bobot yang
biasa digunakan antara lain(Khan, Baharudin, Lee, & Khan, 2010):
1. Feature Frequency (FF)
Pembobotan ini merupakan cara paling sederhana. Pembobotan dilakukan
dengan menghitung jumlah kemunculan fitur dalam dokumen. Misalnya
fitur “kelas” muncul sebanyak sepuluh kali dalam satu dokumen, maka
bobot dari fitur tersebut adalah sepuluh.
2. Feature Presence (FP)
Bentuk vektor dari pembobotan ini adalah vektor biner. Fitur yang ada
dalam dokumen diberi bobot 1 dan yang tidak ada diberi bobot 0.
Misalnyafitur “kelas” muncul sebanyak sepuluh kali dalam dokumen,
maka bobot dari fitur tersebut adalah 1.
3. TermFrequency–InverseDocumentFrequency(TF-IDF)
TF-IDF merupakan metode menghitung banyak term yang ditemukan
dalam dokumen.TF-IDF terdiri dari dua hal yaitu frekuensi term dalam
dokumen yang disebut term frequency(TF) dan frekuensi dokumen yang
36
mengandung
tersebut
term
yang
disebut
Inverse-Document
Frequency(IDF).PersamaanTF-IDFweighting term untuk term
dokumen
sebagai berikut
Weight
,
IDF
di mana
pada
TF ,
log
IDF
1
N
DF
2
TF
= Term Frequency
IDF
= Inverse Document Frequency
DF
= Document Frequency
N
= jumlah dokumen
Berikut contoh perhitungan bobot dengan menggunakan TF-IDF. Terdapat
tiga buah dokumen.
Dokumen 1:"A birthday present!" said white mouse.
Dokumen 2:"a mouse present?" asked brown cat
Dokumen 3: "Wow, a birthday present," said blackcat
Dari ketiga dokumen tersebut akan dicari frekuensi term (TF) “birthday”,
“said”, “mouse”. Hasilnya ditampilan pada Tabel 2.3.
Tabel 2.3 Frekuensi Term (TF) “birthday”, “said”, “mouse” Pada
Setiap Dokumen
Term (t)
Birthday
Said
Mouse
Kemudian
Dokumen 1 (d1)
1/6
1/6
1/6
dicari
frekuensi
,
Dokumen 2 (d2)
0
0
1/6
dokumen
(DF)
Dokumen 3 (d3)
1/7
1/7
0
yang
mengandung
term“birthday”, “said”, “mouse” yang hasilnya ditampilkan pada Tabel
2.4.
37
Tabel 2.4DocumentFrequency (DF) yang Mengandung Setiap Term
Term (t)
Birthday
2
Said
2
Mouse
2
Setelah mendapatkan DF, kemudian didapatkan IDF dengan persamaan
(2)yang hasilnya ditampilkan pada Tabel 2.5.
Tabel 2.5Inverse Document FrequencyPada Setiap Term
=
Term (t)
Birthday
Said
Mouse
3
2
3
log
2
3
log
2
log
0.4055
0.4055
0.4055
Dari TF dan IDF maka akan didapatkan TF-IDF dengan persamaan
(1)yang hasilnya ditampilkan pada Tabel 2.6.
Tabel 2.6 Hasil TF-IDF Pada Setiap Dokumen
,
Term (t)
Dokumen 1 (d1)
Birthday
Said
Mouse
1
0.4055
6
1
0.4055
6
1
0.4055
6
* IDF
Dokumen 2 (d2)
0,067583
0
0,067583
0
0,067583
1
0.4055
6
Dokumen 3 (d3)
1
0.4055
7
1
0.4055
7
0,067583
0,0579285
0,0579285
0
2.7 Klasifikasi
Klasifikasi merupakan proses menemukan model (atau fungsi) yang
menggambarkan dan membedakan kelas data atau konsep. Dalam klasifikasi,
data dianalisa untuk membuat model atau clasifier yang digunakan untuk
memprediksi kelas label (kategori) seperti “aman” atau “beresiko” untuk data
38
aplikasi peminjaman, “yes” atau “no” untuk data marketing, serta “cara 1”, “cara
2” atau “cara 3” untuk data medis (Han, Kamber, & Pei, 2012). Kategori dapat
direpresentasikan menggunakan nilai diskrit (urutan nilai tidak memiliki arti)
seperti nilai 1, 2, dan 3 digunakan untuk merepresentasikan cara 1, 2, dan 3.
Dalam klasifikasi data terdapat dua proses yang dilakukan yaitu (Han,
Kamber, & Pei, 2012):
1. Tahap Pembelajaran (Learning Step)
Pada tahap ini, datapelatihan yang telah diketahui label-labelnya
digunakan dan dianalisis untuk membangun model atau clasifier.
3
Gambar 2.1 Tahap Pembelajaran(Han, Kamber, & Pei, 2012)
2. Tahap Klasifikasi (Classification Step)
Untuk mengetahui keakuratan model yang dibangun pada tahap
pembelajaran, maka digunakan data pengujianuntuk memprediksi labellabelnya.
39
4
Gambar 2.2 Tahap Klasifikasi(Han, Kamber, & Pei, 2012):
2.8 Support Vector Machine (SVM)
SVM diperkenalkan pertama kali olehVapnik, Boser dan Guyon pada tahun
1992. SVM merupakan metode klasifikasi untuk data linear dan non-linear (Han,
Kamber, & Pei, 2012). SVM dapat melakukan klasifikasi untukinput space yang
berdimensi tinggi (Khan, Baharudin, Lee, & Khan, 2010).
Konsep SVM secara sederhana mencari hyperplane terbaik yang berfungsi
sebagai pemisah dua buah kelas pada input space.Hyperplane terbaik memiliki
margin paling besar. Dengan hyperplane terbaik, tidak hanya meminimalkan
empirical risk yaitu rata-rata kesalahan pada data pelatihan, tetapi juga memiliki
generalisasiyang
baik.
Generalisasi
merupakan
kemampuan
untuk
mengklasifikasikan data yang tidak terdapat dalam data pelatihan dengan benar.
Untuk menjamin generalisasi ini, SVM bekerja berdasarkan prinsip Structural
Risk Minimization(SRM)(Khan, Baharudin, Lee, & Khan, 2010).
40
2.8.1 SVM pada Linearly Separrable Datta
Linearly separable
s
daata merupakkan data yaang dapat dipisahkan seecara
linear.. Data yangg tersedia dinotasikan
d
sebagai
masing
g-masing diinotasikan yn {+1,−1} untuk
d
sedanggkan label kelas
k
ddi mana n ad
dalah
banyak
knya data. Pada gambaar 2.3terdappat berbagaii alternatif hyperplane
h
yang
dapat memisahkan
m
n semua set datadalam
d
ddua buah kelaas.
Gambar
G
2.3
3 Alternatif Hyperplanee yang Mem
mbagi Dua B
Buah Kelas
(
)
SVM mencari hyperpllane terbaik yang memissahkan semuua set data sesuai
nya dengan mengukur margin hypperplane dan
n mencari margin terbbesar.
kelasn
Margin adalah jarrak antara hyyperplane ddengan data terdekat darri masing-maasing
kelas. Subset set data yang paling
p
dekat ini disebut sebagai supp
pportvector. Pada
Gambar 2.4 ditam
mpilkan hypeerplane terbbaik di antarra alternatif hyperplane pada
Gambar 2.3.
41
Gamba
ar 2.4HyperpplaneTerbaiik di Antaraa Alternatiff HyperplanePada
Gambar Sebelumnya (Gambar 2.3). Suppoort vectorDiggambarkan Dengan
Lingkarran Pada Seet Data.
Keduua kelas –1 dan +1 dappat dipisah secara semppurna oleh hyperplane
h
b
berdimensi
d,
d yang didefinisikan denngan persam
maan berikut
.
S
Sebuah
yaang termasukk kelas –1 (ssampel negaatif) dapat dirrumuskan seebagai data
y
yang
memen
nuhi pertidakksamaan
untuk
S
Sedangkan
yang term
masuk kelas +1 (sampel positif) dappat dirumuskkan sebagai
d yang memenuhi
data
m
perrtidaksamaann
untuk
.
merupakaan normal bidang dan b m
merupakan posisi
p
bidangg relatif terh
hadap pusat
k
koordinat.
N
Nilai
margin dirumuskann dengan perssamaan
d mana
di
42
7
|| ||
Margin maksimal didapatkan apabila nilai ||w|| minimum dari persamaan
hyperplane ·
0. Oleh karena itu, untuk mendapatkan margin terbesar
dapat dirumuskan ke dalam permasalahan constraint optimization menjadi
persamaan berikut
min
subject to
1
| |
2
8
·
1
0.
Salah satu metode penyelesaian untuk permasalahan constraint optimization yaitu
perkalian Lagrangesehingga dirumuskan menjadi persamaan berikut
min
, ,
1
|| ||
2
·
terhadap w dan b, maka dari
0
dan dari
9
0.
subject to
Dengan meminimumkan
1
0 diperoleh
10
0 diperoleh
0
0
11
43
Dari mensubtitusikan persamaan (10) dan (11), persamaan
diubah ke dalampersamaan
(primal problem)
(dual problem) sebagai berikut
1
2
max
0 dan
subject to
12
.
.
Dengan persamaan (12) akan didapatkan
yang bernilai positif dan nilai w
yangdidapatkan dengan persamaan (10). Data
yang nilai
lebih dari nol
disebut sebagai support vector. Dengan mengetahui support vector, nilai bakan
didapatkan dengan persamaan berikut
1
13
.
Dengan mengetahui nilai w dan b maka persamaan hyperplane (1) didapatkan.
Setelah menemukan persamaan hyperplane(1), selanjutnya klasifikasi data
ke dalamkelasyn {+1,−1} didapatkan dengan persamaan berikut
sgn
.
.
1
1
.
1
14
1
atau
sgn
1
.
1
.
1
15
.
1
Sebagai contoh mencari hyperplane terbaik untuk dua buah data yang
terpisah secara linear yaitu
1
dengan
0
1 dan
2
dengan
0
1. Dari persamaan (12) diselesaikan menggunakan quadratic programing
menjadi
44
min 1
2
1
subject to
0 dan 0
∞
Kemudian disederhanakan menjadi
1
min 1
2
1 10
1
1 20
1
min 1
2
1
2
subject to
2
1 1 20
1
1
∞
2
4
1
0 dan
∞
1
2
2
1
1
2
0 dan
subject to
2
0
2
0
1 10
0 dan
subject to
min 1
2
1
0
1
0
∞.
Dari persamaan quadratic programmingyang sudah disederhanakan akan dicari
dan
menggunakan perkalian Lagrange(variabel Lagrange
diganti menjadi
) menjadi
2
2
.
,
Dari turunan parsial terhadap
dan
didapatkan tiga persamaan
0
0
Kemudian didapatkan nilai
w sebagai berikut
0
2
1
2
0
.
1,
1 dan
. Setelah itu, didapatkan nilai
45
1
1
0
1
2
0
1 1
1
0
dan nilai b didapatkan menggunakan support vector yang didapatkan sebagai
berikut
1
.
1
2
.
.
1
1
.
0
0
1
1
2
.
0
0
1
.
Setelah mengetahui nilai w dan b maka didapatkan persamaan hyperplane yaitu
·
0
1
·
0
Selanjutnya
0.
untuk
klasifikasi
3
0
data
1
ke
0
dan
dalamkelas {+1,−1} didapat dengan
3
0
sgn
.
sgn
1
3
·
0
0
sgn
3
2
3
diklasifikasikan ke dalamkelas+1 dan
0
Sehingga data
sgn
.
1
0
Sehingga data
3
2
sgn
1
·
0
1
0
3
2
1
diklasifikasikan ke dalamkelas-1.
0
sgn
5
2
46
2.8.2 SVM pada Non linearly Separable Data
Persamaan SVM untuk data nonlinearly separableberbeda dengan data
linearly separable. Pencarian hyperplane terbaik didapatkan dengan penambahan
yang biasa dikenal dengan soft margin hyperplane.
variabel
Gambar 2.5Soft Margin Hyperplane(Institut für Statistik und
Wirtschaftsmathematik, 2008)
Sebuah
yang termasuk kelas –1 (sampel negatif) dapat dirumuskan
sebagai data yang memenuhi pertidaksamaan
·
1+
subject to
Sedangkan
untuk
1.
16
0.
yang termasuk kelas +1 (sampel positif) dapat dirumuskan sebagai
data yang memenuhi pertidaksamaan
·
1subject to
untuk
1
17
0.
Oleh karena itu, untuk mendapatkan margin terbesar dirumuskan ke dalam
permasalahan constraint optimization menjadi persamaan berikut
47
min
18
1
|| ||
2
subject to
·
1
0
Variabel C merupakan parameter yang menentukan besar penalti akibat kesalahan
dalam pengklasifikasian data dan nilainya ditentukan oleh pengguna. Persamaan
(18) memenuhi prinsip SRM yang berarti meminimumkan error pada data
pelatihan.Kemudian, permasalahan constraint optimizationdiselesaikan dengan
menggunakan perkalian Lagrangesehingga dirumuskan menjadi persamaan
berikut
min
1
| |
2
, ,
·
subject to
Selanjutnya, formula
0 dan
19
1
0
(primal problem)(19) diubah ke dalam
yang menghasilkan formula yang sama dengan formula
(dual problem)
(dual problem) (12).
Sehingga untuk mencari hyperplane terbaik pada data non linearly separable
dilakukan dengan cara yang hampir sama dengan mencari hyperplane pada data
linearly separable. Yang membedakan yaitu rentang nilai
. Apabila nilai
menjadi 0
maka data tersebut dinamakan bounded support vector.
Metode lain untuk melakukan klasifikasi data nonlinearlyseparable yaitu
dengan mentransformasi data pada input spaceke dalamfeature space dari
menjadi
sehingga data dapat dipisahkan secara linear pada feature space.
48
Gambar 2.6Pemetaan dari Input Space ke Feature Space untuk Non-Linear
SVM(Sarkar, 2010)
Dimensi data pada feature space yang dihasilkan i akan lebih tinggi dari
dimensi data pada input space. Hal ini dapat mengakibatkan komputasi pada
feature space menjadi sangat besar(Vercellis, 2009). Untuk mengatasi
permasalahan ini dapat dilakukan dengan kernel.Dengan menggunakan kernel,
fungsi transformasi
tidak perlu diketahui secara jelas. Berikut fungsi kernel
umum yang sering gunakan:
1. Kernel Linear
,
·
20
2. Kernel Polinomial(sampai dengan dimensi D)
,
1
21
·
3. Kernel Radial Basis Function (RBF)
,
exp
| ·
| di mana
0
22
23
Variabel
dinamakan dengan hyperparameter.
Sehinggapencarian hyperplane terbaik untuk data non linearly separable
formula
(dual problem) pada persamaan (12) diubah menjadi berikut
49
1
2
max
24
.
∞ dan
subject to 0
Dengan persamaan (24) diperoleh
yang bernilai positif dan nilai w yang
didapatkan dengan persamaan yang sama denganpersamaan(10) namun
menjadi
sebagai berikut
25
Data
yang nilai
lebih dari nol disebut sebagai support vector. Dengan
mengetahui support vector, nilai b didapatkan dengan persamaan berikut
1
26
.
27
1
.
1
Dengan mengetahui nilai w dan b maka persamaan hyperplane(1)didapatkan.
Setelah menemukan persamaan hyperplane, selanjutnya klasifikasi data ke
dalamkelasyn {+1,−1} dapat dilakukan dengan persamaan berikut
sgn
.
.
1
1
.
1
28
1
atau
1
.
.
1
contoh
mencari
datanonlinearly separable yaitu
1 dan
29
.
sgn
Sebagai
1
2 dengan
hyperplane
1
1
terbaik
dengan
untuk
1,
dua
0
buah
dengan
1. Dari persamaan (24) menggunakan
50
kernel polinomial dimensi 2 yaitu
,
1
·
yang diselesaikan
menggunakan quadratic programming menjadi berikut:
,
,
,
min 1
2
,
,
,
,
,
,
0 dan 0
subject to
1
∞.
Kemudian disederhanakan menjadi
4
1
9
min 1
2
1
1
1
0 dan
subject to
min
9
1
25
2
∞
1
2
9
0 dan
subject to
25
2
1
2
1
2
1
2
∞.
Dari persamaan quadratic programmingyang sudah disederhanakan akan dicari
,
dan
dengan menggunakan perkalian Lagrange(variabel Lagrange
diganti menjadi ) menjadi
2
9
.
,
Dari turunan parsial terhadap
0
0
,
dan
didapatkan tiga persamaan
4
1
2
9
0
Dari empat persamaan di atas didapatkan nilai
Setelah itu, nilai b didapatkan sebagai berikut
0
.
3,
2,
1 dan
.
51
1
3
.
.
.
22
5
53
12.
3
Selanjutnya klasifikasi data
1 ke dalamkelas {+1,−1}
dan
didapat dengan:
sgn
.
4
1
sgn
1.
1 1
sgn 48
2
4
2 2
49
2.
4
3 3
3.
4
3.
5
12
sgn 9 .
3 diklasifikasikan ke dalamkelas+1.
Sehingga data
sgn
.
5
1
sgn
1.
1 1
sgn 0
2
5
2 2
1
2.
5
3 3
12
sgn 9 .
Sehingga data
1 diklasifikasikan ke dalamkelas+1.
2.9 K-Nearest Neighbor(k-NN)
-Nearest Neighbor ( -NN) merupakan instant based learning algorithm
yang melakukan klasifikasi data berdasarkan data dari set data pelatihan yang
paling mirip data tersebut (Khan, Baharudin, Lee, & Khan, 2010). Pada metode -
52
NN akan ditentukan nilai
yang digunakan untuk mengambil sebanyak
data
dari set data pelatihan yang paling mirip dengan data yang akan diklasifikasi.
Untuk mengukur kemiripan antara data yang akan diklasifikasi dengan data dari
set data pelatihan dilakukan dengan cara menghitung jarak antara kedua data
tersebut. Sebelum dilakukan perhitungan jarak, data yang akan diklasifikasi dan
data dari set data pelatihan direpresentasikan ke dalam vektor terlebih dahulu.
Semakin besar nilai dari perhitungan jarak yang dihasilkan menandakan data dari
set data pelatihansemakin mirip dengan data yang akan diklasifikasikan. Salah
satu metode yang sering digunakan untuk mengukur jarak yaitu euclidean
distancedengan persamaan berikut
30
Di mana
,
,
,…,
dan
,
,
,…,
.
Klasifikasi menggunakan -NN dilakukan dengan dua tahap yaitu
1. Tahap Pembelajaran
Pada tahap ini, datapelatihanyang telah ditransformasi kedalam bentuk
vektor dan labelnya disimpan.
2. Tahap Klasifikasi
Pada tahap ini, data yang akan diklasifikasi (data kueri) yang sebelumnya
telah ditranformasi kedalam vektor mencari data dari set datapelatihan yang
paling mirip dengan menghitung jarak antara kedua vektor tersebut. Dari
hasil perhitungan tersebut, akan diambil sebanyak
datapelatihanyang paling mirip. Dari
data dari set
data tersebut, data kueri dapat
53
diklasifikasikan dengan cara melihat label mayoritas dari seluruh
data
tersebut.
Berikut contoh klasifikasi yang dilakukan menggunakan metode
Terdapat dokumen
-NN.
yang akan diklasifikasi. Untuk melakukan klasifikasi
terdapat set datapelatihanyang terdiri dari 3 dokumen yaitu
1, 2, 3 beserta
labelnya.Dokumen-dokumen tersebut ditampilkan pada Tabel 2.7
Tabel 2.7Set dataPelatihan yang Terdiri Dari 3 Dokumen dan Dokumen
yang Akan Diklasifikasi
Nama
Isi Dokumen
Label Dokumen
1
Shipment of gold damaged in a fire
Gold
2
Delivery of silver arrived in a silver truck
Silver
3
Shipment of gold arrived in a truck
Gold
silver truck
?
Dokumen
Dari Tabel 2.7, dokumen
1, 2, 3 dari set datapelatihan dan dokumen
ditranformasi ke dalam model vector spacepada Tabel 2.8.
,
Tabel 2.8 Hasil Transformasi
,
Dalam Model Vector Space
Fitur (kata)
A
1
1
1
0
Arrived
0
1
1
0
Damaged
1
0
0
0
Delivery
0
1
0
0
Fire
1
0
0
0
Gold
1
0
1
0
In
1
1
1
0
Of
1
1
1
0
Shipment
1
0
1
0
Silver
0
2
0
1
Truck
0
1
1
1
54
Hasil tranformasi dari 1, 2, 3 dan
1
1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0
2
1, 1, 0, 1, 0, 0, 1, 1, 0, 2, 1
3
1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1
menjadi
0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1
Sebelum melakukan klasifikasi, ditentukan nilai
1. Setelah itu mencari
dokumen dari set data pelatihan yang mirip dengan dokumen
menggunakan
eucludian distance.
1,
1
3
2,
2
2.45
3,
3
2.64
Dari hasil perhitungan, dokumen yang memiliki jarak terdekat adalah yaitu 2.
Label 2 yaitu silver sehingga data kueri diklasifikasikan sebagai silver.
2.10 Evaluasi Model Klasifikasi
Dalam melakukan evaluasi model klasifikasi yang telah dibuat, terdapat
beberapa kriteria yang dapat dinilai yaitu akurasi, kecepatan, robustness dan
skalabilitas(Vercellis, 2009). Untuk mengevaluasi model klasifikasi berdasarkan
akurasi dapat diukur dari ketepatan model dalam melakukan klasifikasi. Salah satu
metodenya
yaituconfusion
matrix.
Confusion
matrixmerupakan
matriks
yangterdiri dari baris dan kolom. Barisberhubungan dengan nilai yang sudah
55
diketahui sebelumnya sedangkan kolom berhubungan dengan nilai hasil prediksi
yang telah dilakukan oleh model klasifikasi (Vercellis, 2009). Misalnyaconfusion
matrix untuk
memprediksi klasifikasi binaryuntuk nilai -1 (negatif) dan 1
(positif) pada Tabel 2.9.
Tabel 2.9Confusion Matrix
Prediction
Actual
-1 (negatif)
1 (positif)
-1 (negatif)
True Negative (TN)
False Positive (FP)
1 (positif)
False Negative (FN)
True Positive (TP)
Dengan confusion matrix akandidapatkan akurasi, positive predictive value (PPV)
dan negative predictive value (NPV) dengan persamaan berikut:
Accuracy =
TP TN
TP TN FN FP
PPV =
NPV =
TP
TP
FP
TN
TN
FN
31
32
33
5 Untuk mengevaluasi model berdasarkan kecepatan dapat diukur dari
waktu untuk membuat model di mana datapelatihan yang telah diketahui labellabelnya digunakan dan dianalisis untuk membangun model atau clasifier. Selain
itu kecepatan dapat diukur dari waktu yang dibutuhkan oleh model yang dibangun
untuk melakukan klasifikasi terhadap data pengujian.Jika dilihat dari robustness,
evaluasi model dapat diukur dari kemampuan model menghasilkan prediksi yang
benar walaupun terdapat noise atau data yang tidak lengkap. Selain itu, evaluasi
model dapat diukur berdasarkan skalabilitas yaitu kemampuan model menangani
data yang berjumlah sangat besar secaraefisien.
6
56
Download