2 BAB II LANDASAN TEORI Pada bab ini mendeskripsikan teori-teori yang berkaitan dengan penelitian. Terdapat dua hal utama yang menjadi landasan teori yaitu online child grooming dan text mining. Sebelum membahas online child grooming akan dijelaskan mengenai pelecehan seksual terhadap anak (subbab2.1). Proses pendekatanyang dilakukan pelaku untuk melakukan pelecehan seksual terhadap anakdinamakan dengan child grooming (subbab2.2).Salah satu cara dalam melakukan child grooming yaitu memanfaatkan teknologi internet. Pendekatan tersebut dikenal dengan istilahonline child grooming (subbab2.3). Kemudian akan dideskripsikan mengenai penelitian lima tahun terakhiryang melakukananalisis dan identifikasionline child grooming pada percakapan teks(subbab2.4). Sebelum membahas mengenai text miningakan dijelaskan data mining(subbab2.5).Text mining(subbab2.6) merupakan salah satu pengaplikasian data mining. Untuk melakukan klasfikasi dalam text mining(subbab2.7),terdapat beberapa metode yang dapat digunakan seperti SVM(subbab2.8) dan NN(subbab2.9). Untuk mengetahui keakuratan, kecepatan, robustness dan skalabilitasmodel klasifikasi yang dibangun maka perlu dilakukanevaluasi terhadap model klasifikasi yang dibangun (subbab2.10). 2.1 Pelecehan Seksual Terhadap Anak Pelecehan seksual terhadap anak melibatkan anakdi bawah umursebagai korban dan orang yang lebih dewasa sebagai pelakuyang melanggar hak-hak 7 8 korban sehingga mengakibatkan kerugian bagi korbannya.Pelecehan seksual terhadap anak didefinisikan sebagai tindakan memaksa atau merayu anak untuk melakukan aktivitas seksual termasuk prostitusi baik anak tersebut menyadari atau tidak menyadari apa yang terjadi serta melibatkan kegiatan kontak fisik atau nonfisik(Borg, Snowdon, & Hodes, 2014). 2.1.1 Bentuk Pelecehan Seksual Bentuk pelecehan seksual terhadap anak dapat secara fisik atau non-fisik. Bentuk pelecehan seksual terhadap anak secara fisik dapat dibagi menjadi empat bentuk (Stoltenborgh, Ijzendoorn, Euser, & Bakermans-Kranenburg, 2011) yaitu 1. Penggunaan alat kelamin Pelecehan seksual menggunakan alat kelamin meliputi oral seks, sodomi, hubungan kelamin baik sesama jenis atau berlawanan jenis. 2. Penggunaan tangan atau barang ke dalam alat kelamin Pelecehan seksual menggunakan tangan atau barang lainnya untuk melakukan penetrasi terhadap alat kelamin korban atau pelaku. 3. Pelecehan terhadap alat kelamin Pelecehan seksual yang meliputi memegang, menyentuh atau merangsang alat kelamin pria atau wanita baik oleh korban atau terhadapkorban. 4. Lainnya Pelecehan seksual lainnya dengan melakukan kontak fisik selain alat kelamin seperti mencium, memeluk, meraba payudara, pantat dan bagian organ tubuh lainnya. 9 Sedangkan bentuk pelecehan seksual non-fisik dapat meliputi voyeurism, memgambil gambar atau memotret bagian intim korban, memperlihatkan alat kelamin kepada korban, memaksa korban melihat pelaku melakukan masturbasi, memaksa korban melihat konten berbau pornografi dan menulis komentar mengandung pornografi secara langsung maupun tidak langsung. 2.1.2 Pelaku Pelecehan Seksual Terhadap Anak Pelaku pelecehan seksual tidak hanya orang yang tidak dikenal oleh korban atau orang asing yang tertarik untuk mendekati korban, tapi bisa saja pelaku merupakan orang yang dikenal oleh korban seperti teman, kerabat dekat bahkan keluarga. Banyak faktor yang menyebabkan seseorang menjadi pelaku pelecehan seksual. Faktor utamanya yaitu pelaku memiliki kecanduan seks.71% pelaku merupakan pecandu seks(Herkov, 2013). Kecanduan seks dapat dideskripsikan sebagai kelainan pada seseorang yang memiliki kebutuhan seksual lebih yang ditandai dengan pemikiran dan tindakan seksual yang dilakukan terus menerus(Herkov, 2013). Pecandu seks tidak selalu menjadi pelaku pelecehan seksual dan tidak semua pelaku pelecehan seksual merupakan pecandu seks. Sekitar 55% pelaku pelecehan seksual merupakan pecandu seks. Menurut Sedlak et al (2015), Pelaku yang melakukan pelecehan seksual sebanyak 87% berjenis kelamin pria dan 13% berjenis kelamin perempuan. 10 2.1.3 Dampak Pelecehan Seksual Terhadap Anak Dampak dari pelecehan seksual memberikan trauma mendalam bagi korbannya baik secara psikologis atau fisik termasuk emosi, tingkah laku dan psychosocial. Dampak yang diakibatkan khususnya psikologis tidak dapat disembuhkan dalam waktu singkat dan membutuhkan terapi dalam waktu yang lama bagi korbannya (Michalopoulos dan Mavridis, 2011). Dalam pelecehan seksual anak, korban pelecehan seksual lebih banyak berjenis kelamin perempuan dibandingkan pria yaitu sebesar 67.7%. 2.2 Child Grooming Child grooming merupakan proses mendekati anak dengan tujuan membujuk mereka agar bersedia melakukan aktivitas seksual (Eneman, Gillespie, & Bernd, 2010). Pelaku menggunakan berbagai teknik untuk mengakses dan mengontrol korban. Proses ini membutuhkan akses, waktu, dan keterampilan interpersonal pelaku. Jika child grooming dilakukan dengan baik, korban secara tidak sadar akan mudah ‘bekerjasama’ dengan pelaku. Semakin mahir keterampilan pelaku dalam memilih dan merayu korban yang rentan, semakin sukses child grooming dilakukan. Keterampilan pelaku mencakup cara memilih korban, mengidentifikasi dan mengetahui kebutuhan korban, waktu yang dibutuhkan oleh pelaku untuk mendekati korban, merayu dan mengendalikan korban(Lanning, 2010). Dalam child grooming, pelaku mendekati dan merayu korban dengan memberikan perhatian, kasih sayang, kebaikan, hak istimewa, pengakuan, hadiah, alkohol, obat-obatan, atau uang sampai korban dapat ‘bekerjasama’ dengan 11 pelaku. Pelaku biasanya menyesuaikan metode yang digunakan sesuai dengan karakteristik korban. Dalam beberapa kasus saat melakukan child grooming terhadap anak yang masih muda (di bawah 10 tahun), pelaku tidak mendekatikorban melainkan orangtuanya(Lanning, 2010). Pelaku mendekati orangtuanya untuk mendapatkan kepercayaan mereka sehingga pelaku akan memiliki aksesuntuk mendekati anak yang menjadi targetnya. Pelaku menggunakan teknik seperti bermain untuk memanipulasi korbannya dalam melakukan hubungan seks.Sedangkan dalam melakukan child grooming terhadap anak yang lebih tua (di atas 10 tahun) biasanya pelaku menggunakan teknik yang melibatkan pemberontakan, pengalaman, dan rasa ingin tahu untuk memanipulasi korbannya agar mau melakukan aktivitas seksual (Lanning, 2010). Selain itu, pelaku biasanya berusaha membuat korban percaya bahwa korban memiliki hubungan istimewa dengan pelaku dan aktivitas seksual dilakukan sebagai bagian dari hubungannya dengan pelaku. Menurut Dr. Michael Welner terdapat enam tahapan child grooming yaitu(Welner, 2010) 1. Tahap 1: Targeting the victim Pelaku menargetkan korban berdasarkan kerentanan, kebutuhan emosional, isolasi dan kepercayaan diri yang dimiliki. Anak yang kurang mendapat pengawasan dari orangtua merupakan korban yang paling berpotensial. 12 2. Tahap 2: Gaining the victim's trust Pelaku meningkatkan kepercayaan korbandengan mengumpulkan informasi tentang korban, mengetahui kebutuhan korban dan tahu cara memenuhi kebutuhan korban. 3. Tahap 3: Filling a need Pelaku mengisi kebutuhan korban sehingga korban menurunkan kecurigaan dan meningkatkan hubungan antara pelaku dengan korban. Korban akan menganggap pelaku adalah orang yang penting dalam hidupnya. Hadiah, perhatian ekstra, kasih sayang yang diberikan oleh pelaku dapat meningkatkan hubungan emosional antara pelaku dan korban. 4. Tahap 4: Isolating The Child Setelah hubungan dan ikatan antara pelaku dengan korban dibentuk. Perlahan-lahan pelaku menciptakan situasi di mana mereka berdua saja. Isolasi ini memperkuat hubungan antara pelaku dengan korban. Penitipan anak, bimbingan, pembinaan dan traveling merupakan hal-hal yang memungkinkan isolasi antara pelaku dan korban. Hubungan istimewa dapat lebih diperkuat ketika pelaku menanamkan kasih sayang sehingga korban merasa dicintai atau dihargai dengan cara yang lain yang mungkin tidak diberikan oleh orang tuanya. 5. Tahap 5: Sexualizing the relationship Pada tahap ini pelaku meningkatkan hubungan mereka ke dalam hubungan seksual dengan cara melakukan percakapan intim, mengirim gambar, bahkan menciptakan situasi. Selain itu, pelaku mengeksploitasi rasa ingin tahu 13 anaksecara alami serta menggunakan perasaan yang dimiliki korban untuk bersedia melakukan hubungan seksual. 6. Tahap 6: Maintaining control Setelah pelecehan seksual terjadi, pelaku biasanya meminta korban merahasiakan dan menyalahkan korban. Selanjutnya pelaku meminta korban untuk diam karena aktivitas seksual dapat menyebabkan anak menarik diri dari hubungan yang sudah dibangun. Selain itu, pelaku dapat mengancam korban apabila memutuskan hubungan dengan pelaku maka pelaku akan mengekspos, mempermalukan dan membuat korban ditolak oleh lingkungannya. 2.3 Online Child Grooming Meningkatnya pelecehan seksual terhadap anak terjadi karena adanya kemudahan akses terhadap korbannya, dan teknologi internet mempermudah pelaku mengakses korban untuk melakukan child grooming (Katz, 2013). Hal ini biasa dikenal dengan online child grooming. Dengan kata lain, online child grooming merupakan proses mendekati anak dengan menggunakan teknologi internet yang bertujuan membujuk mereka untuk bersedia melakukan aktivitas seksual secara online atauoffline. Online child grooming dilakukan dengan berbagai tipe, durasi dan itensitas tergantung dari karakteristik dan perilaku masing-masing pelaku. Diantara berbagai cara dan variasi dalam melakukan online child grooming, terdapat enam hal umum yang mendasarionline child grooming yaitu sebagai berikut: 14 1. Manipulation Online child grooming melibatkan beberapa bentuk manipulasi. Terdapat berbagai jenis manipulasi yang dapat dilakukan oleh pelaku terhadap korbannya. Berbagai teknik manipulasi digunakan untuk meningkatkan kekuatan dan kontrol pelaku terhadap korbanserta meningkatkan ketergantungan korban pada pelaku sepertimemberikan pujian untuk membuat korban merasa istimewa. Cara manipulasi ini dilakukan agar korban merasa dicintai dan diperhatikan. Di sisi lain, pelaku dapat mengontrol korban dengan cara mengintimidasi sehingga korban merasa takut dengan pelaku. 2. Accessibility Kemudahan akses untuk berinteraksi dengan korban menjadi salah satu faktor terjadinyaonline child grooming. Pelaku dapat mengakses korban melalui internet tanpa harus bertatap muka secara langsung dan tanpa harus membuka identitas aslinya. Dalam dunia nyata, orang tua lebih berwaspada terhadap orang yang berinteraksi langsung dengan anak mereka. Namun, mereka tidak waspada dengan interaksi onlinedan kurang terlibat dalam kehidupan online anak mereka. Menurut penelitian, 20% anak yang menggunakan jejaring sosial mengatakanpernah berbicara dengan orang asingdi internet dan 20% diantara mereka berumur 9 hingga 12 tahun (Whittle, Hamilton-Giachritsis, Beech, & Collings, 2013).Pelaku memanfaatkan teknologi internet untuk berinteraksi baik satu atau dua arah dengan korbanmelalui chat room, blog, mediasosial, forum atau bulletin. 15 3. Rapport Building Sebagai bagian dari membangun hubungan, pelaku melakukan penyesuaian perilaku dan gaya berkomunikasi sehingga membuat korban nyaman berbicara dengan pelaku. Selain itu pelaku mencari tahuketertarikandan keadaan sekeliling korbannya. Agar tindakan yang dilakukan oleh pelaku dengan korban tidak diketahui oleh orang lain, pelaku biasanya meminta korban merahasiakan hubungan mereka. 4. Sexual Context Hubungan seksual merupakan tujuanonline child grooming. Untuk kapan dan bagaimana hubungan seksualitas dimulai tergantung dari masingmasing pelaku. Untuk memulai hubungan seksual dapat dilakukan dengan berbagai macam seperti berbicara jorok, merayu korban, mengirim gambar porno atau menghubungkan ke dalam hal-hal berbau pornografi. 5. Risk Assessment Penilaian resiko terhadap korban dilakukan sebelum dan pada saat online child grooming. Penilaian resiko dilihat dari beberapa aspek yaitu individu korban, faktor yang berkaitan dengan internet dan lingkungan sekitarnya(Houtepen, Sijtsema, & Bogaerts, 2014). Selain itu, pelaku melakukan manajemen resiko. Terdapat tiga cara yang dilakukan oleh pelaku dalam management resiko (Whittle, Hamilton-Giachritsis, Beech, & Collings, 2013) yaitu a. Berhubungan dengan teknologi yang digunakan dan logistik yang terkait dengan pelaku. Sebagai contoh menggunakan beberapa 16 hardware, alamat IP yang berbeda, dan berbagai metode penyimpanan. b. Pelaku menahan diri berkomunikasi dengan korban di ruang publik dan memilih penggunaan email pribadi atau ponsel. c. Pelakubertemu dengan korban dengan melakukan pertemuan yang jauh dari lingkungan korban. Namun, ada penelitian yangmengatakan bahwa managemen resiko tidak dimanfaatkan oleh semua pelaku, karena mereka mengganggap tidak melakukan sesuatu yang salah sehingga tidak ada yang perlu disembunyikan. 6. Deception Dalam online child grooming, terkadang pelaku menyamar sebagai teman sebaya atau anak muda. Penelitian mencatat bahwa 5% pelaku menyamar sebagai anak muda ketika berkomunikasi dengan korban (Whittle, Hamilton-Giachritsis, Beech, & Collings, 2013). Sebagian besar pelaku memberitahu korban bahwa mereka adalah orang dewasa yangingin membangun hubungan khusus dengan korban. Sebagian besar korban bertemu pelakusecara langsung dan melakukan hubungan seks. Sehingga dapat disimpulkan sebagian besar korban sadar mereka berkomunikasi dengan orang dewasa dan mengambil risiko untuk berinteraksi dengan pelaku. 17 2.3.1 Tipe Pelaku Online Child Grooming Terdapat dua tipe pelaku dalam melakukan online child grooming (Katz, 2013) yaitu 1. Contact Driven Offender Pelaku memanfaatkan teknologi internet seperti chat room untuk mendekati dan membangun hubungan seksual dengan korbannya. Teknologi internet digunakan sebagai media untuk mencari, berkomunikasi dan melakukan pendekatan dengan korban. 2. Fantasy Driven Offender Pelaku memanfaatkan teknologi internet sebagai media untuk berhubungan dengan korban dengan tujuan cybersex dan masturbasi. 2.3.2 Proses Online Child Grooming Menurut O’Connell (2004), proses online child grooming terdiri dari lima proses. Kemudian disempurnakan kembali oleh Gupta, Kumaraguru, dan Ashish(2014) sehingga proses online child grooming terdiri enam proses yaitu: 1. Friendship Forming Stage Pada tahap ini pelaku berkenalan dengan korbannya seperti bertukar nama, lokasi, umur, dan lainnya. Selain itu, pelaku biasa menanyakan infomasi akun online lainnya serta meminta gambar dari korban untuk memastikan korban yang didekati belum dewasa. 2. Relationship Forming Stage Pada tahap ini, pelaku dan korban berbicara tentang keluarga dan sekolah kehidupan korban. Pelaku mencoba mengetahui minat dan hobi korban 18 sehingga pelaku dapat memanfaatkan informasi tersebut untuk membuat korban percaya bahwa mereka berada dalam suatu hubungan. 3. Risk Assessment Stage Pada tahap ini, pelaku mencoba untuk mengukur tingkat resiko, ancaman dan bahaya berhubungan dengan korban. Pelaku memastikan hubungan dengan korban tidak diketahui orang lain dari pihak korban dan memastikan orang lain tidak membaca percakapan mereka. Biasanya pelaku meminta korban menghapus history chat. 4. Execlusivity Stage Pada tahap ini, pelaku mencoba mendapatkan kepercayaan dari korban. Pelaku menegaskan kepada korban bahwa mereka mempunyai ikatan khusus. Seringkali konsep cinta dan perhatiandigunakan oleh pelaku pada tahap ini. 5. Sexual Stage Tahap ini yang paling berbeda dengan tahap lainnya karena rasa percaya dan 'cinta' telah dibangun oleh pelaku pada tahap ini. Pelaku membicarakan aktivitas seksual. Menurut O’Connell (2004) dalam tahap ini terdapat perilaku fantasi yang dilakukan. Berikut tahap-tahapnya yaitu: a. Initial Stage Pada tahap awal biasanya menggambarkan skenario tertentu. Misalnya “I am lying naked in warm bath and you are sitting at the edge of the bath wearing only a silk robe that falls open” (Pelaku). b. Fantasy enactment based on perception of mutuality 19 Berbagai pendekatan berbeda dilakukan untuk mengajak atau mempengaruhi korban secara emosional untuk melakukan cybersex seperti masturbasi, oral sex, virtual penetrativedan sex secara online. c. Fantasy enactment overt coercion counter balanced with intimacy Beberapa pelaku menerapkan pemaksaan terhadap korbannya agar bersedia menjadi bagian dari fantasi seks pelaku. Berikut contoh percakapan pelaku memaksa korban: Pelaku : tell me how you would touch my c***k Korban : i fell uncomfortable Pelaku : just do it,come on just do it, what are you waiting for? d. Cyber-rape fantasy enactment overt coercion, control and aggression Pada tahap ini, pelaku akan menggunakan kata-kata yang lebih agresif untuk memaksa korban. Pada tahap ini, pelaku seakan-akan memerintah korbannya. Berikut contohnya: “do as I f**king say right now bitch or you will be in big f**king trouble” (Pelaku) 6. Conclusion Stage Pada tahap ini, pelaku mengajak korban untuk bertemu secara pribadi. Pelaku biasanya membahas tentang di mana mereka dapat bertemu dan apa yang akan dilakukan ketika bertemu. 20 Untuk deskripsi dari masing-masing tahap yang telah dijelaskan di atas dapat dilihat pada Tabel 2.1. Tabel 2.1 Deskripsi Setiap Tahap Proses Online Child Grooming Tahap Deskripsi 1 Deskripsi 2 Deskripsi 3 Deskripsi 4 Friendship Bertukar alamat Membicarakan Mendapatkan Menanyakan umur, forming email, foto, tentang pacar informasi jenis kelamin, lokasi, informasi tentang akun nama, informasi webcam online korban pribadi, detil tentang lainnya keluarga korban Relationship Bertukar alamat memberikan Membicarakan Membicarakan forming email, foto, pujian seperti hobi, aktivitas tentang sekolah, informasi lebih manis, cantik dan kesukaan prestasi disekolah, anak tugas sekolah mendalam Risk Mengecek orang Meminta korban Mengecek Secara langsung assessment tua korban ada untuk apakah korban memastikan bahwa didekatnya atau menghapus chat bersedia dekat korban bukan polisi siapa saja yang log, memastikan dengan pelaku atau agen yang menggunakan tidak ada orang menyamar sebagai komputer korban lain yang anak mengetahui password korban Exclusivity Sexual Mengekpresikan Menjelaskan Memberikan Membangun rasa jatuh cinta dan aktivitas seksual pujian yang kuat percaya korban memberikan dan pengalaman ekslusivitas pelaku kepada kepada korban korban Memberikan Menjalin Bertukar foto Memberikan pujian penjelasan hubungan seksual atau yang mengandung tentang istilah (berpacaran) bagian dari tubuh seksualitas Mengatur waktu Mendiskusikan Memastikan Menentukan apa yang dan lokasi untuk bagaimana cara korban akan akan dilakukan ketika bertemu secara pulang pergi dari datang sendiri bertemu nanti langsung tempat kepada pelaku yang mengandung seksualitas Conclusion pertemuan 21 2.3.3 Percakapan dalam Online Child Grooming Wollis (2011) melakukan penelitian untuk mengetahui kata-kata yang sering digunakan dalam percakapan online child grooming yang kemudian disempurnakan kembali oleh Black, Wollis, Woodworth, Hancock (2015). Katakata tersebut dikategorikan berdasarkan proses online child grooming menurut O’Connell (2004) pada Tabel 2.2. Tabel 2.2 Kata-Kata yang Sering Digunakan Dalam Percakapan Online Child Grooming Tahap Friendship forming Relationship forming Risk assessment stage Kategori You Friend Social Work Leisure Positive emotion Achieve Money Religion Family Home They Negative emotion Exclusivity Anxious Negate We Quantitative Discrepancy Exclusive Sexual Sexual Conclusion Feel Biology Body Time Motion Space Relative Kata You Friend, boyfriend, girlfriend, lover Adult, anyone, personal, party, outsider, fight, story, mentions, dating, helpful, phone, private, public, gossip Homework, office, school Art, bands, game, hangout, sport, television, movie Cares, casual, cherish, comfort, cute, nice, LMAO Best, better, confidence, control, important, work Income, store, value, rich, wealth, compensate Church, God, heaven, hell, sacred, paradise Daughter, mother, husband, aunt, , brother, mom, dad, sister,uncle, family, and folks Apartment, kitchen, family, Bedroom, home, neighbor, Rooms They, their, they’d Crap, cry, difficult, hate, heartbreak, tough, unimportant, punish, sad, lose Worried, fearful, nervous Needn’t, neither, no, never, nope, nothing, shouldn’t, wasn’t, won’t We Greatest, lots, part, same, somewhat, single, several Could, couldn’t, desire, hope, need, normal, ought, prefer, rather, want, wish, would, wouldn’t But, without, exclude Hug, hump, make out, love, p*nis,prude, pussy, sex, vagina, virgin,dick, breast, cock, fuck, orgasm Caress, feel, grab, hot, rough, rub, squeeze, touch, wet Erection, jizz, sex, foreplay, nipple, fucked, hug, condom Anal, ass, breast, chest, cock, dick, pussy, horny, tit, vagina After, anytime, date, early, evening, fast, hurry, immediately, whenever, today, tomorrow, tonight, soon, now Appear, arrive, car, change, coming, drive, go, going, leaving, visit Anywhere, around, near, everywhere, street, map, where Sexual Anytime, city, close, far, heading, rush, whenever, weekend Horny, love, incest 22 2.3.4 Karakteristik Online Child Grooming Terdapat 20 karakteristikyang menggambarkan tindakan online child grooming (Pranoto, Gunawan, & Soewito, 2015): 1. Asking Question To Know Risk Of Conversation Pelaku mencari tahu resiko dari korban yang sedang didekati. Biasanya pelaku menanyakan apakah orangtua atau keluarga korban mengetahui percakapan yang dilakukan. Selain itu, pelaku menanyakan siapa saja yang menggunakan komputer ini, di mana letak komputer, dan menanyakan apakah orang tua korban mengetahui password dari aplikasi yang mereka gunakan untuk berkomunikasi. 2. Acknowledging wrong doing Pelaku memastikan korban menyadari resiko yang akan dihadapi. Pelaku akan menginformasikan kepada korban apa yang mereka lakukan salah, dan memiliki risiko hukum bagi pelaku. Dengan mengatakan ini kepada korban, pelaku berharap tidak terjerat kasus hukum karena hubungan mereka dibangun berdasarkan kemauan korban. 3. Asking relationship with parents Pelaku menanyakan hubungan korban dengan orangtuanya. Apabila korban memiliki hubungan yang buruk dengan orangtuanya maka akan menguntungkan pelaku. Karena anaktersebut akan membutuhkan kasih sayang dan perhatian. Dengan memanfaatkan ini pelaku mendekati korban dengan memberikan kasih sayang, perhatian besar dan memenuhi apa yang dibutuhkan oleh korban. 23 4. Asking if child is alone or adult supervision or friend Pelaku memastikan bahwa komputer tidak digunakan oleh orang lain, sehingga tidak ada kemungkinan pelaku akan terkena kasus hukum jika orang dewasa, kakak, dan teman korban melaporkan percakapan mereka kepada orang tua korban. 5. Other way contact Pelaku akan menanyakan cara lain untuk berkomunikasi dengan korban sehingga pelaku akan memiliki alternatif lain untuk berkomunikasi dengan korban baik suara, video ataupun gambar yang dapat meningkatakan kepuasan dalam berkomunikasi dengan korbannya. 6. Trying building mutual trust Pelaku mencoba untuk membangun rasa percaya dari korban karena jika mendapatkan kepercayaan dari korban maka akan memudahkan pelaku untuk membangun hubungan dengan korban ke tingkat berikutnya 7. Using word in feel category Dalam percakapan antara pelaku dan korban mengunakan kata-kata yang berhubungan dengan perasaan untuk mengungkapkan perasaan mereka. 8. Using word in biology, body, and sexual category Dalam percakapan antara pelaku dan korbanmenggunakan kata-kata yang mengandung konteks seksual. 9. Using child related vocabulary Pelaku kadang-kadang menggunakan istilah yang biasa digunakan oleh anak-anak saat menyebut organ seksual mereka. 24 10. Calling intimate parts using popular name or using slang word instead intimate parts Pelaku menggunakan istilah popular atau slang untuk menyebutkan bagian intim mereka. 11. Reframing Pelaku membawa topik pembicaraan kedalam topik yang berhubungan dengan seks. Pada saat membawa pembicaraan ke topik tersebut, pelaku memanipulasinya dengan hal lain seperti mengajak bermain, latihan dan mengajar. 12. Asking hot picture Pelaku meminta foto seksual korban. Foto tersebut akan digunakan untuk berimajinasi, atau sebagai alat untuk mengancam korbannya sehingga korban menuruti apa yang diminta oleh pelaku. 13. Communication desensitizing Untuk membuat korban merasa nyaman saat membahas sesuatu yang berhubungan dengan seks, pelaku akan melakukan proses desensitizing. Pelaku akan berpura-pura salah ketik dengan kata-kata yang termasuk dalam kategori seks, misalnya kata "pick" ditulis menjadi "d*ck”. 14. Telling the sexual preferences or desires and sexual experiences Pelaku mencoba mengetahui preferensi seksual korban dengan menanyakanseperti apakah korban tidak keberatan untuk berhubungan seks dengan pelaku. Pelaku juga menanyakan pengalaman seksual korban. Menurut pelaku, korban yang pernah berhubungan seks akan lebih mudah 25 untuk berhubungan seks dengan pelaku, dan tidak tabu untuk membicarakan seks. 15. Introduced sexual stage Pelaku melakukan percakapan yang berhubungan dengan seks, namun belum sampai tahap imajinasi seks. 16. Fantasy enactment initial stage Pelaku akan membawa percakapan yang melibatkan imajinasi yang biasanya menggambarkan skenario tertentu 17. Fantasy enactment based activity Pelaku mengajak atau mempengaruhi korban secara emosional untuk melakukan cybersex seperti masturbasi, oral sex, virtual penetrative sex. 18. Fantasy enactment overt coercion counter balanced with intimacy Pelaku membawa percakapan ke dalam tahap imajinasi seksual dengan menggunakan kata-kata yang menunjukan aktivitas yang melibatkan keintiman dengan korbannya. Beberapa pelaku mungkin menerapkan pemaksaan agar korban bersedia menjadi bagian dari fantasi seks pelaku. 19. Fantasy enactment rape fantasy control and aggression Pelaku menggunakan kata-kata yang lebih agresif untuk memaksa korban menjadi bagian fantasi seksnya. Pelaku seakanmemerintah korbannya. 20. Arrange further contact and meeting Pelaku mengajak korban bertemu secara langsung baik dirumah korban maupun di tempat lainnya. 26 2.4 Penelitian Online Child Grooming Sebelumnya Beberapa tahun terakhir, beberapa peneliti melakukan penelitian terkait analisi dan deteksionline child grooming pada percakapan teks secara otomatis. Pada tahun 2010, Kontostathis, Edwards dan Leatherman mengidentifikasi tipetipe pelaku berdasarkan pola percakapanmenggunakan algoritma k-means. Terdapat delapan kategori yang digunakan untuk menentukan tipe pelaku yaitu activities, personal information, compliment, relationship, reframing, communicative desensitization, isolation,dan approach. Pada tahun 2011, Mcghee et al melakukan klasifikasi percakapan ke dalam kategori strategi yang digunakan pelaku dalam online child grooming. Peneliti membuat sistem yang dinamakan bernama ChatCoder 2 yang merupakan perbaikan dari ChatCoder 1 yang telah buat sebelumnya. ChatCoder 2 didesain untuk menentukan baris dari percakapan yang mengandung online child grooming. Peneliti menggunakan algoritma rule-base untuk mengklasifikasi percakapan ke dalam empat kategori komunikasi yang dilakukan pelaku dalam yaitu exchange personal information, grooming, approach dan tidak mengandung ketiganya. Pada tahun 2012, Pandey, Klapaftis dan Manandhar melakukan klasifikasi percakapan teks untuk mendeteksionline child grooming. Peneliti menggunakan konsep N-gramdi mana setiap N baris percakapan (satu baris sama dengan satu percakapan user) dikelompokan sebagai satu vektorpadasetiap dokumen percakapan. Perhitungan bobot setiap N-gram menggunakan TF-IDF. Untuk klasifikasi, peneliti menggunakan metode SVMdi mana setiap vektor (N-gram) akan diklasifikasi ke dalamkelas predatory atau non-predatory. Kemudian dari 27 hasil klasifikasi, sebuah percakapan dianggap online child grooming apabila hasil pembagian jumlah N-gramkelas predatory dengan jumlah N-gram percakapan lebih besar dari nilaithreshold yang ditentukan oleh peneliti. Akurasi klasifikasi paling baik didapatkan dengan menggunakan 3-gram, namun hasil akurasi klasifikasi meningkat dengan menambahkan stylistic untuk membedakan gaya penulisan. Hasil stylistic tersebut ditambahkan dengan hasil pembobotanTFIDFsebelum dilakukan klasifikasi. Pada tahun 2015, Pranoto, Gunawan dan Soewito melakukan penelitian klasifikasi percakapan teks untuk mendeteksi online child grooming. Setiap percakapan ditransformasi kedalam model vector space dengan melakukan ekstraksi fitur menggunakanTF-IDF. Kemudian, setiap percakapan diidentifikasi untuk mengetahui karakteristik online child grooming apa saja yang terdapat pada percakapan. Karakteristik tersebut dibatasi ke dalam dua puluh karakteristik yang ditandai dengan 1 apabila mengandung karakteristik tersebut atau 0 apabila tidak mengandung karakteristik tersebut. Peneliti membangun model logistic untuk mengetahui karakteristik yang paling menentukanhasil klasifikasi percakapan. Terdapat tiga model yang dihasilkan dan model ketiga menyatakan karakteristik “Other way contact” dan “Telling the sexual preference or desire and sexual experience” merupakan karakteristik yang paling menentukan percakapan sebagaipercakapanonline child grooming. Model logistic ketiga tersebut digunakan untuk klasifikasi percakapan. 28 2.5 Data Mining Data miningmerupakan proses menemukan pola menarik dan pengetahuan dari data berkapasitas besar (Han, Kamber, & Pei, 2012). Data miningakan mengekstrak informasi berharga dengan menganalisis pola-pola ataupun hubungan keterkaitan dari data-data. Data mining dapat diartikan sebagai “knowledge mining from data” atau menggali pengetahuan dari data. 2.5.1 Kategori Data Mining Data miningdibagi menjadi dua kategori (Han, Kamber, & Pei, 2012) yaitu: 1. Prediktif Tujuannya untuk memprediksi nilai dari atribut tertentu berdasarkan nilai atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variabel tak bebas, sedangkan atribut yang digunakan untuk membuat prediksi dikenal sebagai explanatory atau variabel bebas. 2. Deskriptif Tujuannya untuk mengidentifikasi karakteristik data dalam set data target. 2.5.2 Fungsionalitas Data Mining Fungsionalitas data mining digunakan untuk melakukan spesifikasi jenis pola yang ditemukan saat melakukan data mining. Berikut fungsionalitas data mining(Han, Kamber, & Pei, 2012): 29 1. Class/Concept Description: Characterization and Discrimination Bertujuan untuk mendapatkan karakteristik yaitu rangkuman dari karakteristik umum atau fitur dari kelas set data targetdan mendeteksi perbedaan denganmembandingkanfiturumumobjekdata targetdenganfiturumumobjek dari satuatausatu set datalainnya. 2. The Mining of frequent patterns, Associations, and Correlations Frequent Patterns adalah pola yang sering terjadi di dalam data. Ada banyak jenis dari frequent patterns, termasuk di dalamnya pola, sekelompok item set, sub-sequence, dan sub-struktur. Sebuah frequent patterns biasanya mengacu pada satu set item yang sering muncul bersama-sama dalam suatu kumpulan data transaksional. Associations Analysis adalah pencarian aturan-aturan asosiasi yang menunjukan kondisi-kondisi nilai atribut yang sering terjadi bersama-sama dalam sekumpulan data. Analisis asosiasi sering digunakan untuk menganalisa Market Basket Analysis dan data transaksi. 3. Classification and Regression Klasifikasi adalah proses menemukan model (atau fungsi) yang menggambarkan dan membedakan kelas data atau konsep. Model dibuat berdasarkan analisis data pelatihan (yaitu, objek data yang label kelas diketahui) yang kemudian digunakan untuk memprediksi label kelas objek yang label kelas tidak diketahui. Sedangkan regressionadalah metodologi statistik yang sering digunakan untuk prediksi numerik. Regressionjuga mencakup identifikasi distribusi tren berdasarkan data yang tersedia. 30 4. Clustering Analysis Tidak seperti classification dan regression yang melakukan analisis data yang label kelasnyasudah diketahui, clustering menganalisa data yang tidak mempunyai label class.Clusteringbertujuan untuk melakukan segmentasi data yang heterogen ke dalam subgrup berdasarkan kemiripan karakteristikdata. 5. Outlier Analysis Digunakan untuk menganalisis data yang tidak sesuai dengan model data. Data tersebut dinamakan outlier yang dianggap sebagai noise atau pengecualian. Teknik ini berguna dalam fraud detection dan rare events analysis 6. Evolution analysis Analisis evolusi memodelkan trend dari objek yang memiliki perilaku yang berubah setiap waktu. Teknik ini dapat meliputi karakterisasi, diskriminasi, asosiasi, klasifikasi, atau clustering dari data yang berkaitan dengan waktu. 2.5.3 AplikasiData Mining Data miningdapat diaplikasikan ke dalam berbagai domain. Berikut beberapa contoh: 1. Relational Marketing Data mining digunakan untuk mendukung marketing seperti mengidentifikasi customer segmen yang untuk target marketing, memprediksi respon positif untuk kampanye produk. 31 2. Fraud Detection Data mining digunakan untuk mendeteksi penipuan dalam industri seperti asuransi (klaim palsu) atau banking (penggunaan kartu kredit secara ilegal). 3. Risk Evaluation Data mining digunakan untuk analisis resiko untuk memperkirakan resiko yang berhubungan dengan keputusan masa depan. 4. Medical diagnosis Data mining digunakan untuk diagnosis medis seperti mendeteksi penyakit sejak dini dengan menggunakan hasil tes lab. 5. Text mining Data mining digunakan untuk menganalisis teks yang tidak berstruktur untuk melakukan klasifikasi artikel, buku, dokumenatau halaman web. 6. Image Recognition Data mining digunakan untuk pengobatan dan klasifikasi citra digital, baik statis (gambar) dan dinamis (video) seperti mengidentifikasi tulisan, membandingkan dan mengidentifikasi wajah manusia, dan mendeteksi gerakan mencurigakan pada kamera tersembunyi. 7. Web Mining Data mining digunakan untuk menganalisa web seperti untuk menganalisis click stream (urutan halaman yang dikunjungi dan dipilih oleh pengunjung web). 32 2.6 Text Mining Text miningmerupakan salah satu aplikasi dari data mining. Text miningberusaha untuk mengekstrak informasi yang berguna dari sumber data melalui identifikasi dan eksplorasi pola yang menarik. Dalam text mining, sumber data berupa koleksi dokumen sehingga informasi maupun pola yang menarik ditemukan pada data yang berada pada koleksi dokumen(Feldman & Sanger, 2007). Dokumen berupa teks biasanya tidak terstruktur oleh karena itu text mining akan memproses data yang tidak terstruktur. 2.6.1 PreprocessingText Mining Text mining akan menggali dokumen berupa teks yang bentuknya tidak terstruktur sehingga informasi pada sumber data akan sulit untuk diekstrak. Dokumen merupakan entitas abstrak yang memilliki berbagai kemungkinan representasi yang sebenarnya. Oleh karena itu perlu dilakukan preprocessing terhadap sumber data yaitu teks sehingga menjadi lebih terstruktur. Untuk melakukan strukturisasi terhadap sumber data terdapat beberapa tahap yang perlu dilakukan yaitu (Feldman & Sanger, 2007): 1. Preparatory Processing Pada tahap ini struktur sumber data mentah ditransformasi menjadi struktur yang cocok untuk diproses lebih lanjut. Sebagai contoh, sumber data dari dokumen PDF, hasil scan, atau pidato. Pada tahap ini dilakukan konversi sumber data dalam bentuk teks seperti paragraf, kolom, atau tabel. Jumlah sumber data dokumen sangat besar, dan kemungkinanformat sumber data berbeda sehingga diperlukan beberapa teknik untuk 33 mengkonversi dari beberapa format menjadi bentuk teks seperti Optical Character Recognition (OCR), pengenalan suara, dan konversi file elektronik lainnya. 2. Natural Language Process Pada tahap ini, isi dari dokumen diproses agar dapat dipahami oleh komputer. Berikut beberapa natural languange process yang dapat dilakukan pada preprocessing: a. Tokenization Merupakan proses pemecahan dokumen. Dokumen dapat dipecah menjadi beberapa tingkat berbeda seperti bab, paragraf, kalimat, kata-kata bahkan suku kata. b. Stop Word Removal Merupakan proses menghapus kata yang terdapat dalam stop list (daftar kata umum yang tidak penting) pada dokumen. c. Stemming Merupakan proses mengubah kata menjadi bentuk kata dasar.Proses stemming dilakukan dengan menghilangkan semua imbuhan (afiks) baik yang terdiri dari awalan (prefiks), sisipan (infiks) maupun akhiran (sufiks) dan kombinasi dari awalan dan akhiran (konfiks). Contoh: running menjadi run. Algoritma yang sering digunakan dalam bahasa inggris yaitu algoritma porter yang terdiri dari 5 langkah. Pada setiap langkah terdapat beberapa aturan dan kondisi untuk menghilangkan imbuhan(Porter, 1980). 34 d. Syntactical Parsing Merupakan proses melakukan analisis sintaksis kalimat menurut teori tata bahasa yang benar. e. Part-of-Speech (POS) Tagging Merupakan proses pemberian label kelas kata pada suatu kata.Tag POS ini akan memberikan informasi tentang isi semantik dari sebuah kata. Tag yang umum yaituarticle, noun, verb, adjective, preposition, number, dan proper noun. 2.6.2 Text Representation Text representation merupakan salah satu bagian utama dari text mining. Text representation merupakan hal mendasar dan diperlukan untuk pengolahan informasi inteligen berbasis teks (Wen, Yoshida, & Tang, 2011). Kemampuan klasifikasi dalam text miningsecara akurat bergantung pada representasi teks dari sumber data dokumen. Hal ini dikarenakan text miningmenggunakan data yang tidak terstruktur. Text representation digunakan untuk transformasi teks menjadi vektoryang biasa dikenal dengan model vector space atau Vector Space Model yang disingkat VSM(Wen, Yoshida, & Tang, 2011).Dalam model vector space, dokumen diwakili dengan vektor dari fitur-fitur yangdiekstrak. Untuk mendapatkan nilai vektor bobotyangmewakiliseberapa dari dokumen tersebutdilakukanperhitungan pentingfiturdalamdokumendan dalamkeseluruhankoleksi dokumen. Fitur-fitur yang akan dilakukan perhitungan bobot yaitu sebagai berikut(Khan, Baharudin, Lee, & Khan, 2010): 35 1. Fitur Unigram Dalam fitur ini, kata dan simbol dalam dokumendihitung sebagai satu fitur yang kemudian direpresentasikan dalam bentuk vektor. 2. Fitur N-gram Dalam fitur ini, gabungan N kata dan simbol dalam dokumendihitung sebagai satu fitur yang kemudian direpresentasikan dalam bentuk vektor. Semua fitur yang diekstrak dinyatakan dengan , ,…, yang membentuk daftar kata. Sehingga dokumendirepresentasikan dalam vektor di mana , ,…, merupakan hasil perhitungan bobot fitur . Perhitungan bobot yang biasa digunakan antara lain(Khan, Baharudin, Lee, & Khan, 2010): 1. Feature Frequency (FF) Pembobotan ini merupakan cara paling sederhana. Pembobotan dilakukan dengan menghitung jumlah kemunculan fitur dalam dokumen. Misalnya fitur “kelas” muncul sebanyak sepuluh kali dalam satu dokumen, maka bobot dari fitur tersebut adalah sepuluh. 2. Feature Presence (FP) Bentuk vektor dari pembobotan ini adalah vektor biner. Fitur yang ada dalam dokumen diberi bobot 1 dan yang tidak ada diberi bobot 0. Misalnyafitur “kelas” muncul sebanyak sepuluh kali dalam dokumen, maka bobot dari fitur tersebut adalah 1. 3. TermFrequency–InverseDocumentFrequency(TF-IDF) TF-IDF merupakan metode menghitung banyak term yang ditemukan dalam dokumen.TF-IDF terdiri dari dua hal yaitu frekuensi term dalam dokumen yang disebut term frequency(TF) dan frekuensi dokumen yang 36 mengandung tersebut term yang disebut Inverse-Document Frequency(IDF).PersamaanTF-IDFweighting term untuk term dokumen sebagai berikut Weight , IDF di mana pada TF , log IDF 1 N DF 2 TF = Term Frequency IDF = Inverse Document Frequency DF = Document Frequency N = jumlah dokumen Berikut contoh perhitungan bobot dengan menggunakan TF-IDF. Terdapat tiga buah dokumen. Dokumen 1:"A birthday present!" said white mouse. Dokumen 2:"a mouse present?" asked brown cat Dokumen 3: "Wow, a birthday present," said blackcat Dari ketiga dokumen tersebut akan dicari frekuensi term (TF) “birthday”, “said”, “mouse”. Hasilnya ditampilan pada Tabel 2.3. Tabel 2.3 Frekuensi Term (TF) “birthday”, “said”, “mouse” Pada Setiap Dokumen Term (t) Birthday Said Mouse Kemudian Dokumen 1 (d1) 1/6 1/6 1/6 dicari frekuensi , Dokumen 2 (d2) 0 0 1/6 dokumen (DF) Dokumen 3 (d3) 1/7 1/7 0 yang mengandung term“birthday”, “said”, “mouse” yang hasilnya ditampilkan pada Tabel 2.4. 37 Tabel 2.4DocumentFrequency (DF) yang Mengandung Setiap Term Term (t) Birthday 2 Said 2 Mouse 2 Setelah mendapatkan DF, kemudian didapatkan IDF dengan persamaan (2)yang hasilnya ditampilkan pada Tabel 2.5. Tabel 2.5Inverse Document FrequencyPada Setiap Term = Term (t) Birthday Said Mouse 3 2 3 log 2 3 log 2 log 0.4055 0.4055 0.4055 Dari TF dan IDF maka akan didapatkan TF-IDF dengan persamaan (1)yang hasilnya ditampilkan pada Tabel 2.6. Tabel 2.6 Hasil TF-IDF Pada Setiap Dokumen , Term (t) Dokumen 1 (d1) Birthday Said Mouse 1 0.4055 6 1 0.4055 6 1 0.4055 6 * IDF Dokumen 2 (d2) 0,067583 0 0,067583 0 0,067583 1 0.4055 6 Dokumen 3 (d3) 1 0.4055 7 1 0.4055 7 0,067583 0,0579285 0,0579285 0 2.7 Klasifikasi Klasifikasi merupakan proses menemukan model (atau fungsi) yang menggambarkan dan membedakan kelas data atau konsep. Dalam klasifikasi, data dianalisa untuk membuat model atau clasifier yang digunakan untuk memprediksi kelas label (kategori) seperti “aman” atau “beresiko” untuk data 38 aplikasi peminjaman, “yes” atau “no” untuk data marketing, serta “cara 1”, “cara 2” atau “cara 3” untuk data medis (Han, Kamber, & Pei, 2012). Kategori dapat direpresentasikan menggunakan nilai diskrit (urutan nilai tidak memiliki arti) seperti nilai 1, 2, dan 3 digunakan untuk merepresentasikan cara 1, 2, dan 3. Dalam klasifikasi data terdapat dua proses yang dilakukan yaitu (Han, Kamber, & Pei, 2012): 1. Tahap Pembelajaran (Learning Step) Pada tahap ini, datapelatihan yang telah diketahui label-labelnya digunakan dan dianalisis untuk membangun model atau clasifier. 3 Gambar 2.1 Tahap Pembelajaran(Han, Kamber, & Pei, 2012) 2. Tahap Klasifikasi (Classification Step) Untuk mengetahui keakuratan model yang dibangun pada tahap pembelajaran, maka digunakan data pengujianuntuk memprediksi labellabelnya. 39 4 Gambar 2.2 Tahap Klasifikasi(Han, Kamber, & Pei, 2012): 2.8 Support Vector Machine (SVM) SVM diperkenalkan pertama kali olehVapnik, Boser dan Guyon pada tahun 1992. SVM merupakan metode klasifikasi untuk data linear dan non-linear (Han, Kamber, & Pei, 2012). SVM dapat melakukan klasifikasi untukinput space yang berdimensi tinggi (Khan, Baharudin, Lee, & Khan, 2010). Konsep SVM secara sederhana mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah kelas pada input space.Hyperplane terbaik memiliki margin paling besar. Dengan hyperplane terbaik, tidak hanya meminimalkan empirical risk yaitu rata-rata kesalahan pada data pelatihan, tetapi juga memiliki generalisasiyang baik. Generalisasi merupakan kemampuan untuk mengklasifikasikan data yang tidak terdapat dalam data pelatihan dengan benar. Untuk menjamin generalisasi ini, SVM bekerja berdasarkan prinsip Structural Risk Minimization(SRM)(Khan, Baharudin, Lee, & Khan, 2010). 40 2.8.1 SVM pada Linearly Separrable Datta Linearly separable s daata merupakkan data yaang dapat dipisahkan seecara linear.. Data yangg tersedia dinotasikan d sebagai masing g-masing diinotasikan yn {+1,−1} untuk d sedanggkan label kelas k ddi mana n ad dalah banyak knya data. Pada gambaar 2.3terdappat berbagaii alternatif hyperplane h yang dapat memisahkan m n semua set datadalam d ddua buah kelaas. Gambar G 2.3 3 Alternatif Hyperplanee yang Mem mbagi Dua B Buah Kelas ( ) SVM mencari hyperpllane terbaik yang memissahkan semuua set data sesuai nya dengan mengukur margin hypperplane dan n mencari margin terbbesar. kelasn Margin adalah jarrak antara hyyperplane ddengan data terdekat darri masing-maasing kelas. Subset set data yang paling p dekat ini disebut sebagai supp pportvector. Pada Gambar 2.4 ditam mpilkan hypeerplane terbbaik di antarra alternatif hyperplane pada Gambar 2.3. 41 Gamba ar 2.4HyperpplaneTerbaiik di Antaraa Alternatiff HyperplanePada Gambar Sebelumnya (Gambar 2.3). Suppoort vectorDiggambarkan Dengan Lingkarran Pada Seet Data. Keduua kelas –1 dan +1 dappat dipisah secara semppurna oleh hyperplane h b berdimensi d, d yang didefinisikan denngan persam maan berikut . S Sebuah yaang termasukk kelas –1 (ssampel negaatif) dapat dirrumuskan seebagai data y yang memen nuhi pertidakksamaan untuk S Sedangkan yang term masuk kelas +1 (sampel positif) dappat dirumuskkan sebagai d yang memenuhi data m perrtidaksamaann untuk . merupakaan normal bidang dan b m merupakan posisi p bidangg relatif terh hadap pusat k koordinat. N Nilai margin dirumuskann dengan perssamaan d mana di 42 7 || || Margin maksimal didapatkan apabila nilai ||w|| minimum dari persamaan hyperplane · 0. Oleh karena itu, untuk mendapatkan margin terbesar dapat dirumuskan ke dalam permasalahan constraint optimization menjadi persamaan berikut min subject to 1 | | 2 8 · 1 0. Salah satu metode penyelesaian untuk permasalahan constraint optimization yaitu perkalian Lagrangesehingga dirumuskan menjadi persamaan berikut min , , 1 || || 2 · terhadap w dan b, maka dari 0 dan dari 9 0. subject to Dengan meminimumkan 1 0 diperoleh 10 0 diperoleh 0 0 11 43 Dari mensubtitusikan persamaan (10) dan (11), persamaan diubah ke dalampersamaan (primal problem) (dual problem) sebagai berikut 1 2 max 0 dan subject to 12 . . Dengan persamaan (12) akan didapatkan yang bernilai positif dan nilai w yangdidapatkan dengan persamaan (10). Data yang nilai lebih dari nol disebut sebagai support vector. Dengan mengetahui support vector, nilai bakan didapatkan dengan persamaan berikut 1 13 . Dengan mengetahui nilai w dan b maka persamaan hyperplane (1) didapatkan. Setelah menemukan persamaan hyperplane(1), selanjutnya klasifikasi data ke dalamkelasyn {+1,−1} didapatkan dengan persamaan berikut sgn . . 1 1 . 1 14 1 atau sgn 1 . 1 . 1 15 . 1 Sebagai contoh mencari hyperplane terbaik untuk dua buah data yang terpisah secara linear yaitu 1 dengan 0 1 dan 2 dengan 0 1. Dari persamaan (12) diselesaikan menggunakan quadratic programing menjadi 44 min 1 2 1 subject to 0 dan 0 ∞ Kemudian disederhanakan menjadi 1 min 1 2 1 10 1 1 20 1 min 1 2 1 2 subject to 2 1 1 20 1 1 ∞ 2 4 1 0 dan ∞ 1 2 2 1 1 2 0 dan subject to 2 0 2 0 1 10 0 dan subject to min 1 2 1 0 1 0 ∞. Dari persamaan quadratic programmingyang sudah disederhanakan akan dicari dan menggunakan perkalian Lagrange(variabel Lagrange diganti menjadi ) menjadi 2 2 . , Dari turunan parsial terhadap dan didapatkan tiga persamaan 0 0 Kemudian didapatkan nilai w sebagai berikut 0 2 1 2 0 . 1, 1 dan . Setelah itu, didapatkan nilai 45 1 1 0 1 2 0 1 1 1 0 dan nilai b didapatkan menggunakan support vector yang didapatkan sebagai berikut 1 . 1 2 . . 1 1 . 0 0 1 1 2 . 0 0 1 . Setelah mengetahui nilai w dan b maka didapatkan persamaan hyperplane yaitu · 0 1 · 0 Selanjutnya 0. untuk klasifikasi 3 0 data 1 ke 0 dan dalamkelas {+1,−1} didapat dengan 3 0 sgn . sgn 1 3 · 0 0 sgn 3 2 3 diklasifikasikan ke dalamkelas+1 dan 0 Sehingga data sgn . 1 0 Sehingga data 3 2 sgn 1 · 0 1 0 3 2 1 diklasifikasikan ke dalamkelas-1. 0 sgn 5 2 46 2.8.2 SVM pada Non linearly Separable Data Persamaan SVM untuk data nonlinearly separableberbeda dengan data linearly separable. Pencarian hyperplane terbaik didapatkan dengan penambahan yang biasa dikenal dengan soft margin hyperplane. variabel Gambar 2.5Soft Margin Hyperplane(Institut für Statistik und Wirtschaftsmathematik, 2008) Sebuah yang termasuk kelas –1 (sampel negatif) dapat dirumuskan sebagai data yang memenuhi pertidaksamaan · 1+ subject to Sedangkan untuk 1. 16 0. yang termasuk kelas +1 (sampel positif) dapat dirumuskan sebagai data yang memenuhi pertidaksamaan · 1subject to untuk 1 17 0. Oleh karena itu, untuk mendapatkan margin terbesar dirumuskan ke dalam permasalahan constraint optimization menjadi persamaan berikut 47 min 18 1 || || 2 subject to · 1 0 Variabel C merupakan parameter yang menentukan besar penalti akibat kesalahan dalam pengklasifikasian data dan nilainya ditentukan oleh pengguna. Persamaan (18) memenuhi prinsip SRM yang berarti meminimumkan error pada data pelatihan.Kemudian, permasalahan constraint optimizationdiselesaikan dengan menggunakan perkalian Lagrangesehingga dirumuskan menjadi persamaan berikut min 1 | | 2 , , · subject to Selanjutnya, formula 0 dan 19 1 0 (primal problem)(19) diubah ke dalam yang menghasilkan formula yang sama dengan formula (dual problem) (dual problem) (12). Sehingga untuk mencari hyperplane terbaik pada data non linearly separable dilakukan dengan cara yang hampir sama dengan mencari hyperplane pada data linearly separable. Yang membedakan yaitu rentang nilai . Apabila nilai menjadi 0 maka data tersebut dinamakan bounded support vector. Metode lain untuk melakukan klasifikasi data nonlinearlyseparable yaitu dengan mentransformasi data pada input spaceke dalamfeature space dari menjadi sehingga data dapat dipisahkan secara linear pada feature space. 48 Gambar 2.6Pemetaan dari Input Space ke Feature Space untuk Non-Linear SVM(Sarkar, 2010) Dimensi data pada feature space yang dihasilkan i akan lebih tinggi dari dimensi data pada input space. Hal ini dapat mengakibatkan komputasi pada feature space menjadi sangat besar(Vercellis, 2009). Untuk mengatasi permasalahan ini dapat dilakukan dengan kernel.Dengan menggunakan kernel, fungsi transformasi tidak perlu diketahui secara jelas. Berikut fungsi kernel umum yang sering gunakan: 1. Kernel Linear , · 20 2. Kernel Polinomial(sampai dengan dimensi D) , 1 21 · 3. Kernel Radial Basis Function (RBF) , exp | · | di mana 0 22 23 Variabel dinamakan dengan hyperparameter. Sehinggapencarian hyperplane terbaik untuk data non linearly separable formula (dual problem) pada persamaan (12) diubah menjadi berikut 49 1 2 max 24 . ∞ dan subject to 0 Dengan persamaan (24) diperoleh yang bernilai positif dan nilai w yang didapatkan dengan persamaan yang sama denganpersamaan(10) namun menjadi sebagai berikut 25 Data yang nilai lebih dari nol disebut sebagai support vector. Dengan mengetahui support vector, nilai b didapatkan dengan persamaan berikut 1 26 . 27 1 . 1 Dengan mengetahui nilai w dan b maka persamaan hyperplane(1)didapatkan. Setelah menemukan persamaan hyperplane, selanjutnya klasifikasi data ke dalamkelasyn {+1,−1} dapat dilakukan dengan persamaan berikut sgn . . 1 1 . 1 28 1 atau 1 . . 1 contoh mencari datanonlinearly separable yaitu 1 dan 29 . sgn Sebagai 1 2 dengan hyperplane 1 1 terbaik dengan untuk 1, dua 0 buah dengan 1. Dari persamaan (24) menggunakan 50 kernel polinomial dimensi 2 yaitu , 1 · yang diselesaikan menggunakan quadratic programming menjadi berikut: , , , min 1 2 , , , , , , 0 dan 0 subject to 1 ∞. Kemudian disederhanakan menjadi 4 1 9 min 1 2 1 1 1 0 dan subject to min 9 1 25 2 ∞ 1 2 9 0 dan subject to 25 2 1 2 1 2 1 2 ∞. Dari persamaan quadratic programmingyang sudah disederhanakan akan dicari , dan dengan menggunakan perkalian Lagrange(variabel Lagrange diganti menjadi ) menjadi 2 9 . , Dari turunan parsial terhadap 0 0 , dan didapatkan tiga persamaan 4 1 2 9 0 Dari empat persamaan di atas didapatkan nilai Setelah itu, nilai b didapatkan sebagai berikut 0 . 3, 2, 1 dan . 51 1 3 . . . 22 5 53 12. 3 Selanjutnya klasifikasi data 1 ke dalamkelas {+1,−1} dan didapat dengan: sgn . 4 1 sgn 1. 1 1 sgn 48 2 4 2 2 49 2. 4 3 3 3. 4 3. 5 12 sgn 9 . 3 diklasifikasikan ke dalamkelas+1. Sehingga data sgn . 5 1 sgn 1. 1 1 sgn 0 2 5 2 2 1 2. 5 3 3 12 sgn 9 . Sehingga data 1 diklasifikasikan ke dalamkelas+1. 2.9 K-Nearest Neighbor(k-NN) -Nearest Neighbor ( -NN) merupakan instant based learning algorithm yang melakukan klasifikasi data berdasarkan data dari set data pelatihan yang paling mirip data tersebut (Khan, Baharudin, Lee, & Khan, 2010). Pada metode - 52 NN akan ditentukan nilai yang digunakan untuk mengambil sebanyak data dari set data pelatihan yang paling mirip dengan data yang akan diklasifikasi. Untuk mengukur kemiripan antara data yang akan diklasifikasi dengan data dari set data pelatihan dilakukan dengan cara menghitung jarak antara kedua data tersebut. Sebelum dilakukan perhitungan jarak, data yang akan diklasifikasi dan data dari set data pelatihan direpresentasikan ke dalam vektor terlebih dahulu. Semakin besar nilai dari perhitungan jarak yang dihasilkan menandakan data dari set data pelatihansemakin mirip dengan data yang akan diklasifikasikan. Salah satu metode yang sering digunakan untuk mengukur jarak yaitu euclidean distancedengan persamaan berikut 30 Di mana , , ,…, dan , , ,…, . Klasifikasi menggunakan -NN dilakukan dengan dua tahap yaitu 1. Tahap Pembelajaran Pada tahap ini, datapelatihanyang telah ditransformasi kedalam bentuk vektor dan labelnya disimpan. 2. Tahap Klasifikasi Pada tahap ini, data yang akan diklasifikasi (data kueri) yang sebelumnya telah ditranformasi kedalam vektor mencari data dari set datapelatihan yang paling mirip dengan menghitung jarak antara kedua vektor tersebut. Dari hasil perhitungan tersebut, akan diambil sebanyak datapelatihanyang paling mirip. Dari data dari set data tersebut, data kueri dapat 53 diklasifikasikan dengan cara melihat label mayoritas dari seluruh data tersebut. Berikut contoh klasifikasi yang dilakukan menggunakan metode Terdapat dokumen -NN. yang akan diklasifikasi. Untuk melakukan klasifikasi terdapat set datapelatihanyang terdiri dari 3 dokumen yaitu 1, 2, 3 beserta labelnya.Dokumen-dokumen tersebut ditampilkan pada Tabel 2.7 Tabel 2.7Set dataPelatihan yang Terdiri Dari 3 Dokumen dan Dokumen yang Akan Diklasifikasi Nama Isi Dokumen Label Dokumen 1 Shipment of gold damaged in a fire Gold 2 Delivery of silver arrived in a silver truck Silver 3 Shipment of gold arrived in a truck Gold silver truck ? Dokumen Dari Tabel 2.7, dokumen 1, 2, 3 dari set datapelatihan dan dokumen ditranformasi ke dalam model vector spacepada Tabel 2.8. , Tabel 2.8 Hasil Transformasi , Dalam Model Vector Space Fitur (kata) A 1 1 1 0 Arrived 0 1 1 0 Damaged 1 0 0 0 Delivery 0 1 0 0 Fire 1 0 0 0 Gold 1 0 1 0 In 1 1 1 0 Of 1 1 1 0 Shipment 1 0 1 0 Silver 0 2 0 1 Truck 0 1 1 1 54 Hasil tranformasi dari 1, 2, 3 dan 1 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0 2 1, 1, 0, 1, 0, 0, 1, 1, 0, 2, 1 3 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1 menjadi 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1 Sebelum melakukan klasifikasi, ditentukan nilai 1. Setelah itu mencari dokumen dari set data pelatihan yang mirip dengan dokumen menggunakan eucludian distance. 1, 1 3 2, 2 2.45 3, 3 2.64 Dari hasil perhitungan, dokumen yang memiliki jarak terdekat adalah yaitu 2. Label 2 yaitu silver sehingga data kueri diklasifikasikan sebagai silver. 2.10 Evaluasi Model Klasifikasi Dalam melakukan evaluasi model klasifikasi yang telah dibuat, terdapat beberapa kriteria yang dapat dinilai yaitu akurasi, kecepatan, robustness dan skalabilitas(Vercellis, 2009). Untuk mengevaluasi model klasifikasi berdasarkan akurasi dapat diukur dari ketepatan model dalam melakukan klasifikasi. Salah satu metodenya yaituconfusion matrix. Confusion matrixmerupakan matriks yangterdiri dari baris dan kolom. Barisberhubungan dengan nilai yang sudah 55 diketahui sebelumnya sedangkan kolom berhubungan dengan nilai hasil prediksi yang telah dilakukan oleh model klasifikasi (Vercellis, 2009). Misalnyaconfusion matrix untuk memprediksi klasifikasi binaryuntuk nilai -1 (negatif) dan 1 (positif) pada Tabel 2.9. Tabel 2.9Confusion Matrix Prediction Actual -1 (negatif) 1 (positif) -1 (negatif) True Negative (TN) False Positive (FP) 1 (positif) False Negative (FN) True Positive (TP) Dengan confusion matrix akandidapatkan akurasi, positive predictive value (PPV) dan negative predictive value (NPV) dengan persamaan berikut: Accuracy = TP TN TP TN FN FP PPV = NPV = TP TP FP TN TN FN 31 32 33 5 Untuk mengevaluasi model berdasarkan kecepatan dapat diukur dari waktu untuk membuat model di mana datapelatihan yang telah diketahui labellabelnya digunakan dan dianalisis untuk membangun model atau clasifier. Selain itu kecepatan dapat diukur dari waktu yang dibutuhkan oleh model yang dibangun untuk melakukan klasifikasi terhadap data pengujian.Jika dilihat dari robustness, evaluasi model dapat diukur dari kemampuan model menghasilkan prediksi yang benar walaupun terdapat noise atau data yang tidak lengkap. Selain itu, evaluasi model dapat diukur berdasarkan skalabilitas yaitu kemampuan model menangani data yang berjumlah sangat besar secaraefisien. 6 56