Uploaded by common.user59458

0. Proposal revised

advertisement
Klasifikasi Status Kemiskinan Rumah Tangga dengan Metode
Support Vector Machines (SVM) dan Metode Classification and
Regression Trees (CART)
(Studi Kasus Kabupaten Wonososo Tahun 2018)
SEMINAR PROPOSAL
Disusun Oleh :
Lutfia Nuzula
24010216140056
DEPARTEMEN STATISTIKA
FAKULTAS SAINS DAN MATEMATIKA
UNIVERSITAS DIPONEGORO
SEMARANG
2020
BAB I
PENDAHULUAN
1.1
Latar Belakang
Pembangunan nasional merupakan serangkaian usaha pembangunan yang
berkelanjutan meliputi seluruh kehidupan masyarakat, bangsa, dan negara untuk
mewujudkan tujuan nasional yang dicantumkan dalam Pembukaan UUD 1945 yaitu
melindungi segenap bangsa, dan seluruh tumpah darah Indonesia, mewujudkan
kesejahteraan umum, mencerdaskan kehidupan bangsa, serta ikut melaksanakan
ketertiban dunia yang berdasarkan kemerdekaan, perdamaian abadi, dan keadilan
sosial. Salah satu tolak ukur dalam keberhasilan pembangunan suatu negara dapat
dilihat dari menurunnya presentase kemiskinan di suatu negara. Menurut Gunawan
Sumodiningrat dkk dalam Mayasari (2019) kemiskinan dipandang sebagai bagian
dari masalah dalam pembangunan, yang keberadaannya ditandai dengan adanya
pengangguran, keterbelakangan, yang kemudian meningkat menjadi ketimpangan.
Kemiskinan merupakan salah satu permasalahan sosial bagi setiap negara, baik
negara maju maupun negara berkembang.
Definisi mengenai kemiskinan dibentuk berdasarkan identifikasi dan
pengukuran terhadap sekelompok masarakat/golongan yang selanjutnya disebut
miskin (Nugroho, 1995). Pada umumnya, setiap negara memiliki definisi sendiri
mengenai suatu masyarakat dikategorikan miskin atau tidak miskin. Hal ini
dikarenakan kondisi yang disebut miskin bersifat relative untuk setiap negara.
Seperti halnya kondisi perekonomian, standar kesejahteraan, dan kondisi sosial
masyarakat. Setiap definisi kemiskinan ditentukan menurut kriteria atau ukuran
yang didasarkan pada pendapatan rata-rata, kemampuan konsumsi rata-rata, akses
terhadap fasilitas kesehatan maupun pendidikan.
Kemiskinan didefinisikan sebagai suatu kondisi keterbatasan kemampuan
untuk memenuhi kebutuhan hidup secara layak seperti keterbatasan dalam
pendapatan, ketrampilan, kondisi kesehatan, penguasaan asset ekonomi, ataupun
akses informasi. Kondisi masyarakat yang disebut miskin dapat diketahui
berdasarkan kemampuan dalam memenuhi standar hidup (Nugroho, 1995). Standar
hidup yang dimaksud berkaitan dengan kemampuan pendapatan untuk memenuhi
kebutuhan pokok berupa pangan, sandang dan papan serta tercukupinya kebutuhan
kesehatan maupun pendidikan dan pelayanan sosial yang layak. Dalam hal
kemiskinan, Badan Pusat Statistik (BPS) menggunakan konsep kemampuan
penduduk dalam memenuhi kebutuhan dasar (basis needs approach) untuk
mengukur kemiskinan. Dengan pendekatan ini, kemiskinan dipandang sebagai
ketidakmampuan dari sisi ekonomi untuk memenuhi kebutuhan dasar makanan dan
bukan makanan yang diukur dari sisi pengeluaran.
Badan Pusat Statistik (BPS) menggunakan garis kemiskinan sebagai
pedoman untuk menentukan status kemisk inan. Garis kemiskinan didefinisikan
sebagai tingkat minimum pendapatan yang perlu dipenuhi untuk memperoleh
standar hidup yang mencukupi di suatu negara. Dari pengukuran menggunakan
garis kemiskinan, diketahui bahwa penduduk miskin merupakan penduduk yang
memiliki rata-rata pengeluaran perkapita perbulan dibawah garis kemiskinan.
Menurut Ismawan (2003), penyebab kemiskinan dan keterbelakangan
merupakan soal aksesbilitas. Akibat keterbatasan dakn ketiadaan akses, manusia
mempunyai keterbatasan pilihan untuk mengembangkan hidupnya, kecuali
menjalankan dengan terpaksa apa yang saat ini dapat dilakukan. Sehingga
mengakibatkan potensi manusia untuk mengembangkan hidupnya menjadi
terhambat.
Dalam tujuh tahun terakhir, Kabupaten Wonosobo menjadi kabupaten
termiskin yang memiliki presentase angka kemiskinan tertinggi di Jawa Tengah.
Terakhir, pada tahun 2018 Kabupaten Wonosobo berhasil menurunkan presentase
kemiskinan dari tahun sebelumnya sebesar 2,75%. Dari 20,32% pada tahun 2017
turun menjadi 17,58% pada tahun 2018. Menurut Agus Subagiyo Wakil Bupati
Wonosobo (2018) upaya penanggulangan kemiskinan melalui berbagai program
dan kegiatan yang telah dilakukan belum memberikan kontribusi yang signifikan
dalam penurunan angka kemiskinan. Salah satunya karena tingginya jumlah
penduduk yang berada di garis kemiskinan dan berimbas pada kompleksnya
permasalahan yang harus ditangani. Selain itu, beberapa program pemberdayaan
rumah tangga miskin cenderung bersifat seragam, sehingga tidak memberikan
pengaruh yang berarti dalam upaya peningkatan kapasitas. Hal ini disebabkan
karena data terpadu sebagai basis data penanggulangan kemiskinan belum dipakai
sebagai dasar penerima sasaran, sehingga banyak keluarga miskin yang belum
menerima bantuan perlindungan sosial. Serta pengawasan dan monev atas program
dan kegiatan penanggulangan kemiskinan belum maksimal.
Dengan adanya permasalahan diatas, maka diperlukan sebuah sistem yang
mampu mengklasifikasikan status kemiskinan rumah tangga di Kabupaten
Wonosobo tahun 2018 berdasarkan faktor-faktor yang mempengaruhi. Menurut
Prasetyo (2012), klasifikasi merupakan suatu pekerjaan menilai objek untuk
memasukkannya kedalam kelas tertentu dari sejumlah kelas yang tersedia.
Klasifikasi bertujuan untuk mengelompokkan kelas dari suatu objek sehingga
nantinya suatu data dapat dipahami dengan mudah. Metode klasifikasi yang dapat
digunakan untuk menggolongkan status rumah tangga miskin berdasarkan faktor
yang mempengaruhi adalah metode Support Vector Machine (SVM) dan metode
Classification and Regression Tree (CART).
Metode Support Vector Machine (SVM) merupakan metode berbasis machine
learning bertujuan untuk menemukan hyperplane yang bisa memisahkan dua set
data dari dua kelas yang berbeda. Metode SVM berakar dari teori pembelajaran
statistik yang hasilnya sangat menjanjikan untuk memberikan hasil yang lebih baik
dari metode lain. SVM juga bekerja dengan baik pada set data dengan dimensi yang
lebih tinggi. Selain metode SVM, metode lain yang dapat digunakan untuk
klasifikasi adalalah metode Classification and Reression Trees (CART). Dalam
penerapannya, metode CART tidak memerlukan asumsi. Pohon klasifikasi pada
metode CART memiliki kemampuan dalam memberikan dugaan tingkat kesalahan
yang kecil dan kemudahan interpretasi pada hasil analisisnya.
Berdasarkan uraian diatas, maka dalam penulisan ini akan dititik beratkan
pada penggunaan metode Support Vector Machine dan metode Classification and
Regression Tree pada berbagai karakteristik data klasifikasi single class, serta
mengimplementasikan pada studi kasus data rumah tangga miskin di Kabupaten
Wonosobo pada tahun 2018 yang dilengkapi dengan GUI R
1.2
Perumusan Masalah
Berdasarkan latar belakang yang telah dikemukakan, maka permasalahan
yang dibahas dalam peneletian ini adalah sebagai berikut:
1.
Bagaimana klasifikasi rumah tangga miskin di Kabupaten Wonosobo
pada tahun 2018 menggunakan metode Support Vector Machines dan
metode Classification and Regression Trees?
2.
Bagaimana perbadingan ketepatan klasifikasi rumah tangga miskin di
Kabupaten Wonosobo pada tahun 2018 dengan metode Support Vector
Machines dan metode Classification and Regression Trees?
3.
Bagaimana
pembuatan
menggunakan
metode
GUI
Support
R
untuk
Vector
pemodelan
Machines
klasifikasi
dan
metode
Classification and Regression Trees?
1.3
Pembatasan Masalah
Pada penelitian ini, batasan masalah yang digunakan sebagai berikut :
1.
Data yang digunakan dalam penelitian ini adalah data hasil Survey Sosial
Ekonomi Nasional Kabupaten Wonosobo pada tahun 2018
2.
Penelitian ini hanya terbatas pada metode Support Vector Machines dan
metode Classification and Regression Trees (CART)
1.4
Tujuan Penelitian
Tujuan penelitian tugas akhir ini adalah sebagai berikut :
1.
Menganalisis klasifikasi rumah tangga miskin di Kabupaten Wonosobo
pada tahun 2018 menggunakan metode Support Vector Machines
(SVM) dan metode Classification and Regression Trees (CART)
2.
Memprediksi ketepatan klasifikasi rumah tangga miskin di Kabupaten
Wonosobo pada tahun 2018 menggunakan metode Support Vector
Machines (SVM) dan metode Classification and Regression Trees
(CART)
3.
Membentuk teknologi berupa GUI R untuk klasifikasi menggunakan
metode Support Vector Machines (SVM) dan metode Classification and
Regression Trees (CART)
BAB II
TINJAUAN PUSTAKA
2.1. Kemiskinan
2.1.1. Definisi Kemiskinan
Kemiskinan merupakan suatu kondisi ketidakmampuan secara
ekonomi seseorang atau sekelompok orang untuk memenuhi hak-hak dasar
guna mempertahankan dan mengembangkan hidupnya. Kebutuhan dasar
yang menjadi hal seseorang atau sekelompok orang meliputi kebutuhan
pangan, kesehatan, pendidikan, pekerjaan, perumahan, air bersih, pertanahan,
sumber daya alam, lingkungan hidup, rasa aman dari perlakuan atau ancaman
tindak kekerasan, dan hak untuk berpartisipasi dalam penyelenggaraan
kehidupan sosial politik. Laporan Bidang Kesejahteraan Rakyat yang
dikeluarkan oleh Kementrian Bidang Kesejahteraan (Kesra) tahun 2004
menerangkan bahwa kondisi yang disebut miskin juga berlaku pada mereka
yang bekerja, namun pendapatannya tidak mencukupi untuk memenuhi
kebutuhan pokok/dasar.
Berdasarkan definisi dari kemiskinan, dapat diketahui bahwa
pengukuran kemiskinan suatu rumah tangga bersifat materi atau pendekatan
moneter. Pengukuran dengan pendekatan moneter dapat dilakukan dengan
menggunakan data pengeluaran sebagai pendekatan pendapatan rumah
tangga. Kemudian data pengeluaran ini diperbandingkan dengan suatu batas
nilai tukar rupiah yang diperlukan untuk memenuhi kebutuhan hidup
minimum. Batas ini sering disebut sebagai garis kemiskinan. Penduduk
miskin adalah penduduk yang memiliki rata-rata pengeluaran per kapita
perbulan dibawah garis kemiskinan (BPS, 2018). Pemerintah menggunakan
garis kemiskinan berdasarkan ukuran dari BPS yang dihitung berdasarkan
data Survei Sosial-Ekonomi Nasional (Susenas)
2.1.2. Penyebab Kemiskinan
Menurut Kuncoro (2003), penyebab kemiskinan antara lain sebagai
berikut :
1. Secara makro, kemiskinan muncul karena adanya ketidaksamaan
pola kepemilikan sumber daya yang menimbulkan distribusi
pendapatan timpang, penduduk miskin hanya memiliki sumber
daya dalam jumlah yang terbatas dan kualitasnya rendah
2. Kemiskinan muncul akibat perbedaan kualitas sumber daya
manusia. Dikarenakan kualitas sumber daya manusia yang rendah,
maka produktivitas dan upah juga rendah
3. Kemiskinan muncul disebabkan oleh perbedaan akses dan modal
2.1.3. Kriteria Kemiskinan
Definisi Kemiskinan yang dibuat oleh Badan Pusat Statistik dengan
membuat kriteria kemiskinan berdasarkan besaran pengeluaran per orang per
hari sebagai bahan acuan. Sehingga pengangguran dan rendahnya
penghasilan menjadi pertimbangan untuk menentukan kriteria tersebut.
Kriteria kemiskinan menurut BPS diantaranya :
1.
Luas lantai bangunan tempat tinggal kurang dari 8m2 per orang
2.
Jenis lantai tempat tinggal terbuat dari tanah/bambu/kayu
murahan
3.
Jenis dinding tempat tinggal dari bambu/ rumbia/ kayu
berkualitas rendah/tembok tanpa diplester.
4.
Tidak memiliki fasilitas buang air besar/ bersama-sama dengan
rumah tangga lain.
5.
Sumber penerangan rumah tangga tidak menggunakan listrik.
6.
Sumber air minum berasal dari sumur/ mata air tidak terlindung/
sungai/ air hujan.
7.
Bahan bakar untuk memasak sehari-hari adalah kayu bakar/
arang/ minyak tanah
8.
Hanya mengkonsumsi daging/ susu/ ayam dalam satu kali
seminggu.
9.
Hanya membeli satu stel pakaian baru dalam setahun
10. Hanya sanggup makan sebanyak satu/ dua kali dalam sehari
11. Tidak sanggup membayar biaya pengobatan di puskesmas/
poliklinik
12. Sumber penghasilan kepala rumah tangga adalah: petani dengan
luas lahan 500m2, buruh tani, nelayan, buruh bangunan, buruh
perkebunan dan atau pekerjaan lainnya dengan pendapatan
dibawah Rp. 600.000,- per bulan
13. Pendidikan tertinggi kepala rumah tangga: tidak sekolah/ tidak
tamat SD/ tamat SD.
14. Tidak memiliki tabungan/ barang yang mudah dijual dengan
minimal Rp. 500.000,- seperti sepeda motor kredit/ non kredit,
emas, ternak, kapal motor, atau barang modal lainnya.
Minimal memenuhi 9 (sembilan) kriteria tersebut di atas maka suatu rumah
tangga miskin.
2.1.4. Indikator Kemiskinan
Berdasarkan sudut pandang ekonomi, kemiskinan merupakan bentuk
ketidakmampuan dari pendapatan seseorang maupun sekelompok orang
untuk mencukupi kebutuhan pokok atau kebutuhan dasar. Kemiskinan
diartikan sebagai kekurangan sumber daya yang dapat digunakan untuk
meningkatkan taraf kesejahteraan seseorang baik secara finansial maupun
jenis kekayaan lainnya (Suryawati, 2004). Dari pengertian kemiskinan
berdasarkan sudut pandang ekonomi, dapat disimpulkan bahwa kemiskinan
memiliki dua aspek, yaitu aspek pendapatan dan aspek konsumsi atau
pengeluaran.
1.
Pendapatan Per Kapita
Aspek pendapatan yang dapat dijadikan sebagai indikator kemiskinan
adalah pendapatakn per kapita. Pendapatan perkapita menyatakan
besarnya rata-rata pendapatan masyarakat di suatu daerah selama kurun
waktu satu tahun. Besarnya pendapatan perkapita dihitung dari besarnya
output dibagi oleh jumlah penduduk di suatu daerah dalam kurun waktu
satu tahun. Indikator pendapatan perkapita menerangkan terbentuknya
pemerataan pendapatan yang merupakan salah satu indikasi terbentuknya
kondisi yang disebut miskin. Variabel pendapatan dapat dinyatakan
sebagai Produk Domestik Bruto (PDB), Pendapatan Nasional, atau
Produk Domestik Regional Bruto (PDRB). Sedangkan jumlah penduduk
menyatakan banyaknya penduduk pada periode t di suatu daerah yang
diukur pendapatan per kapitanya.
2.
Garis Kemiskinan
Garis kemiskinan merupakan indikator kemiskinan dari segi aspek
konsumsi. Garis kemiskinan merupakan salah satu indikator kemiskinan
yang menyatakan rata-rata pengeluaran makanan dan non-makanan per
kapita pada kelompok referensi (reference population) yang telah
ditetapkan (BPS, 2004). Kelompok referensi ini didefinisikan sebagai
penduduk kelas marjinal, yaitu mereka yang hidupnya dikategorikan
berada sedikit di atas garis kemiskinan. Pada prinsipnya, indikator garis
kemiskinan mengukur kemampuan pendapatan dalam memenuhi
kebutuhan pokok/dasar atau mengukur daya beli minimum masyarakat
di suatu daerah. Konsumsi yang dimaksudkan dalam garis kemiskinan
ini meliputi konsumsi untuk sandang, pangan, perumahan, kesehatan,
dan pendidikan (Suryawati, 2004:).
2.2. Support Vector Machine (SVM)
SVM merupakan sistem pembelajaran menggunakan ruang berupa fungsi –
fungsi linear dalam sebuah ruang fitur yang berdimensi tinggi yang dilatih
menggunakan algoritma pembelajaran berdasarkan pada teori optimasi dengan
mengimplementasikan learning bias (Santosa, 2007). Pendekatan dengan
menggunakan SVM ini memiliki banyak manfaat lain seperti misalnya model yang
dibangun memiliki ketergantungan eksplisit pada subset dari datapoints, serta
support vector yang membantu dalam interpretasi model.
Konsep klasifikasi dengan SVM dapat dijelaskan secara sederhana sebagai
usaha mencari hyperplane terbaik. Hyperplane merupakan pemisah terbaik antara
kedua kelas data, yang dapat ditentukan dengan mengukur titik maksimal dari
margin hyperplane. Margin merupakan jarak antara hyperplane dengan data
terdekat pada masing-masing kelas. Data yang berada paling dekat dengan
hyperplane terbaik disebut sebagai support vector (Prasetyo, 2012).
Gambar 1. Konsep SVM
Hal ini dapat ditunjukkan pada Gambar 1 dimana garis tengah pada gambar
disebut sebagai hyperplane terbaik, sehingga kedua kelas data dapat dipisahkan
oleh sepasang bidang pembatas sejajar, data yang tepat berada pada bidang garis
pembatas sejajar dinamakan dengan support vector. Usaha untuk mendapatkan
hyperplane terbaik menupakan pokok persoalan dari proses SVM.
2.2.1. Klasifikasi Linier Separable
Misalkan diberikan himpunan 𝑋 = {π‘₯1 , π‘₯2 , … , π‘₯𝑑 },, dengan π‘₯𝑖 ∈ 𝑅 𝑛 ,
dimana 𝑖 = 1,2, … , 𝑑 adalah data training. Diketahui bahwa X memiliki pola
tertentu, yaitu apabila π‘₯𝑖 termasuk dalam suatu kelas maka π‘₯𝑖 diberi label
𝑦𝑖 = +1, jika tidak diberi label 𝑦𝑖 = −1. Sehingga data berupa pasangan
(π‘₯1 , 𝑦1 ), (π‘₯2 , 𝑦2 ), … , (π‘₯𝑑 , 𝑦𝑑 ) merupakan himpunan data training dari dua
kelas yang akan diklasifikasikan dengan Support Vector Machine (Gunn,
1998)
𝐷 = {(π‘₯1 , 𝑦1 ), (π‘₯2 , 𝑦2 ), … , (π‘₯𝑑 , 𝑦𝑑 )}, π‘₯𝑖 ∈ 𝑅 𝑛 ; 𝑖 = 1,2, … , 𝑑
dengan
t
= banyaknya data training
π‘₯𝑖 ∈ 𝑅 𝑛
= data yang tersedia
n
= dimensi data
𝑦𝑖 ∈ {−1, +1} = label masing-masing kelas
Gambar … menunjukkan bahwa kedua kelas dapat dipisahkan oleh sepasang
bidang pembatas yang sejajar. Bidang pembatas pertama membatasi kelas
pertama, sedangkan bidang pembatas kedua membatasi kelas kedua.
Diasumsikan kedua kelas -1 dan +1 dapat terpisah secara sempurna oleh
hyperplane berdimensi n, yang didefinisikan sebagai:
(π’˜π‘» . 𝒙) + 𝑏 = 0
(2.1)
w dan b merupakan parameter model
Data xi yang termasuk kedalan kelas +1 dapat dirumuskan sebagai berikut:
[(π’˜π‘» . 𝒙) + 𝑏 ≥ 0 ; π‘’π‘›π‘‘π‘’π‘˜ 𝑦𝑖 = +1
(2.2)
Data xi yang termasuk kedalan kelas +1 dapat dirumuskan sebagai berikut:
[(π’˜π‘» . 𝒙) + 𝑏 ≤ 0 ; π‘’π‘›π‘‘π‘’π‘˜ 𝑦𝑖 = −1
(2.3)
Himpunan vektor dinyatakan terpisah secara sempurna jika dapat
terpisahkan tanpa error dan jarak antara vektor terdekat dengan fungsi
pemisah maksimal (Gunn, 1998). Klasifikasi kelas data pada persamaan (2.2)
dan (2.3) dapat digabungkan dengan notasi :
𝑦𝑖 [(π’˜π‘» . π’™π’Š ) + 𝑏] ≥ 1
; 𝑖 = 1,2, … 𝑑
(2.4)
Untuk mendapatkan fungsi pemisah terbaik adalah dengan mencari
fungsi pemisah yang terletak ditengah-tengah antara dua bidang pembatas
kelas. Untuk mendapatkan fungsi pemisah terbaik itu, sama dengan
memaksimalkan margin atau jarak antara dua set objek dari kelas yang
berbeda (Santosa, 2007).
Fungsi pemisah untuk kelas +1 adalah data pada support vector yang
memenuhi persamaan :
π’˜π‘» . 𝒙𝒂 + 𝑏 = +1
(2.5)
Sedangkan fungsi pemisah untuk kelas -1 memenuhi persamaan dibawah ini
π’˜π‘» . 𝒙𝒃 + 𝑏 = −1
(2.6)
Sehingga nilai margin dapat dihitung dengan mengurangi persamaan (2.5)
dengan persamaan (2.6), dan didapatkan hasil sebagai berikut :
π’˜π‘» . (𝒙𝒂 − 𝒙𝒃 ) = 2
||π’˜|| × π‘‘ = 2
𝑑=
2
(2.7)
||π’˜||
dimana ||w|| merupakan wektor bobot dari w
selanjutnya diformulasikan kedalam persamaan quadratic programming
dengan meminimalkan invesrs persamaan (2.7) seperti berikut (Prasetyo,
2012):
1
2
||π’˜||2
; π‘‘π‘–π‘šπ‘Žπ‘›π‘Ž ||π’˜||2 = π’˜π‘‡ π’˜
(2.8)
dengan syarat:
𝑦𝑖 [(π’˜π‘‡ . π‘₯) + 𝑏] − 1 ≥ 0
; 𝑖 = 1,2,3, … , 𝑑
(2.9)
Optimalisasi ini dapat diselesaikan dengan Lagrange Multiplier. Sehingga
permasalahan (2.8) akan diubah menjadi fungsi Langrange sebagai berikut:
1
𝐿(π’˜, 𝑏, 𝛼) = 2 π’˜π‘‡ π’˜ ∑𝑑𝑖=1 𝛼𝑖 { 𝑦𝑖 [π’˜π‘‡ π‘₯𝑖 + 𝑏] − 1}
(2.10)
Nilai 𝛼𝑖 merupakan fungsi Langrange Multiplier, yang bernilai nol atau
positif (𝛼𝑖 ≥ 0). Nilai optimal dari persamaan (2.10) dapat dihitung dengan
mencari turunan pertama dari fungsi lagrange terhadap variabel w dan b dan
disamakan dengan nol (Santosa, 2007). Sehingga diperoleh syarat optimal
dari fungsi lagrange multiplier adalah :
πœ•πΏ
πœ•π‘
πœ•πΏ
πœ•π‘
=0
→ ∑𝑑𝑖=1 𝛼𝑖 𝑦𝑖
=0
→ ∑𝑑𝑖=1 𝛼𝑖 π’™π’Š 𝑦𝑖 = π’˜
=0
(2.11)
(2.12)
Menurut Prasetyo (2012), masalah optimasi pada fungsi lagrange
tersebut tidak dapat langsung digunakan untuk menghitung nilai w dan b
karena nilai 𝛼𝑖 tidak diketahui. Untuk menyelesaikan masalah tersebut dapat
diatasi dengan mensubstitusikan persamaan (2.11) dan (2.12) ke dalam
persamaan (2.10) sehingga diperoleh persamaan sebagai berikut :
1
𝐿(π’˜, 𝑏, 𝛼) = 2 π’˜π‘‡ π’˜ − ∑𝑑𝑖=1 𝛼𝑖 𝑦𝑖 (π’˜π‘‡ . π’™π’Š ) − 𝑏 ∑𝑑𝑖=1 𝛼𝑖 𝑦𝑖 + ∑𝑑𝑖=1 𝛼𝑖 (2.13)
dimana π’˜π‘‡ π’˜ dapat dijabarkan
π’˜π‘‡ π’˜ = ∑𝑑𝑖=1 𝛼𝑖 𝑦𝑖 (π’˜π‘‡ . π’™π’Š ) = ∑𝑑𝑖=1 ∑𝑑𝑖=1 𝑦𝑖 𝑦𝑗 π‘Žπ‘– π‘Žπ‘— (𝒙𝑇𝑖 . 𝒙𝑗 )
(2.14)
maka,
1
𝐿𝑑 = ∑𝑑𝑖=1 𝛼𝑖 − 2 ∑𝑑𝑖=1 ∑𝑑𝑖=1 𝑦𝑖 𝑦𝑗 π‘Žπ‘– π‘Žπ‘— (𝒙𝑇𝑖 . 𝒙𝑗 )
(2.15)
Kemudian fungsi dual tersebut dimaksimalkan, sehingga diperoleh dual
problem sebagai berikut
1
π‘šπ‘Žπ‘₯𝛼 𝐿𝑑 = ∑𝑑𝑖=1 𝛼𝑖 − 2 ∑𝑑𝑖=1 ∑𝑑𝑖=1 𝑦𝑖 𝑦𝑗 π‘Žπ‘– π‘Žπ‘— (𝒙𝑇𝑖 . 𝒙𝑗 )
(2.16)
dengan batasan π‘Žπ‘– ≥ 0 ; 𝑖 = 1,2, … , 𝑑 dan ∑𝑑𝑖=1 𝛼𝑖 𝑦𝑖
Penyelesaian persamaan (2.14) dapat digunakan untuk menentukan Lagrange
Multiplier dan diperoleh fungsi pemisah terbaik. Data testing yang memiliki
nilai π‘Žπ‘– ≥ 0 merupakan Support Vector, dengan demikian fungsi keputusan
yang dihasilkan hanya dipengaruhi oleh Support Vector. Hyperplane (fungsi
pemisah) diperoleh dengan rumus :
𝑓(𝑧) = (∑𝑝𝑖=1 π‘Žπ‘– 𝑦𝑖 π’™π’Š . 𝒛) + 𝑏
(2.17)
Dengan 𝑝 merupakan jumlah data yang menjadi Support Vector, π’™π’Š
merupakan Support Vector, 𝒛 merupakan data testing yang akan diprediksi
kelasnya, dan π’™π’Š . 𝒛 merupakan dot-product antara π’™π’Š dan 𝒛 (Prasetyo, 2012)
2.2.2. Klasifikasi Linier Non-Separable
Masalah klasifikasi sesungguhnya muncul pada data dengan ruang
dimensi tinggi, terutama pada data yang terpisahkan linier secara tidak
sempurna. Struktur data yang terpisahkan linier tidak secara sempurna adalah
data yang berada di dalam margin atau berada pada sisi yang salah dari batas
keputusan. Hal ini menyebabkan proses optimasi tidak dapat diselesaikan,
karena tidak ada w da b yang memenuhi persamaan (2.10). Sehingga masalah
optimasi pada rumusan SVM ditambah dengan mengikutsertakan variabel
slack (πœ‰ > 0). Variabel slack merupakan sebuah ukuran kesalahan
klasifikasi. Sehingga diperoleh rumus sebagai berikut (Gunn, 1998).
𝑦𝑖 [(π’˜π‘‡ . 𝒙𝑖 ) + 𝑏] − 1 + πœ‰π‘– ≥ 0
𝑦𝑖 [(π’˜π‘‡ . 𝒙𝑖 ) + 𝑏] ≥ 1 − πœ‰π‘–
; 𝑖 = 1,2, … , 𝑑
(2.18)
Sehingga persamaan (2.18) menjadi
1
(𝑀, πœ‰) = π’˜π‘‡ π’˜ + 𝐢 ∑𝑑𝑖=1 πœ‰π‘–
2
(2.19)
Dimana parameter C berfungsi untuk mengontrol hubungan antara variabel
slack dengan margin. Semakin besar nilai C, maka semakin besar pula
pelanggaran yang dikenakan untuk setiap klasifikasi (Prasetyo, 2012). Solusi
optimasi pada persamaan (2.19) dengan batas bawah persamaan (2.18) dapat
diselesaikan dengan menggunakan fungsi Langrange. Sehingga diperoleh
persamaan sebagai berikut :
1
𝐿(π’˜, 𝑏, 𝛼, πœ‰, 𝛽) = 2 π’˜π‘‡ π’˜ + π‘ͺ ∑𝑑𝑖=1 πœ‰π‘– − ∑𝑑𝑖=1 𝛼𝑖 (𝑦𝑖 [(π’˜π‘‡ . π’™π’Š ) + 𝑏] − 1 +
πœ‰π‘– ) − ∑𝑛𝑖=1 𝛽𝑖
(2.20)
dimana 𝛼, 𝛽 merupakan fungsi Langrange Multiplier. Nilai optimal dari
persamaan (2.20) dapat dihitung dengan meminimalkan terhadap π’˜, πœ‰, 𝑏 dan
memaksimalkan terhadap 𝛼, 𝛽. Sehingga syarat optimal dari persamaan
(2.20) yaitu
𝑑
πœ•πΏ
=0
πœ•π‘
→∑
πœ•πΏ
=0
πœ•π’˜
→∑
πœ•πΏ
=0
πœ•πœ‰
→ 𝛼𝑖 + 𝛽𝑖 = 𝐢
𝛼𝑖 𝑦𝑖
=0
𝑖=1
𝑑
𝛼𝑖 𝑦𝑖 𝒙𝑖
=π’˜
𝑖=1
Untuk menyederhanakan persamaan (2.20) harus ditransformasi kedalam
fungsi lagrange multiplier itu sendiri (dualitas masalah). Sehingga menjadi
sebuah persamaan
1
π‘šπ‘Žπ‘₯𝛼 𝐿𝑑 = ∑𝑑𝑖=1 𝛼𝑖 − 2 ∑𝑑𝑖=1 ∑𝑑𝑗=1 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝒙𝑇𝑖 𝒙𝑗
(2.21)
Dengan batas 0 ≤ 𝛼𝑖 ≤ 𝐢, 𝑖 = 1,2, … , 𝑛 dan ∑𝑑𝑖=1 𝛼𝑖 𝑦𝑖
2.2.3. Klasifikasi Non Linier
Pada umumnya masalah dalam dunia nyata (real world problem)
jarang yang bersifat linear separable (tidak terpisahkan secara linear), tetapi
bersifat non-linear (Nugroho, et all, 2003). Gugus data yang tidak dapat
dipisahkan secara linier dapat menghasilkan hyperplane yang optimal, namun
belum tentu berperan sebagai alat klasifikasi dengan kemampuan generalisasi
yang baik. SVM dapat memetakan data ke ruang dimensi yang lebih tinggi
dengan menggunakan metode kernel. Menurut Prasetyo (2012) untuk
menyelesaikan problem non-linear, SVM dimodifikasi dengan memasukkan
fungsi kernel. Kernel dapat diartikan sebagai fungsi yang memetakan fitur
data dari dimensi awal (rendah) ke fitur yang lebih tinggi (bahkan jauh lebih
tinggi).
Fungsi kernel yang digunakan untuk pemetaan dinotasikan dengan
symbol (πœ™). Misalkan untuk n sampel data :
((πœ™(π‘₯1 ). 𝑦1 ); (πœ™(π‘₯2 , 𝑦2 ); … ; (πœ™(π‘₯𝑛 ), 𝑦𝑛 ))
Setelah melakukan pemetaan dengan kernel, selanjutnya dilakukan proses
pelatihan yang sama dengan klasifikasi SVM linier. Proses pemetaan ini
memrlukan dot product dua buah data pada ruang fitur baru. Dot product pada
dua buah vektor (π‘₯𝑖 ) dan (π‘₯𝑗 ) dinotasikan sebagai πœ™(𝒙𝑖 ). πœ™(π‘₯𝑗 ). Tanpa
mengetahui fungsi transformasi πœ™, nilai dot product tersebut dapat dihitung
menggunakan komponen kedua buah vektor tersebut di ruang dimensi asal,
seperti berikut :
𝐾(π‘₯𝑖 , π‘₯𝑗 ) = πœ™(π‘₯𝑖 ). πœ™(π‘₯𝑗 )
Dimana nilai 𝐾(π‘₯𝑖 , π‘₯𝑗 ) merupakan fungsi kernel yang menunjukkan
pemetaan non-linier pada feature space dan πœ™(π‘₯𝑖 ). πœ™(π‘₯𝑗 ) merupakan dot
product dua buah vektor (π‘₯𝑖 ) dan (π‘₯𝑗 ). Prediksi sekumpulan data dengan
dimensi fitur yang baru diformulasikan dengan (Prasetyo, 2012)
𝑓(πœ™(π‘₯)) = 𝑠𝑖𝑔𝑛(π’˜. πœ™(𝑧) + 𝑏)
= 𝑠𝑖𝑔𝑛(∑𝑛𝑠
𝑖=1 𝛼𝑖 𝑦𝑖 πœ™(π‘₯𝑖 ). πœ™(π‘₯𝑗 ) + 𝑏)
= 𝑠𝑖𝑔𝑛(∑𝑛𝑠
𝑖=1 𝛼𝑖 𝑦𝑖 𝐾(π‘₯𝑖 , π‘₯𝑗 ) + 𝑏)
(2.22)
dimana
π’˜π‘‡ . 𝒙 = ∑𝑛𝑠
𝑖=1 𝛼𝑖 𝑦𝑖 𝐾(π‘₯𝑖 . π‘₯)
1
𝑏 = − 2 ∑𝑛𝑠
𝑖=1 𝛼𝑖 𝑦𝑖 [𝐾(π‘₯𝑒 . π‘₯) + 𝐾(π‘₯𝑣 . π‘₯)]
dengan
ns : jumlah data yang menjadi support vector
(2.23)
(2.24)
π‘₯𝑖 : support vector
𝑧 : data testing yang akan diprediksi
Berikut merupakan fungsi kernel yang popular dan sering digunakan :
Tabel 2.1 Fungsi kernel yang sering digunakan
Jenis Kernel
Definisi Fungsi
𝐾(π‘₯𝑖 , π‘₯𝑗 ) = π‘₯𝑖𝑇 π‘₯𝑗
Linear
Polinomial
Radial Basis Function (RBF)
𝐾 = (π‘₯𝑖 . π‘₯𝑗 ) = (π‘₯𝑖𝑇 π‘₯𝑗 + 1)𝑑
𝐾 = (π‘₯𝑖 , π‘₯𝑗 ) = exp(−
1
||π‘₯ − π‘₯𝑗 ||2
2𝜎 2 𝑖
2.3. Classification and Regression Tree (CART)
Classification and Regression Trees atau yang dikenal dengan CART
merupakan salah satu algoritma dari metode klasifikasi Decicion Tree. Metode
CART pertama kali diperkenalkan oleh Leo Breiman, Jerome H. Friedman, Richard
A. Olsen dan Charles J. Stone pada tahun 1984. CART merupakan metode statistika
non parametrik yang dapat menggambarkan hubungan antara variabel independen
terhadap variabel dependen. CART terdiri atas dua analisis, yaitu Classification
Trees dan Regression Trees. Jika variabel dependen yang dimiliki bertipe kategorik
maka akan dihasilkan classification trees (pohon klasifikasi) dan jika variabel
dependennya bertipe numerik maka akan dihasilkan regression trees (pohon
regresi). Tujuan utama CART adalah untuk mendapatkan suatu kelompok data yang
akurat sebagai penciri dari suatu pengklasifikasian. CART mempunyai beberapa
kelebihan, diantaranya yaitu hasil klasifikasinya lebih mudah diinterpretasikan,
lebih akurat, dan lebih cepat perhitungannya. Selain itu, CART dapat diterapkan
pada data dengan jumlah yang besar. Struktur dari pohon klasifikasi adalah sebagai
berikut :
Gambar 2. Diagram CART
Pada Gambar 2 di atas A, B dan C merupakan variabel respon yang terpilih
untuk menjadi simpul. A merupakan simpul induk, sementara B dan C
merupakan simpul anak, dimana C juga merupakan simpul akhir yang tidak
bercabang lagi. Sementara α dan β merupakan suatu nilai yang merupakan
nilai tengah antara dua nilai amatan peubah xj secara berurutan. Diagram yang
dihasilkan oleh CART ini merupakan suatu model, biasanya diinterpretasikan
ke dalam suatu tabel untuk penjelasannya. Hal ini berbeda dengan regresi
konvensional dimana model regresi dapat dituliskan menjadi model
matematik atau persamaan regresinya.
2.3.1. Proses Pemilahan Simpul (Splitting Nodes)
Pada proses peilihan simpul, akan ditentukan pemilah dari setiap
simpul yang menghasilkan penurutan tingkat keheterogenan tertinggi. Untuk
mengukur tingkat keheterogenan dari suatu simpul tertentu dalam pohon
klasifikasi dikenal degan istilah impurity measure. Impuritas merupakan
tingkat keragaman atau keacakan suatu simpul.. simpul yang dipilih menjadi
pemilah terbaik adalah sumpul yang memiliki nilai penurunan impuritas
tertinggi. Menurut Brieman et al. (1993), proses pemecahan pada masingmasing simpul induk didasarkan pada goodness of split (kriteria pemecahan
terbaik). Goodness of split merupakan suatu evaluasi pemilahan oleh pemilah
s pada simpul t, dirumuskan sebagai berikut :
βˆ†π‘– (𝑠, 𝑑) = 𝐼(𝑑) − 𝑃𝑅 𝐼(𝑑𝑅 ) − 𝑃𝐿 𝐼(𝑑𝐿 )
(2.25)
Dimana :
βˆ†π‘– (𝑠, 𝑑)
= Penurunan nilai impuritas kelas ke-s simpul ke-t
𝐼(𝑑)
= Fungsi keheterogenan
𝑃𝐿
= Peluang observasi pada simpul kiri
𝐼(𝑑𝐿 )
= Nilai impuritas simpul ke-t kiri
𝑃𝑅
= Peluang observasi pada simpul kanan
𝐼(𝑑𝑅 )
= Nilai impuritas simpul ke-t kanan
Pemilah yang menghasilkan βˆ†π‘– (𝑠, 𝑑) lebih tinggi merupakan pemilah terbaik
karena mampu mereduksi heterogenitas lebih tinggi.
Adapun untuk fungsi keheterogenan yang digunakan adalah indeks gini
karena akan selalu memisahkan kelas dengan anggota paling besar/kelas
terpenting dalam simpul terlebih dahulu, dengan persamaan sebagai berikut:
𝐼(𝑑) = ∑𝑖≠𝑗 𝑝(𝑗|𝑑)𝑝(𝑖|𝑑)
(2.26)
dimana :
I(t)
= Fungsi keheterogenan indeks gini
𝑝(𝑗|𝑑)
= Proporsi kelas j pada simpul t
𝑝(𝑖|𝑑)
= Proporsi kelas i pada simpul t
Pemilahan yang terpilih akan membentuk suatu himpunan kelas yang disebut
simpul. Simpul tersebut akan melakukan pemilahan secara rekursif sampai
diperoleh simpul terminal. Suatu simpul t akan menjadi simpul terminal
apabila pada simpul t sudah tidak terdapat penurunan keheterogenan secara
berarti, dengan kata lain simpul sudah homogen atau karena batasan
minimum kasus yang terjadi.
Setelah itu penentuan label kelas pada simpul terminal berdasarkan aturan
jumlah terbanyak, yaitu jika,
𝑝(𝑗0 |𝑑) = π‘šπ‘Žπ‘₯𝑗
𝑁𝑗 (𝑑)
(2.27)
𝑁(𝑑)
dimana:
𝑝(𝑗0 |𝑑)
= proporsi kelas j pada simpul t
𝑁𝑗 (𝑑)
= jumlah pengamatan pada kelas j pada simpul t
𝑁(𝑑)
= jumlah pengamatan pada simpul t
Label kelas untuk simpul terminal t adalah 𝑗0 yang memberikan nilai dugaan
kesalahan pengklasifikasian pada simpul t yang paling kecil sebesar r(t) = 1
– maxj p(j|t).
2.3.2. Proses Pelabelan Kelas
Pelabelan kelas merupakan proses dimana setiap simpul pada kelas
tertentu diidentifikasi (Brieman et al., 1993). Pelabelan kelas dilakukan mulai
dari awal pemilahan simpul hingga simpul akhir terbentuk. Pelabelan kelas
didasarkan pada jumlah anggota terbanyak, dapat dirumuskan sebagai berikut
:
𝑃(𝑗0 |𝑑) =
π‘šπ‘Žπ‘₯
𝑗 𝑃(𝑗|𝑑)
=
π‘šπ‘Žπ‘₯
𝑗
𝑁𝑗 (𝑑)
𝑁(𝑑)
(2.28)
dengan :
𝑃(𝑗0|𝑑)
= peluang 𝑗0 pada node t
𝑁𝑗 (𝑑)
= banyaknya pengamatan di kelas j pada node t
𝑁(𝑑)
= banyaknya pengamatan pada node t
2.3.3. Proses Penghentian Pemilahan (Stop the Splitting)
Menurut Brieman et al. (1993), proses pemilahan dilakukan hingga
jumlah amatan setiap simpul akhir terpenuhi, maka pegembangan pohon
dihentikan, dan diperoleh pohon klasifikasi yang maksimal.
2.3.4. Proses Pemangkasan Pohon Klasifikasi (Pruning)
Proses pemangkasan pohon bertujuan untuk mencegah terbentuknya
pohon klasifikasi yang berukuran besar. Pohon klasifikasi yang berukuran
besar akan menyebabkan kompleksitas yang tinggi, sehingga perlu dilakukan
pemangkasan pohon. Pemangkasan dilakukan dengan pertimbangan tanpa
mengabaikan kebaikan struktur pohon dan ketepatan klasifikasi melalui
pengurangan simpul pohon, sehingga didapat gambar yang lebih ringkas.
Menurut Brieman et al. (1993) metode yang digunakan dalam pemangkasan
pohon didasarkan pada cost complexity pruning, yaitu :
𝑅(𝑇) = ∑𝑑∈𝑇̃ π‘Ÿ(𝑑)𝑝(𝑑) = ∑𝑑∈𝑇̃ 𝑅(𝑑)
(2.29)
dimana,
π‘Ÿ(𝑑) = 1 − π‘šπ‘Žπ‘₯𝑗𝑝(𝑗|𝑑)
(2.30)
dengan :
𝑅(𝑇)
= tree misclassification cost atau tree resubtitution cost
(proporsi kesalahan pada sub pohon)
𝑝(𝑑)
= proporsi amatan yang masuk dalam simpul t
𝑇̃
= himpunan simpul akhir
π‘Ÿ(𝑑)
= resubtitution estimate (probabilitas terjadinya kesalahan
klasifikasi dalam sebuah simpul t tertentu)
2.4. K-Fold Cross Validation
Cross Validation merupakan salah satu teknik untuk menilai/menvalidasi
keakuratan sebuah model yang dibangun berdasarkan dataset tertentu. Data yang
digunakan dalam proses pembangunan model disebut data training, sedangkan data
yang akan digunakan untuk menvalidasi model disebut data testing. Menurut
Prasetyo (2012), dalam pendekatan k-fold cross validation yaitu memecah set data
menjadi k bagian set data dengan ukuran yang sama. Setiap kali berjalan, satu
pecahan berperan sebagai set data training sedangkan pecahan lainna menjadi set
data testing. Prosedur tersebut dilakukan sebanyak k kali sehingga setiap data
berkesempatan menjadi data training tepat satu kali dan menjadi data testing
sebanyak k-1 kali. Total error didapatkan dengan menjumlahkan semua error yang
didapatkan dari k kali proses.
2.5. Pengukuran Kinerja Klasifikasi
Sebuah sistem yang melakukan klasifikasi diharapkan dapat melakukan
klasifikasi semua set data dengan benar. Namun, tidak dapat dipungkiri bahwa
kinerja suatu sistem tidak bias bekerja 100% benar. Oleh karena itu, sebuah sistem
klasifikasi juga harus diukur kinerjanya. Umumnya cara mengukur kinerja
klasifikasi menggunakan matriks konfusi. Matriks konfusi merupakan salah satu
metode yang dapat digunakan untuk mengukur kinerja suatu metode klasifikasi.
Pada dasarnya matriks konfusi mengandung informasi yang membandingkan hasil
klasifikasi yang dilakukan oleh sistem dengan hasil klasifikasi yang seharusnya
Tabel 2.2 Matriks Konfusi
Hasil Prediksi (Predicted Class)
Akurasi
Kelas 1
Kelas 0
Hasil Observasi
Kelas 1
F11
F10
(Actual Class)
kelas 0
F01
F00
Dengan
F11 : Banyaknya observasi kelas 1 yang tepat diklasifikasikan sebagai kelas 1
F10 : Banyaknya observasi kelas 1 yang salah diklasifikasikan sebagai kelas 0
F01 : Banyaknya observasi kelas 0 yang salah diklasifikasikan sebagai kelas 1
F00 : Banyaknya observasi kelas 0 yang tepat diklasifikasikan sebagai kelas 0
Berdasarkan isi matriks konfusi, maka dapat diketahui jumlah data dari
masing-masing kelas yang diprediksi secara benar yaitu (F11+F00) dan data yang
diklasifikasikan secara salah yaitu (F10+F01). Kuantitas matriks konfusi dapat
diringkas menjadi dua nilai, yaitu akurasi dan laju error. Dengan mengetahui jumlah
data yang diklasifikasikan secara benar maka dapat diketahui akurasi hasil prediksi,
dan dengan mengetahui jumlah data yang diklasifikasikan secara salah maka dapat
diketahui laju error dari prediksi yang dilakukan. Kedua kuantitas ini digunakan
sebagai matriks pengukuran kinerja klasifikasi.
Akurasi klasifikasi dapat dihitung dengan formula sebagai berikut :
Akurasi klasifikasi (%) =
=
π‘—π‘’π‘šπ‘™π‘Žβ„Ž π‘‘π‘Žπ‘‘π‘Ž π‘¦π‘Žπ‘›π‘” π‘‘π‘–π‘π‘Ÿπ‘’π‘‘π‘–π‘˜π‘ π‘– π‘ π‘’π‘π‘Žπ‘Ÿπ‘Ž π‘π‘’π‘›π‘Žπ‘Ÿ
π‘—π‘’π‘šπ‘™π‘Žβ„Ž π‘π‘Ÿπ‘’π‘‘π‘–π‘˜π‘ π‘– π‘¦π‘Žπ‘›π‘” π‘‘π‘–π‘™π‘Žπ‘˜π‘’π‘˜π‘Žπ‘›
𝐹11 + 𝐹00
𝐹11 + 𝐹01 + 𝐹10 + 𝐹00
Laju error klasifikasi dapat dihitung dengan formula sebagai berikut :
Laju Error (%) =
=
π‘—π‘’π‘šπ‘™π‘Žβ„Ž π‘‘π‘Žπ‘‘π‘Ž π‘¦π‘Žπ‘›π‘” 𝑑𝑖 π‘π‘Ÿπ‘’π‘‘π‘–π‘˜π‘ π‘– π‘ π‘’π‘π‘Žπ‘Ÿπ‘Ž π‘ π‘Žπ‘™π‘Žβ„Ž
π‘—π‘’π‘šπ‘™π‘Žβ„Ž π‘π‘Ÿπ‘’π‘‘π‘–π‘˜π‘ π‘– π‘¦π‘Žπ‘›π‘” π‘‘π‘–π‘™π‘Žπ‘˜π‘’π‘˜π‘Žπ‘›
𝐹10 + 𝐹01
𝐹11 + 𝐹01 + 𝐹10 + 𝐹00
2.6. Graphical User Interface
R-shiny merupakan salah satu paket pada R yang merupakan toolkit disusun
oleh grup Rstudio. R-Shiny mengizinkan penggunanya membangun web apps yang
interaktif, R-Shiny menggabungkan antara kekuatan komputasi statistika R dan
interaksinya dengan web modern. Fitur ini membuka peluang untuk membuat
berbagai aplikasi yang memungkinkan analisis data pada server R dilakukan sesuai
dengan request yang dikirim melalui dokumen HTML (web-page) dan menyajikan
hasilnya kembali pada halaman web yang sama. Struktur dari aplikasi R-Shiny
terdiri dari 3 komponen. Yaitu UI, Server, dan ShinyApp
2.6.1.
User Interface (UI)
User Intercafe (UI) merupakan fungsi yang mendefinisikan tampilan
web dari aplikasi yang dibangun. UI berfungsi untuk memuat seluruh input
dan output yang akan ditampilkan pada aplikasi. Untuk membuat web
interaktif, control dilakukan melalui file ui.t. terdapat tiga bagian utama dari
interface, yaitu :
1.
Navigasi Menu / Sub Menu. Bagian ini umumnya berada pada
bagian atas. Setiap menu utama, masing-masing akan memiliki
submenu (tabPanel), control input (sidebarPanel) dan tampilan
output tersendiri (mainPanel).
2.
Kontrol Input. Berbagai jenis input atau control yang penting
yaitu memilik input berupa teks (selectInput), menyajikan dan
memilih naman-nama yang ada pada objek yang dipanggil yang
merupakan output dari server.r dan terkait dengan renderUI
(uiOutput), memilih input dengan format tombol radio
(radioButtons), pilihan berupa bilangan yang nilainya dipilih
dengan menggeser-geser slider (sliderInput), opsi yang muncul
hanya apabila syaratnya terpenuhi (conditionalPanel).
3.
2.6.2.
Bagian layar atau laman utama. Pada bagian latar
Server
Server merupakan fungsi yang mendefinisikan logika kerja analisis
dari sisi server aplikasi. Pada bagian ini, berisi beberapa perintah yang terkait
dengan permintaan input atau output pada file. Karena perintah input maupun
output pada file index saling berkaitan, maka keduanya akan diuraikan secara
paralel sesuai urutan yang biasa terjadi. Misalnya aktivitas analisis data selalu
dimulai dengan membaca data, eksplorasi data, memeriksa asumsi,
melakukan analisis, serta menyimpulkan hasil.
Format syntax pada fungsi server berupa server.r. Fungsi pada server
ditandai dengan adanya render. Jenis render yang terkai dengan jenis output
yang diharapkan oleh interface adalah
1.
renderPrint, untuk jenis output yang terkait dengan teks.
Misalnya terkait dengan perintah summary() atau print()
2.
renderPlot, untuk jenis output yang terkait dengan grafik.
Misalnya plot(), hist(), ataupun boxplot()
3.
renderUI, untuk jenis output yang terkait nama-nama variabel
pada data.
4.
renderTable, untuk jenis output yang terkait dengan output
terformat table
5.
reactive, terkait fungsi dengan parameter yang bersifat
interaktif/dinamis.
2.6.3.
ShinyApp
ShinyApp merupakan fungsi dari aplikasi yang memanggil UI dan
Server untuk menjalankan aplikasi yang telah dibangun.
BAB III
METODOLOGI PENELITIAN
3.1. Data dan Variabel Penelitian
Jenis data yang digunakan dalam penelitian ini merupakan data sekunder,
diperoleh dari Survei Sosial Ekonomi Nasional (SUSENAS) yang dilakukan oleh
Badan Pusat Statistik (BPS) Provinsi Jawa Tengah pada Maret 2018. Data yang
digunakan terdiri dari 795 amatan rumah tangga. Variabel dalam penelitian ini
terdiri atas 1 variabel respon (Y) dan 15 variabel penjelas (X) yang akan dijabarkan
seperti pada tabel dibawah ini
Tabel 3.1 Tabel Variabel Penelitian
Variabel
Y
Nama Variabel
Kemiskinan
Kategorik
-1 : Rumah tangga miskin
+1 : Rumah tangga tidak miskin
x1
Jenjang
Pendidikan 1 : Tidak lulus SD /Sederajat
Tertinggi Kepala Rumah 2 : SD / Sederajat
Tangga
3 : Lulus SMP / Sederajat
4 : Lulus SMA /Sederajat
5 : Diploma
6 : Sarjana, Magister, dan Doktor
x2
Rumah tangga pernah 0 : Tidak
menerima atau membeli 1 : Ya
Raskin/Rastra (Dalam 4
bulan terakhir)
x3
Sampai saat ini rumah 0 : Tidak
tangga masih tercatat atau 1 : Ya
menjadi penerima PKH
(Program
Harapan)
Keluarga
x4
Status
Kepemilikan 1 : Milik Sendiri
Rumah
2 : Kontrak / Sewa
3 : Bebas Sewa
4 : Dinas
x5
Bahan Bangunan Utama 0 : Bukan Genteng
Atap Rumah Terluas
x6
Bahan Bangunan Utama 0 : Bukan Tembok
Dinding Rumah Terluas
x7
1 : Tembok
Bahan Bangunan Utama 0 : Bukan Keramik
Lantai Rumah Terluas
x8
1 : Genteng
1 : Keramik
Fasilitas Tempat Buang 1 : Milik Sendiri
Air Besar
2 : Milik Bersama
3 : Umum
4 : Tidak Ada
x9
Tempat
Pembuangan 1 : Tangki Septil
Akhir Tinja
2 : IPAL
3 : Kolam/Sawah/Sungai/Danau
/Laut
4 : Lubang Tanah
5 : Tidak Memiliki Fasilitas
Tempat Buang Air Besar
x10
Sumber Air Utama yang 1 : Air Kemasan / Isi Ulang
Digunakan
Rumah 2 : Leding
Tangga Untuk Minum
3 : Sumur
4 : Mata Air
5 : Lainnya
x11
x12
Rumah Tangga Memiliki 0 : Tidak
Emas (Minimal 10 gr)
1 : Ya
Rumah Tangga Memiliki
0 : Tidak
Mobil
1 : Ya
x13
Banyaknya
Anggota -
Keluarga
x14
Jumlah Ruang Tidur
-
x15
Luas Lantai Bangunan Tempat Tinggal
3.2. Metode Analisis Data
Analisis data dalam penelitian ini dibantu dengan software Microseoft Excel
2010 dan R. Tahapan analisis yang dilakukan pada penelitian ini adalah sebagai
berikut:
1. Mempersiapkan data klasifikasi kemiskinan rumah tangga yang terdiri dari
variabel independen dan variabel dependen
2. Melakukan klasifikasi data rumah tangga miskin dan tidak miskin dengan
metode Support Vector Machine dengan tahapan sebagai berikut :
a. Membagi data menjadi data training dan data testing
b. Menentukan fungsi kernel yang digunakan beserta nilai-nilai parameter
c. Menentukan parameter terbaik untuk masing-masing kernel dengan
menerapkan metode cross validation yang diterapkan pada data
training
d. Menentukan hyperplane dengan menggunakan parameter terbaik pada
masing-masing kernel
e. Evaluasi hasil klasifikasi pada data testing untuk mengukur ketepatan
klasifikasi
3. Melakukan klasifikasi data rumah tangga miskin dengan metode
Classification and Regression Trees dengan tahapan sebagai berikut :
a. Membagi data menjadi data training dan data testing
b. Menentukan simpul awal untuk pohon klasifikasi CART
c. Pembentukan pohon klasifikasi
d. Pemangkasan pohon, jika dinilai pohon klasifikasi yang dihasilkan
terlalu kompleks
e. Melakukan interpretasi terhadap pohon klasifikasi yang terbentuk dan
mengukur ketepatan klasifikasinya.
3.3. Diagram Alir
DAFTAR PUSTAKA
____________. 2015. Panduan Penyusunan Modul/Tutorial dan Analisis Data
Online Berbasis Web Interaktif Menggunakan R-Shiny. Laboratorium
Statistika Jurusan Matematika Fakultas MIPA Universitas Jember.
____________. 2018. Wakil Bupati Tegaskan Kemiskinan Masih Menjadi
Permasalahan
yang
Harus
Diselesaikan.
Seputar
Wonosobo.
https://wonosobokab.go.id/website/index.php/berita/seputar-wonosobo/item
/6437. (diakses pada 22 Febuari 2020).
____________. 2019. Data Survey Sosial Ekonomi Kabupaten Wonosobo Tahun
2018. Semarang : BPS Provinsi Jawa Tengah.
BPS
(Badan
Pusat
Statistik).
2018.
Konsep
https://jateng.bps.go.id/subject/23/kemiskinan.html.
Kemiskinan.
(diakses
pada
21
Febuari 2020).
BPS (Badan Pusat Statistik). 2019. Presentase Penduduk Miskin Menurut
Kabupaten/Kota
di
Provinsi
Jawa
Tengah,
1996-2019.
https://jateng.bps.go.id/subject/23/kemiskinan.html#subjekViewTab3.
.
(diakses pada 21 Febuari 2020).
Breiman, L., Friedman, J.H., Olshen, R.A. dan Stone, C.J. 1993. Classification And
Regression Tree. New York : Chapman And Hall.
Gunn, S.R. 1998. Support Vector Machines for Classification and Regression.
Technical Reposrt. Univercity of Southampton.
Isdijoso, W., Suryahadi, A., Akhmadi. 2016. Penetapan Kriteria dan Variabel
Pendataan
Penduduk
Miskin
yang
Komprehensif
dalam
Rangka
Perlindungan Penduduk Miskin di Kabupaten/Kota. Kertas Kerja SMERU :
The SMERU Research Institute.
Ismawan, Bambang. 2003. Keuangan Mikro dalam Penanggulangan Kemiskinan
dan Pemberdayaan Ekonomi Rakyat. Jakarta : BKKBN
Mayasari, Tri Rena. Faktor Pengaruh dan Analisis Kemiskinan di Provinsi
Lampung Tahun 2017. KNPMP IV Universitas Muhammadiyah Surakarta :
Prosding-M37.
Nugroho, A.S et al. 2003. Support Vector Machines : Teori dan Aplikasinya dalam
Bioinformatika. http://asnugroho.net/papers/ikcsvm.pdf (diakses pada 10
Maret 2020).
Nugroho, Heru. 1995. Kemiskinan, Ketimpangan, dan Kesenjangan. Yogyakarta :
Aditya Media.
Nurpadilah, Wilda. 2019. Metode Ensemble pada Pohon Klasifikasi Tungga untuk
Klasifikasi Status Kemiskinan Rumah Tangga di Provinsi Jawa Barat.
Skripsi. Institut Pertanian Bogor.
Prasetyo, E. 2012. Data Mining Konsep dan Aplikasi Menggunakan MATLAB.
Yogyakarta : Penerbit Andi.
Pratiwi,
F.E.,
Zain,
Ismaini.
2014.
Klasifikasi
Pengangguran
Terbuka
Menggunakan CART (Classification and Regression Tree) di Provinsi
Sulawesi Utara. Jurnal Sains dan Seni POMITS Vol. 3, No.1 : Hal D54-D59.
Santosa, B. 2007. Data Mining, Teknik Pemanfaatan Data untuk Keperluan Bisnis.
Jakarta : Graha Ilmu.
Suryawati. 2004. Teori Ekonomi Mikro. UPP. AMP YKPN. Yogyakarta: Jarnasy.
Download