kajian pengklasifikasi tunggal dan gabungan dari

advertisement
i
KAJIAN PENGKLASIFIKASI TUNGGAL
DAN GABUNGAN DARI POHON KLASIFIKASI
DAN SUPPORT VECTOR MACHINE
IUT TRI UTAMI
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014
ii
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI SERTA
PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul Kajian Pengklasifikasi
Tunggal dan Gabungan dari Pohon Klasifikasi dan Support Vector Machine adalah
benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam
bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal
atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain
telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Januari 2014
Iut Tri Utami
NRP G152110031 ii
RINGKASAN
IUT TRI UTAMI. Kajian Pengklasifikasi Tunggal dan Gabungan dari Pohon
Klasifikasi dan Support Vector Machine. Dibimbing oleh KUSMAN SADIK dan
BAGUS SARTONO.
Pengklasifikasi adalah sebuah aturan yang digunakan untuk
mengelompokkan objek ke dalam kelompok atau kelas yang telah ditentukan
berdasarkan atributnya. Pendekatan metode klasifikasi ada dua yaitu parametrik
dan nonparametrik. Metode parametrik membutuhkan asumsi tertentu untuk
mendapatkan klasifikasi terbaik tetapi tidak semua asumsi dapat terpenuhi sehinga
menyulitkan para peneliti. Pelanggaran asumsi pada metode parametrik
mengakibatkan hasil yang kurang memuaskan. Berbagai metode nonparametrik
seperti support vector machine (SVM) dan pohon klasifikasi sebagai
pengklasifikasi tunggal telah dikembangkan untuk menyelesaikan masalah
pelanggaran asumsi pada metode parametrik.
Beberapa penelitian menunjukkan bahwa pengklasifikasi gabungan bisa
menjadi suatu metode yang efektif untuk meningkatkan akurasi pengklasifikasian
dan mengurangi keragaman dugaan pengklasifikasi tunggal (Valentini dan
Dietterich 2000). Pengklasifikasi gabungan adalah aturan penggabungan dugaan
beberapa pengklasifikasi tunggal menjadi satu dugaan akhir dengan suatu
algoritma yang disebut combiner. Salah satu teknik gabungan yang populer
digunakan adalah metode bagging (bootstrap agregating) yang diperkenalkan
oleh Breiman (1966). Metode ini merupakan suatu teknik yang paling sederhana
tetapi mempunyai performa yang sangat baik. Tujuan dalam penelitian ini adalah
mengkaji pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM
dengan melakukan simulasi pada berbagai struktur data. Selain itu,
membandingkan performa pengklasifikasi tunggal dan gabungan dari pohon
klasifikasi dan SVM berdasarkan salah klasifikasi pada tabel ketepatan klasifikasi.
Data yang akan digunakan pada penelitian ini adalah data simulasi dan data
terapan. Data simulasi digunakan untuk mengkaji dan membandingkan performa
pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM pada
beberapa struktur data yang berbeda dengan menggunakan tabel ketepatan
klasifikasi. Data simulasi terdiri dari data yang dibangkitkan dari dua kelas
berbeda dengan tiga skenario yaitu (1) anggota dari dua kelas berbeda yang
terpisahkan linier secara sempurna (linearly separable), (2) anggota dari dua kelas
berbeda yang terpisahkan linier secara tidak sempurna (linearly non separable)
dan (3) anggota dari dua kelas berbeda yang terpisahkan secara tidak linier
(nonlinearly separable). Pengklasifikasi tunggal dan gabungan dari pohon
klasifikasi dan SVM akan diterapkan pada data mahasiswa Pascasarjana IPB
Program Studi Statistika pada tahun masuk 2000-2010 yang bertujuan untuk
mengklasifikasi keberhasilan studi mahasiswa.
Hasil pada penelitian ini menunjukkan bahwa metode SVM pada ketiga
struktur data yang telah disimulasikan menghasilkan pengklasifikasi yang lebih
baik dibandingkan dengan pohon klasifikasi. Selain itu, metode gabungan berhasil
meningkatkan performa pengklasifikasi terutama pada penggunaan fungsi kernel
radial. Pada data terapan, ensemble SVM dengan fungsi kernel radial mempunyai
iii
performa terbaik untuk mengklasifikasikan keberhasilan studi mahasiswa
Pascasarjana Program Studi Statistika tahun masuk 2000-2010.
Kata kunci :
pohon klasifikasi, support vector machine, metode gabungan,
bagging
iv
SUMMARY
IUT TRI UTAMI. Study of Single and Ensemble Classifiers of Classification Tree
and Support Vector Machine. Supervised by KUSMAN SADIK and BAGUS
SARTONO.
A classifier is such a rule that can be used to group an object into
predetermined group or classs based on its attributes. There are two types of
approach to develop a classifier rules are a parametric and a nonparametric.
Parametric method requires certain assumptions to obtain the best classification
but not all assumptions are met so that makes it difficult for researchers. The
violation of the assumptions might lead to the lack of the effectiveness and the
validity results. Recently, people pay more attention to non parametric classifiers
such as Support Vector Machine (SVM) and Classification Tree (CT) to overcome
the violation of the assumptions of parametric method.
Some resent research figured out that an ensemble of classifiers could be an
effective way to improve the classification accuracy and reduce the prediction
variation of a single classifier (Valentini dan Dietterich 2000). The ensemble
method is combining the class predictions resulted by a set of single classifiers
into a single prediction by applying a majority vote rule. Among some popular
techniques a method of bagging (bootstrap agregating) by Breiman (1996) is the
simplest but powerful technique.
The data used in this research are simulation data and real-life data.
Simulation data are used to assess and compare the performance of single and
ensemble classifiers of classification tree and SVM in three different data
structures: (1) a situation where the members of different classes are perfectly
linear separable, (2) a situation where the members of different classes are linerseparable but not perfect and (3) a situation where the members of different
classes could not be separated by a linear function. Single and ensemble classifiers
of classification trees and SVM will be applied to classify the successful study of
postgraduate IPB students in Statistics department enrollment 2000-2010.
Our research revealed that SVM resulted better classifier compared to
Classification Tree. It is valid for all three data structure under consideration.
Moreover, ensemble treatment to the classifier succeeded in improving the
classification performance, especiality when radial kernel function is embedded in
the procedure. Ensemble SVM in real-life data with a radial kernel function has
the best performance compared to other methods and is the most appropriate
method to classify the successful study of postgraduate IPB students in Statistics
department enrollment 2000-2010.
Keywords :
classification tree, support vector machine, ensemble methods,
bagging
v
© Hak Cipta Milik IPB, Tahun 2014
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB
i
KAJIAN PENGKLASIFIKASI TUNGGAL
DAN GABUNGAN DARI POHON KLASIFIKASI
DAN SUPPORT VECTOR MACHINE
IUT TRI UTAMI
Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
pada
Program Studi Statistika Terapan
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014
ii
Penguji Luar Komisi pada Ujian Tesis: Dr. Ir. Anik Djuraidah, MS
iii
Judul Tesis : Kajian Pengklasifikasi Tunggal dan Gabungan dari Pohon
Klasifikasi dan Support Vector Machine
Nama
: Iut Tri Utami
NRP
: G152110031
Disetujui oleh
Komisi Pembimbing
Dr Kusman Sadik, MSi
Ketua
Dr Bagus Sartono, MSi
Anggota
Diketahui oleh
Ketua Program Studi
Statistika Terapan
Dekan Sekolah Pascasarjana
Dr Ir Anik Djuraidah, MS
Dr Ir Dahrul Syah, MScAgr
Tanggal Ujian: 24 Desember 2013
Tanggal Lulus:
iv
v
PRAKATA
Puji dan syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan
hidayah-Nya, sehingga penulis dapat menyelesaikan karya ilmiah yang berjudul
“Kajian Pengklasifikasi Tunggal dan Gabungan dari Pohon Klasifikasi dan
Support Vector Machine”. Keberhasilan penulisan karya ilmiah ini tidak lepas dari
bantuan, bimbingan, dan petunjuk dari berbagai pihak.
Terima kasih penulis ucapkan kepada:
1. Ayahanda (alm Amirul Iksan), Ibunda (Suharti), suami (Sudigdo M), anak
(Attaya Fathan M), serta seluruh keluarga atas doa, dukungan dan kasih
sayangnya.
2. Bapak Dr Kusman Sadik, MSi selaku pembimbing I dan Bapak Dr Bagus
Sartono MSi selaku pembimbing II yang telah banyak memberi bimbingan,
arahan serta saran dalam penyusunan karya ilmiah ini.
3. Penguji luar komisi dan ketua Program Studi Pascasarjana Statistika Terapan
Ibu Dr Anik Djuraidah MS pada ujian tesis yang telah memberikan kritik dan
saran dalam perbaikan penyusunan karya ilmiah ini.
4. Seluruh staf pengajar di Program Studi Statistika Terapan IPB atas ilmu yang
diberikan selama perkuliahan.
5. Teman-teman Statistika (S2 dan S3) dan Statistika Terapan (S2) atas bantuan
dan kebersamaannya.
Semoga karya ilmiah ini bermanfaat.
Bogor, Januari 2014
Iut Tri Utami
vi
DAFTAR ISI
1. PENDAHULUAN
Latar Belakang
Tujuan Penelitian
1
1
2
2. TINJAUAN PUSTAKA
SVM sebagai Pengklasifikasi Tunggal
Pohon Klasifikasi
Metode Gabungan
Ukuran Performa Pengklasifikasi Tunggal dan Gabungan
3
3
8
10
11
3. METODE
Data
Metode Analisis
12
12
15
4. HASIL DAN PEMBAHASAN
Data Simulasi
Data Terapan
17
17
21
5. SIMPULAN DAN SARAN
Simpulan
Saran
22
22
23
DAFTAR PUSTAKA
23
LAMPIRAN
26
RIWAYAT HIDUP
36
vii
DAFTAR TABEL
1
2
3
4
Ketepatan klasifikasi
Skenario data simulasi pada tiga struktur data
Karakteristik peubah penjelas pada data terapan
Persentase rataan salah klasifikasi dan simpangan baku pada data
terapan
12
14
15
22
DAFTAR GAMBAR
1 Ilustrasi SVM pada struktur data terpisahkan linier secara sempurna
2 Ilustrasi SVM pada struktur data yang terpisahkan linier secara tidak
sempurna
3 Pemetaan data yang terpisah secara non linier dari
ke dalam
4 Struktur pohon klasifikasi
5 Alur kerja metode penelitian
6 Hasil bangkitan data simulasi pada struktur data yang terpisahkan
linier secara sempurna
7 Plot perbandingan (a) persentase rataan salah klasifikasi dan
(b) simpangan baku pada struktur data terpisahkan linier secara
sempurna
8 Hasil bangkitan data simulasi pada struktur data yang terpisahkan
linier secara tidak sempurna
9 Plot perbandingan (a) persentase rataan salah klasifikasi dan
(b) simpangan baku pada struktur data terpisahkan linier secara tidak
sempurna
10 Hasil bangkitan data simulasi pada struktur data yang terpisahkan
secara tidak linier
11 Plot perbandingan (a) persentase rataan salah klasifikasi dan
(b) simpangan baku pada struktur data terpisahkan secara tidak linier
12 Plot perbandingan (a) persentase rataan salah klasifikasi dan
(b) simpangan baku pada data terapan
4
5
7
9
16
17
18
18
19
20
20
22
viii
DAFTAR LAMPIRAN
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara linier sempurna (ulangan = 50)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara linier sempurna (ulangan=100)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara linier sempurna (ulangan = 500)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara linier sempurna (ulangan = 1000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara linier sempurna (ulangan = 5000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan linier secara tidak sempurna
(ulangan = 50)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan linier secara tidak sempurna
(ulangan = 100)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan linier secara tidak sempurna
(ulangan = 500)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan linier secara tidak sempurna
(ulangan = 1000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan linier secara tidak sempurna
(ulangan = 5000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara tidak linier (ulangan = 50)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara tidak linier (ulangan = 100)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara tidak linier (ulangan = 500)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara tidak linier (ulangan = 1000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara tidak linier (ulangan = 5000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
data terapan (ulangan = 50)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
data terapan (ulangan = 100)
Jumlah mahasiswa Pascasarjana IPB Program Studi Statistika
tahun masuk 2000-2010
26
26
27
27
28
28
29
29
30
30
31
31
32
32
33
33
34
35
1
1. PENDAHULUAN
Latar Belakang
Pengklasifikasian suatu objek sangat umum dilakukan dalam berbagai
bidang. Metode klasifikasi memungkinkan peneliti untuk mengklasifikasikan
pengamatan baru, yaitu menetapkan objek baru masuk ke dalam kelompok
tertentu berdasarkan nilai atribut-atributnya (Salazar et al. 2012). Pendekatan
metode klasifikasi ada dua yaitu parametrik dan nonparametrik. Metode
parametrik membutuhkan asumsi tertentu untuk mendapatkan klasifikasi terbaik
tetapi pada kasus riil tidak semua asumsi dapat terpenuhi sehinga menyulitkan
para peneliti dalam analisis. Terpenuhinya asumsi-asumsi pada metode parametrik
akan menghasilkan data dapat diklasifikasikan dengan baik sehingga memiliki
kesalahan klasifikasi yang kecil (Johnson & Wichern 2007).
Metode klasifikasi parametrik yang sering digunakan adalah analisis
diskriminan dan regresi logistik. Penerapan kedua metode tersebut memerlukan
asumsi-asumsi untuk mendapatkan hasil yang optimal. Analisis diskriminan linier
dikembangkan untuk populasi yang berdistribusi normal dengan matriks ragam
peragamnya sama dan digunakan hanya untuk peubah penjelas yang kuantitatif
dengan skala pengukuran interval atau rasio. Metode parametrik lain yang sering
digunakan yaitu analisis regresi logistik yang memiliki kelebihan tidak
memerlukan asumsi normalitas apabila dibandingkan dengan analisis diskriminan
tetapi diasumsikan tidak terdapat multikolinieritas antar peubah penjelas.
Metode nonparametrik merupakan metode alternatif untuk mengatasi
masalah pelanggaran asumsi tertentu dalam mengklasifikasikan data. Metode
nonparametrik yang telah dikembangkan antara lain k-nearest neighbors (k-NN),
classification and regression tree (CART), artificial neural network (ANN), dan
support vector machine (SVM) (Scholkopf & Smola 2002). Pohon klasifikasi dan
SVM merupakan metode nonparametrik yang populer digunakan dalam berbagai
penelitian, karena kedua metode tersebut memiliki kemampuan yang baik dalam
mengklasifikasikan data. Kedua metode tersebut termasuk pengklasifikasi tunggal
yang dapat digunakan pada ukuran data yang besar dengan peubah penjelas yang
banyak dan data yang terpisahkan secara tidak linier, selain itu metode ini kekar
terhadap pencilan (Steinberg & Colla 1995). Pengklasifikasi tunggal adalah aturan
mengelompokkan objek yang berbeda ke dalam kelompok tertentu.
Selama ini penelitian tentang pengklasifikasian data banyak menggunakan
pengklasifikasi tunggal karena diasumsikan cukup untuk mendapatkan pendugaan
yang baik. Namun tidak semua pengklasifikasi tunggal dapat mengklasifikasikan
data dengan baik dalam berbagai kemungkinan kasus yang terjadi sehingga
memunculkan ide tentang metode gabungan (ensemble) untuk mengklasifikasikan
data. Pengklasifikasi gabungan adalah aturan penggabungan dugaan beberapa
pengklasifikasi tunggal menjadi satu dugaan akhir dengan suatu algoritma yang
disebut combiner. Beberapa pengklasifikasi tunggal yang dapat membangun
metode gabungan antara lain naive bayes, k-NN, pohon klasifikasi, ANN, dan
SVM. Rokach (2010) menyebutkan bahwa algoritma untuk pendugaan gabungan
antara lain suara terbanyak (majority vote), rata-rata dan penjumlahan dugaan
peluang masing-masing label kelas. Metode gabungan diharapkan mampu
meningkatkan akurasi pengklasifikasian dan mengurangi ragam pada
2
pengklasifikasi tunggal (Valentini & Dietterich 2000). Metode gabungan lebih
akurat dan dipercaya mampu untuk meningkatkan performa pengklasifikasi
dibandingkan pengklasifikasi tunggal apabila pengklasifikasi tunggal yang
membangun pengklasifikasi gabungan saling bebas dan beragam (Hansen &
Salamon 1990).
Berbagai metode telah dikembangkan untuk membangun metode gabungan
diantaranya adalah memanipulasi data training untuk membangkitkan data yang
beragam yang bertujuan mengurangi korelasi antar pengklasifikasi tunggal.
Teknik yang sering digunakan untuk memanipulasi data training antara lain
bagging, boosting dan random forest. Pada penelitian ini digunakan teknik
bagging karena teknik ini merupakan teknik yang paling sederhana tetapi
mempunyai performa yang sangat baik. Prinsip metode ini adalah mengambil
contoh dari data contoh dengan teknik bootstrap yang selanjutnya
menggabungkan banyak nilai dugaan yang diperoleh menjadi satu nilai dugaan
dengan suara terbanyak. Penggunaan bagging banyak digunakan pada metode
klasifikasi untuk mengurangi ragam dan memperbaiki stabilitas dugaan seperti
pada pohon klasifikasi.
Penelitian
tentang pengklasifikasi
gabungan dengan berbagai
pengklasifikasi tunggal telah dilakukan oleh beberapa peneliti (misalnya ensemble
neural network oleh Hansen dan Salamon (1990), bagging tree oleh Breiman
(1996) dan ensemble SVM oleh Wang et al. (2009). Penelitian lain yang bisa
digunakan sebagai rujukan adalah Opitz & Maclin (1999) dan Dietterich (2000)
yang membandingkan metode yang berbeda dari beberapa metode gabungan.
Sebagian besar penelitian sebelumnya menggunakan metode gabungan pada data
terapan, penelitian ini menggunakan data simulasi dan data terapan untuk
membandingkan performa pengklasifikasi tunggal dan gabungan. Performa dari
masing-masing metode dapat dilihat dalam hal kemampuan untuk memberikan
tingkat kesalahan klasifikasi yang rendah dan stabilitas suatu metode. Evaluasi
performa dari pengklasifikasi tunggal dan gabungan dilakukan dengan
menggunakan tabel ketepatan klasifikasi.
Data yang akan digunakan pada penelitian ini adalah data simulasi dan data
terapan. Data simulasi digunakan untuk mengkaji dan membandingkan performa
pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM pada
beberapa struktur data yang berbeda. Data simulasi yang akan digunakan pada
penelitian ini merupakan data yang dibangkitkan dari dua kelas berbeda dengan
tiga struktur data yaitu struktur data yang terpisahkan secara linier sempurna
(linearly separable), struktur data yang terpisahkan linier secara tidak sempurna
(linearly non separable) dan struktur data yang terpisahkan secara tidak linier
(nonlinearly separable). Pengklasifikasi tunggal dan gabungan dari pohon
klasifikasi dan SVM akan diterapkan pada data mahasiswa Pascasarjana IPB
Program Studi Statistika pada tahun masuk 2000-2010 yang bertujuan untuk
mengklasifikasi keberhasilan studi mahasiswa.
Tujuan Penelitian
Tujuan penelitian ini adalah
1. Mengkaji pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan
SVM dengan melakukan simulasi pada berbagai struktur data.
3
2. Membandingkan performa pengklasifikasi tunggal dan gabungan dari pohon
klasifikasi dan SVM berdasarkan persentase rataan kesalahan klasifikasi pada
tabel ketepatan klasifikasi.
2. TINJAUAN PUSTAKA
SVM sebagai Pengklasifikasi Tunggal
SVM diperkenalkan oleh Vapnik (1995). Konsep dasar SVM merupakan
gabungan dari teori komputasi yang telah ada sebelumnya seperti margin
hyperplane (Cover 1965, Duda et al. 1973) dan teori kernel yang dikembangkan
oleh Aronszjan (1950). Ide dasar dari SVM adalah pencarian hyperplane terbaik
yang berfungsi sebagai pemisah dua kelas data. Hyperplane terbaik antara kedua
kelas terletak di tengah-tengah diantara dua bidang kendala kelas dan untuk
mendapatkan hyperplane terbaik dilakukan dengan cara memaksimalkan jarak
antara hyperplane dari titik terdekat (support vector) dari masing-masing kelas.
Andaikan M adalah jarak tersebut, didefinisikan besaran margin sebagai 2M.
SVM pada Struktur Data Terpisahkan Linier secara Sempurna
Misalkan sebuah gugus data berisi n pasangan data pengamatan yang
dinotasikan sebagai (x1,y1), (x2,y2), ..., (xn,yn) dengan xiRp untuk i = 1, 2, ..., n.
Label kelas dinotasikan sebagai: yi{-1,1}. Bentuk umum hyperplane adalah
w xb
(2.1)
dengan w adalah vektor normal dengan ukuran 1p dan tegak lurus dengan
hyperplane dan x merupakan vektor data pengamatan yang berukuran p1. Skalar
b disebut dengan simpangan. Fungsi klasifikasi didefinisikan sebagai:
f (x)  sign(w  x  b)
(2.2)
Keckman (2005) menyatakan bahwa apabila f(x) > 0, maka data
pengamatan diklasifikasikan ke dalam Grup 1, sedangkan apabila f(x) < 0, maka
data pengamatan diklasifikasikan ke dalam Grup 2. Hyperplane dengan margin
maksimum diperoleh dengan menemukan solusi dari permasalahan primal (Cortes
& Vapnik 1995) yaitu :
min
1 2
w
2
(2.3)
dengan kendala
yi (w  xi  b)  1 , i = 1, ..., n
(2.4)
Notasi w, b merupakan parameter-parameter yang akan dicari nilainya. Ilustrasi
SVM pada struktur data terpisahkan linier secara sempurna dapat dilihat pada
Gambar 1.
4
x2
w  x  b 1
Grup 1
w  x  b  1
M
support vectors
M
Margin = 2M =
Grup 2
2
w
wxb  0
x1
Gambar 1 Ilustrasi SVM pada struktur data terpisahkan linier secara sempurna
SVM pada Data Terpisahkan Linier Tidak secara Sempurna
Masalah SVM dapat diperoleh dengan menyelesaikan pemrograman
kuadratik dengan menggunakan fungsi optimasi Lagrangian sebagai berikut :
L(w, b,  ) 
n
1
2
w   i  yi  w  xi   1
2
i 1
(2.5)
dengan i adalah pengali Lagrange non negatif. Dengan memperhatikan sifat
gradien maka diperoleh :
n
L(w, b,  )
L(w, b,  ) n
 w   i yi xi  0 dan
  i yi  0
w
b
i 1
i 1
(2.6)
Persamaan (2.5) dapat dimodifikasi dengan memaksimumkan
.
Modifikasi ini memudahkan untuk menyelesaikan fungsi obyektif pada persamaan
(2.3) dengan mengubah masalah primal menjadi masalah dual. Masalah pada dual
mempunyai nilai yang sama dengan masalah primal (Strang 1986). Fungsi
Lagrange akan diubah menjadi:
L(w, b,  ) 
n
n

1 2  n
w    i yi xi  w   b i yi   i
2
i 1
 i 1
 i 1
(2.7)
Substitusikan persamaan (2.6) ke dalam fungsi Lagrange (2.5) sehingga menjadi:
n
n
n
  n

1 n
L(w, b,  )    i yi xi   j y j x j     i yi xi   j y j x j   0   i
  i 1

2  i 1
j 1
j 1
i 1
 

  n n
 n
1 n n
   i j yi y j (xi  x j )     i j yi y j (xi  x j )    i
  i 1 j 1
 i 1
2  i 1 j 1
 

n

1 n n
  i    i j yi y j (xi  x j ) 

2  i 1 j 1
i 1

(2.8)
5
dengan kendala ∑ni
, i  0 , i, j = 1, ..., n. Persamaan (2.8) merupakan
fungsi masalah pengoptimuman dual. Nilai i didapatkan dengan cara
memaksimumkan fungsi Lagrange pada persamaan (2.8). Gugus data yang
memiliki nilai i > 0 dinamakan support vector. Gugus data tersebut akan
∑
digunakan untuk menghitung bobot
i dan b = (w  xi) – yi untuk
i = 1, ..., nSV, dengan nSV adalah banyaknya support vector.
SVM pada Struktur Data Terpisahkan Linier secara Tidak Sempurna
Masalah klasifikasi sesungguhnya muncul pada ruang dimensi tinggi
terutama pada data yang terpisahkan linier tidak secara sempurna. Struktur data
yang terpisahkan linier tidak secara sempurna adalah data yang berada di dalam
margin atau berada pada sisi yang salah dari batas keputusan. Hal ini
menyebabkan proses optimisasi tidak dapat diselesaikan, karena tidak ada w dan b
yang memenuhi pertidaksamaan (2.5).
Persamaan (2.3) dan (2.4) akan dimodifikasi dengan memasukkan peubah
slack i (i > 0), sehingga menjadi :
n
1
2
min w  C  i
(2.9)
2
i 1
dengan kendala :
yi (w  x  b)  1  i , i  0 ; i = 1, ..., n
(2.10)
C adalah parameter yang menentukan besar penalti akibat kesalahan klasifikasi.
Nilai C yang besar akan menghasilkan kesalahan klasifikasi yang kecil. Pada
struktur data yang dapat dipisahkan linier secara tidak sempurna, peubah slack
didefinisikan sebagai penyimpangan dari batas margin. Ilustrasi SVM pada
struktur data terpisahkan linier secara tidak sempurna dapat dilihat pada Gambar 2.
x2
Grup 1
Margin
k
xk
l
xl
Grup 2
x1
Gambar 2 Ilustrasi SVM pada struktur data yang terpisahkan linier secara tidak
sempurna
Dua titik data xl dan xk pada Gambar 2 memperlihatkan dua titik yang
menggambarkan kasus pada data terpisahkan linier secara tidak sempurna dengan
6
penambahan peubah slack l dan k. Titik xl adalah kesalahan klasifikasi karena
berada di sisi yang salah batas keputusan. Titik xk merupakan titik yang berada di
dalam margin tetapi diklasifikasikan dengan benar. Fungsi Lagrange dengan i
dan βi untuk masalah primal pada kasus data terpisahkan secara linier tidak
sempurna adalah :
n
n
n
1
2
L(w, b,  ,  ,  )  w  C  i  i  yi (w  xi  b)  1  i    ii (2.11)
2
i 1
i 1
i 1
Dengan memperhatikan sifat gradien diperoleh :
n
L(w, b,  ,  ,  )
L(w, b,  ,  ,  ) n
 w   i yi xi  0 dan
  i yi  0
w
b
i 1
i 1
L(w, b,  ,  ,  )
 0 menghasilkan i  i  C

(2.12)
i ([(w  x)  b] 1  i )  0 , i = 1,..., n
ii  0 , untuk i = 1,..., n
0  i  C ,
i  0 , i  0 , i  0 untuk i = 1, ..., n
Substitusi persamaan (2.12) ke dalam persamaan fungsi Lagrange (2.11)
akan didapatkan fungsi tujuan masalah dual sebagai berikut :
n
n n
max L( )   i   i j yi y j (xi  x j )
i 1
(2.13)
i 1 j 1
dengan kendala : ∑
, 0  i  C untuk i = 1, ..., n. Fungsi keputusan
dari struktur data yang terpisahkan linier secara tidak sempurna adalah sama
dengan struktur data yang dapat dipisahkan secara linier sempurna yaitu :
 nSV

(2.14)
f (x)  sign   i yi xi  x  b 
 i 1

dengan koefisien i merupakan solusi dari masalah dual dan SV merupakan
himpunan dari support vector. Nilai didapatkan dari persamaan :
nSV
b  yi (1   )   i yi (xi  x j )
i 1
SVM pada Struktur Data Terpisahkan secara Tidak Linier
Hyperplane yang optimal mempunyai kemampuan generalisasi yang baik
termasuk pada dimensi yang tinggi. Gugus data yang tidak dapat dipisahkan
secara linier dapat menghasilkan hyperplane yang optimal tetapi belum tentu
sebagai alat klasifikasi dengan kemampuan generalisasi yang baik. SVM dapat
memetakan data ke ruang dimensi lebih tinggi dengan mengunakan metode kernel
sehingga data pada ruang tersebut dapat dipisahkan secara linier dengan
transformasi non linier  (Burges 1998).
7
Secara umum metode kernel memiliki dua bagian utama. Bagian pertama
adalah sebuah modul yang mentransformasikan data dari ruang awal ke dalam
ruang baru yang berdimensi tinggi. Bagian kedua adalah suatu algoritma yang
berfungsi untuk menemukan pola linier di dalam ruang baru yang terbentuk
(Cristianini & Shawe-Taylor 2004). Ilustrasi pemetaan data yang terpisahkan
secara non linier dari
ke dalam
dapat dilihat pada Gambar 3.


Gambar 3 Pemetaan data yang terpisah secara non linier dari
ke dalam
Pada Gambar 3 memperlihatkan tentang pemisahan non linier dalam ruang
input
yang dipetakan ke dalam ruang berdimensi tinggi
dengan fungsi non
linier  yang disebabkan oleh fungsi kernel k sehingga didapatkan permukaan
yang linier. Misalkan fungsi vektor non linier (x) = (1(x1), 2(x2), …, n(xn))‟
yang memetakan vektor ruang awal x ke dalam ruang yang berdimensi tinggi
melalui fungsi vektor non linier . Fungsi keputusan pada ruang berdimensi tinggi
adalah:
f (x)  sign(w   (x)  b)
(2.15)
Pada struktur data terpisahkan linier secara tidak sempurna, vektor w merupakan
kombinasi linier dari support vector di ruang berdimensi tinggi. Hal ini berarti :
n
w   i yi (xi )
i 1
Fungsi klasifikasi f(x) pada persamaan (2.15) bergantung pada hasil kali dalam
(xi) dan (xj) yaitu :
 n

f (x)  sign(w   (x)  b)  sign   i yi  (xi ),  (x)  b 
(2.16)


 i 1

SVM dibangun berdasarkan bentuk umum dari hasil kali dalam ruang
Hilbert (Anderson & Bahadur 1966) yaitu :
 (u)   (v)  K (u, v)
Fungsi pemetaan (x) yang memetakan ruang awal ke dalam ruang berdimensi
tinggi memenuhi:
K (xi , x j )   (xi )   (x j )
8
dengan (xi) dan (xj) gambaran dari ruang berdimensi tinggi dan vektor xi dan xj
sebagai ruang awal. Keuntungan menggunakan fungsi kernel adalah
memperlihatkan transformasi non linier  secara eksplisit. Teknik ini biasa
dikenal kernel trick. Gunakan kernel trick untuk memaksimumkan masalah dual
pada ruang berdimensi tinggi yaitu :
n
n n
i 1
i 1 j 1
max L( )   i   i j yi y j K (xi  x j )
dengan kendala : ∑
dari masalah dual adalah
, 0  i  C untuk i = 1, ..., n. Fungsi keputusan
 nSV

f (x)  sign   i yi K (xi  x)  b 
 i 1

dengan b diperoleh dari :
b  yi 
(2.17)
(2.18)
nSV
 i yi K (xi  x)
i 1
Fungsi kernel K (xi , x j ) yang biasa digunakan dalam SVM (Meyer 2013) adalah :


: K (xi , x j )  (xi  x j )  1
1) Polinomial
d
dengan d adalah derajat polinom. Pada software R i386 3.0.1 dengan package
e1071 digunakan default dengan d = 3.
2
: K (xi , x j )  exp   xi  x j 
2) Radial basis function (RBF)


dengan  merupakan parameter positif yang mengontrol radius. Pada software
R i386 3.0.1 dengan package e1071 menggunakan default  = (1/dimensi).
: K (xi , x j )  tanh[v(xi  x j )  b]
untuk nilai parameter v, b telah ditentukan. Pada software R i386 3.0.1 dengan
package e1071 menggunakan default dengan v = (1/dimensi) dan b = 0.
3) Tangent hyperbolic (sigmoid)
Pohon Klasifikasi
Algoritma penyusunan pohon klasifikasi dan pohon regresi telah banyak
diusulkan oleh banyak penulis. Beberapa yang banyak digunakan antara lain
adalah ID3 (Quinlan 1986) yang selanjutnya dikembangkan menjadi algoritma
C4.5 dan C5, CHAID, CART dan QUEST (Loh dan Shih 1997). Pada penelitian
ini digunakan CART sebagai algoritma penyusunan pohon klasifikasi. CART
merupakan salah satu metode eksplorasi nonparametrik yang dikembangkan untuk
topik analisis klasifikasi, baik untuk peubah respon kategorik maupun kontinu
(Breiman et al. 1993). Tujuan utama CART adalah untuk mendapatkan suatu
kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian. Pohon
klasifikasi merupakan penyekatan data secara berulang (rekursif) dan
menghasilkan sekatan yang biner, karena selalu membagi kumpulan data menjadi
dua sekatan. Hal ini dapat ditunjukkan dalam suatu gambar struktur pohon
klasifikasi seperti pada Gambar 4.
9
Node/simpul
a
Ya
Tidak
xi  
c
b
Ya
Cabang
xi  
d
Tidak
Simpul akhir
e
Gambar 4 Struktur pohon klasifikasi
Langkah-langkah yang digunakan dalam pembentukan pohon klasifikasi
(Breiman et al. 1993) adalah :
1. Pemilihan pemilah
Pada tahap ini dicari pemilah dari setiap simpul yang menghasilkan penurunan
tingkat keheterogenan paling tinggi. Keheterogenan suatu simpul diukur
berdasarkan nilai impurity-nya. Fungsi impuritas () yang dapat digunakan
adalah indeks Gini. Semakin besar impuritas suatu simpul maka semakin
heterogen simpul tersebut (Breiman et al. 1993). Nilai impuritas menggunakan
indeks Gini pada simpul t yang dinotasikan dengan i(t) dan diformulasikan
sebagai berikut:
i(t )    p(1| t ), p(2 | t ),..., p( j | t ) 
(2.20)
dengan p(j|t) adalah dugaan peluang unit pengamatan dalam kelas ke-j dan
berada pada simpul t yang dinyatakan sebagai berikut:
p( j t ) 
 j N j (t ) / N j
 j N j (t ) / N j
(2.21)
j
dengan j adalah peluang awal kelas ke-j dan Nj adalah banyaknya unit
pengamatan dalam kelas ke-j, dan Nj(t) adalah banyaknya unit pengamatan
dalam kelas ke-j pada simpul t. Misalkan terdapat calon pemilah s yang
memilah simpul t menjadi tL (dengan proporsi pL) dan tR (dengan proporsi pR),
maka kebaikan dari s didefinisikan sebagai penurunan impuritas:
Δi(s,t) = i(t) – pL i(tL) – pR i(tR)
(2.22)
Pengembangan pohon dilakukan dengan cara, pada simpul t1 carilah s* yang
memberikan nilai penurunan impuritas tertinggi yaitu:
i(s* , t )  max i(s, t1 )
(2.23)
sS
maka t1 dipilah menjadi t2 dan t3 dengan menggunakan s*. Dengan cara yang
sama dilakukan juga pemilah terbaik pada t2 dan t3 secara terpisah, dan
seterusnya.
2. Penentuan simpul terminal
Suatu simpul t akan menjadi simpul terminal atau tidak akan dipilah kembali,
apabila banyaknya pengamatan kurang dari batas minimum yang telah
10
ditentukan. Pada umumnya banyak pengamatan minimum pada simpul sebesar
5 dan terkadang sebesar 1 (Breiman et al. 1993). Selanjutnya t tidak akan
dipilah lagi tetapi dijadikan simpul terminal dan hentikan pembuatan pohon.
3. Penandaan label kelas
Label kelas dari simpul terminal ditentukan berdasarkan aturan jumlah
terbanyak, yaitu jika P(j0|t) = maxj P(j|t) dengan j = 1, ..., j maka label kelas
untuk simpul terminal t adalah j0. Andaikan max𝑗 P(𝑗|𝑡) dicapai oleh dua atau
lebih kelas yang berbeda, maka label kelas untuk simpul terminal t dipilih
secara acak dari kelas maksimum tersebut (Breiman et al. 1993).
4. Penentuan pohon optimum
Pohon klasifikasi tidak dibatasi jumlahnya. pohon terbesar memiliki nilai salah
pengklasifikasian terkecil, sehingga kita cenderung memilih pohon tersebut
untuk perkiraan. Pohon yang besar cukup kompleks dalam menggambarkan
struktur data sehingga perlu dipilih pohon optimal yang lebih sederhana tetapi
memiliki kesalahan pengklasifikasian yang cukup kecil. Breiman et al. (1993)
menyatakan bahwa salah satu cara mendapatkan pohon optimum yaitu dengan
pemangkasan (pruning). Pemangkas berturut-turut memangkas pohon bagian
yang kurang penting dengan tujuan untuk memperoleh pohon yang berukuran
sederhana. Ukuran pemangkasan yang digunakan untuk memperoleh ukuran
pohon yang optimum adalah biaya kompleksitas (cost-complexity). Persamaan
ukuran biaya kompleksitas adalah:
|̃ |
(2.24)
dengan
adalah tingkat salah klasifikasi pada pohon bagian Tk untuk k = 1,
̃ adalah himpunan simpul terminal pada Tk, |̃ | adalah banyaknya simpul
terminal pada Tk, dan adalah parameter biaya kompleksitas. Hasil proses
pemangkasan berupa sederet pohon klasifikasi Tk dan dengan validasi silang vlipatan (RCV(Tk)) dapat ditentukan pohon optimum Tko (Venables & Ripley
2002) sebagai berikut:
RCV (Tko )  min RCV (Tk )
(2.25)
k
Metode Gabungan
Gagasan utama metodologi gabungan adalah mengkombinasikan beberapa
pola pengklasifikasi tunggal seperti NN, SVM dan lain-lain dan menggabungkan
pola tersebut menjadi satu nilai dugaan. Proses penggabungan yang biasa
digunakan untuk kasus klasifikasi adalah suara terbanyak. Keberhasilan penerapan
metode gabungan dapat ditemukan di berbagai bidang, seperti: keuangan (Leigh et
al. 2002), bioinformatika (Tan et al. 2003), kesehatan (Mangiameli et al. 2004),
geografi (Bruzzone et al. 2004) dan lain-lain.
Bagging merupakan singkatan dari bootstrap aggregrating. Berdasarkan
namanya, maka dapat diperkirakan ada dua tahapan utama dalam analisis ini,
yaitu bootstrap dan aggregating yaitu menggabungkan banyak nilai dugaan
menjadi satu nilai dugaan. Teknik bootstrap diperkenalkan oleh Efron (1979).
Bootstrap adalah teknik memperkirakan sifat penaksir (rata-rata, median dan lainlain) dengan menggunakan teknik pengambilan contoh dengan pemulihan
11
(resampling). Bootstrap meletakkan dasar pada dua metode gabungan yaitu
bagging dan random forest. Bagging pertama kali diperkenalkan oleh Breiman
(1996). Ide dasar dari bagging adalah menggunakan teknik bootstrap pada data
asli, membuat dugaan klasifikasi terpisah pada setiap data contoh bootstrap, dan
menggabungkan dugaan klasifikasi tersebut dengan menggunakan suara terbanyak
(Breiman 1996).
Misalkan terdapat himpunan data = {(xn; yn)|i = n … N}, dengan y
berupa label kelas atau respon kategorik. Jika input adalah x maka y diduga
dengan φ(x, ) dengan φ(x, ) merupakan prediktor yang diperoleh dengan
menggunakan pengulangan bootstrap yang dinotasikan dengan
Pengulangan bootstrap dilakukan sebanyak k kali sehingga menjadi
dan
dibentuk prediktor φ(x, ) dengan teknik pengambilan contoh dengan pemulihan
(resampling) (Breiman 1996).
Prosedur pada teknik Bagging menurut Breiman (1996) adalah :
1) Data dibagi menjadi dua yaitu gugus data tes T dan gugus data training .
2) Tarik contoh acak dengan pengembalian sebanyak n* dari gugus data training
(tahapan bootstrap) dengan n* adalah ukuran contoh bootstrap.
3) Bentuk pengklasifikasi tunggal seperti SVM dan pohon klasifikasi berdasarkan
contoh acak tersebut.
4) Ulangi langkah 2 dan 3 sebanyak k kali sehingga sehingga diperoleh k buah
pengklasifikasi tunggal dan dugaan.
5) Lakukan pendugaan gabungan berdasarkan k buah pengklasifikasi tunggal
tersebut dengan menggunakan suara terbanyak (tahapan aggregasi).
Hastie et al. (2008) menyatakan bahwa proses bagging dapat mengurangi
galat baku dugaan yang dihasilkan oleh pengklasifikasi tunggal. Hal ini jelas
terlihat karena dengan melakukan rata-rata misalnya maka ragam dugaan akan
mengecil sedangkan tingkat bias dugaan tidak terpengaruh. Breiman (1996)
mencatat bahwa pada banyak gugus data yang telah dicobakan, bagging mampu
mengurangi tingkat kesalahan klasifikasi pada kasus klasifikasi. Hal ini tentu
tidak berlaku secara keseluruhan. Berk (2008) mencatat beberapa kasus yang
mungkin menyebabkan dugaan bagging memiliki ragam dugaan yang lebih besar
atau juga bias yang lebih besar pula. Hal ini terjadi antara lain pada kasus dengan
kategori peubah respon yang sangat tidak seimbang. Breiman (1996)
menyebutkan bahwa banyaknya pengulangan bootstrap yang diperlukan
menunjukkan bahwa 50 kali untuk kasus klasifikasi dan 25 kali untuk kasus
regresi dapat memberikan hasil yang memuaskan. Semakin banyak resampling
dan pengulangan dilakukan maka akurasi pengklasifikasi semakin meningkat
walaupun peubahannya tidak terlalu signifikan.
Ukuran Performa Pengklasifikasi Tunggal dan Gabungan
Secara umum, kinerja pengklasifikasi klasifikasi dapat diukur dengan tabel
klasifikasi yang merupakan tabel kontingensi 2  2 untuk peubah respon biner yang
diilustrasikan pada Tabel 1 (Hosmer & Lemeshow 2000). Ketepatan klasifikasi
terdiri atas specificity dan sentisivity. Specificity atau ketepatan klasifikasi dalam
menduga kejadian bahwa respon tidak memiliki kriteria yang diharapkan yaitu
pada y = 0 sebesar d/n0  100%. Sensitivity digunakan untuk mengevaluasi
ketepatan klasifikasi dalam menduga kejadian bahwa respon memiliki kriteria
12
yang diharapkan yaitu y = 1 sebesar a/n1  100%. Ketepatan klasifikasi total
(akurasi) dalam menduga kejadian secara tepat dapat diduga oleh pengklasifikasi
yang nilainya (a + d)/n  100%.
Amatan
1
0
Total
Proporsi Kesalahan
Tabel 1 Ketepatan klasifikasi
Dugaan
Total
1
0
a
b
n1
c
d
n0
n
n1
n0
c / n1
d / n0
Proporsi
Ketepatan
a / n1
d / n0
(a + d) / n
(b + c) / n
Selain ketepatan klasifikasi dapat pula diketahui persentase besarnya
kesalahan klasifikasi (misclassification rate atau MCR). Kesalahan positif
nilainya sebesar c/n1 100% adalah persentase besarnya kesalahan ketika respon
yang diduga adalah y = 1 tapi amatan sebenarnya bernilai y = 0 dan kesalahan
negatif yang bernilai d/n0 100% dinyatakan sebagai persentase besarnya
kesalahan ketika respon diduga adalah y = 0 namun amatan sebenarnya bernilai y
= 1. Kesalahan klasifikasi total diartikan sebagai besarnya kesalahan klasifikasi
terhadap kesalahan keseluruhan kejadian yang dapat diperoleh dengan cara
merasiokan total klasifikasi yang tidak terkoreksi dengan jumlah keseluruhan data
yaitu sebesar (b+c) 100%.
3. METODE
Data
Data Simulasi
Data simulasi yang digunakan untuk mengkaji dan membandingkan metode
pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM terdiri dari
tiga skenario yaitu (1) apabila anggota kelas berbeda dapat dipisahkan secara
linier sempurna, (2) apabila anggota kelas berbeda dapat dipisahkan linier secara
tidak sempurna dan (3) anggota kelas berbeda dipisahkan secara tidak linier.
Ukuran data simulasi yang digunakan pada penelitian ini adalah 120 data
pengamatan. Data simulasi terdiri dari dua kelompok yaitu Grup 1 dan 2.
Pada skenario pertama, ukuran contoh pada Grup 1 sebanyak 60 data
pengamatan dan Grup 2 sebanyak 60 data pengamatan. Data dibangkitkan dari
dua sebaran yang berdistribusi normal ganda sebagai Grup 1 dan Grup 2 dengan
vektor rataan masing-masing adalah
 2
8
μ1    , μ 2   
 2
8
dengan matriks ragam peragam yang sama yaitu
2 0
Σ1  Σ2  Σ  

0 2
13
Pemilihan vektor rataan pada skenario pertama disebabkan karena jarak antara
dua populasi yang berjauhan menyebabkan data dapat terpisahkan secara linier
sempurna tanpa ada error didalamnya sehingga tidak terdapat salah klasifikasi.
Dengan menggunakan ragam yang sama maka ragam peubah penjelas akan
merata pada setiap populasi.
Ukuran contoh pada Grup 1 pada skenario kedua adalah 60 data pengamatan
dan 60 data pengamatan pada Grup 2. Data dibangkitkan dari dua sebaran yang
berdistribusi normal ganda dengan vektor rataan masing-masing adalah
 2
 3
μ1    , μ 2   
 2
 3
dengan matriks ragam peragam yang sama yaitu
2 0
Σ1  Σ2  Σ  

0 2
Pemilihan vektor rataan pada skenario kedua disebabkan karena jarak antara
kedua populasi yang berdekatan menyebabkan terdapat beberapa titik yang
tumpang tindih sehingga struktur data sulit dipisahkan secara linier sempurna.
Dengan menggunakan ragam yang sama maka ragam peubah penjelas akan
merata pada setiap populasi.
Pada skenario yang ketiga, ukuran contoh pada Grup 1 sebanyak 40 data
pengamatan dan 80 data pengamatan sebagai Grup 2. Pada Grup 1, data
dibangkitkan dari sebaran yang berdistribusi normal ganda dengan vektor rataan
dan matriks ragam peragam masing-masing adalah
 1 0.7 
 1
μ1    , dan Σ1  

0.7 1 
 1
sedangkan pada Grup 2 dengan ukuran contoh sebanyak 80 data pengamatan.
Data dibangkitkan dari campuran dua sebaran berdistribusi normal ganda dengan
vektor rataan masing-masing adalah
 3
1
μ 2    dan μ3   
1
 3
dan matriks ragam peragam
 1 0.7 
Σ2  Σ3  

0.7 1 
sehingga:
x | w, μ2 , μ3 , Σ2 , Σ3 ~ 0.5 MVN (x ; μ2 , Σ2 )  0.5MVN (x ; μ3 , Σ3 )
dengan MVN(x; i, i) adalah fungsi kepadatan peluang yang berdistribusi normal
ganda dengan i adalah vektor rataan ke-i dan i adalah matriks ragam peragam
ke-i. Pemilihan vektor rataan pada skenario ketiga didasarkan sebagai ilustrasi
untuk struktur data terpisahkan secara tidak linier pada dimensi dua. Dengan
menggunakan ragam yang sama maka ragam peubah penjelas akan merata pada
setiap populasi.
Data simulasi dibagi menjadi dua yaitu data untuk membangun suatu
pengklasifikasi (gugus data training) sebanyak 70% dan data untuk menguji
performa pengklasifikasi (gugus data tes) sebanyak 30% dari keseluruhan data
simulasi. Pada setiap gugus data tes akan dicatat tingkat kesalahan klasifikasi dari
pengklasifikasi tunggal dan gabungan yang dihasilkan.
14
Simulasi dilakukan dengan dua kondisi ukuran contoh bootstrap (n*) dan
ukuran contoh data training (n). Kondisi tersebut adalah ukuran contoh yang sama
antara bootstrap dan data trainingnya dan ukuran contoh bootstrap lebih kecil
daripada data trainingnya. Teknik bootstrap sebagai bagian dari pendekatan
metode gabungan dilakukan dengan melakukan resampling sebanyak 50, 100, dan
500 kali. Prosedur resampling digunakan untuk mengenali pengaruh frekuensi
resampling terhadap performa klasifikasi. Langkah-langkah pada pembentukan
pengklasifikasi gabungan akan diulang sebanyak 50, 100, 500, 1000 dan 5000
kali. Ketiga skenario data simulasi terangkum pada Tabel 2.
Tabel 2 Skenario data simulasi pada tiga struktur data
Skenario
Parameter
Ukuran
contoh
 2
Struktur
data
terpisahkan
linier
secara
sempurna
Grup 1 : μ1   
2
Struktur
data
terpisahkan
linier
secara tidak
sempurna
Grup 1 : μ1   
2
 
8
Grup 2 : μ 2   
8
n1 = 60
n2 = 60
 2 0

 0 2
Matriks ragam-peragam: Σ1  Σ2  Σ  
 2
 
 3
Grup 2 : μ 2   
 3
n1 = 60
n2 = 60
 2 0

 0 2
Matriks ragam-peragam: Σ1  Σ2  Σ  
 2
Struktur
data
terpisahkan
tidak secara
linier
Grup 1 : μ1   
2
 
1
 3
Grup 2 : μ 2    dan μ3   
3
 
1
 1 0.7 
 sehingga:
 0.7 1 
n1 = 40
n2 = 80
Matriks ragam-peragam: Σ1  Σ2  Σ  
xi | w, μ2 , μ3 , Σ2 , Σ3 ~ 0.5 MVN ( xi ; μ2 , Σ2 )  0.5MVN ( xi ; μ3 , Σ3 )
Data Terapan
Data terapan yang akan digunakan pada penelitian ini adalah data
mahasiswa Pascasarjana IPB Program Studi Statistika yang diperoleh dari Divisi
Akademik Sekolah Pascasarjana IPB. Data tersebut akan digunakan untuk
mengklasifikasikan keberhasilan studi mahasiswa Pascasarjana IPB Program
Studi Statistika. Data terapan yang digunakan adalah semua data mahasiswa
Pascasarjana IPB Program Studi Statistika yang berhasil lanjut ke semester dua.
Kriteria mahasiswa yang berhasil lanjut ke semester dua adalah mahasiswa
dengan IPK 3.00 yang berstatus percobaan dan mahasiswa dengan status biasa.
Peubah respon yang akan diteliti adalah IPK mahasiswa program
Pascasarjana IPB Program Studi Statistika yang dikelompokan menjadi dua
bagian, yaitu : (i) mahasiswa yang berhasil dengan kriteria IPK ≥ 3.
y = 1) dan
(ii) mahasiswa yang kurang berhasil dengan kriteria IPK < 3.00 (y = -1) pada
15
akhir semester 2. Data mahasiswa Pascasarjana IPB Program Studi Statistika
berjumlah 188 mahasiswa tetapi hanya 162 mahasiswa yang memenuhi syarat
lanjut ke semester dua dengan kriteria mahasiswa yang berhasil sebanyak 143
mahasiswa dan 19 mahasiswa kurang berhasil. Karakteristik peubah penjelas yang
digunakan pada penelitian ini terangkum pada Tabel 3.
Tabel 3 Karakteristik peubah penjelas pada data terapan
Peubah Penjelas
Jenis Kelamin
Keterangan
1 = Laki-laki
2 = Perempuan
Usia
Pada
Saat
Masuk
Sekolah
Pascasarjana IPB
Status Perkawinan Pada Saat Masuk 1 = Menikah
Sekolah Pascasarjana IPB
2 = Belum Menikah
Pekerjaan pada saat tahun masuk
1 = Dosen
2 = Non Dosen
Asal Perguruan Tinggi Pada Saat Sarjana
1 = PTN Jawa
2 = PTS Jawa
3 = PTN/PTS Non Jawa
Program Studi Pada Saat Sarjana
1 = Statistika
2 = Matematika
3 = Pendidikan Matematika
4 = Lainnya
IPK Pada Saat Sarjana
Sponsor Pendidikan Pada Saat Menjadi 1 = Sendiri
Mahasiswa Pascasarjana IPB
2 = BPPS/BU
3 = Instansi/Lembaga
Metode Analisis
Kajian Simulasi
Pada data simulasi langkah-langkah yang akan dilakukan dalam
menganalisis pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan
SVM adalah :
1) Menggunakan data simulasi yang dibangkitkan dengan ketiga struktur data
2) Membentuk pengklasifikasi tunggal yaitu SVM dan pohon klasifikasi
3) Membentuk pengklasifikasi gabungan yaitu ensemble tree dan ensemble SVM.
Tahapan ini terdiri dari beberapa lang
kah-langkah sebagai berikut :
i. Membagi data menjadi dua yaitu gugus data training dan data tes.
ii. Menarik contoh acak dengan pengembalian sebanyak n* dari gugus data
training (tahapan bootstrap). Ukuran contoh bootsrap yang dicobakan
adalah 84 dan 60 data pengamatan.
iii. Membuat dugaan pada pengklasifikasi SVM dan pohon klasifikasi
berdasarkan data tersebut.
iv. Mengulangi langkah (ii) dan (iii) sebanyak k kali sehingga diperoleh k buah
pengklasifikasi tunggal dan dugaan.
16
v. Melakukan pendugaan gabungan berdasarkan k buah pengklasifikasi
tunggal tersebut dengan menggunakan suara terbanyak (tahapan aggregasi).
4) Mengevaluasi dan membandingkan performa pengklasifikasi tunggal dan
gabungan dengan menggunakan tabel ketepatan klasifikasi dengan
menggunakan gugus data tes.
Keseluruhan proses analisis dilakukan menggunakan software R i386 3.0.1
dengan package MASS, e1071 dan rpart. Alur kerja metode penelitian disajikan
pada Gambar 5.
Data
Pengklasifikasi tunggal
Pengklasifikasi Gabungan
Data training
Contoh 1
Contoh 2
Contoh k
Pengklasifikasi
tunggal 1
Pengklasifikasi
tunggal 2
Pengklasifikasi
tunggal k
Agregasi
Evaluasi performa
Evaluasi performa
Perbandingan
Gambar 5 Alur kerja metode penelitian
Kajian Terapan
Prosedur yang dilakukan untuk contoh penerapan terdiri atas :
1) Menerapkan metode pengklasifikasi tunggal dan gabungan dari pohon
klasifikasi dan SVM.
2) Mengevaluasi kinerja pengklasifikasi tunggal dan gabungan dengan tabel
ketepatan klasifikasi.
17
4. HASIL DAN PEMBAHASAN
Data Simulasi
Data pembangkitan kasus simulasi merupakan data yang dibangkitkan
dengan mengikuti distribusi tertentu dengan rataan dan ragam tertentu. Setiap
kasus simulasi juga dihitung simpangan baku untuk melihat kestabilan model.
Hasil pembangkitan data akan dilakukan disetiap skenario data simulasi untuk
melihat kondisi data yang terbentuk.
Setiap data akan dibagi menjadi dua yaitu data training dan data tes. Data
training digunakan untuk pembentukan pengklasifikasi tunggal dan gabungan
sedangkan data tes digunakan untuk validasi model. Guna melihat efektifitas dari
pengklasifikasi tunggal dan gabungan dihitung rataan kesalahan klasifikasi tiaptiap model. Semakin kecil rataan tingkat kesalahan klasifikasi yang dihasilkan
maka metode akan semakin efektif dalam mengklasifikasikan kasus simulasi.
Struktur Data yang Terpisahkan secara Linier Sempurna
Struktur data yang terpisahkan secara linier sempurna dapat diartikan bahwa
setiap anggota dari dua kelompok berbeda dapat dipisahkan secara linier
sempurna dan setiap titik berada di luar atau sama dengan batas margin. Hasil
bangkitan data simulasi pada kasus ini dapat dilihat pada Gambar 6.
Gambar 6 Hasil bangkitan data simulasi pada struktur data yang terpisahkan
linier secara sempurna
Hasil simulasi pada skenario pertama menunjukkan bahwa persentase rataan
kesalahan klasifikasi pada dua kondisi ukuran contoh bootstrap dan data training
memiliki hasil yang sama sehingga akan disajikan hasil dengan kondisi ukuran
contoh bootstrap lebih kecil data training. Plot perbandingan persentase rataan
dan simpangan baku salah klasifikasi dengan ulangan 5000 pada struktur data
terpisahkan linier secara sempurna dapat dilihat pada Gambar 7.
1
0.8
0.6
0.4
0.2
0
Tunggal
50
100
500
Banyaknya resampling
Pohon Klasifikasi
SVM Polinomial
(a)
SVM Linier
SVM Radial
Simpangan baku
MCR(%)
18
0.02
0.015
0.01
0.005
0
Tunggal
50
100
500
Banyaknya resampling
Pohon Klasifikasi
SVM Polinomial
SVM Linier
SVM Radial
(b)
Gambar 7 Plot perbandingan (a) persentase rataan salah klasifikasi dan
(b) simpangan baku pada struktur data terpisahkan linier secara
sempurna
Pada pengklasifikasi tunggal, metode SVM memiliki persentase rataan
tingkat kesalahan klasifikasi lebih rendah dibandingkan dengan pohon klasifikasi.
Semakin banyak resampling dan pengulangan dilakukan maka persentase rataan
salah klasifikasi dan simpangan baku SVM pada ketiga fungsi kernel tetap
konstan yaitu sebesar 0. Metode SVM pada skenario ini tidak memiliki salah
klasifikasi sehingga merupakan metode yang lebih baik dan lebih stabil
dibandingkan pohon klasifikasi. Pada pengklasifikasi gabungan terjadi penurunan
persentase rataan kesalahan klasifikasi dan nilai simpangan baku baik pada SVM
maupun pohon klasifikasi. Hal ini menunjukkan bahwa metode gabungan
meningkatkan akurasi dan menurunkan ragam pada pengklasifikasi tunggal.
Sruktur Data yang Terpisahkan Linier secara Tidak Sempurna
Struktur data yang terpisahkan linier secara tidak sempurna dapat diartikan
bahwa setiap anggota dari dua kelompok berbeda dapat dipisahkan secara linier
tetapi ada titik-titik yang berada di dalam batas margin meskipun diklasifikasikan
secara benar serta titik-titik yang diklasifikasikan secara salah. Hasil bangkitan
data simulasi pada kasus ini dapat dilihat pada Gambar 8.
Gambar 8 Hasil bangkitan data simulasi pada struktur data yang terpisahkan
linier secara tidak sempurna
19
40
30
20
10
0
Tunggal
50
100
500
Banyaknya resampling
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
(a)
Gambar 9
Simpangan baku
MCR (%)
Hasil simulasi pada skenario pertama menunjukkan bahwa persentase rataan
kesalahan klasifikasi pada dua kondisi ukuran contoh bootstrap dan data training
memiliki hasil yang sama sehingga akan disajikan hasil dengan kondisi ukuran
contoh bootstrap lebih kecil data training. Plot perbandingan persentase rataan
dan simpangan baku salah klasifikasi dengan ulangan 5000 pada struktur data
terpisahkan linier secar tidak sempurna ditunjukkan pada Gambar 9.
0.1
0.08
0.06
0.04
0.02
0
Tunggal
50
100
500
Banyaknya resampling
Pohon Klasifikasi
SVM Polinomial
SVM Linier
SVM Radial
(b)
Plot perbandingan (a) persentase rataan salah klasifikasi dan
(b) simpangan baku pada struktur data terpisahkan linier secara
tidak sempurna
Pada pengklasifikasi tunggal, metode SVM dengan ketiga fungsi kernel
memiliki persentase rataan tingkat kesalahan klasifikasi lebih rendah
dibandingkan dengan pohon klasifikasi. SVM semakin menurun dengan semakin
banyaknya ulangan dengan persentase penurunan rataan tingkat kesalahan
klasifikasi sebesar 1.39-1.75. Metode SVM dengan fungsi kernel radial
mempunyai persentase rataan kesalahan klasifikasi terkecil sehingga merupakan
metode pengklasifikasi tunggal yang mempunyai performa paling baik
dibandingkan pohon klasifikasi.
Pada pengklasifikasi gabungan terjadi penurunan persentase rataan
kesalahan klasifikasi dan nilai simpangan baku baik pada SVM maupun pohon
klasifikasi. Hal ini menunjukkan bahwa metode gabungan meningkatkan akurasi
dan menurunkan ragam pada pengklasifikasi tunggal. Ensemble SVM dengan
fungsi kernel radial paling baik digunakan untuk mengelompokkan objek apabila
dibandingkan dengan ensemble SVM dengan fungsi kernel lainnya.
Struktur Data yang Terpisahkan secara Tidak Linier
Struktur data yang terpisahkan secara tidak linier dalam hal ini merupakan
setiap anggota dari dua kelompok berbeda tidak dapat dipisahkan secara linier
sehingga perlu ditransformasi ke dimensi yang lebih tinggi dengan menggunakan
fungsi kernel sehingga anggota kelas yang ada lebih mudah dipisahkan secara
linear. Fungsi kernel yang digunakan pada kasus ini adalah linier, polinomial dan
radial. Hasil simulasi pada skenario pertama menunjukkan bahwa persentase
rataan kesalahan klasifikasi pada dua kondisi ukuran contoh bootstrap dan data
training memiliki hasil yang sama sehingga akan disajikan hasil dengan kondisi
ukuran contoh bootstrap lebih kecil data training. Hasil bangkitan data simulasi
pada skenario untuk struktur data yang terpisahkan secara tidak linier dapat dilihat
pada Gambar 10.
20
Gambar 10
Hasil bangkitan data simulasi pada struktur data yang terpisahkan
secara tidak linier
20
15
10
5
0
Tunggal
50
100
500
Banyaknya resampling
Pohon Klasifikasi
SVM Polinomial
(a)
Simpanan baku
MCR (%)
Plot perbandingan persentase rataan dan simpangan baku salah klasifikasi dengan
ulangan 5000 pada struktur data terpisahkan secara tidak linier dapat dilihat pada
Gambar 11.
0.2
0.15
0.1
0.05
0
Tunggal
50
100
500
Banyaknya resampling
SVM Linier
Pohon Klasifikasi
SVM Linier
SVM Radial
SVM Polinomial
SVM Radial
(b)
Gambar 11 Plot perbandingan (a) persentase rataan salah klasifikasi dan
(b) simpangan baku pada struktur data terpisahkan secara tidak linier
Pada pengklasifikasi tunggal, metode SVM dengan ketiga fungsi kernel
memiliki persentase rataan tingkat kesalahan klasifikasi lebih rendah
dibandingkan dengan pohon klasifikasi. SVM semakin menurun dengan semakin
banyaknya ulangan dengan persentase penurunan rataan tingkat kesalahan
klasifikasi sebesar 1.77-2.18. Metode SVM dengan fungsi kernel radial
mempunyai persentase rataan kesalahan klasifikasi terkecil sehingga merupakan
metode pengklasifikasi tunggal yang mempunyai performa paling baik
dibandingkan pohon klasifikasi.
Pada pengklasifikasi gabungan terjadi penurunan persentase rataan
kesalahan klasifikasi dan nilai simpangan baku baik pada SVM maupun pohon
21
klasifikasi. Hal ini menunjukkan bahwa metode gabungan meningkatkan akurasi
dan menurunkan ragam pada pengklasifikasi tunggal. Ensemble SVM dengan
fungsi kernel radial paling baik apabila dibandingkan dengan ensemble SVM
dengan fungsi kernel yang lainnya.
Data Terapan
Data terapan yang akan digunakan pada penelitian ini adalah data
mahasiswa Pascasarjana IPB Program Studi Statistika tahun masuk 2000-2010
yang diperoleh dari Divisi Akademik Sekolah Pascasarjana IPB. Mahasiswa
Pascasarjana IPB Program Studi Statistika tahun masuk 2000-2010 berjumlah 188
mahasiswa. Data yang dibutuhkan pada penelitian ini adalah semua mahasiswa
berstatus biasa dan mahasiwa berstatus percobaan yang mempunyai IPK lebih
besar dari 3.00 pada semester satu.
Data mahasiswa Pascasarjana IPB Prdogram Studi Statistika tahun masuk
2000-2010 terdiri dari delapan peubah penjelas dan mempunyai ukuran populasi
sebanyak 162 orang. Penerapan metode tunggal dan gabungan dari SVM dan
pohon klasifikasi akan diulang sebanyak 50 dan 100. Banyaknya resampling yang
akan digunakan adalah 50, 100 dan 500.
Sebagian besar mahasiswa Pascasarjana IPB Program Studi Statistika tahun
masuk 2000-2010 diminati oleh mahasiswa berjenis kelamin perempuan, belum
menikah, mempunyai pekerjaan sebagai dosen, berasal dari Perguruan Tinggi
Negri di Jawa, berasal dari Program Studi Statistika saat sarjana dan mempunyai
sponsor pendidikan sendiri ataupun beasiswa BBPS atau BU. Jumlah mahasiswa
Pascasarjana IPB Program Studi Statistika tahun masuk 2000-2010 adalah 162
orang, 101 orang berjenis kelamin perempuan dan sisanya adalah laki-laki.
Mahasiswa perempuan hampir mendominasi setiap angkatan pada Program Studi
Statistika kecuali pada angkatan 2003, 2004 dan 2006. Sponsor pendidikan pada
saat masuk Sekolah Pascasarjana IPB berimbang antara biaya sendiri dan
beasiswa BPPS atau BU yang disebabkan sebagian besar mahasiswa Pascasarjana
IPB Program Studi Statistika merupakan seorang dosen. Deskripsi data
mahasiswa Pascasarjana IPB Program Studi Statistika tahun masuk 2000-2010
disajikan pada Lampiran 18.
Pada pengklasifikasi tunggal, metode SVM dengan ketiga fungsi kernel
memiliki persentase rataan tingkat kesalahan klasifikasi lebih rendah
dibandingkan dengan pohon klasifikasi. SVM semakin menurun dengan semakin
banyaknya ulangan dengan persentase penurunan rataan tingkat kesalahan
klasifikasi sebesar 0.32-1.00. Metode SVM dengan fungsi kernel radial
mempunyai persentase rataan kesalahan klasifikasi terkecil sehingga merupakan
metode pengklasifikasi tunggal yang mempunyai performa paling baik
dibandingkan pohon klasifikasi.
Pada pengklasifikasi gabungan terjadi penurunan persentase rataan
kesalahan klasifikasi dan nilai simpangan baku baik pada SVM maupun pohon
klasifikasi. Hal ini menunjukkan bahwa metode gabungan meningkatkan akurasi
dan menurunkan ragam pada pengklasifikasi tunggal. Ensemble SVM dengan
fungsi kernel radial paling baik apabila dibandingkan dengan SVM dengan fungsi
kernel yang lainnya sehingga merupakan metode yang paling tepat untuk
22
20
15
10
5
0
Tunggal
50
100
500
Banyaknya resampling
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
Simpangan baku
MCR (%)
mengklasifikasikan keberhasilan studi mahasiswa Pascasarjana IPB Program
Studi Statistika tahun masuk 2000-2010. Plot perbandingan persentase rataan dan
simpangan baku salah klasifikasi dengan ulangan 100 pada data terapan dapat
dilihat pada Gambar 12.
0.05
0.04
0.03
0.02
0.01
0
Tunggal
50
100
500
Banyaknya resampling
Pohon Klasifikasi
SVM Polinomial
(a)
SVM Linier
SVM Radial
(b)
Gambar 12 Plot perbandingan (a) persentase rataan salah klasifikasi dan
(b) simpangan baku pada data terapan
Tabel persentase rataan salah klasifikasi dan simpangan baku pada data terapan
dengan ulangan 100 dapat dilihat pada Tabel 4.
Tabel 4 Persentase rataan salah klasifikasi dan simpangan baku pada data terapan
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
*n bag = banyaknya resampling
Tunggal
17.15
(0.0469)
12.83
(0.0415)
11.92
(0.0399)
11.90
(0.0398)
n bag* = 50
16.65
(0.0438)
12.08
(0.0399)
11.65
(0.0387)
11.62
(0.0378)
n bag = 100
16.56
(0.0433)
12.00
(0.0390)
11.64
(0.0385)
11.61
(0.0375)
n bag = 500
16.45
(0.0421)
11.92
(0.0389)
11.60
(0.0381)
11.58
(0.0372)
5. SIMPULAN DAN SARAN
Simpulan
Simpulan yang dapat diambil pada penelitian ini adalah :
1. Metode SVM pada ketiga struktur data mempunyai persentase rataan tingkat
kesalahan klasifikasi lebih rendah dibandingkan dengan pohon klasifikasi.
- Pada struktur data yang terpisahkan linier secara sempurna, SVM dengan
ketiga fungsi kernel tidak memiliki salah klasifikasi sehingga mempunyai
performa paling baik dibandingkan dengan pohon klasifikasi.
23
- Pada struktur data yang terpisahkan linier secara tidak sempurna, persentase
rataan tingkat kesalahan klasifikasi SVM semakin menurun dengan semakin
banyaknya ulangan dengan kisaran sekitar 1.39-1.75. SVM dengan fungsi
kernel radial mempuyai performa yang paling baik dibandingkan dengan
fungsi kernel lainnya.
- Pada struktur data yang terpisahkan secara tidak linier, persentase rataan
tingkat kesalahan klasifikasi SVM semakin menurun dengan semakin
banyaknya ulangan dengan kisaran sekitar 1.77-2.18. SVM dengan fungsi
kernel radial mempuyai performa yang paling baik dibandingkan dengan
fungsi kernel lainnya.
2. Metode gabungan lebih stabil dan menurunkan simpangan baku dibandingkan
dengan pengklasifikasi tunggal terutama ensemble SVM dengan fungsi kernel
radial sehingga mempunyai performa terbaik.
3. Pada data terapan ensemble SVM dengan fungsi kernel radial mempunyai
performa terbaik untuk mengklasifikasikan keberhasilan studi mahasiswa
Pascasarjana Program Studi Statistika tahun masuk 2000-2010.
Saran
Penelitian ini masih banyak kekurangan sehingga dapat dikembangkan
dengan berbagai metode penelitian. Penelitian lanjutan yang bisa dilakukan adalah
menambah kasus simulasi supaya mendapatkan hasil yang beragam. Selain itu
dapat dilakukan perbandingan pengklasifikasi tunggal dan gabungan dengan
menggunakan pengklasifikasi lainnya seperti NN, naive bayes, k-NN dan lainlain. Pembentukan pengklasifikasi gabungan juga dapat dilakukan dengan
bagging, boosting dan random forest. Penelitian ini hanya dilakukan dengan
bagging jadi selanjutnya bisa dilakukan dengan membandingkan ketiganya.
DAFTAR PUSTAKA
Anderson TW, Bahadur RR. 1966. Classification into Two Multivariate Normal
Distributions with Different Covariance Matrices. Ann. Math. Stat. 33: 420431.
Aronszajn N. 1950. Theory of Reproducing Kernels. Transactions of the
American Mathematical Society 68: 337-404.
Berk RA. 2008. Statistical Learning from a Regression Perspective. New York :
Springer Science + Business Media.
Breiman L, Friedman JH, Olshen RA, Stone CJ. 1993. Classification and
Regression Trees. New York: Chapman and Hall.
Breiman L. 1996. Bagging Predictors. Machine Learning 24: 123–140.
Bruzzone L, Cossu R, Vernazza G. 2004. Detection of land-cover transitions by
combining multidate classifiers. Pattern Recognition Letters 25(13): 1491–
1500.
Burges C. 1998. A tutorial on Support Vector Machine for Pattern Recognition.
Data Mining and Knowledge Discovery, 2: 121-167.
24
Cortes C, Vapnik V. 1995. Support Vector Networks. Machine Learning 20(3):
273–297.
Cover TM. 1965. Geometrical and Statistical Properties of Systems of Linier
Inequalities with Applications in Pattern Recognition. IEEE Transactions on
Electronic Computers 14(3): 326 – 334.
Cristianini N, Shawe-Taylor J. 2004. Kernel Methods for Patern Analysis.
Cambridge, UK : Cambridge University Press.
Dietterich TG. 2000. An Experimental Comparison of Three Methods for
Constructing Ensembles of Decision Trees: Bagging, Boosting, and
Randomization. Machine Learning 40 : 139–157.
Duda RO, Hart PE, Stork DG. 1973. Pattern Classification. New York: John
Wiley and Sons.
Efron B, Tibshirani RJ. 1998. An Introduction to the Bootstrap. Boca Raton, FL:
Chapman and Hall/CRC Press.
Hansen LK, Salamon P. 1990. Neural Network Ensembles. IEEE Trans. Pattern
Analysis and Machine Intelligence 12 (10): 993-1001.
Hastie TJ, Tibshirani RJ, Friedman JH. 2008. The Elements of Statistical
Learning: Data-mining, Inference and Prediction. New York: Springer-Verlag.
Hosmer D, Lemeshow S. 2000. Applied Logistic Regression. New York: John
Wiley and Sons.
Johnson RA, Wichern DW. 2007. Applied Multivariate Statistical Analysis Sixth
Edition. New Jersey: Prentice Hall International Inc.
Keckman V. 2005. Support Vector Machines – An Introduction. Studies in
Fuzziness and Soft Computing 177 : 1-47.
Leigh W, Purvis R, Ragusa JM. 2002. Forecasting the NYSE Composite Index
with Technical Analysis, Pattern Recognizer, Neural Networks, and Genetic
Algorithm: a Case Study in Romantic Decision Support. Decision Support
Systems 32(4): 361–377.
Loh WY, Shih YS. 1997. Split Selection Methods for Classification Tree.
Statistica Sinica 7: 815–840.
Mangiameli P, West D, Rampal R. 2004. Model selection for medical diagnosis
decision support systems. Decision Support Systems 36(3): 247–259.
Meyer D. 2013. Package „e1071‟ [Internet]. Bogor (ID): cran. hlm 49-50;
[diunduh
2014
Jan
2].
Tersedia
pada:
cran.rproject.org/web/packages/e1071/e1071.pdf
Opitz D, Maclin R. 1999. Popular Ensemble Methods: An Empirical Study.
Journal Of Articial Intelligence Research 11: 169-198.
Quinlan JR. 1986. Induction of Decision Tree. Machine Learning 1: 81 – 106.
Rokach L. 2010. Pattern Classification using Ensemble Methods. Singapore:
World Scientific Publishing Co. Pte. Ltd.
Salazar DA, Velez JI, Salazar JC. 2012. Comparison between SVM and Logistic
Regression: Which One is Better to Discriminate? Revista Colombiana de
Estadística 35 (2): 223-237.
Schoelkopf B, Smola A. 2002. Learning with kernels. Cambridge, MA : IT Press.
Steinberg D, Colla P. 1995. CART: Tree-Structured Nonparametric Data Analysis.
San Diego, CA : Salford Systems.
Strang G. 1986. Introduction to Applied Mathematics. Wellesley: Cambridge
Press.
25
Tan AC, Gilbert D, Deville Y. 2003. Multi-class Protein Fold Classification using
a New Ensemble Machine Learning Approach. Genome Informatics 14: 206–
217.
Valentini G, Dietterich TG. 2000. Bias–variance analysis of Support Vector
Machines for the development of SVM-based ensemble methods. Journal of
Machine Learning Research 1: 1-48.
Vapnik V. 1995. The Nature of Statistical Learning Theory. New York: Springer
Verlag.
Venables WN, Ripley BD. 2002. Modern Applied Statistics with S. New York:
Springer-Verlag.
Wang SJ, Mathew A, Chen Y, Xi LF, Ma L, Lee J. 2009. Empirical analysis of
support vector machine ensemble classifiers. Expert Systems with Applications
36: 6466–6476.
26
Lampiran 1
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara linier sempurna (ulangan = 50)
Ukuran contoh bootstrap sama dengan data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
Tunggal
0.94
(0.0165)
0.00
(0.0000)
0.00
(0.0015)
0.00
(0.0000)
n bag* = 50
0.89
(0.0153)
0.0000
(0.0000)
0.07
(0.0009)
0.0000
(0.0000)
n bag = 100
0.83
(0.0151)
0.0000
(0.0000)
0.06
(0.0008)
0.0000
(0.0000)
n bag = 500
0.82
(0.0150)
0.00
(0.0000)
0.06
(0.0008)
0.0000
(0.0000)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Tunggal
0.94
Pohon Klasifikasi
(0.0165)
0.00
SVM Linier
(0.0000)
0.00
SVM Polinomial
(0.0015)
0.00
SVM Radial
(0.0000)
*n bag = banyaknya resampling
Lampiran 2
n bag = 50
0.87
(0.0151)
0.00
(0.0000)
0.06
(0.0008)
0.00
(0.0000)
n bag = 100
0.78
(0.0149)
0.00
(0.0000)
0.05
(0.0007)
0.00
(0.0000)
n bag = 500
0.78
(0.0149)
0.00
(0.0000)
0.05
(0.0006)
0.00
(0.0000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara linier sempurna (ulangan=100)
Ukuran contoh bootstrap sama dengan data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
Tunggal
0.94
(0.0165)
0.00
(0.0000)
0.00
(0.0015)
0.00
(0.0000)
n bag* = 50
0.73
(0.0139)
0.00
(0.0000)
0.03
(0.0009)
0.00
(0.0000)
n bag = 100
0.68
(0.0127)
0.00
(0.0000)
0.02
(0.0008)
0.00
(0.0000)
n bag = 500
0.66
(0.0112)
0.00
(0.0000)
0.02
(0.0008)
0.00
(0.0000)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Tunggal
0.94
Pohon Klasifikasi
(0.0165)
0.00
SVM Linier
(0.0000)
0.00
SVM Polinomial
(0.0015)
0.00
SVM Radial
(0.0000)
*n bag = banyaknya resampling
n bag = 50
0.71
(0.0136)
0.00
(0.0000)
0.03
(0.0004)
0.00
(0.0000)
n bag = 100
0.67
(0.0125)
0.00
(0.0000)
0.02
(0.0003)
0.00
(0.0000)
n bag = 500
0.63
(0.1080)
0.00
(0.0000)
0.02
(0.0003)
0.00
(0.0000)
27
Lampiran 3
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara linier sempurna (ulangan = 500)
Ukuran contoh bootstrap sama dengan data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polynomial
SVM Radial
Tunggal
0.94
(0.0165)
0.00
(0.0000)
0.00
(0.0015)
0.00
(0.0000)
n bag* = 50
0.45
(0.0121)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
n bag = 100
0.39
(0.0105)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
n bag = 500
0.38
(0.0104)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Tunggal
0.94
Pohon Klasifikasi
(0.0165)
0.00
SVM Linier
(0.0000)
0.00
SVM Polynomial
(0.0015)
0.00
SVM Radial
(0.0000)
*n bag = banyaknya resampling
Lampiran 4
n bag = 50
0.42
(0.0118)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
n bag = 100
0.36
(0.0102)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
n bag = 500
0.35
(0.0099)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara linier sempurna (ulangan = 1000)
Ukuran contoh bootstrap sama dengan data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
Tunggal
0.94
(0.0165)
0.00
(0.0000)
0.00
(0.0015)
0.00
(0.0000)
n bag* = 50
0.41
(0.0117)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
n bag = 100
0.33
(0.0096)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
n bag = 500
0.31
(0.0094)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Tunggal
0.94
Pohon Klasifikasi
(0.0165)
0.00
SVM Linier
(0.0000)
0.00
SVM Polinomial
(0.0015)
0.00
SVM Radial
(0.0000)
*n bag = banyaknya resampling
n bag = 50
0.39
(0.0095)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
n bag = 100
0.33
(0.0091)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
n bag = 500
0.31
(0.0089)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
28
Lampiran 5
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara linier sempurna (ulangan = 5000)
Ukuran contoh bootstrap sama dengan data training
Metode
Tunggal
0.94
(0.0165)
0.00
(0.0000)
0.00
(0.0015)
0.00
(0.0000)
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
n bag* = 50
0.37
(0.0092)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
n bag = 100
0.26
(0.0085)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
n bag = 500
0.24
(0.0081)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Tunggal
0.94
(0.0165)
0.00
(0.0000)
0.00
(0.0015)
0.00
(0.0000)
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
n bag = 50
0.32
(0.0086)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
n bag = 100
0.21
(0.0077)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
n bag = 500
0.19
(0.0074)
0.00
(0.0000)
0.00
(0.0000)
0.00
(0.0000)
*n bag = banyaknya resampling
Lampiran 6
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan linier secara tidak sempurna
(ulangan = 50)
Ukuran contoh bootstrap sama dengan data training
Metode
Tunggal
30.94
(0.0952)
26.56
(0.0776)
27.29
(0.0782)
26.14
(0.0775)
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
n bag* = 50
29.11
(0.0949)
25.54
(0.0758)
26.24
(0.0768)
25.13
(0.0754)
n bag = 100
28.87
(0.0901)
25.53
(0.0754)
26.16
(0.0765)
25.03
(0.0752)
n bag = 500
28.76
(0.0883)
25.51
(0.0744)
26.14
(0.0758)
25.00
(0.0744)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
*n bag = banyaknya resampling
Tunggal
30.94
(0.0952)
26.56
(0.0776)
27.29
(0.0782)
26.14
(0.0775)
n bag = 50
29.00
(0.0891)
25.51
(0.0737)
26.20
(0.0743)
25.08
(0.0732)
n bag = 100
28.78
(0.0877)
25.44
(0.0733)
26.15
(0.0743)
24.96
(0.0731)
n bag = 500
28.50
(0.0862)
25.36
(0.0723)
26.12
(0.0737)
24.97
(0.0722)
29
Lampiran 7
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan linier secara tidak sempurna
(ulangan = 100)
Ukuran contoh bootstrap sama dengan data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
Tunggal
30.94
(0.0952)
26.56
(0.0776)
27.29
(0.0782)
26.14
(0.0775)
n bag* = 50
28.97
(0.0925)
25.17
(0.0724)
25.92
(0.0731)
25.06
(0.0721)
n bag = 100
28.94
(0.0888)
25.14
(0.0722)
25.78
(0.0728)
25.02
(0.0720)
n bag = 500
28.83
(0.0861)
25.11
(0.0713)
25.67
(0.0725)
24.94
(0.0712)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Tunggal
30.94
Pohon Klasifikasi
(0.0952)
26.56
SVM Linier
(0.0776)
27.29
SVM Polinomial
(0.0782)
26.14
SVM Radial
(0.0775)
*n bag = banyaknya resampling
Lampiran 8
n bag = 50
28.94
(0.0881)
25.15
(0.0719)
25.87
(0.0729)
25.05
(0.0715)
n bag = 100
28.67
(0.0871)
25.13
(0.0717)
25.72
(0.0727)
25.01
(0.0710)
n bag = 500
28.28
(0.0856)
24.86
(0.0709)
25.64
(0.0723)
24.92
(0.0707)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan linier secara tidak sempurna
(ulangan = 500)
Ukuran contoh bootstrap sama dengan data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
Tunggal
30.94
(0.0952)
26.56
(0.0776)
27.29
(0.0782)
26.14
(0.0775)
n bag* = 50
28.88
(0.0887)
25.06
(0.0688)
26.22
(0.0717)
24.78
(0.0678)
n bag = 100
28.78
(0.0872)
25.06
(0.0684)
26.15
(0.0714)
24.56
(0.0675)
n bag = 500
28.72
(0.0855)
24.83
(0.0679)
25.94
(0.0707)
24.39
(0.0668)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Tunggal
30.94
Pohon Klasifikasi
(0.0952)
26.56
SVM Linier
(0.0776)
27.29
SVM Polinomial
(0.0782)
26.14
SVM Radial
(0.0775)
*n bag = banyaknya resampling
n bag = 50
28.85
(0.0879)
25.01
(0.0683)
26.21
(0.0713)
24.98
(0.0679)
n bag = 100
28.74
(0.0864)
24.94
(0.0678)
26.11
(0.0707)
24.86
(0.0672)
n bag = 500
28.54
(0.0850)
24.88
(0.0671)
25.95
(0.0697)
24.84
(0.0669)
30
Lampiran 9
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan linier secara tidak sempurna
(ulangan = 1000)
Ukuran contoh bootstrap sama dengan data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
Tunggal
30.94
(0.0952)
26.56
(0.0776)
27.29
(0.0782)
26.14
(0.0775)
n bag* = 50
28.85
(0.0872)
24.90
(0.0682)
26.17
(0.0693)
24.92
(0.0676)
n bag = 100
28.69
(0.0869)
24.87
(0.0673)
26.08
(0.0688)
24.85
(0.0670)
n bag = 500
28.66
(0.0865)
24.83
(0.0669)
25.92
(0.0682)
24.81
(0.0668)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Tunggal
30.94
Pohon Klasifikasi
(0.0952)
26.56
SVM Linier
(0.0776)
27.29
SVM Polinomial
(0.0782)
26.14
SVM Radial
(0.0775)
*n bag = banyaknya resampling
n bag = 50
28.71
(0.0866)
24.79
(0.6800)
25.88
(0.0687)
24.69
(0.0675)
n bag = 100
28.70
(0.0862)
24.78
(0.0670)
25.87
(0.0680)
24.68
(0.0669)
n bag = 500
28.46
(0.0859)
24.76
(0.0667)
25.86
(0.0676)
24.67
(0.0666)
Lampiran 10 Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan linier secara tidak sempurna
(ulangan = 5000)
Ukuran contoh bootstrap sama dengan data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
Tunggal
30.94
(0.0952)
26.56
(0.0776)
27.29
(0.0782)
26.14
(0.0775)
n bag* = 50
28.74
(0.0871)
24.85
(0.0680)
26.16
(0.0689)
24.81
(0.0674)
n bag = 100
28.66
(0.0867)
24.82
(0.0672)
26.06
(0.0682)
24.77
(0.0668)
n bag = 500
28.48
(0.0864)
24.81
(0.0667)
25.90
(0.0679)
24.71
(0.0665)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Tunggal
30.94
Pohon Klasifikasi
(0.0952)
26.56
SVM Linier
(0.0776)
27.29
SVM Polinomial
(0.0782)
26.14
SVM Radial
(0.0775)
*n bag = banyaknya resampling
n bag = 50
28.69
(0.0865)
24.73
(0.0677)
25.84
(0.0684)
24.67
(0.0673)
n bag = 100
28.62
(0.0864)
24.71
(0.0669)
25.83
(0.0677)
24.64
(0.0667)
n bag = 500
28.57
(0.0859)
24.70
(0.0665)
25.80
(0.0674)
24.58
(0.0665)
31
Lampiran 11 Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara tidak linier (ulangan = 50)
Ukuran contoh bootstrap sama dengan data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
Tunggal
15.06
(0.0969)
13.61
(0.0691)
13.44
(0.0666)
12.55
(0.0546)
n bag* = 50
13.83
(0.0890)
12.56
(0.0687)
12.61
(0.0636)
11.50
(0.0538)
n bag = 100
13.72
(0.0884)
12.50
(0.0676)
11.78
(0.0627)
11.50
(0.0538)
n bag = 500
13.44
(0.0882)
12.33
(0.0669)
11.50
(0.0615)
11.39
(0.0513)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Tunggal
15.06
Pohon Klasifikasi
(0.0969)
13.61
SVM Linier
(0.0691)
13.44
SVM Polinomial
(0.0666)
12.55
SVM Radial
(0.0546)
*n bag = banyaknya resampling
n bag = 50
13.88
(0.0894)
13.06
(0.0674)
12.56
(0.0633)
11.89
(0.0534)
n bag = 100
13.72
(0.0879)
12.72
(0.0672)
12.22
(0.0625)
11.61
(0.0504)
n bag = 500
13.67
(0.0865)
12.52
(0.0664)
12.11
(0.0602)
11.33
(0.0488)
Lampiran 12 Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara tidak linier (ulangan = 100)
Ukuran contoh bootstrap sama dengan data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
Tunggal
15.06
(0.0969)
13.61
(0.0691)
13.44
(0.0666)
12.55
(0.0546)
n bag* = 50
13.33
(0.0879)
12.59
(0.0679)
12.38
(0.0645)
11.83
(0.0527)
n bag = 100
13.32
(0.0881)
12.34
(0.0674)
12.34
(0.0623)
11.56
(0.0512)
n bag = 500
13.29
(0.0877)
12.14
(0.0653)
12.28
(0.0611)
11.28
(0.0501)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
Tunggal
15.06
(0.0969)
13.61
(0.0691)
13.44
(0.0666)
12.55
(0.0546)
*n bag = banyaknya resampling
n bag = 50
13.83
(0.0863)
12.56
(0.0659)
12.20
(0.0627)
11.11
(0.0522)
n bag = 100
13.22
(0.0859)
12.52
(0.0648)
12.00
(0.0619)
11.00
(0.0508)
n bag = 500
13.08
(0.0842)
11.89
(0.0620)
11.81
(0.0585)
10.83
(0.0484)
32
Lampiran 13 Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara tidak linier (ulangan = 500)
Ukuran contoh bootstrap sama dengan data training
Metode
Tunggal
15.06
(0.0969)
13.61
(0.0691)
13.44
(0.0666)
12.55
(0.0546)
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
n bag* = 50
13.30
(0.0855)
11.97
(0.0589)
11.91
(0.0581)
10.56
(0.0375)
n bag = 100
13.28
(0.0843)
11.92
(0.0580)
11.62
(0.0567)
10.39
(0.0366)
n bag = 500
13.26
(0.0842)
11.83
(0.0577)
11.61
(0.0564)
10.33
(0.0357)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
*n bag = banyaknya resampling
Tunggal
15.06
(0.0969)
13.61
(0.0691)
13.44
(0.0666)
12.55
(0.0546)
n bag = 50
12.96
(0.0795)
11.93
(0.0484)
11.30
(0.0447)
10.39
(0.0362)
n bag = 100
12.82
(0.0779)
11.82
(0.0479)
11.21
(0.0442)
10.28
(0.0358)
n bag = 500
12.74
(0.0763)
11.79
(0.0473)
11.17
(0.0436)
10.17
(0.0344)
Lampiran 14 Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara tidak linier (ulangan = 1000)
Ukuran contoh bootstrap sama dengan data training
Metode
Tunggal
15.06
(0.0969)
13.61
(0.0691)
13.44
(0.0666)
12.55
(0.0546)
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
n bag* = 50
12.89
(0.0789)
11.83
(0.0475)
11.72
(0.0449)
10.47
(0.0364)
n bag = 100
12.87
(0.0785)
11.79
(0.0466)
11.69
(0.0441)
10.43
(0.0360)
n bag = 500
12.84
(0.0783)
11.76
(0.0462)
11.68
(0.0434)
10.40
(0.0358)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
*n bag = banyaknya resampling
Tunggal
15.06
(0.0969)
13.61
(0.0691)
13.44
(0.0666)
12.55
(0.0546)
n bag = 50
12.78
(0.0777)
11.77
(0.0474)
11.68
(0.0444)
10.33
(0.0350)
n bag = 100
12.76
(0.0774)
11.75
(0.0471)
11.67
(0.0438)
10.31
(0.0348)
n bag = 500
12.75
(0.0772)
11.74
(0.0470)
11.66
(0.0436)
10.30
(0.0347)
33
Lampiran 15 Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara tidak linier (ulangan = 5000)
Ukuran contoh bootstrap sama dengan data training
Metode
Tunggal
15.06
(0.0969)
13.61
(0.0691)
13.44
(0.0666)
12.55
(0.0546)
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
n bag* = 50
12.85
(0.0784)
11.80
0.0470)
11.69
(0.0434)
10.44
(0.0358)
n bag = 100
12.84
(0.0782)
11.77
(0.0458)
11.68
(0.0432)
10.39
(0.0347)
n bag = 500
12.83
(0.0781)
11.75
(0.0457)
11.67
(0.0431)
10.37
(0.0346)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
*n bag = banyaknya resampling
Tunggal
15.06
(0.0969)
13.61
(0.0691)
13.44
(0.0666)
12.55
(0.0546)
n bag = 50
12.77
(0.0773)
11.71
(0.0468)
11.62
(0.0434)
10.27
(0.0349)
n bag = 100
12.70
(0.0771)
11.66
(0.0467)
11.61
(0.0433)
10.25
(0.0345)
n bag = 500
12.68
(0.0769)
11.65
(0.0466)
11.61
(0.0431)
10.24
(0.0343)
Lampiran 16 Persentase rataan dan simpangan baku kesalahan klasifikasi pada
data terapan (ulangan = 50)
Ukuran contoh bootstrap sama dengan data training
Metode
Tunggal
17.15
(0.0469)
12.83
(0.0415)
11.92
(0.0399)
11.90
(0.0398)
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
n bag* = 50
17.00
(0.0440)
12.12
(0.0411)
11.91
(0.0396)
11.89
(0.0395)
n bag = 100
16.92
(0.0437)
12.00
(0.0407)
11.90
(0.0394)
11.86
(0.0389)
n bag = 500
16.54
(0.0423)
11.83
(0.0398)
11.89
(0.0389)
11.85
(0.0372)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
*n bag = banyaknya resampling
Tunggal
17.15
(0.0457)
12.83
(0.0405)
11.92
(0.0399)
11.90
(0.0398)
n bag = 50
16.58
(0.0446)
12.25
(0.0401)
11.68
(0.0394)
11.68
(0.0394)
n bag = 100
16.54
(0.0422)
12.17
(0.0394)
11.67
(0.0391)
11.66
(0.0387)
n bag = 500
16.20
(0.0420)
12.04
(0.0392)
11.65
(0.0387)
11.63
(0.0384)
34
Lampiran 17 Persentase rataan dan simpangan baku kesalahan klasifikasi pada
data terapan (ulangan = 100)
Ukuran contoh bootstrap sama dengan data training
Metode
Tunggal
17.15
(0.0469)
12.83
(0.0415)
11.92
(0.0399)
11.90
(0.0398)
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
n bag* = 50
16.65
(0.0438)
12.08
(0.0399)
11.65
(0.0387)
11.62
(0.0378)
n bag = 100
16.56
(0.0433)
12.00
(0.0390)
11.64
(0.0385)
11.61
(0.0375)
n bag = 500
16.45
(0.0421)
11.92
(0.0389)
11.60
(0.0381)
11.58
(0.0372)
Ukuran contoh bootstrap lebih kecil dari data training
Metode
Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
*n bag = banyaknya resampling
Tunggal
17.15
(0.0469)
12.83
(0.0415)
11.92
(0.0399)
11.90
(0.0398)
n bag = 50
16.48
(0.0434)
12.05
(0.0389)
11.45
(0.0385)
11.43
(0.03882)
n bag = 100
16.44
(0.0414)
11.96
(0.0378)
11.44
(0.0373)
11.41
(0.0371)
n bag = 500
16.18
(0.0406)
11.89
(0.0379)
11.39
(0.0369)
11.37
(0.0362)
35
Lampiran 18 Jumlah mahasiswa Pascasarjana IPB Program Studi Statistika
tahun masuk 2000-2010
Jenis Rata-rata
Status
Asal Perguruan
Pekerjaan
Program Studi saat S1 Rata – rata
Sponsor Pendidikan
Tinggi
Angkatan Kelamin
Usia Pernikahan
IPK
L
P (tahun) M BM D ND PTNJ PTSJ PTNLJ St Mt PMt
L
S
B
I
2000
5 15
27
8 12
15
5
17
0
3
15
3
1
1
3.10
5
11
4
2001
8
9
30
5 12
12
5
11
0
6
5
9
2
1
3.02
5
12
0
2002
13 18
33
19 12
14 17
21
2
8
12
7
2
10
2.87
5
12
14
2003
6
3
33
4
5
3
6
7
0
2
4
1
1
3
3.06
1
3
5
2004
5
5
30
3
7
4
6
9
0
1
2
5
1
2
2.98
7
3
0
2005
2 10
27
6
6
6
6
9
1
2
6
6
0
0
3.18
8
4
0
2006
8
2
30
5
5
6
4
4
2
4
4
3
0
3
3.20
3
6
1
2007
5 12
29
7 10
11
6
8
3
6
4 11
2
0
3.25
10
6
1
2008
4 12
27
5 11
11
5
4
0
12
3
7
5
1
3.26
9
7
0
2009
4 10
26
5
9
5
9
9
1
4
5
7
2
0
3.34
9
2
3
2010
1
5
27
2
4
1
5
1
0
5
1
4
0
1
3.11
5
1
0
Jumlah 61 101
69 93 88 74 100
9
53
61 63 16
22
67
67
28
*L = Laki-laki, P = Perempuan, M = Menikah, BM = Belum Menikah, D = Dosen, ND = Non Dosen, PTNJ = PTN Jawa, PTNLJ = PTN/PTS
Luar Jawa, St = Statistika, Mt = Matematika, PMt = Pendidikan Matematika, L = Lainnya, S = Sendiri, B = BPPS/BU, I = Instansi/Lembaga
36
RIWAYAT HIDUP
Penulis dilahirkan di Pemalang Jawa Tengah pada tanggal 15 Juli 1982 dari
pasangan Alm Bapak Ir. Amirul Iksan dan Ibu Suharti. Penulis merupakan putri
kedua dari tiga bersaudara.
Penulis menyelesaikan pendidikan menengah atas di SMA Negeri 1
Pemalang pada tahun 1999, kemudian pada tahun yang sama melanjutkan
perkuliahan di Jurusan Statistika, Fakultas Matematika dan Ilmu Pengetahuan
Alam, Universitas Padjadjaran dan lulus pada tahun 2004. Tahun 2011 penulis
diterima di Program Studi Statistika Terapan pada Sekolah Pascasarjana IPB.
Penulis mulai bekerja sebagai dosen di Universitas Tadulako, Fakultas
Matematika dan Ilmu Pengetahuan Alam, Jurusan Matematika pada tahun 2008.
Penulis mengajar mata kuliah Statsitika pada universitas tersebut.
Download