tinjauan terhadap keunggulan pohon klasifikasi ensemble untuk

advertisement
BIAStatistics (2015)
Vol. 9, No. 2, hal. 33-38
TINJAUAN TERHADAP KEUNGGULAN
POHON KLASIFIKASI ENSEMBLE
UNTUK MEMPERBAIKI KEMAMPUAN PREDIKSI
POHON KLASIFIKASI TUNGGAL
Bagus Sartono
Departemen Statistika – FMIPA, Institut Pertanian Bogor
[email protected], [email protected]
ABSTRAK
Tulisan ini memaparkan bagaimana pohon klasifikasi kurang memuaskan dalam menghasilkan
pembeda antar kelas jika bentuk dari pembeda yang sesungguhnya tidak sejajar dengan sumbusumbu variabel prediktor. Ketidakmampuan ini dapat diperbaiki dengan menerapkan pendekatan
ensemble, baik berupa random forest maupun rotation forest dengan menghasilkan banyak pohon
dari suatu gugus data dan melakukan agregasi untuk menghasilkan penduga tunggal bagi kelas
suatu amatan. Beberapa pola data diberikan dan ditunjukkan bagaimana random forest dan
rotation forest mampu memperbaiki kemampuan prediksi pohon klasifikasi.
Kata Kunci : random forest, rotation forest.
1.
POHON KLASIFIKASI
Pohon klasifikasi atau classification tree telah menjadi salah satu alternatif yang
populer dalam pemodelan yang dapat digunakan untuk mengklasifikasikan objek ke
delam kelompok tertentu berdasarkan karakteristik yang dimilikinya. Algoritma
penyusunan pohon klasifikasi pun juga banyak berkembang seperti CHAID, ID3, CART,
C4.5, See5, QUEST, CRUISE, dan lain-lain. Dalam banyak kasus empirik, metode ini
dinilai memiliki kemampuan prediksi yang sangat baik dan kompetitif dibandingkan
pendekatan analisis klasifikasi lain seperti regresi logistik dan analisis diskriminan.
Keunggulan lain dari pendekatan ini adalah fleksibilitas tipe dari variabel prediktornya,
karena dapat diterapkan baik yang prediktornya bersifat kategorik (nominal dan ordinal)
maupun yang bersifat numerik.
Pohon klasifikasi bekerja secara rekursif dengan membagi-bagi atau memisahmisahkan data dengan menggunakan satu buah variabel di setiap iterasinya sedemikian
rupa sehingga anak-anak gugus hasil pemisahan itu bersifat lebih homogen kelasnya
dibandingkan pada saat belum dipisahkan.
Secara garis besar, algoritma dari penyusunan pohon klasifikasi ini terbagai
menjadi tiga tahap di setiap iterasinya. Tahap pertama adalah menentukan cara
pemisahan terbaik di setiap variabel prediktor untuk suatu gugus data. Tahapan ini
menentukan pada nilai berapa sebaiknya data dibagi menjadi gugus yang lebih kecil.
Dari setiap variabel akan diidentifikasi satu buah set batasan pemisah terbaiknya. Tahap
kedua adalah memilih yang terbaik dari pemisahan terbaik yang didapatkan pada tahap
pertama. Tahap ketiga adalah melakukan pemisahan berdasarkan variabel terbaik hasil
dari tahap kedua dengan batas terbaiknya, dan menentukan apakah masih perlu dilakukan
pemisahan terhadap anak gugus data yang diperoleh. Jika masih diperlukan, setiap anak
gugus data akan melalui proses rekursif tahap pertama, kedua dan ketiga, sampai tidak
ada lagi anak gugus data yang perlu dipisahkan.
33
Saat menentukan kebaikan dari suatu proses pemisahan gugus data, terdapat
beragam cara diantara teknik-teknik yang ada. CHAID misalnya menggunakan
pendekatan pengujian kesamaan proporsi Chi-Square terhadap tabel kontingensi k  2
dengan menyebut pemisahan terbaik adalah yang menghasilkan p-value pengujian yang
paling kecil. Nilai k adalah banyaknya pemisahan yang dihasilkan. Untuk membuat
perbandingan yang “lebih adil”, Kass (1980) mengusulkan penyesuaian p-value
menggunakan ide Bonferonni untuk ukuran tabel kontingensi yang berbeda. Sementara
itu, penulis lain menggunakan pendekatan entropy sebagai ukuran variasi kelas dalam
data dan information gain serta gain ratio untuk melihat kebaikan pemisahan, seperti
yang antara lain digunakan oleh ID3, CART, C4.5 dan See5.
Penentuan pemisahan terbaik di suatu variabel prediktor tidak menjadi banyak
permasalahan pada saat prediktornya bersifat kategorik. Jika diinginkan pemisahan yang
bersifat biner (dari suatu gugus data dipisah menjadi dua anak gugus data) kalau terdapat
k buah kategori maka akan terdapat 2k – 1 cara pemisahan kalau variabelnya bersifat
nominal dan ada k – 1 cara kalau variabel prediktornya bersifat ordinal. Pada variabel
prediktor numerik dan terdapat k buah nilai berbeda juga akan ada k – 1 cara pemisahan.
Namun nilai k ini sangat banyak tergantung pada ukuran sampel dan variabel itu sendiri.
Jika variabelnya kontinu bisa jadi nilai k sebanyak ukuran sampel. Untuk ukuran sampel
yang sangat besar, teknik greedy search yang bekerja dengan mengevaluasi semua (k – 1)
kemungkinan dirasa sangat tidak efisien. Pendekatan QUEST mengusulkan hanya
beberapa nilai persentil tertentu saja yang digunakan sebagai pemisah sehingga
evaluasinya jauh lebih cepat (Loh dan Shih, 1997).
2.
KARAKTERISTIK PEMISAHAN OLEH POHON KLASIFIKASI
Sekarang kita akan mengerucut diskusi kita terhadap pemisahan biner dengan
variabel prediktor yang terlibat adalah variabel yang bersifat numerik (kontinu).
Andaikan variabel prediktor itu kita notasikan X, pada kasus ini maka proses pemisahan
biner oleh variabel prediktor itu akan terjadi dalam bentuk: X <  dan X  , dengan 
adalah suatu nilai tertentu. Secara geometris, proses pemisahan itu akan dilakukan oleh
sebuah hyperplane yang tegak lurus dengan sumbu variabel X dan sejajar dengan sumbulainnya. Dengan kata lain maka teknik ini sangat cocok jika antar kelompok (yang
diwakili oleh variabel target) yang ada dalam data dapat dipisahkan dengan sekatansekatan yang berupa hyperplane seperti di atas.
Seandainya hanya ada dua buah variabel prediktor, hyperplane tersebut tidak
lain berupa garis lurus. Gambar 1. menyajikan plot tebaran data dari beberapa contoh
yang kondisi datanya “disenangi” oleh pohon klasifikasi. Masing-masing gugus data
merupakan gugus data yang berisi 5000 amatan dimana variabel X1 dan X2 adalah dua
variabel prediktor yang dibangkitkan secara acak masing-masing dari sebaran Seragam
(0, 1) yang saling bebas. Masing-masing data terdiri atas dua kelas yang dibedakan
dengan warna hitam untuk kelompok pertama dan merah untuk kelompok kedua. Data
yang disajikan pada Gambar 1a, diperoleh dengan membagi amatan ke kelompok pertama
jika X1 dan X2 keduanya lebih dari 0.5, selainnya ke kelompok kedua. Sedangkan
Gambar 1b dan 1c meletakkan amatan ke kelompok pertama berturut-turut jika 0.25  X1
 0.75 dan 0.25  X2  0.75, serta jika X1 dan X2 keduanya kurang dari 0.5 atau jika X1
dan X2 keduanya lebih dari 0.5
Sementara itu, pola-pola sebaran kelompok yang terdapat pada data dan
tergambar pada Gambar 2, merupakan pola yang kurang “disenangi” oleh pendekatan
pohon klasifikasi tunggal karena antar kelompok dipisahkan oleh garis (atau hyperplane)
yang tidak seluruhnya sejajar dengan sumbu dari variabel prediktornya.
34
Biastatistics Vol 9, No.2, September 2015
Download