BIAStatistics (2015) Vol. 9, No. 2, hal. 33-38 TINJAUAN TERHADAP KEUNGGULAN POHON KLASIFIKASI ENSEMBLE UNTUK MEMPERBAIKI KEMAMPUAN PREDIKSI POHON KLASIFIKASI TUNGGAL Bagus Sartono Departemen Statistika – FMIPA, Institut Pertanian Bogor [email protected], [email protected] ABSTRAK Tulisan ini memaparkan bagaimana pohon klasifikasi kurang memuaskan dalam menghasilkan pembeda antar kelas jika bentuk dari pembeda yang sesungguhnya tidak sejajar dengan sumbusumbu variabel prediktor. Ketidakmampuan ini dapat diperbaiki dengan menerapkan pendekatan ensemble, baik berupa random forest maupun rotation forest dengan menghasilkan banyak pohon dari suatu gugus data dan melakukan agregasi untuk menghasilkan penduga tunggal bagi kelas suatu amatan. Beberapa pola data diberikan dan ditunjukkan bagaimana random forest dan rotation forest mampu memperbaiki kemampuan prediksi pohon klasifikasi. Kata Kunci : random forest, rotation forest. 1. POHON KLASIFIKASI Pohon klasifikasi atau classification tree telah menjadi salah satu alternatif yang populer dalam pemodelan yang dapat digunakan untuk mengklasifikasikan objek ke delam kelompok tertentu berdasarkan karakteristik yang dimilikinya. Algoritma penyusunan pohon klasifikasi pun juga banyak berkembang seperti CHAID, ID3, CART, C4.5, See5, QUEST, CRUISE, dan lain-lain. Dalam banyak kasus empirik, metode ini dinilai memiliki kemampuan prediksi yang sangat baik dan kompetitif dibandingkan pendekatan analisis klasifikasi lain seperti regresi logistik dan analisis diskriminan. Keunggulan lain dari pendekatan ini adalah fleksibilitas tipe dari variabel prediktornya, karena dapat diterapkan baik yang prediktornya bersifat kategorik (nominal dan ordinal) maupun yang bersifat numerik. Pohon klasifikasi bekerja secara rekursif dengan membagi-bagi atau memisahmisahkan data dengan menggunakan satu buah variabel di setiap iterasinya sedemikian rupa sehingga anak-anak gugus hasil pemisahan itu bersifat lebih homogen kelasnya dibandingkan pada saat belum dipisahkan. Secara garis besar, algoritma dari penyusunan pohon klasifikasi ini terbagai menjadi tiga tahap di setiap iterasinya. Tahap pertama adalah menentukan cara pemisahan terbaik di setiap variabel prediktor untuk suatu gugus data. Tahapan ini menentukan pada nilai berapa sebaiknya data dibagi menjadi gugus yang lebih kecil. Dari setiap variabel akan diidentifikasi satu buah set batasan pemisah terbaiknya. Tahap kedua adalah memilih yang terbaik dari pemisahan terbaik yang didapatkan pada tahap pertama. Tahap ketiga adalah melakukan pemisahan berdasarkan variabel terbaik hasil dari tahap kedua dengan batas terbaiknya, dan menentukan apakah masih perlu dilakukan pemisahan terhadap anak gugus data yang diperoleh. Jika masih diperlukan, setiap anak gugus data akan melalui proses rekursif tahap pertama, kedua dan ketiga, sampai tidak ada lagi anak gugus data yang perlu dipisahkan. 33 Saat menentukan kebaikan dari suatu proses pemisahan gugus data, terdapat beragam cara diantara teknik-teknik yang ada. CHAID misalnya menggunakan pendekatan pengujian kesamaan proporsi Chi-Square terhadap tabel kontingensi k 2 dengan menyebut pemisahan terbaik adalah yang menghasilkan p-value pengujian yang paling kecil. Nilai k adalah banyaknya pemisahan yang dihasilkan. Untuk membuat perbandingan yang “lebih adil”, Kass (1980) mengusulkan penyesuaian p-value menggunakan ide Bonferonni untuk ukuran tabel kontingensi yang berbeda. Sementara itu, penulis lain menggunakan pendekatan entropy sebagai ukuran variasi kelas dalam data dan information gain serta gain ratio untuk melihat kebaikan pemisahan, seperti yang antara lain digunakan oleh ID3, CART, C4.5 dan See5. Penentuan pemisahan terbaik di suatu variabel prediktor tidak menjadi banyak permasalahan pada saat prediktornya bersifat kategorik. Jika diinginkan pemisahan yang bersifat biner (dari suatu gugus data dipisah menjadi dua anak gugus data) kalau terdapat k buah kategori maka akan terdapat 2k – 1 cara pemisahan kalau variabelnya bersifat nominal dan ada k – 1 cara kalau variabel prediktornya bersifat ordinal. Pada variabel prediktor numerik dan terdapat k buah nilai berbeda juga akan ada k – 1 cara pemisahan. Namun nilai k ini sangat banyak tergantung pada ukuran sampel dan variabel itu sendiri. Jika variabelnya kontinu bisa jadi nilai k sebanyak ukuran sampel. Untuk ukuran sampel yang sangat besar, teknik greedy search yang bekerja dengan mengevaluasi semua (k – 1) kemungkinan dirasa sangat tidak efisien. Pendekatan QUEST mengusulkan hanya beberapa nilai persentil tertentu saja yang digunakan sebagai pemisah sehingga evaluasinya jauh lebih cepat (Loh dan Shih, 1997). 2. KARAKTERISTIK PEMISAHAN OLEH POHON KLASIFIKASI Sekarang kita akan mengerucut diskusi kita terhadap pemisahan biner dengan variabel prediktor yang terlibat adalah variabel yang bersifat numerik (kontinu). Andaikan variabel prediktor itu kita notasikan X, pada kasus ini maka proses pemisahan biner oleh variabel prediktor itu akan terjadi dalam bentuk: X < dan X , dengan adalah suatu nilai tertentu. Secara geometris, proses pemisahan itu akan dilakukan oleh sebuah hyperplane yang tegak lurus dengan sumbu variabel X dan sejajar dengan sumbulainnya. Dengan kata lain maka teknik ini sangat cocok jika antar kelompok (yang diwakili oleh variabel target) yang ada dalam data dapat dipisahkan dengan sekatansekatan yang berupa hyperplane seperti di atas. Seandainya hanya ada dua buah variabel prediktor, hyperplane tersebut tidak lain berupa garis lurus. Gambar 1. menyajikan plot tebaran data dari beberapa contoh yang kondisi datanya “disenangi” oleh pohon klasifikasi. Masing-masing gugus data merupakan gugus data yang berisi 5000 amatan dimana variabel X1 dan X2 adalah dua variabel prediktor yang dibangkitkan secara acak masing-masing dari sebaran Seragam (0, 1) yang saling bebas. Masing-masing data terdiri atas dua kelas yang dibedakan dengan warna hitam untuk kelompok pertama dan merah untuk kelompok kedua. Data yang disajikan pada Gambar 1a, diperoleh dengan membagi amatan ke kelompok pertama jika X1 dan X2 keduanya lebih dari 0.5, selainnya ke kelompok kedua. Sedangkan Gambar 1b dan 1c meletakkan amatan ke kelompok pertama berturut-turut jika 0.25 X1 0.75 dan 0.25 X2 0.75, serta jika X1 dan X2 keduanya kurang dari 0.5 atau jika X1 dan X2 keduanya lebih dari 0.5 Sementara itu, pola-pola sebaran kelompok yang terdapat pada data dan tergambar pada Gambar 2, merupakan pola yang kurang “disenangi” oleh pendekatan pohon klasifikasi tunggal karena antar kelompok dipisahkan oleh garis (atau hyperplane) yang tidak seluruhnya sejajar dengan sumbu dari variabel prediktornya. 34 Biastatistics Vol 9, No.2, September 2015