IDENTIFIKASI VARIETAS KUNYIT BERDASARKAN CIRI FISIK MENGGUNAKAN ALGORITME C4.5 RAHMI JUWITA SUKMA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Identifikasi Varietas Kunyit Berdasarkan Ciri Fisik Menggunakan Algoritme C4.5 adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, November 2013 Rahmi Juwita Sukma G64104060 ABSTRAK RAHMI JUWITA SUKMA. Identifikasi Varietas Kunyit Berdasarkan Ciri Fisik Menggunakan Algoritme C4.5. Dibimbing oleh MUSHTHOFA. Kunyit merupakan salah satu koleksi tanaman obat yang berdasarkan manfaatnya telah diproses melalui seleksi dalam program pemuliaan dan telah diperoleh sebanyak tiga varietas unggul kunyit dengan potensi produksi dan mutu kurkumin tinggi, yaitu varietas Turina-1, Turina-2, dan Turina-3. Sistem identifikasi kunyit dapat membantu petani dan pedagang dalam mengidentifikasi varietas kunyit secara cepat. Telah dilakukan penelitian sebelumnya yaitu memakai algoritme fuzzy untuk mengidentifikasi varietas kunyit, dengan akurasi mencapai 85%. Klasifikasi varietas kunyit juga dilakukan sebelumnya dengan memakai genetic programming dengan akurasi mencapai 95%. Penelitian kali ini menggunakan algoritme C4.5 yaitu salah satu metode klasifikasi data mining yang juga digunakan untuk mengidentifikasi variatas unggul dari tanaman kunyit dengan membentuk sebuah pohon keputusan dengan memilih atribut yang sangat mempengaruhi klasifikasi varietas kunyit sebagai simpul dari sebuah decision tree yaitu atribut yang memiliki gain ratio tertinggi. Akurasi terbaik yang dihasilkan dari penelitian ini mencapai 95%. Keunggulan menggunakan algoritma C4.5 adalah pohon keputusan yang dihasilkan mudah dipahami dan bisa digunakan secara manual. Kata kunci: data mining, algoritme C4.5, decision tree, varietas kunyit ABSTRACT RAHMI JUWITA SUKMA. Turmeric Variety Identification Based On Physical Characteristics Using C4.5 Algorithm. Supervised by MUSHTHOFA. Turmeric is one type of medicinal plants which through a selection in the breeding program has acquired three varieties with high curcumin potential and high quality, the varieties are Turina-1, Turina-2, and Turina-3. Turmeric identification system can help farmers and traders in identifying varieties of turmeric quickly and accurately. Previous research implemented fuzzy algorithms to identify the varieties of turmeric, with accuracy reaching 85%. Another research used genetic programming with an accuracy of 95%. The present study use the C4.5 algorithm which is one of data mining classification methods which are used to identify varieties of turmeric plants by creating a decision tree by selecting the attributes that have the highest gain ratio as a node of a decision tree. The best accuracy obtained in this research is 95%. The advantages of using C4.5 algorithm is the decision tree produced is easy to understand and used manually. Keyword : data mining, C4.5 algorithm, decision tree, varieties of turmeric plant IDENTIFIKASI VARIETAS KUNYIT BERDASARKAN CIRI FISIK MENGGUNAKAN ALGORITME C4.5 RAHMI JUWITA SUKMA Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR BOGOR 2013 Penguji: 1 Dr Imas S Sitanggang, SKom MKom 2 Karlina Khiyarin Nisa, SKom MT Judul Skripsi : Identifikasi Varietas Kunyit Berdasarkan Ciri Fisik Menggunakan Algoritme C4.5 Nama : Rahmi Juwita Sukma NIM : G64104060 Disetujui oleh Mushthofa, SKom MSc Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Ilmu Komputer Tanggal Lulus: PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Maret 2012 ini ialah Identifikasi Varietas Kunyit Berdasarkan Ciri Fisik Menggunakan Algoritme C4.5 Terima kasih penulis ucapkan kepada Bapak Mushthofa, SKom MSc selaku pembimbing serta kepada Ibu Dr Imas S Sitanggang, SKom MKom, dan Ibu Karlina Khiyarin Nisa, SKom MT selaku dosen penguji yang telah memberikan arahan dan saran selama penelitian ini berlangsung hingga selesai. Ungkapan terima kasih juga disampaikan kepada orangtua ibu Sukmanirwati dan bapak Zamzami, kakak Franka Hendra Sukma, Ari Suzana Sukma, Try Jayanti Sukma, Dona Andika sukma dan Fauzan Alawy, serta seluruh keluarga dan teman-teman, atas segala doa dan kasih sayangnya. Penulis menyadari bahwa masih terdapat kekurangan dalam penulisan skripsi ini. Semoga karya ilmiah ini bermanfaat. Bogor, November 2013 Rahmi Juwita Sukma DAFTAR ISI DAFTAR TABEL vii DAFTAR GAMBAR vii DAFTAR LAMPIRAN vii PENDAHULUAN 1 Latar Belakang 1 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup Penelitian 2 TINJAUAN PUSTAKA 3 Data Mining 3 Machine Learning 3 Klasifikasi 3 Algoritme C 4.5 3 METODE 4 Pengambilan Data 5 Tranformasi Data 5 K-Fold Cross Validation 5 Algoritme C4.5 5 Aturan Klasifikasi 6 Evaluasi dan Analisis Hasil 6 Lingkungan Pengembangan 6 HASIL DAN PEMBAHASAN 7 Transformasi data 7 K-Fold Cross Validation 7 Algoritme C4.5 8 Analisa dan Hasil 10 Implementasi Sistem 12 SIMPULAN DAN SARAN 14 Simpulan 14 Saran 14 DAFTAR PUSTAKA 15 LAMPIRAN 16 RIWAYAT HIDUP 34 DAFTAR TABEL 1 2 3 4 5 6 7 8 9 Jumlah bunga per tandan Tinggi tanaman Pembagian subset Pembagian subset untuk data latih dan data uji Akurasi masing-masing subset Matriks konfusi untuk pohon keputusan tanpa transformasi data Matriks konfusi untuk pohon keputusan setelah tranformasi data Matriks konfusi memakai genetic programming Contoh data uji varietas kunyit Turina-1 7 7 7 8 10 11 11 12 13 DAFTAR GAMBAR 1 2 3 4 5 6 7 Flow chart data mining Flow chart penelitian Decision tree dengan 20 data uji Perbandingan akurasi algoritme identifikasi varietas kunyit Tampilan awal sistem Tampilan masuk ke sistem Hasil klasifikasi pada contoh pengujian 3 4 11 12 13 13 14 DAFTAR LAMPIRAN 1 Data varietas kunyit 2 Data kunyit yang telah di tranformasi 3 Jumlah anakan 4 Panjang daun 5 Lebar daun 6 Berat rimpang per rumpun 7 Jumlah rimpang induk 8 Jumlah rimpang primer 9 Jumlah rimpang sekunder 10 Kadar kurkumin 11 Tree yang dihasilkan untuk warna daging rimpang (WDR) cabang 1 12 Tree yang dihasilkan untuk warna daging rimpang (WDR) cabang 2 13 Tree yang dihasilkan untuk warna daging rimpang (WDR) cabang 3 14 Tree yang dihasilkan untuk warna daging rimpang (WDR) cabang 4 15 Data uji yang diujikan pada decision tree 16 Data kunyit yang salah klasifikasi 16 21 26 26 26 26 26 26 26 27 28 29 30 31 32 33 1 PENDAHULUAN Latar Belakang Komputer digunakan untuk mempermudah pekerjaan manusia dalam berbagai bidang, termasuk dalam cabang ilmu farmasi, salah satunya yaitu dengan mengidentifikasi varietas sebuah tanaman yang nantinya akan dijadikan bahan untuk pembuatan obat. Tentunya diperlukan sebuah metode dan algoritme yang tepat untuk pengolahan data tersebut dan diharapkan nantinya akan mendapatkan hasil dengan akurasi tinggi, dan hasil yang didapatkan juga dapat dibuktikan kebenaranya. Kunyit (Curcuma domestica Val.) merupakan salah satu tanaman obat temu-temuan yang berpotensi untuk dibudidayakan (Syukur et al. 2006). Rimpang kunyit dapat digunakan antara lain mengobati gusi bengkak, luka, sesak nafas, sakit perut, bisul, sakit limpa, usus buntu, encok, gangguan pencernaan, perut kembung, dan menurunkan tekanan darah. Kunyit merupakan salah satu koleksi tanaman obat yang berdasarkan manfaatnya telah diproses melalui seleksi dalam program pemuliaan dan telah diperoleh sebanyak tiga varietas unggul kunyit dengan potensi produksi dan mutu kurkumin tinggi, yaitu varietas Turina-1, Turina-2, dan Turina-3 (Syukur et al. 2011). Dengan berkembangnya ketiga varietas tersebut, maka kebutuhan benih murni akan semakin meningkat dan keragaman genetik kunyit yang berkembang di masyarakat akan semakin sempit. Hal ini menyebabkan sulitnya membedakan dari varietas-varietas unggul, karena berdasarkan data fisik dan morfologi yang ada di BALITTRO hampir mirip, sehingga sulit menentukan ciri pembedanya. Identifikasi varietas kunyit sebelumnya telah dilakukan oleh Bursatriannyo (2012) menggunakan algoritme fuzzy dengan akurasi mencapai 85%, tetapi terdapat kelemahan dalam pemakaian algoritme ini yaitu semua kemungkinan rule harus dibuat. Ciri fisik dari varietas unggul dengan varietas yang tidak unggul sulit dibedakan sehingga pakar juga sulit membedakan, hal ini otomatis akan mengurangi akurasi dengan pemakaian algoritme ini. Data mining merupakan proses untuk menemukan informasi tersembunyi dari sebuah data. Klasifikasi merupakan salah satu metode data mining yang dapat melihat pengelompokan data sesuai ciri tertentu. Pada penelitian sebelumnya yang telah dilakukan oleh Sudharmono (2012) bahwa identifikasi tanaman bisa dilakukan dengan sebuah metode klasifikasi yaitu genetic programming. Akurasi dari penelitian tersebut mencapai 95 %, tetapi juga terdapat kelemahan dalam penelitian ini, yaitu tree yang dihasilkan nantinya tergantung banyak kelas yang terbentuk, data yang akan diolah harus dijadikan data boolean terlebih dahulu sehingga praproses data berlangsung lama, dan tree dihasilkan didapatkan dengan cara acak yaitu dengan mengkombinasikan rule. Memperbaiki kelemahan dari kedua penelitian sebelumya, pada penelitian kali ini identifikasi varietas kunyit berdasarkan ciri fisik menggunakan metode klasifikasi yang menghasilkan pohon keputusan berdasarkan data latih yaitu algoritme C4.5. Algoritme C4.5 memiliki kelebihan yaitu pohon keputusan yang dihasilkan hanya satu untuk semua kelas dan waktu komputasi yang lebih cepat. 2 Penggunaan algoritme ini nantinya diharapkan akan mendapatkan akurasi yang lebih tinggi dari penelitian sebelumnya. Tujuan Penelitian Penelitian ini bertujuan untuk: 1 Mengimplementasikan algoritme C4.5 dalam mengidentifikasi varietas kunyit 2 Menghasilkan pohon keputusan yang nantinya dapat digunakan untuk pengambilan keputusan 3 Menguji akurasi dari pohon keputusan yang dihasilkan dari algoritme C4.5 dan membandingkan hasil akurasi dengan implementasi algoritme C4.5 tanpa transformasi data. 4 Membandingkan hasil akurasi memakai algoritme C4.5 dengan penelitian sebelumnya. Manfaat Penelitian 1 2 3 4 Manfaat dari penelitian ini ialah: Pohon keputusan identifikasi varietas kunyit yang baik dapat digunakan untuk identifikasi dengan cepat sehingga membantu masyarakat untuk memilih varietas unggul. Mengetahui bahwa algoritme C4.5 dapat diterapkan dalam identifikasi varietas kunyit berdasarkan ciri fisik. Mengetahui atribut mana saja yang mempengaruhi identifikasi varietas kunyit. Mengetahui algoritme yang cocok dalam identifikasi varietas kunyit Ruang Lingkup Penelitian Ruang lingkup dalam penelitian ini ialah: 1 Data yang digunakan ialah data dari BALITTRO, sebanyak 100 data yang terdiri dari empat kelas dimana masing-masing kelas memiliki 25 data dan terdiri dari 13 ciri, 2 Variabel data yang digunakan ialah warna bunga (WB), jumlah bunga per tandan (JPT), tinggi tanaman (TT), jumlah anakan (JA), panjang daun (PD), lebar daun (LD), bentuk pangkal daun (BPD), warna daging rimpang (WDR), berat rimpang per rumpun (BRR), jumlah rimpang induk (JRI), jumlah rimpang primer (JRP), jumlah rimpang sekunder (JRS), dan kadar kurkumin (KK). 3 Penelitian ini memakai algoritme decision tree C4.5. 3 TINJAUAN PUSTAKA Data Mining Data mining adalah suatu istilah yang digunakan untuk menemukan informasi yang tersembunyi di dalam database. Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di dalam database besar (Rajaraman et al. 2010). Alur proses data mining dapat dilihat pada Gambar 1. Gambar 1 Flow chart data mining Machine Learning Machine learning merupakan ilmu algoritme peningkatan kemampuan sebuah komputer yang dilakukan dengan otomatis menggunakan data training (Mitchell 1997). Secara umum, machine learning menggunakan penalaran berpikir secara induktif, yaitu suatu cara berpikir dengan berdasarkan pada pengalaman yang diulang-ulang. Klasifikasi Klasifikasi merupakan proses untuk menemukan sekumpulan model atau fungsi yang membedakan kelas data agar dapat digunakan untuk melakukan prediksi kelas dari suatu objek yang tidak diketahui label kelasnya tetapi label kelas telah ditentukan sebelumnya (Han dan Kamber 2007). Algoritme C 4.5 Algoritme C4.5 adalah salah satu metode untuk membuat decision tree berdasarkan data training yang telah disediakan. Algoritme C4.5 merupakan 4 pengembangan dari ID3. Beberapa pengembangan yang dilakukan pada C4.5 adalah sebagai antara lain bisa mengatasi missing value, bisa mengatasi continuous data, dan pruning (Quinlan 1993). METODE Pada setiap penelitian dibutuhkan alur yang jelas guna mempermudah peneliti untuk melakukan sebuah penelitian sehingga pekerjaan akan teratur sesuai aturan yang telah dibuat. Dalam penelitian ini terdapat alur metode penelitian dapat dilihat pada Gambar 2. Mulai Pengambilan Data Pengambilan Data Tranformasi data Tranformasi data K-Fold Cross Validation K-Fold Cross Validation Data Uji Data Uji Data Latih Data Latih C 4.5 Menentukan Atribut Menentukan Atribut Akar (gain ratio) Akar (gain ratio) Buat cabang masingBuat cabang masingmasing nilai atribut masing nilai atribut Apakah stop Apakah stop Ya condition condition terpenuhi? terpenuhi? Tidak Ulangi untuk setiap Ulangi untuk setiap cabang cabang Pohon Keputusan Pohon Keputusan Evaluasi Evaluasi Analisis Hasil Analisis Hasil Selesai Selesai Gambar 2 Flow chart penelitian 5 Pengambilan Data Data yang digunakan ialah data varietas kunyit yang terdiri atas 100 data dan empat kelas. Data diperoleh dari database plasma nutfah tanaman rempah dan obat BALITTRO. Kelas data dibagi menjadi Turina-1, Turina-2, Turina-3, dan bukan varietas. Kelas bukan varietas merupakan varietas yang tidak memiliki label atau ciri. data varietas kunyit dapat dilihat pada Lampiran 1. Tranformasi Data Proses tranformasi data adalah sebuah proses yang dilakukan untuk merubah bentuk data agar data tersebut lebih mudah diproses. Penelitian kali ini data dirubah dari data kontinu menjadi data diskret, dengan cara membagi data menggunakan metode range frekuensi, kemudian kelompok data tersebut dimisalkan menjadi data numerik. K-Fold Cross Validation Proses pembagian data ini dilakukan dengan cara (Kohavi 1995): 1 Mengelompokkan data berdasarkan masing-masing kelas 2 Membagi data masing-masing kelas menjadi sebanyak k fold Pada penelitian ini data latih yang digunakan adalah sebanyak 20 pada masing-masing kelas, sedangkan untuk data uji diambil 5 data dari masing-masing kelas. Algoritme C4.5 Secara umum algoritme C4.5 untuk membangun pohon keputusan adalah sebagai berikut (Quinlan 1993): 1 Pilih atribut sebagai akar 2 Buat cabang untuk masing-masing nilai atribut 3 Bagi kasus dalam cabang 4 Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam Rumus 1 (Quinlan 1993). Gain (S,A)=Entropy (S) Dengan S : Himpunan kasus dari nilai A A : Atribut n : Jumlah partisi atribut A |Si| : Jumlah kasus pada partisi ke-i Entropy (Si) (1) 6 |S | : Jumlah kasus dalam S Sedangkan perhitungan nilai entropy dapat dilihat pada Persamaan 2. Entropy (S)= - pi log2 pi (2) Dengan S : Himpunan Kasus p : Proporsi dari Si terhadap S Rumus untuk ratio gain dapat dilihat pada Persamaan 3. Gain Ratio(A) = (3) Dengan nilai splitInfo didapatkan dari Persamaan 4. SplitInfo (A) = - log2 (4) Aturan Klasifikasi Aturan klasifikasi didapatkan secara otomatis dari proses C4.5. Aturan ini akan diujikan terhadap data uji yang telah ditentukan. Proses ini dilakukan sebanyak empat kali sesuai banyak kelas terhadap pohon keputusan dengan aturan yang dihasilkan yang berlaku untuk semua kelas. Evaluasi dan Analisis Hasil Evaluasi dilakukan untuk memeriksa akurasi dengan cara membandingkan antara hasil prediksi dengan hasil yang aktual yaitu dengan rumus yang tertera pada Persamaan 5. (5) Dengan Nbenar : Klasifikasi kelas yang benar N : Jumlah semua data varietas kunyit Lingkungan Pengembangan 1 2 3 Penelitian ini dilakukan dengan menggunakan notebook dengan spesifikasi: Processor Intel Core 2 Duo T5550 Memory DDR2 SDRAM 3 GB Hard disk 250 GB 1 2 Perangkat lunak yang digunakan: MATLAB 7.7.0 R2008b Microsoft Excel 2007 7 HASIL DAN PEMBAHASAN Transformasi data Data varietas kunyit yang didapat dari database plasma nutfah tanaman rempah dan obat BALITTRO ditransformasikan, yang dapat dilihat pada Lampiran 2. Transformasi data kunyit dilakukan dengan cara membagi data menggunakan range frekuensi lalu dijadikan ordinal agar lebih representatif dan kemudian dijadikan data numerik dengan menggunakan angka untuk setiap nilai ordinal, hal ini digunakan agar pemprosesan data lebih mudah dan akurasi lebih tinggi, contoh transformasi data dapat dilihat pada Tabel 1 dan Tabel 2 dan dapat dilihat pada Lampiran 3 sampai dengan Lampiran 10. Tabel 1 Jumlah bunga per tandan Range frekuensi Ordinal Numerik 8−12 Sedikit 1 13−15 Sedang 2 16−18 Banyak 3 Tabel 2 Tinggi tanaman Range frekuensi Ordinal 147.0−157.4 158.1−174.1 174.2−177.0 Sedikit Sedang Banyak Numerik 1 2 3 K-Fold Cross Validation Dalam k-fold cross validation data akan dibagi menjadi k buah partisi dengan ukuran yang sama S1, S2, S3, … Sk. Pelatihan dan pengujian dilakukan sebanyak k kali. Dalam iterasi ke-i, partisi Si akan menjadi data uji dan yang lainya menjadi data latih. Penggunaan metode 5-fold cross validation, data varietas kunyit dibagi berdasarkan kelasnya masing-masing yaitu Turina-1, Turina-2, Turina-3 dan bukan varietas, kemudian masing masing kelas dibagi menjadi 5 subset. Tabel 3 Pembagian subset Jumlah data Subset S1 20 S2 20 S3 20 S4 20 S5 20 Jumlah data 100 8 Tabel 4 Pembagian subset untuk data latih dan data uji Percobaan Data latih Data uji Subset 1 S2, S3, S4, S5 S1 Subset 2 S1, S3, S4, S5 S2 Subset 3 S1, S2, S4, S5 S3 Subset 4 S1, S2, S3, S5 S4 Subset 5 S1, S2, S3, S4 S5 Algoritme C4.5 1 Menentukan atribut yang berhak menjadi root dari sebuah tree. Atribut yang digunakan ialah warna bunga (WB), jumlah bunga per tandan (JPT), tinggi tanaman (TT), jumlah anakan (JA), panjang daun (PD), lebar daun (LD), bentuk pangkal daun (BPD), warna daging rimpang (WDR), berat rimpang per rumpun (BRR), jumlah rimpang induk (JRI), jumlah rimpang primer (JRP), jumlah rimpang sekunder (JRS), dan kadar kurkumin (KK) dengan mengitung nilai gain yang dipadatkan dari perhitungan entropy kemudian dicari gain ratio dari masing masing atribut dan dibandingkan, sehingga atribut dengan nilai gain ratio tertinggi akan menjadi root. Perhitungan entropy total : Data varietas kunyit terdiri atas 100 data yang dibagi kedalam 4 kelas dan masing–masing kelas memiliki 25 data. Entropy (S)= - pi log2 pi Entropy (25,25,25,25)= log2 log2 log2 log2 =1 Jika perbandingan keempat kelas sama rasionya, maka nilai entropi bernilai 1, sedangkan apabila satu set terdiri dari satu kelas maka entropinya bernilai 0. Misalkan kita akan menghitung nilai entropi dari atribut warna bunga. Nilai dari atribut warna bunga (WB) yaitu putih, putih kuning pucat, putih kuning coklat, kuning dan coklat. Warna bunga= Putih Terdapat 29 data yang memiliki nilai warna bunga sama dengan putih yaitu pada kelas 1 dan kelas 4. Entropy(25,0,0,4) = log2 log2 = 0.1846 – 0 – 0 –(– 0.3942) = 0.5788 log2 log2 9 Warna bunga= Putih Kuning Pucat Terdapat 29 data yang memiliki nilai warna bunga sama dengan putih kuning pucat yaitu pada kelas 2 dan kelas 4. Entropy(0,25,0,4) = log2 log2 log2 log2 = 0 – 0.1846 – 0 – (– 0.3942) = 0.5788 Warna bunga= Putih Kuning Coklat Terdapat 28 data yang memiliki nilai warna bunga sama dengan putih kuning coklat yaitu pada kelas 3 dan kelas 4. Entropy(0,0,25,3) = log2 log2 log2 log2 = 0 – 0 – 0.1460 – (– 0.4079) = 0.5533 Warna bunga= Kuning Terdapat 6 data yang memiliki nilai warna bunga sama dengan kuning yaitu hanya pada kelas 4. Entropy(0,0,0,6) = log2 log2 log2 log2 =0 Warna bunga= Coklat Terdapat 7 data yang memiliki nilai warna bunga sama dengan coklat yaitu hanya pada kelas 4. Entropy(0,0,0,7) = log2 log2 log2 log2 =0 Entropy (WB) = (0.5788) + (0.5788)+ (0.5533)+0+0 = 0.4906 Information Gain Gain (S,A) = Entropy (S) =1 Entropy (Si) (0.5788) (0) = 1 0.1678 (0) 0.1678 – 0.1549 – 0 – 0 = 0.5095 Gain Ratio SplitInfo (A) = - (0.5788) log2 (0.5533) 10 = log2 log2 log2 log2 log2 = 0.518 + 0.518 + 0.514 + 0.268 + 0.243 = 1.547 Gain Ratio(A) = = = 0.329 Jadi, gain ratio untuk atribut warna bunga adalah 0.329 Lakukan semua perhitungan di atas agar mendapatkan gain ratio untuk setiap atribut kunyit. 2 Buat cabang untuk masing-masing nilai gain. Bagi kasus dalam cabang untuk atribut yang tidak terpilih sebelumnya, kemudian lakukan perhitungan yang sama untuk kedua belas atribut kunyit yang tersisa untuk mendapatkan nilai gain ratio tertinggi guna menjadi root berikutnya. 3 Proses perhitungan akan selalu sama untuk setiap atribut kunyit, ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama yaitu Turina-1, Turina-2, Turina-3 dan bukan varietas. Proses di atas akan menghasilkan sebuah pohon keputusan untuk mengidentifikasi sebuah varietas kunyit. Contoh decision tree yang dihasilkan dapat dilihat pada Lampiran 11 sampai dengan lampiran 14 yaitu decision tree yang dihasilkan dari subset 3 dengan warna daging rimpang (WDR) menjadi root. Tree yang dihasilkan sangat besar, sehingga tree tersebut dibagi menjadi empat bagian sebanyak nilai atribut dari warna daging rimpang (WDR). Simpul berwarna hitam menandakan cabang tersebut tidak memiliki keputusan berdasarkan data latih yang ada pada subset 3. Pada Gambar 3 terdapat decision tree yang digunakan untuk klasifikasi 20 data uji. Dua puluh data uji yang diujikan pada decision tree pada subset 3 tidak ada yang salah klasifikasi, hal ini diketahui dari 20 data uji yang ada ditelusuri terhadap tree, kelas yang dihasilkan sesuai dengan kelas sebenarnya. Data uji dapat dilihat pada Lampiran 15. Analisa dan Hasil Hasil akurasi yang didapatkan dari masing-masing subset dapat dilihat pada Tabel 5. Tabel 5 Akurasi masing-masing subset Akurasi Subset Subset 1 85% Subset 2 95% Subset 3 100% Subset 4 100% Subset 5 95% Rata-rata 95% 11 Matriks konfusi dari gabungan semua subset identifikasi varietas kunyit memakai algoritme C4.5 yang diperoleh dari data yang belum mengalami transformasi dapat dilihat pada Tabel 6. Tabel 6 Matriks konfusi untuk pohon keputusan tanpa transformasi data Turina-1 Turina-2 Turina-3 Bukan varietas unggul Turina-1 Turina-2 Turina-3 23 0 0 3 0 24 1 2 0 0 23 3 Bukan varietas unggul Tidak teridentifikasi 0 1 1 14 0 0 0 3 Gambar 3 Decision tree dengan 20 data uji Matriks konfusi dari gabungan semua subset identifikasi varietas kunyit memakai algoritme C4.5 yang diperoleh dari data yang sudah mengalami transformasi dapat dilihat pada Tabel 7 dan data yang salah klasifikasi dapat dilihat pada Lampiran 16. Tabel 7 Matriks konfusi untuk pohon keputusan setelah tranformasi data Turina-1 Turina-2 Turina-3 Bukan varietas unggul Turina-1 25 0 0 2 Turina-2 0 24 0 2 Turina-3 0 0 25 0 Bukan varietas unggul 0 1 0 21 Matriks konfusi dari gabungan semua subset identifikasi varietas kunyit memakai genetic programming yang diperoleh dari data yang sudah mengalami transformasi dapat dilihat pada Tabel 8. 12 Tabel 8 Matriks konfusi memakai genetic programming Turina-1 Turina-2 Turina-3 Bukan varietas unggul Turina-1 25 0 0 3 Turina-2 0 25 0 1 Turina-3 0 0 25 1 Bukan varietas unggul 0 0 0 20 Perbandingan akurasi antara algoritme C4.5 tanpa transformasi data, algoritme C4.5 dengan transormasi data dan genetic programming dalam identifikasi varietas kunyit dapat dilihat pada Gambar 4. 95% 100% 95% 85% 90% 80% Akurasi 70% 60% 50% 40% 30% 20% 10% 0% C4.5 tanpa transformasi data C4.5 dengan transformasi data genetic programming Gambar 4 Perbandingan akurasi algoritme identifikasi varietas kunyit Implementasi Sistem Pada sistem yang dikembangkan, peneliti menggunakan matlab untuk membantu user dalam klasifikasi varietas unggul kunyit. Tampilan awal dari sistem dapat dilihat pada Gambar 5. Pilih tombol masuk untuk masuk ke sistem identifikasi kunyit, atau pilih tombol keluar untuk keluar dari sistem. Tampilan sistem identifikasi varietas kunyit dapat dilihat pada Gambar 6. Masukkan nilai atribut kunyit yang akan di identifikasi pada menu pengujian, kemudian pilih subset sebelum memilih tombol klasifikasi. Subset pada pilihan menu dropdown menghasilkan tree yang berbeda tergantung data latih yang digunakan. Terdapat 5 subset dan tanpa subset pada menu tersebut. Apabila user memilih tanpa subset maka tree yang dihasilkan merupakan yang dihasilkan dari semua data varietas kunyit. Hasil klasifikasi akan muncul ketika tombol klasifikasi dipilih. Hasil klasifikasi yang akan muncul yaitu 1 untuk Turina-1, 2 untuk Turina-2, 3 untuk Turina-3 dan 4 untuk bukan varietas unggul. Contoh pengujian sistem: Terdapat 13 nilai atribut dari varietas kunyit kelas Turina-1 yang dapat dilihat pada Tabel 9. 13 Tabel 9 Contoh data uji varietas kunyit Turina-1 WB BPD WDR JBT TT JA PD LD BRR JRI JRP JRS KK Putih Oval Orange 16 150.5 7 9.5 5.9 1515 2 10 5 8 Semua nilai atribut dimasukkan ke form pengujian, kemudian pilih subset sebelum menekan tombol klasifikasi. Hasil yang didapatkan adalah kelas Turina-1 untuk semua subset yang digunakan. Hasil pengujian dapat dilihat pada Gambar 7. Gambar 5 Tampilan awal sistem Gambar 6 Tampilan masuk ke sistem 14 Gambar 7 Hasil klasifikasi pada contoh pengujian SIMPULAN DAN SARAN Simpulan Hasil penelitian menunjukkan teknik algoritme C4.5 dapat digunakan untuk mencari aturan klasifikasi dengan akurasi yang baik. Data yang diujikan sebanyak 100 data, masing-masing 25 data untuk kelas Turina-1, Turina-2, Turina-3, dan bukan varietas. Terdapat 95 data yang diklasifikasikan dengan benar dan 5 yang data salah diklasifikasikan. Pada perbandingan hasil klasifikasi Tabel 7 dan Tabel 8 dapat dilihat bahwa kelas yang sering salah pengklasifikasianya adalah kelas yang bukan varietas unggul. Hal ini disebabkan karena data pada kelas bukan varietas itu tidak terlalu mencirikan kelas tersebut, dapat dikatakan 25 data yang ada pada kelas tersebut mirip dengan atribut pada kelas lainya, sehingga memungkinkan kesalahan klasifikasi. Akurasi pada penelitian dengan algoritme C4.5 mengalami kenaikan dibandingkan dengan akurasi pada penelitian sistem pakar identifikasi varietas tanaman kunyit oleh Bursatriannyo (2012), yaitu sebesar 89%. Akurasi dengan algoritme C4.5 ini sama dengan akurasi pada penelitian Sudharmono (2012) yaitu 95%. Pada penelitian kali ini juga dapat disimpulkan bahwa dari 13 atribut untuk klasifikasi varietas kunyit hanya ada 9 atribut yang berguna untuk identifikasi varietas kunyit, atribut tersebut diantaranya warna daging rimpang (WDR), tinggi tanaman (TT), warna bunga (WB), kadar kurkumin (KK), berat rimpang per rumpun (BRR), jumlah bunga pertandan (JBT), lebar daun (LD), dan bentuk pangkal daun (BPD). Sehingga dapat disimpulkan bahwa 4 atribut lainya tidak mempengaruhi dalam identifikasi varietas kunyit. Saran Pada kasus yang memiliki nilai atribut yang hampir mirip antara satu kelas dengan kelas lainya, lebih baik menggunakan algoritme C5.0 yang memiliki fitur boosting yaitu beberapa pohon keputusan yang dihasilkan dikombinasikan untuk meningkatkan prediksi, sehingga diharapkan akurasi yang didapatkan akan lebih baik nantinya dibandingkan dengan memakai algoritme C4.5. 15 DAFTAR PUSTAKA Bursatriannyo. 2012. Sistem pakar identifikasi varietas tanaman kunyit [skripsi]. Bogor (ID): Institut Pertanian Bogor. Han J, Kamber M. 2007. Data Mining Concepts and Techniques. 2nd ed. San Francisco (US): Morgan Kaufmann. Kohavi R. 1995. A study of cross-validation and bootstrap for accuracy estimation and model selection. Di dalam: Proceedings of the 14th International Joint Conference on Artificial Intelligence, 1995 Agu 20-25; Quebec (US). hlm 1137-1143. Mitchell T. 1997. Machine Learning. Portland (US): McGraw-Hill. Quinlan JR. 1993. C4.5: Programs for Machine Learning. San Francisco (US): Morgan Kaufmann. Rajaraman A, Leskovec J, Ullman JD. 2010. Mining of Massive Datasets. Cambridge (GB): Cambridge University Pr. Sudharmono M. 2012. Pengenalan varietas kunyit berdasarkan ciri morfologi menggunakan genetic programming dengan praproses booleanizing [skripsi]. Bogor (ID): Institut Pertanian Bogor. Syukur C, Rostiana O, Syahid S, Udarno L. 2006. Petunjuk Pelaksanaan Pengolahan Plasma Nutfah Kunyit (Curcuma Domestica Val.). Bogor (ID): Puslitbang Perkebunan. Syukur C, Rostiana O, Sukarman, Nova N, Rukmin D. 2011. Laporan Akhir Konservasi 100 Jenis, Rejuvenasi, Karakterisasi dan Evaluasi 8 Jenis Serta Dokumentasi Plasma Nutfah Tanaman Obat dan Aromatik. Bogor (ID): BALITTRO. 16 Lampiran 1 Data varietas kunyit WB PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH PUTIH BPD WDR JBT TT JA PD LD BRR JRI JRP JRS KK VK OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE 16 11 12 15 17 13 14 18 16 14 8 12 10 13 16 12 8 14 10 12 16 18 150.5 148.0 148.5 150.0 151.0 149.0 149.5 151.5 152.0 151.7 149.6 151.4 151.1 150.8 150.5 150.2 149.9 148.7 149.3 149.0 148.4 148.1 7 6 7 6 6 6 7 7 6 7 6 6 7 6 7 6 7 7 7 6 6 7 9.5 8.0 8.1 9.0 10.1 8.3 8.6 10.8 11.6 12.5 15.3 13.5 13.8 14.1 14.4 14.7 15.0 14.0 15.7 16.0 12.0 10.0 5.9 5.2 5.5 6.0 5.8 5.8 6.1 5.7 5.6 5.5 6.0 5.4 5.3 5.2 5.4 5.6 5.8 5.6 6.2 5.9 5.3 5.5 1515 500 703 1312 1718 906 1109 1921 1665 1409 939 1153 897 641 516 657 798 1362 1080 1221 1503 1644 2 1 2 1 1 1 2 2 1 2 1 1 2 1 2 1 2 2 2 1 1 2 10 5 6 9 11 7 8 5 6 7 7 8 9 10 11 5 6 10 8 9 11 5 5 5 7 13 6 9 11 7 8 9 8 10 11 12 13 14 5 5 11 14 6 7 8.0 7.5 7.6 7.9 8.1 7.7 7.8 8.2 8.3 8.4 9.1 8.5 8.6 8.7 8.8 8.9 9.0 9.4 9.2 9.3 9.5 9.6 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Lampiran 1 Lanjutan WB PUTIH PUTIH PUTIH PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT BPD WDR JBT OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL OVAL ORANGE ORANGE ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE 15 12 18 19 21 20 19 18 18 21 19 21 19 20 20 18 20 21 20 21 18 19 TT 148.3 148.6 148.9 173.1 176.7 175.5 174.3 176.9 174.5 173.6 175.4 176.8 175.8 174.7 176.3 176.4 175.6 174.8 173.6 173.2 174.4 174.0 JA 6 7 6 6 7 6 7 6 6 7 7 7 7 6 6 6 6 6 7 6 7 6 PD 8.0 8.4 8.8 9.8 13.4 12.2 11.0 14.6 14.3 14.8 13.8 12.8 15.8 15.3 13.3 12.3 11.3 10.3 11.2 11.9 9.8 10.5 LD BRR JRI JRP JRS KK VK 5.7 5.9 6.1 4.2 4.8 5.2 4.7 4.4 4.9 5.1 4.7 4.3 4.7 5.0 4.5 4.4 4.6 4.8 5.1 5.2 4.9 5.0 1785 1926 1996 500 890 760 630 1020 1548 1410 1686 1962 1150 1280 1824 2095 2361 2229 1438 1175 1964 1701 1 2 2 1 2 1 2 1 1 2 2 2 2 1 1 1 1 1 2 1 2 1 7 9 11 3 6 5 4 7 6 5 6 4 3 4 3 5 7 4 7 3 5 6 8 9 10 4 10 8 6 12 8 9 7 5 11 10 6 4 10 11 5 8 9 7 9.7 9.8 9.5 9.5 10.1 9.9 9.7 10.3 10.1 10.4 9.8 9.6 10.5 10.7 9.5 9.8 10.2 10.6 9.8 9.5 10.8 10.3 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 17 18 Lampiran 1 Lanjutan WB PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING PUCAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT BPD WDR JBT TT JA PD LD BRR JRI JRP JRS KK VK OVAL OVAL OVAL OVAL OVAL OVAL RUNCING RUNCING RUNCING RUNCING RUNCING RUNCING RUNCING RUNCING RUNCING RUNCING RUNCING RUNCING RUNCING RUNCING RUNCING RUNCING KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE KUNING ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE 18 19 21 20 19 21 16 19 20 16 17 18 17 20 19 20 18 19 16 19 20 17 173.5 176.0 175.2 174.1 173.8 174.4 173.0 175.9 176.1 173.8 174.0 174.2 173.2 173.7 174.3 174.5 173.4 173.5 174.6 173.5 173.7 174.8 7 7 7 7 6 6 6 6 7 8 6 7 7 7 8 6 8 6 7 6 7 8 12.6 11.8 10.8 14.0 13.3 14.7 15.8 20.4 20.7 16.8 17.0 17.2 16.0 16.6 17.4 17.7 16.2 16.4 18.0 16.5 16.8 18.3 5.0 4.5 4.7 4.6 4.8 4.4 3.8 4.4 4.6 4.3 4.4 4.5 3.9 4.2 4.6 4.7 4.0 4.1 4.8 4.2 4.4 4.9 912 2228 2494 1152 649 1655 500 1994 2077 915 998 1081 583 832 1164 1247 666 749 1330 751 836 1413 2 2 2 2 1 2 1 1 2 3 1 2 2 2 3 1 3 1 2 1 2 3 4 6 3 6 5 7 6 10 11 11 12 6 7 10 7 8 8 9 9 6 8 10 11 7 13 7 9 5 10 12 13 15 16 17 11 14 10 11 12 13 12 13 14 13 9.7 10.0 10.4 9.6 9.4 10.7 7.7 8.7 8.8 8.2 8.3 8.4 7.8 8.1 8.5 8.6 7.9 8.0 8.7 8.0 8.1 8.8 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 Lampiran 1 Lanjutan WB PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING COKLAT PUTIH KUNING PUTIH KUNING COKLAT KUNING PUTIH KUNING PUCAT KUNING PUTIH PUTIH KUNING PUTIH KUNING BPD WDR JBT TT JA PD LD BRR JRI JRP JRS KK VK RUNCING RUNCING RUNCING RUNCING RUNCING RUNCING RUNCING RUNCING RUNCING OVAL BULAT OVAL MERUNCING BULAT BULAT OVAL MERUNCING BULAT BULAT OVAL OVAL OVAL ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE ORANGE KUNING ORANGE KUNING KUNING MUDA KUNING KUNING ORANGE KUNING KUNING MUDA KUNING KUNING MUDA ORANGE KUNING ORANGE 18 16 19 20 17 18 16 17 18 16 11 12 21 11 14 17 20 17 14 11 13 15 175.0 175.4 175.1 175.3 175.6 175.8 176.3 176.5 176.6 176.0 177.0 150.0 177.0 147.0 147.9 148.8 149.7 150.6 151.5 152.4 153.3 154.2 6 6 7 8 7 8 8 6 7 6 8 7 8 6 7 8 6 7 8 6 7 8 18.6 19.5 18.9 19.2 19.8 20.1 21.0 21.3 21.6 17.0 8.0 9.0 23.0 8.0 9.1 10.2 11.3 12.4 13.5 14.6 15.7 16.8 5.0 3.8 5.1 5.2 4.0 4.2 4.8 5.0 5.2 5.0 6.4 4.0 6.4 3.6 3.9 4.3 4.6 4.9 5.2 5.5 5.8 6.1 1496 1745 1579 1662 1828 1911 2160 2245 2330 1900 2500 600 2500 500 653 806 959 1112 1265 1418 1571 1724 1 1 2 3 2 3 3 1 2 1 1 2 3 1 2 3 1 2 3 1 2 3 11 7 12 6 8 9 12 6 8 10 12 5 12 3 4 5 6 7 8 9 10 11 14 17 15 16 10 11 14 15 16 16 4 5 17 4 5 6 7 8 9 10 11 12 8.9 9.2 9.0 9.1 9.3 8.6 8.9 9.0 9.1 10.8 11.0 8.0 11.0 7.1 7.4 7.7 8.0 8.3 8.6 8.9 9.2 9.5 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 19 20 Lampiran 1 Lanjutan WB KUNING COKLAT PUTIH KUNING COKLAT COKLAT COKLAT PUTIH KUNING PUCAT PUTIH KUNING COKLAT PUTIH KUNING PUCAT COKLAT PUTIH KUNING COKLAT PUTIH KUNING PUCAT COKLAT BPD WDR JBT TT JA PD LD BRR JRI JRP JRS KK VK OVAL OVAL RUNCING OVAL OVAL BULAT OVAL RUNCING MERUNCING MERUNCING MERUNCING RUNCING ORANGE KUNING MUDA ORANGE KUNING ORANGE ORANGE KUNING MUDA KUNING ORANGE KUNING MUDA KUNING KUNING MUDA KUNING ORANGE 17 19 21 18 15 12 13 14 15 16 17 18 155.1 156.0 156.7 157.4 158.1 158.8 159.5 160.2 160.9 161.6 162.3 163.0 6 7 8 6 7 8 6 7 8 6 7 8 17.9 19.0 20.1 21.2 19.6 18.0 16.4 14.8 13.2 11.5 9.9 8.2 5.6 5.1 4.6 4.1 4.4 4.7 5.0 5.3 5.6 5.9 6.2 6.0 1877 2030 2183 2336 2489 2280 2071 1862 1653 1444 1235 1026 1 2 3 1 2 3 1 2 3 1 2 3 12 10 8 6 4 5 6 7 8 9 10 11 13 14 15 16 17 14 11 8 5 7 9 11 9.8 10.1 10.4 10.7 10.5 10.3 10.1 9.9 9.7 9.5 9.3 9.1 4 4 4 4 4 4 4 4 4 4 4 4 Lampiran 2 Data kunyit yang telah di tranformasi WB 1 2 3 1 1 2 3 4 1 2 3 1 1 2 3 4 1 2 3 5 1 2 BPD 1 1 2 1 1 1 2 3 1 1 2 1 1 1 2 4 1 1 2 3 1 1 WDR 1 2 1 1 1 2 1 3 1 2 1 1 1 2 1 3 1 2 1 4 1 2 JBT 3 3 3 3 1 3 3 1 1 3 3 1 2 3 3 3 3 3 3 1 2 3 TT 1 2 2 3 1 3 3 3 1 3 3 1 1 3 2 3 1 3 2 1 1 3 JA 2 1 1 1 1 2 1 3 2 1 2 2 1 2 3 3 1 1 1 1 1 1 PD 1 1 2 3 1 2 3 1 1 2 3 1 1 1 3 3 1 2 3 1 1 2 LD 3 1 1 2 2 2 1 3 3 2 2 1 3 2 1 3 3 1 1 1 3 2 BRR 3 1 1 4 1 1 4 4 1 1 4 1 2 1 1 4 3 2 2 1 1 3 JRI 2 1 1 1 1 2 1 1 2 1 2 2 1 2 3 3 1 1 1 1 1 1 JRP 3 1 2 3 1 2 3 3 2 1 3 1 2 1 3 3 3 2 3 1 2 2 JRS 1 1 2 3 1 2 2 1 1 2 2 1 2 1 3 3 1 2 3 1 2 2 KK 1 2 1 3 1 3 2 3 1 2 2 1 1 2 1 3 1 3 1 1 1 3 VK 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 21 22 Lampiran 2 Lanjutan WB 3 4 1 2 3 2 1 2 3 4 1 2 3 1 1 2 3 1 1 2 3 4 1 BPD 2 3 1 1 2 1 1 1 2 4 1 1 2 3 1 1 2 3 1 1 2 1 1 WDR 1 3 1 2 1 2 1 2 1 3 1 2 1 4 1 2 1 3 1 2 1 4 1 JBT 3 2 2 3 3 3 3 3 3 3 3 3 3 3 2 3 3 2 1 3 3 1 1 TT 2 1 1 2 3 1 1 3 2 1 1 3 3 1 1 3 3 1 1 3 2 1 1 JA 2 2 2 2 2 3 2 2 2 1 1 2 3 2 2 2 1 3 1 1 3 1 1 PD 3 1 1 2 3 1 1 2 3 1 1 2 3 2 2 2 3 2 2 2 3 2 2 LD 1 1 3 2 1 1 3 2 1 2 3 1 2 2 3 2 2 2 3 2 1 3 2 BRR 1 1 2 3 2 1 4 3 1 2 3 4 2 2 2 2 2 2 2 2 1 3 2 JRI 2 2 2 2 2 3 2 2 2 1 1 2 3 2 2 2 1 3 1 1 3 1 1 JRP 3 1 2 1 2 1 1 2 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 JRS 3 1 2 2 3 1 1 1 2 1 2 1 2 2 2 2 2 2 2 2 2 2 2 KK 1 1 1 3 1 1 1 2 1 1 1 2 2 1 1 3 2 2 2 3 1 2 2 VK 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 Lampiran 2 Lanjutan WB 2 3 1 1 2 3 4 1 2 3 4 1 2 3 5 1 2 3 3 1 2 3 5 BPD 1 2 1 1 1 2 1 1 1 2 1 1 1 2 1 1 1 2 2 1 1 2 1 WDR 2 1 3 1 2 1 4 1 2 1 3 1 2 1 1 1 2 1 4 1 2 1 1 JBT 3 3 2 1 3 3 2 2 3 3 3 3 3 3 3 1 3 3 3 1 3 3 3 TT 3 2 1 1 3 3 1 1 3 2 1 1 3 2 1 1 2 3 1 1 2 3 1 JA 1 1 2 2 1 2 3 1 1 1 1 2 1 2 2 1 2 3 3 2 1 1 1 PD 2 3 2 2 2 3 3 2 1 3 3 2 1 3 3 2 1 3 3 2 1 3 3 LD 1 1 3 2 1 2 3 2 2 1 3 2 2 1 2 3 2 2 2 3 2 2 1 BRR 3 1 3 1 4 2 3 1 4 1 4 1 4 1 4 1 3 3 4 1 2 3 4 JRI 1 1 2 2 1 2 3 1 1 1 1 2 1 2 2 1 2 3 3 2 1 1 1 JRP 1 2 3 2 1 2 3 3 2 2 3 3 1 2 3 1 2 3 2 2 1 3 2 JRS 1 2 2 2 1 2 2 2 2 2 2 2 2 3 3 3 1 2 3 1 2 3 3 KK 2 1 2 2 2 2 2 2 3 1 2 2 3 1 3 2 2 2 3 2 2 2 3 VK 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 23 24 Lampiran 2 Lanjutan WB 1 2 3 5 1 2 3 2 1 2 3 3 1 2 3 2 1 2 3 5 1 2 3 BPD 1 1 2 1 1 1 2 3 1 1 2 1 1 1 2 2 1 1 2 4 1 1 2 WDR 1 2 1 2 1 2 1 1 1 2 1 4 1 2 1 1 1 2 1 2 1 2 1 JBT 2 3 3 2 1 3 3 1 1 3 3 2 3 3 3 2 3 3 3 2 2 3 3 TT 1 3 3 2 1 2 3 2 1 2 3 2 1 3 3 2 1 3 3 2 1 3 3 JA 2 2 1 2 2 1 2 3 1 2 3 1 1 2 2 2 2 2 3 3 1 2 3 PD 2 1 3 3 2 1 3 3 3 2 3 3 2 1 3 2 1 1 3 2 1 2 3 LD 3 2 1 1 3 2 2 2 3 2 2 2 2 1 1 2 3 2 1 3 3 2 2 BRR 2 4 3 4 2 3 3 4 2 1 3 4 3 4 3 4 3 4 4 3 3 2 4 JRI 2 2 1 2 2 1 2 3 1 2 3 1 1 2 2 2 2 2 3 3 1 2 3 JRP 3 1 2 1 2 2 3 1 2 1 2 2 3 2 2 2 1 1 2 2 2 2 3 JRS 1 2 3 3 2 1 3 3 3 2 3 2 1 1 2 2 1 2 2 1 2 1 3 KK 2 3 2 3 2 3 2 3 2 2 2 3 2 3 2 2 2 3 2 2 2 2 2 VK 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 Lampiran 2 Lanjutan WB 3 1 2 3 2 1 2 3 5 BPD 4 1 1 2 4 1 1 2 2 WDR 1 1 2 1 4 1 2 1 2 JBT 3 1 3 3 3 3 3 3 3 TT 2 1 2 3 2 1 3 3 2 JA 1 2 1 1 2 1 1 2 3 PD 1 1 2 3 1 1 2 3 1 LD 3 3 2 2 3 3 1 2 3 BRR 3 4 1 4 2 4 3 4 2 JRI 1 2 1 1 2 2 2 2 3 JRP 2 2 1 2 3 3 2 2 3 JRS 1 2 2 3 2 2 1 3 2 KK 2 2 2 2 2 2 3 2 2 VK 4 1 2 3 4 1 2 3 4 25 26 Lampiran 3 Jumlah anakan Range frekuensi Ordinal 6 Sedikit 7 Sedang 8 Banyak Numerik 1 2 3 Lampiran 4 Panjang daun Range frekuensi Ordinal 8.0−11.9 Pendek 12.0−15.8 Sedang 16.0−23.0 Panjang Numerik 1 2 3 Lampiran 5 Lebar daun Range frekuensi Ordinal 3.6−4.5 Kecil 4.6−5.4 Sedang 5.5−6.4 Lebar Numerik 1 2 3 Lampiran 6 Berat rimpang per rumpun Range frekuensi Ordinal Numerik 500− 915 Kecil 1 939−1409 Sedang 2 1410−1828 Lebar 3 1862−2500 Sangat lebar 4 Lampiran 7 Jumlah rimpang induk Ordinal Numerik Sedikit 1 Sedang 2 Banyak 3 Lampiran 8 Jumlah rimpang primer Range frekuensi Ordinal 3− 5 Sedikit 6− 9 Sedang 10−12 Banyak Numerik 1 2 3 Lampiran 9 Jumlah rimpang sekunder Range frekuensi Nominal Numerik 4− 7 Sedikit 1 8−13 Sedang 2 14−18 Banyak 3 27 Lampiran 10 Kadar kurkumin Range frekuensi Ordinal 7.1− 8.4 Sedikit 8.5− 9.9 Sedang 10.0−11.0 Banyak Numerik 1 2 3 28 Lampiran 11 Tree yang dihasilkan untuk warna daging rimpang (WDR) cabang 1 Lampiran 12 Tree yang dihasilkan untuk warna daging rimpang (WDR) cabang 2 29 30 Lampiran 13 Tree yang dihasilkan untuk warna daging rimpang (WDR) cabang 3 Lampiran 14 Tree yang dihasilkan untuk warna daging rimpang (WDR) cabang 4 31 32 Lampiran 15 Data uji yang diujikan pada decision tree WDR 1 2 1 4 1 2 1 3 1 2 1 4 1 2 1 3 1 2 1 1 BPD WB TT LD BRR KK VK 1 1 2 1 1 1 2 1 1 1 2 1 1 1 2 1 1 1 2 1 1 2 3 4 1 2 3 1 1 2 3 4 1 2 3 4 1 2 3 5 1 3 2 1 1 3 2 1 1 3 3 1 1 3 2 1 1 3 2 1 3 2 1 3 2 1 1 3 2 1 2 3 2 2 1 3 2 2 1 2 2 2 1 3 2 3 1 3 1 4 2 3 1 4 1 4 1 4 1 4 2 3 1 2 2 2 1 2 2 2 2 2 2 3 1 2 2 3 1 3 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 Lampiran 16 Data kunyit yang salah klasifikasi WB PUTIH KUNING PUCAT PUTIH PUTIH PUTIH KUNING PUCAT PUTIH KUNING PUCAT BPD OVAL OVAL OVAL OVAL RUNCING WDR KUNING ORANGE ORANGE ORANGE KUNING ORANGE KUNING MUDA JBT 19 16 12 17 14 TT 173.1 176.0 150.0 148.8 160.2 JA 6 6 7 8 7 PD 9.8 17.0 9.0 10.2 14.8 LD 4.2 5.0 4.0 4.3 5.3 BRR 500 1900 600 806 1862 JRI 1 1 2 3 2 JRP 3 10 5 5 7 JRS 4 16 5 6 8 KK 9.5 10.8 8.0 7.7 9.9 VK 2 4 4 4 4 33 34 RIWAYAT HIDUP Penulis dilahirkan di Pakan Sinayan tanggal 30 September 1989 dari Ibu Sukmanirwati dan Bapak Zamzami. Penulis merupakan anak kelima dari lima bersaudara. Pada tahun 2007, penulis lulus dari Sekolah Menengah Atas (SMA) Negeri 1 Tilatang Kamang, dan pada tahun yang sama diterima di Diploma Institut Pertanian Bogor Program Keahlian Teknik Komputer. Pada tahun 2010 penulis lulus dari Diploma Institut Pertanian Bogor dan melanjutkan pendidikan di Program Alih Jenis Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB. Selama menjalani perkuliahan penulis pernah menjadi asisten dosen di Direktorat Program Diploma Institut Pertanian Bogor pada tahun 2012 sampai 2013.