29 BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Lembaga finansial adalah suatu lembaga yang bergerak dalam bidang keuangan dimana para nasabahnya terdiri dari berbagai lapisan dan bermacammacam perilaku. Masyarakat Indonesia dalam melakukan transaksi peminjaman dana dari bank masih banyak menggunakan nanalisa kebutuhan secara pribadi walaupun dalam pengajuaannya menggunakan analisa perusahaan, hal ini dikarenakan tuntutan yang harus dipenuhi karena persyaratan perbankan. Masih banyak lembaga finasial baik itu perbankan maupun koperasi simpan pinjam yang masih mempunyai jumlah kredit macet yang cukup besar, hal ini akan sangat menganggu kelangsungan koperasi maupun perbankan [1]. Dalam koperasi simpan pinjam masih banyak para manajer (pengelola) koperasi mengambil keputusan untuk memberikan kredit pada nasabah menggunakan pendekatan kedekatan nasabah dengan pengambil keputusan (Pengurus dan atau Manajer), walaupun masih tetap mempertimbangkan persyaratan-persyaratan yang harus dipenuhi. Perencanaan koperasi menjadi hal yang sangat penting dalam mengelola koperasi agar dapat berjalan sesuai dengan harapan semua pihak terutama para anggota. Dalam kaitannya dengan perencanaan, maka misi bank harus dijabarkan dalam tujuan perencanaan yang terinci. Walaupun demikian, penyusunan perencanaan kredit secara umum harus memenuhi kriteria dapat dilaksanakan (feasible), dapat memberikan arah yang kita kehendaki (suitable), dapat diterima (acceptable), mempunyai nilai yang berarti (valuable), mudah dicapai dievaluasi/diukur (measurable) [2]. (achievable), dan hasilnya dapat 30 Koperasi Primkoveri adalah salah satu koperasi yang bergerak dibidang simpan pinjam dan menawarkan permohonan kredit. Permohonan kredit pada koperasi simpan pinjam biasanya dilakukan secara sederhana tidak seperti di bank, namun masih tetap memenuhi persyaratan prinsip dari sebuah kredit. Penilaian yang terkait dengan jumlah pinjaman, waktu pengembalian, jenis usaha/pekerjaan, jumlah, status perkawinan, angsuran dan ketentuan-ketentuan lain. Permohonan ini biasanya diisi oleh calon nasabah dalam blanko yang telah tersedia untuk berkas pengajuan kredit, selebihnya ditentukan oleh hasil analisis team yang telah ditentukan koperasi simpan pinjam. Analisa yang dilakukan oleh para manajer koperasi simpan pinjam dilakukan secara sederhana karena keterbatasan koperasi dalam melibatkan tenaga analis kredit yang cukup mahal dan memberatkan nasabah, karena kesederhanaan analisis inilah yang memicu terjadinya kredit macet. Antisipasi yang biasa dilakukan hanyalah dengan melakukan pendekatan-pendekatan personal pada semua nasabah kredit, ini memang tidak efektif manakala jumlah nasabah kredit menunggak sangat banyak [1]. Dari masalah tersebut, maka ada cara lebih efektif yang dapat digunakan untuk menggantikan cara sederhana yaitu dengan menggunakan data mining. Data mining merupakan bidang dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk penanganan permasalahan pengambilan informasi dari database yang besar [3]. Dalam data mining banyak metode, teknik maupun algoritma yang digunakan sangatlah bervariasi. Pemilihan metode dan algoritma yang tepat, semuanya bergantung dengan tujuan dan proses secara keseluruhan. Di sini, penulis akan mengolah data menggunakan metode klasifikasi. Klasifikasi adalah proses penempatan objek atau konsep tertentu ke dalam satu set kategori berdasarkan objek yang digunakan [4]. 31 Di sini metode yang digunakan dalam klasifikasi adalah metode pengklasifikasian dengan menggunakan desicion tree (pohon keputusan) dengan salah satu algoritma desicion tree yang dipakai adalah C4.5. Penggunaan algoritma klasifikasi yaitu algoritma C4.5 dikarenakan dari hasil uji coba referensi- referensi yang sudah didapatkan tingkat akurasi penggunaan algoritma C4.5 lebih tinggi dalam menemukan record yang belum diketahui kelasnya jika dibandingkan dengan algoritma naive bayes. Mengacu dari masalah tersebut maka penulis tertarik untuk mengklasifikasi atau mengelompokkkan suatu data mining yang dapat menyajikan informasi secara cepat dan akurat serta mudah digunakan yaitu mengklasifikasi data mining untuk menentukan potensi kredit macet pada Koperasi Simpan Pinjam Primkoveri Waleri menggunakan algoritma decision tree C4.5 . 1.2. Rumusan Masalah Berdasarkan dari latar belakang di atas dapat dirumuskan, bagaimana penerapan data mining klasifikasi pada data nasabah pemohon kredit pada Koperasi Simpan Pinjam Primkoveri Waleri yang berpotensi kredit macet dengan algoritma decision tree C4.5. 1.3. Batasan Masalah Untuk menghindari penyimpangan dari topik yang telah dibuat selama penelitian, maka penulis membuat batasan masalah dalam penelitian ini. Adapun batasan masalahnya adalah: a) Data yang digunakan berasal dari Koperasi Simpan Pinjam Primkoveri Waleri tahun 2014. b) Penelitian ini dibatasi hanya pada penerapan algoritma C4.5 untuk klasifikasi pemohon kredit yang berpotensi menyebabkan kredit macet pada Koperasi Simpan Pinjam Primkoveri Waleri. c) Pengelolaan data aplikasi menggunakan aplikasi rapid miner. 32 1.4. Tujuan Penelitian Berdasarkan rumusan masalah diatas maka tujuan dari penelitian ini adalah menerapkan algoritma C4.5 untuk mengklasifikasi pemohon kredit yang berpotensi menyebabkan kredit macet pada Koperasi Simpan Pinjam Primkoveri Waleri sehingga dapat menjadi acuan pengambilan kredit selanjutnya. 1.5. Manfaat Penelitian Manfaat yang diharapkan akan diperoleh dari penelitian ini adalah: 1. Bagi Instansi Memudahkan Koperasi Simpan Pinjam Primkoveri Waleri dalam menentukan kemungkinan pemohon kredit yang berpotensi kredit macet. 2. Bagi Akademik Sebagai bahan evaluasi akademik guna peningkatan mutu pendidikan serta dapat dijadikan rujukan tentang pengolahan data (data mining). 3. Bagi Pembaca Diharapkan dapat digunakan sebagai tambahan pengetahuan dan dapat menyelesaikan masalah yang sama yaitu memprediksi apakah masyarakat atau nasabah yang bersangkutan dapat mengambil kredit yang telah ditentukan oleh suatu koperasi simpan pinjam. 33 BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait Beberapa penelitian terkait tentang Metode Klasifikasi dan penggunaan algoritma C4.5 adalah sebagai berikut. 2.1.1 Penerapan Data Mining Untuk Memprediksi Kriteria Nasabah Kredit Penelitian ini tentang bagaimana membuat aplikasi yang berfungsi untuk memprediksi kriteria nasabah kredit yang berpotensi melakukan peminjaman (kredit) terhadap bank. Pada penelitian ini terdapat beberapa kriteria yang digunakan, yaitu jenis kelamin, umur, desa, kecamatan, status marital, nilai pinjaman, jumlah angsuran, kode integrasi dan cek. Kesimpulan dari penelitian ini yaitu aplikasi 34 yang dibuat dapat membantu pada bagian dana dalam menganalisis data nasabah untuk menentukan target pemasaran kredit sehingga diharapkan biaya operasional marketing perbankan dapat ditekan seminimal mungkin [5]. 2.1.2 Penerapan Algoritma C4.5 Untuk Penentuan Jurusan Mahasiswa. Penelitian ini tentang bagaimana menentukan jurusan yang akan diambil oleh mahasiswa sesuai dengan latar belakang, minat dan kemampuannya sendiri, dengan demikian dapat digunakan juga oleh pihak perguruan tinggi sebagai acuan penentuan jurusan mahasiswa. Pada penelitian ini terdapat beberapa kriteria yang digunakan yaitu atribut nama, jenis kelamin, umur, asal sekolah, jurusan asal sekolah, nilai UN, IPK semester 1, IPK semester 2. Dari penelitian ini dapat disimpulkan bahwa bahwa algoritma decision tree C4.5 akurat diterapkan untuk penentuan kesesuaian jurusan mahasiswa dengan tingkat keakuratan 93,31 % dan akurasi rekomendasi jurusan sebesar 82,64%. Dengan demikian dengan diterapkannya algoritma decision tree C4.5 diharapkan mampu memberikan solusi bagi mahasiswa dan dapat membantu perguruan tinggi dalam menentukan jurusan yang sesuai dengan kemampuan mahasiswa sehingga peluang untuk sukses dalam studi diperguruan tinggi semakin besar [6]. 2.1.3 Klasifikasi Data Nasabah Sebuah Asuransi menggunakan Algoritma C4.5. Penelitian ini tentang mengklasifikasikan data nasabah sebuah asuransi sehingga dapat dicari pola status nasabah untuk dapat dijadikan bahan analisis perusahaan dalam menentukan calon nasabah di masa yang akan datang. Atribut-atribut yang digunakan dalam penelitian ini adalah penghasilan, premi dasar, cara pembayaran, mata 35 uang, dan status. Label yang digunakan unuk pengklasifikasian adalah lancar dan tidak lancar. Kesimpulan yang didapatkan dari penelitian ini adalah aplikasi dapat menyimpulkan bahwa rata-rata nasabah memiliki status L (Lapse) dikarenakan pembayaran premi yang melebihi 10% dari penghasilan. Dengan presentase atribut Premi Dasar dan Penghasilan, maka dapat diketahui rata-rata status nasabah memiliki P (Presistent) atau L (Lapse) [7]. 2.1.4 Analisis Komparasi Algoritma Klasifikasi Data Mining Untuk Prediksi Mahasiswa Non Aktif. Penelitian ini tentang analisis komparasi algoritma klasifikasi data mining untuk memprediksi mahasiswa non aktif. Data yang digunakan sebanyak 3861 mahasiswa program studi Teknik Informatika, Sistem Informasi dan Desain Komunikasi Visual Universitas Dian Nuswantoro. Kesimpulan yang didapatkan adalah decision tree merupakan algoritma yang paling akurat, namun demikian decision tree tidak dominan terhadap algoritma yang lain. Logistic regression merupakan algoritma yang paling dominan di antara algoritma yang lain meskipun akurasinya paling rendah. Berdasarkan nilai AUC, logistic regression, decision tree, naïve bayes, dan neural network masuk dalam kategori excellent classification [8]. Tabel 2.1 Ringkasan Penelitian Penulis, Judul Masalah Metode Hasil Penerapan Memprediksi Metode Kesimpulan Ginanja Data kriteria yang penelitian r nasabah kredit digunakan tahun Angga Mining dari ini yaitu aplikasi yang dibuat 36 Mabrur, Untuk yang pada dapat membantu pada Riani Mempredi berpotensi penelitian bagian Lubis, ksi melakukan ini 2012. Kriteria peminjaman metode nasabah untuk Nasabah (kredit) klasifikasi menentukan target Kredit terhadap bank. pemasaran kredit dana dalam adalah menganalisis data sehingga diharapkan biaya operasional marketing perbankan dapat ditekan seminimal mungkin. Liliana Penerapan Menentukan Penelitian yang ini Dengan diterapkannya Swastin Algoritma jurusan a, 2013 C4.5 akan Untuk oleh pada mampu Penentuan mahasiswa proses solusi bagi mahasiswa Jurusan sesuai dengan menentuka Mahasisw latar belakang, n a minat diambil difokuskan dengan sendiri, algoritma dengan decision tree C4.5 diharapkan memberikan dan dapat membantu jurusan perguruan dan mahasiswa kemampuanny a algoritma C4.5. dalam tinggi menentukan jurusan yang sesuai dengan kemampuan mahasiswa sehingga demikian dapat peluang untuk sukses digunakan juga dalam oleh diperguruan pihak perguruan tinggi sebagai acuan semakin besar. studi tinggi 37 penentuan jurusan mahasiswa. Sunjana Klasifikasi Banyaknya , 2010. Pada yang penelitian Setelah dilakukan Data data Nasabah tersimpan Sebuah sebuah mengguna Asuransi perusahaan kan metode disimpulkan Mengguna hanya sebagai algoritma aplikasi kan dokumentasi menyimpulkan Algoritma dan C4.5 dipakai untuk status kebutuhan dikarenakan transaksi saja . pembayaran di ini C4.5 hanya analisis menggunakan metode algoritma C4.5 dapat bahwa dapat rata- rata nasabah memiliki L (Lapse) premi yang melebihi 10% dari penghasilan dan dengan presentase atribut premi dan dasar penghasilan, maka dapat diketahui rata-rata status nasabah memiliki nilai P (Presistent) atau L (Lapse). Khafizh Analisis Masalah Hastuti, Komparasi penelitian 2012 Algoritma adalah dari Metode ini yang digunakan Dari permasalahan tersebut disimpulkan dapat bahwa 38 Klasifikasi mahasiswa pada decision Data yang memiliki penelitian Mining status non aktif ini Untuk memiliki klasifikasi namun Prediksi kecenderungan data decision Mahasisw untuk drop out mining a Aktif tree merupakan algoritma adalah yang paling akurat, Non- dan tingginya dengan demikian tree dominan tidak terhadap 4 algoritma yang lain. prosentase algoritma Logistic regression mahasiswa yaitu, merupakan algoritma dengan status logistic yang paling dominan non di aktif regression, mempengaruhi decision antara algoritma yang lain meskipun nilai akreditasi tree, naïve akurasinya universitas bayes dan rendah. paling Berdasarkan neural nilai AUC, network. regression, logistic decision tree, naïve bayes, dan neural network masuk dalam excellent classification. 2.2. Data Mining Data mining merupakan bidang dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasiuntuk penanganan permasalahan pengambilan informasi dari database yang besar [3]. kategori 39 Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu : 1. Deskripsi 2. Estimasi 3. Klasifikasi 4. Klasterisasi (Pengelompokan) 5. Asosiasi Hal penting yang terkait dengan data mining adalah sebagai berikut : 1. Data mining merupakan proses otomatis terhadap data yang dikumpulkan di masa lalu. 2. Data yang akan digunakan dalam proses data mining berupa data yang sangat besar. 3. Tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin memberikan indikasi yang bermanfaat. Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan pada Gambar 2.1 di bawah ini. 40 Gambar 2.1 Tahap-tahap Data Mining Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base. Tahapan-tahapan tersebut, diantaranya: 1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise) 41 Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki. Data-data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining nantinya. Garbage in garbage out (hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan data juga akan mempengaruhi performasi dari sistem data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya. 2. Integrasi data (penggabungan data dari beberapa sumber) Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dsb. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada. Dalam integrasi data ini juga perlu dilakukan transformasi dan pembersihan data karena seringkali data 42 dari dua database berbeda tidak sama cara penulisannya atau bahkan data yang ada di satu database ternyata tidak ada di database lainnya. 3. Seleksi dan Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining). Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut binning. Disini juga dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahapan ini. 4. Aplikasi teknik data mining Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai. Kita akan membahas lebih jauh mengenai teknik-teknik yang ada di seksi berikutnya. Perlu diperhatikan bahwa ada kalanya teknik-teknik data mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau untuk data tertentu. Sebagai contoh akhir-akhir ini dikembangkan berbagai teknik data mining baru untuk penerapan di bidang bioinformatika seperti analisa hasil microarray untuk mengidentifikasi DNA dan fungsi-fungsinya. 43 5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai) Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti : menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat. Ada beberapa teknik data mining yang menghasilkan hasil analisa berjumlah besar seperti analisis asosiasi. Visualisasi hasil analisa akan sangat membantu untuk memudahkan pemahaman dari hasil data mining. 6. Presentasi pola yang ditemukan untuk menghasilkan aksi Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisa yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mining. 2.3. Cross-Industry Stadard Process for Data Mining (CRISP-DM) CRISP-DM menyediakan standar proses data mining sebagai strategi pemecahan masalah secara umum dari bisnis atau unit penelitian. Dalam CRISP-DM, sebuah proyek data mining memiliki siklus hidup yang terbagi dalam enam fase (Gambar.2.2). Keseluruhan fase berurutan yang ada tersebut 44 bersifat adaptif. Fase berikutnya dalam urutan bergantung kepada keluaran dari fase sebelumnya. Hubungan penting antarfase digambarkan dengan panah. Sebagai contoh, jika proses berada pada fase pemodelan. Berdasar pada perilaku dan karakteristik model, proses mungkin harus kembali kepada fase pengolahan data untuk perbaikan lebih lanjut terhadap data atau berpindah maju kepada fase evaluasi [3]. Gambar 2.2 Proses Data Mining menurut CRISP-DM Enam fase CRISP-DM : 1. Fase Pemahaman Bisnis (Business Understanding Phase) a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian secara keseluruhan b. Menerjemahkan tujuan permasalahan data mining. dan batasan menjadi formula dari 45 c. Menyiapkan strategi awal untuk mencapai tujuan. 2. Fase Pemahaman Data (Data Understanding Phase) a. Mengumpulkan data b. Menggunkan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal. c. Mengevaluasi kualitas data. d. Jika diinginkan, pilih sebagian grup data yang mungkin mengandung pola dari permasalahan. 3. Fase Pengolahan Data (Data Preparation Phase) a. Siapkan dari data awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif. b. Pilih kasus dan variable yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan. c. Lakukan perubahan pada beberapa variable jika dibutuhkan. d. Siapkan data awal sehingga siap untuk perangkat pemodelan. 4. Fase Pemodelan (Modeling Phase) a. Pilih dan aplikasikan teknik pemodelan yang sesuai. b. Kalibrasi aturan model untuk mengoptimalkan hasil. c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama. d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu. 5. Fase Evaluasi (Evaluation Phase) a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektivitas sebelum disebarkan untuk digunakan. 46 b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal. c. Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik. d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining. 6. Fase Penyebaran (Deployment Phase) a. Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek. b. Contoh sederhana penyebaran : Pembuatan Laporan. c. Contoh kompleks penyebaran : Penerapan proses data mining secara parallel pada departemen lain. 2.4. Klasifikasi Klasifikasi pertama kali diterapkan pada bidang tanaman yang mengklasifikan suatu spesies tertentu, seperti yang dilakukan oleh Carolus von Linne (atau dikenal dengan nama Carolus Linnaeus) yang pertama kali mengklasifikasikan spesies berdasarkan karakteristik fisik. Selanjutnya dia dikenal sebagai bapak klasifikasi. Klasifikasi merupakan salah satu teknik dalam data mining. Klasifikasi ( taksonomi) merupakan proses penempatan objek atau konsep tertentu ke dalam satu set kategori berdasarkan objek yang digunakan. Salah satu teknik klasifikasi yang popular digunakan adalah decision tree [4]. Klasifikasi sendiri terbagi menjadi dua tahap, yaitu pengklasifikasian dan pembelajaran. Pada tahap pembelajaran, sebuah algoritma klasifikasi akan membangun sebuah model klasifikasi dengan cara menganalisis training data. Tahap pembelajaran dapat juga dipandang sebagai tahap pembentukan fungsi atau pemetaan y=f(x) di maana y adalah kelas hasil prediksi dan X adalah truple yang ingin diprediksi kelasnya. 47 Pada tahap penglasifikasian, model yang telah dihasilkan akan digunakan untuk melakukan untuk melakukan klasifikasi terhadap data- data yang belum diketahui. Akan tetapi, sebuah model hanya boleh digunakan untuk klasifikasi jika model tersebut mempunyai tingkat akurasi yang cukup tinggi.. 2.5. Decesion Tree Konsep klasifikasi dengan pengawasan (supervised classification) adalah untuk membangun sebuah model dari data yang telah diketahui, atau sering disebut sebagai classifier. Model atau fungsi ini kemudian dapat digunakan untuk memetakan data kedalam suatu basis data kepada suatu atribut target tertentu, selanjutnya dapat memperkirakan suatu kelas dari data yang baru. Algoritma decision tree merupakan salah satu algoritma klasifikasi di dalam data mining yang bekerja berdasarkan teori informasi (information theory). Decision tree menggunakan representasi struktur pohon (tree) dimana setiap node mempresentasikan atribut, cabangnya mempresentasikan nilai dari atribut, dan daun mempresentasikan kelas. Decision tree juga memiliki beberapa keunggulan, yaitu mudah dalam pengembangan sebuah model, mudah dipahami oleh penggunanya, dan mampu menangani noisy data dan unknown data. Decision tree sendiri terdiri atas beberapa bagian yaitu simpul dalam yang merepresentasikan nilai dari suatu atribut, cabang, dan simpul daun. Simpul paling atas disebut dengan simpul akar. Node yang paling atas dari decision tree disebut sebagai root. Terdapat 3 node dalam decision tree, yaitu [4]: 1. Root Node, merupakan node yang paling atas, pada node ini tidak terdapat input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu. 48 2. Internal Node, merupakan node percabangan, pada node ini terdapat satu input dan mempunyai output minimal dua. 3. Leaf node atau terminal node, merupakan node paling akhir, pada node ini hanya terdapat satu input dan tidak mempunyai output. Banyak algoritma yang digunakan dalam pembentukan pohon keputusan, antara lain ID3, CART, dan C4.5 [9]. Data dalam pohon keputusan biasanya berbentuk tabel dengan atribut. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. 2.6. Algoritma C4.5 Algoritma C4.5 merupakan salah satu algoritma yang telah secara luas digunakan, khususnya di area machine learning yang memiliki beberapa perbaikan dari algoritma sebelumnya yaitu ID3. Algoritma C4.5 dan ID3 model yang tak terpisahkan, karena membangun sebuah pohon keputusan, dibutuhkan algoritma C4.5 Diakhir tahun 1980- an, J. Ross Quinlan seorang peneliti di bidang mesin pembelajaran mengembangkan sebuah model pohon keputusan yang dinamakan ID3. Walaupun sebenarnya proyek ini telah dibuat sebelumnya oleh E.B. Hunt, J. Marin, dan P.T. Stone. Kemudian Quinlan membuat algoritma dari pengembangan ID3 yang dinamakan C4.5 yang berbasis supervised learning [10]. Serangkaian perbaikan yang dilakukan pada ID3 mencapai puncaknya dengan menghasilkan sebuah sistem praktis dan berpengaruh untuk decision tree yaitu C4.5. Perbaikan ini meliputi metode untuk menangani numeric attributes, missing values, noisy data, dan aturan yang menghasilkan rules dan trees [4]. Adapun perbaikannya adalah sebagai berikut: 1. Algoritma C4.5 menghitung gen ratio untuk masing- masing atribut, dan atribut yang memiliki nilai yang tertinggi akan dipilih 49 sebagai simpul. Penggunaam gain ratio ini memperbaiki kelemahan dari ID3 yang menggunakan information gain. 2. Pemangkasan dapat dilakukan pada saat pembangunan pohon (tree) ataupun pada saat proses pembangunan pohon selesai. 3. Mampu menangani continues attribute. 4. Mampu menangani missing data. 5. Mampu membangkitkan rule dari sebuah pohon. Ada beberapa tahapan dalam membuat sebuah pohon keputusan dalam algoritma C4.5 [4], yaitu: 1. Mempersiapkan data training. Data training biasanya diambil dari data histori yang sudah pernah terjadi sebelumnya dan sudah dikelompokkan dalam kelas- kelas tertentu. 2. Menghitung akar pohon. Akar akan diambil dari atribut yang akan dipilih, dengan cara menghitung nilai gain dari masing- masing atribut, nilai gain yang paling tinggi akan menjadi akar pertama. Sebelum menghitung nilai gain dari atribut, hitung dahulu nilai entropy. Untuk menghitung nilai entropy digunakan rumus : Entropy (S) = ∑ Keterangan : S = Himpunan Kasus n = Jumlah Partisi S pi = proporsi terhadap S Kemudian setelah nilai entropy pada masing- masing atribut sudah diperoleh maka hitung nilai gain dengan menggunakan rumus : Gain ( S, A ) = entropy ( S ) ∑ ( ) 50 Keterangan : S= Himpunan kasus A = Fitur n = jumlah partisi atribut A | = Proporsi terhadap S |S| = Jumlah Kasus dalam S 2.7. Confusion Matrix Confusion matrix merupakan sebuah table yang terdiri dari banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi. [6]. Tabel 2.2 Tabel Confusion Matrik 2 Kelas Rumus untuk menghitung tingkat akurasi pada matrik adalah : 51 BAB III METODE PENELITIAN 3.1 Objek Penelitian Penulis melakukan penelitian di Koperasi Simpan Pinjam Primkoveri Weleri yang beralamatkan di Jl. Utama Timur No. 85 (Sebelah Rel Kereta Api) Weleri. Koperasi Primkoveri adalah salah satu koperasi yang bergerak dibidang simpan pinjam dan menawarkan permohonan kredit. Permohonan kredit pada koperasi simpan pinjam biasanya dilakukan secara sederhana tidak seperti di bank, namun masih tetap memenuhi persyaratan prinsip dari sebuah kredit. Penilaian yang terkait dengan jumlah pinjaman, waktu pengembalian, jenis usaha/pekerjaan, jumlah, status perkawinan, angsuran dan ketentuanketentuan lain. Permohonan ini biasanya diisi oleh calon nasabah dalam blanko yang telah tersedia untuk berkas pengajuan kredit, selebihnya ditentukan oleh hasil analisis team yang telah ditentukan koperasi simpan pinjam. Penelitian ini dilakukan pada bulan Maret 2014. Adapun penelitian ini dilakukan untuk mengetahui calon nasabah yang diprediksi berpotensi kredit macet. 3.2 Jenis Data Jenis data yang digunakan dalam penyusunan laporan tugas akhir ini adalah kualitatif dan kuantittif. Data kualitatif sendiri adalah data yang berupa kata-kata. Data kualitatif diperoleh dengan berbagai macam teknik pengumpulan data, diantaranya wawancara, analisis dokumen, diskusi terfokus, atau observasi. Sedangkan data kuantitatif adalah data yang berbentuk angka atau biolangan. Sesuai dengan bentuknya sendiri, data kuantitatif dapat diolah atau dianalisis menggunakan teknik perhitungan matematika atau statistika. Data kuantitatif sendiri berfungsi untuk mengetahui jumalah atau besaran dari sebuah objek yang akan diteliti. Data 52 ini bersifat nyata atau dapat diterima oleh panca indera, sehingga pada penelitian ini peneliti harus benar- benar jeli dan teliti untuk mendapatkan keakuratan data dari objek yang akan diteliti. 3.3 Sumber Data Selama peneliti melakukan penelitian di Koperasi Simpan Pinjam Prinkoveri Waleri data yang sudah dikumpulkan penulis antara lain: a. Pengambilan data primer dengan cara mewawancarai kepala cabang (interview). Pengumpulan data nasabah kredit yang dilakukan untuk pengolahan dalam penelitian ini dengan pemilihan atribut seperti nama nasabah, alamat nasabah, pengajuan kredit dengan menggadaikan kendaraan bermotor yang memiliki jumlah nilai tersendiri setelah itu nasabah akan mendapat pinjaman dari koperasi sesuai jumlah harga kendaraan yang di gadainya. Setelah itu tedapat atribut angsuran yang harus dibayar setiap bulannya untuk menyicil uang uang di pinjam nasabah pada kopersi. b. Data Sekunder, adalah data yang didapat secara tidak langsung dari objek penelitian. Penulis mendapatkan data dari studi literature yang telah diperoleh sebelumnya. 3.4 Instrumental Penelitian Dalam penelitian yang dibuat guna menyelesaikan laporan tugas akhir ini, instrumen penelitiannya meliputi: 3.4.1 Perangkat Lunak ( Software ) a. Sistem operasi Microsoft Widows 7 32bit Sistem operasi yang digunakan pada penelitian ini yaitu Windows 7 32 bit, karena pada system operasi ini bahasa 53 pemrograman Rapid Miner sudah dapat dijalankan dengan baik. b. Rapid Miner Rapid Miner adalah software yang nantinya akan digunakan untuk mengimplementasikan metode yang digunaan dalam proses penelitian. 3.4.2 Perangkat Keras ( Hardware ) Selain kebutuhan perangkat lunak, juga diperlukan perangkat keras yang digunakan dalam menyelesaikan penelitian ini. Adapun perangkat keras yang digunakan adalah, personal Computer dengan spesifikasi minimal: - Processor Intel (R) Celeron (R) CPU 1007U @1.50GHz 1.50GHz - RAM 4 GB - Satu buah mouse - Printer Canon Pixma iP 2770 3.5 Metode Pengumpulan Data Metode pengumpulan data yang penulis gunakan untuk mendapatkan data- data yang dibutuhkan adalah sebagai berikut : a. Metode Studi Literatur Pada metode ini, penulis mengumpulkan, membaca, dan mempelajari mengumpulkan literatur yang berkaitan dengan pemodelan yang menggunakan metode klasifikasi dan algoritma yang akan digunakan berupa algoritma C4.5. Studi literatur diharapkan mampu memberikan teori-teori yang tepat agar dapat diimplementasikan pada aplikasi yang sesuai dengan metode yang digunakan dan hasilnya akan mendapatkan aplikasi benar dan dapat dijalankan dengan benar pula. 54 b. Metode Wawancara atau Interview Metode wawancara dalam wawancara yang berhubungan dengan pihak terkait yaitu kepala cabang Koperasi Simpan Pinjam Primkoveri Waleri. Wawancara mengenai nasabah yang mengambil kredit berupa id, nama nasabah, alamat, pinjaman, angsuran, jaminan, dan besar jaminan, tanggal pinjam, keterangan. 3.6 Metode Penelitian Penelitian ini difokuskan pada proses menganalisis data prediksi nasabah yang berpotensi kredit macet pada Koperasi Simpan Pinjam Primkoveri Waleri dengan algoritma C4.5 menggunakan program Rapid Miner ( Tools Data Mining ) untuk memperoleh hasil klasifikasi yang kemudian akan di implmentaikan dalam bahasa pemrograman PHP. Seperti yang sudah dijelaskan di bab sebelumnya, terdapat beberapa pemdekatan metode penelitan yang dipakai adalah sebagai berikut : 3.6.1 Pembersihan Data Tahap ini adalah pemilihan atribut data yang akan digunakan. Tabel 3.1 Detail Atribut Data Penelitian Atribut Detail Penggunaan Nomor Kredit √ Nilai Model Nama Nasabah × No Alamat × No Jenis Kelamin × No Umur √ Nilai Model 55 Agama × No Status √ Nilai Model Pekerjaan √ Nilai Model Penghasilan √ Nilai Model Maksimal Kredit √ Nilai Model Jangka Waktu √ Nilai Model Angsuran √ Nilai Model Hasil √ Label Target Tabel 3.1 merupakan atribut-atribut yang akan digunakan dalam penelitian, indikator ya (√) menunjukan bahwa atribut tersebut akan digunakan dalam penelitian, sedangkan indikator tidak (×) menandakan atribut tersebut tidak digunakan sehingga harus dihapus atau dibersihkan. 3.6.2 Integrasi Data Setelah dilakukan pembersihan data maka selajutnya dilakukan integrasi data. Integrasi data yang dimaksud adalah mengecek dan menyamakan atribut-atribut yang sekiranya masih terjadi perbedaan dari segi penulisan sehingga dapat menghasilkan hasil yang tidak menyimpang dari yang diharapkan. 3.6.3 Seleksi dan Transformasi Data Disini akan dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai yaitu dengan membuat interval atau range guna menentukan kualitas data mining ini. Tabel 3.2 Contoh Range atau Interval 56 UMUR >37 <=37 STATUS Kawin Belum Kawin PEKERJAAN PNS Wiraswasta Swasta PENGHASILAN >1771200 <=1771200 MAKS KREDIT >98000000 <=98000000 JW KREDIT >180 <=180 ANGSURAN >561600 <=561600 3.6.4 Aplikasi Teknik Data Mining Dalam Pengujian ini menggunakan teknik data mining klasifikasi dengan mengaplikasikan metode decision tree C4.5 karena data yang diolah memiliki label khusus dengan hasil “Kredit macet” atau “Kredit lancar”. Data yang digunakan dalam penelitian ini adalah data berdasarkan kriteria yang digunakan dalam perhitungan, yaitu pada nasabah Koperasi Simpan Pinjam Promkoveri Waleri tahun 2014 yang digunakan untuk prediksi nasabah kredit macet sebagai acuan untuk pengambilan kredit 57 selanjutnya. Metode yang diusulkan untuk proses seperti yang telah dijelaskan di atas yaitu metode klasifikasi dengan algoritma yang digunakan adalah algoritma Decision Tree C4.5. Metode yang diusulkan untuk proses penentuan prediksi nasabah kredit macet adalah seperti gambar di bawah ini: Data nasabah berdasarkan kriteria yang ditentukan dan selanjutnya akan digunakan untuk acuan dalam penggunaan metode pangaplikasian Penerapan metode klasifikasi Penerapan algoritma C4.5 Lanjutan Pengaplikasian rapid miner Hasil 58 Gambar 3.1. Alur permodelan yang diusulkan Setelah alur pemodelan sudah ditentukan, maka penerapan perhitungan algoritma C4.5 berupa perhitungan nilai entropy dan nilai gain bisa dilakukan dari masing- masing atribut. Berikut adalah tahap-tahap analisis data yang digunakan dalam penelitian ini meliputi : Pengambilan data Penentuan kriteria Pengujian Pengaplikasia n Metode Hasil Gambar 3.2. Tahap analisis data 1. Melakukan mengambilan data nasabah Koperasi Simpan Pinjam Primkoveri Weleri tahun 2014. 59 2. Menentukan kriteria yang akan digunakan untuk perhitungan. 3. Mengaplikasikan peritungan manual dengan algoritma C 4.5. 4. Setelah melakukan proses perhitungan manual, selanjutnya dilakukan pengujian dengan menggunakan rapid miner. 5. Diperoleh hasil akhir yang di inginkan. 3.6.5 Evaluasi Pola Hasil dari data mining ini berupa pohon dan rule-rule yang nantinya akan diolah dan di implementasikan ke dalam suatu aplikasi atau sistem yang akan membantu dalam proses prediksi nasabah macet. 3.6.6 Presentasi Pola Setelah melewati tahap evaluasi pola maka akan dilakukan implementasi hasil analisa dan keputusan nasabah yang akan mengajukkan kredit akan menjadi nasabah kredit macet atau tidak sehingga bisa menjadi bahan pertimbangan Koperasi Simpan Pinjam Primkoveri Waleri untuk nasabah yang akan mengajukkan kredit selanjutnya. 3.6.7 Pengujian Sistem dan Tingkat Akurasi Tahap terakhir yang dilakukan yaitu pengujian sistem dan mengukur tingkat akurasi yang dilakukan oleh sistem yang telah dibuat sehingga mendapatkan hasil yang sesuai dengan apa yang diharapkan. 60 BAB IV ANALISIS DAN PEMBAHASAN 4.1 Data Uji Pada pengujian kali ini adalah dengan menerapkan algoritma C4.5 untuk memprediksi nasabah yang berpotensi kredit macet pada Koperasi Simpan Pinjam Primkoveri Weleri tahun 2014 dengan dataset nasabah yang terdiri dari 300 data nasabah dimana 250 data digunakan untuk data training dan 50 data untuk data testing, kemudian menentukan 7 variabel utama yang dijadikan sebagai acuan penting yaitu Umur, Status, Pekerjaan, Penghasilan, Maks Kredit, Jangka Waktu Kredit dan Angsuran yang diolah melalui algoritma C4.5. Berikut data nasabah yang digunakan : Table 4.1 Data Nasabah Pemohon Kredit Tahun 2014 Statu s Pekerjaan Pengha silan Maks Kredit JW Kredit (Bulan ) Angsu ran No No Kredit Um ur 1 130101016 1936 37 KA WIN PNS 161040 0 1490000 00 120 40260 0 2 130101017 5676 41 KA WIN PNS 161360 0 4500000 00 180 40340 0 3 130101017 7644 29 KA WIN PNS 164320 0 4830000 00 240 41080 0 4 130102091 6119 35 KA WIN PNS 172840 0 2000000 0 180 43210 0 5 130102090 2649 28 BEL UM KA WIRASWA STA 172880 0 2200000 00 180 43220 0 Hasil Kredi t lancar Kredi t lancar Kredi t lancar Kredi t lancar Kredi t macet 61 WIN Kredi t macet Kredi t macet Kredi t macet Kredi t lancar Kredi t lancar Kredi t lancar Kredi t macet Kredi t macet 6 130101015 5529 50 KA WIN PNS 182200 0 9600000 0 180 45550 0 7 130101015 4638 33 KA WIN SWASTA 182200 0 1000000 00 180 45550 0 8 130102091 5163 36 KA WIN PNS 185920 0 1580000 00 180 46480 0 9 130102091 3569 34 KA WIN WIRASWA STA 185920 0 2040000 00 180 46480 0 10 130103009 9339 44 KA WIN WIRASWA STA 187840 0 8560000 0 120 46960 0 29 6 130102090 2982 51 KA WIN PNS 209130 0 2640000 00 180 69710 0 29 7 130102091 0820 33 KA WIN SWASTA 211920 0 8600000 0 180 70640 0 29 8 130102090 1481 30 KA WIN PNS 219600 0 1120000 00 180 73200 0 29 9 130102090 2916 29 PNS 268290 0 4400000 0 180 89430 0 … … … BEL UM KA WIN … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 30 0 130101016 8629 37 KA WIN PNS 270780 0 5500000 0 240 … … … Kredi t macet Table 4.1 90260 0 Kredi t macet adalah data asli nasabah yang mengajukan kredit yang terdapat sembilan atribut yang akan diproses dan dimodelkan dengan metode klasifikasi dan menggunakan algoritma C4.5. Inputan proses klasifikasi 62 tersebut menggunakan sembilan variabel atribut yang telah dideskripsikan pada bab sebalumnya, kemudian akan dilakukan proses klasifikasi untuk menentukan variabel target atau label yaitu “Kredit lancar” atau “Kredit macet”. Setelah semua data dikonversi kedalam kategori- kategori tertentu, maka dilakukan perhitungan entropi untuk masing- masing atribut menggunakan rumus entropi : Entropy (S) = ∑ Langkah pertama adalah menghitung nilai entropi dari atribut label. Sebelum menghitung nilai entropi label, terlebih dahulu dihitung jumlah kemunculan masing- masing label untuk semua data. TOTAL UMUR >37 <=37 Tabel 4.2 Perhitungan Entropy dan Gain Pertama JUMLAH KASUS (S) LANCAR (S1) MACET (s2) ENTROPY 250 210 40 1.474309555 127 123 105 105 22 18 0.665036852 0.600608575 STATUS Kawin Belum Kawin 232 18 195 15 37 3 0.633070712 0.650022422 PEKERJAAN PNS WIRASWASTA SWASTA 112 79 59 89 69 52 23 10 7 0.732513848 0.547990008 0.52545068 PENGHASILAN >1771200 <=1771200 120 130 108 102 12 28 0.468995594 0.751649946 63 MAKS KREDIT >98000000 <=98000000 119 131 96 114 23 17 0.708277217 0.556809796 JW KREDIT >180 <=180 45 205 44 166 1 39 0.15374218 0.701981406 125 85 4 36 0.199420778 0.878239026 ANGSURAN >561400 129 <=561400 121 Perhitungan Entropy dan Gain Pertama. 1. Perhitungan Entropy Total =( ( = 1.474309555 )) ( ( )) 2. Perhitungan Entropy dan Gain Umur a. Entropy >37 =( ( = 0.665036852 )) ( ( )) )) ( ( )) b. Entropy <=37 =( ( = 0.600608575 c. Gain Umur = 1.474309555 ( (( ) )) = 0.840971415 3. Perhitungan Entropy dan Gain Status a. Entropy Kawin =( ( = 0.633070712 )) ( ( )) 64 b. Entropy Belum Kawin =( ( )) = 0.650022422 ( ( )) c. Gain Status (( = ( ) )) = 0.6 4. Perhitungan Entropy dan Gain Pekerjaan a. Entropy PNS =( ( = 0.732513848 )) ( ( )) b. Entropy Wiraswasta =( ( )) = 0.547990008 ( ( )) ( ( )) c. Entropy Swasta =( ( )) = 0.52545068 d. Gain Pekerjaan = ( = 0.843652866 (( ) ) ( )) 65 5. Perhitungan Entropy dan Gain Penghasilan a. Entropy >1771200 =( ( = 0.858333698 )) ( ( )) )) ( ( )) b. Entropy <=1771200 =( ( = 0.751649946 c. Gain Penghasilan (( = ( ) )) = 0.858333698 6. Perhitungan Entropy dan Gain Maks Kredit a. Entropy >98000000 =( ( = 0.708277217 )) ( ( )) ( ( )) b. Entropy <=98000000 =( ( = 0.556809796 )) c. Gain Maks Kredit = ( (( )) = 0.845401266 7. Perhitungan Entropy dan Gain JW Kredit a. Entropy >180 ) 66 =( ( )) = 0.15374218 ( ( )) b. Entropy <=180 =( ( = 0.701981406 )) ( ( )) c. Gain JW Kredit (( = ( ) )) = 0.871011209 8. Perhitungan Entropy dan Gain Angsuran a. Entropy >561400 =( ( = 0.1994207788 )) ( ( )) )) ( ( )) b. Entropy <=561400 =( ( = 0.878239026 d. Gain Angsuran (( = ( ) )) = 0.946340745 Jika nilai gain dari semua atribut sudah diketahui, dari perhitungan tersebut diketahui bahwa atribut yang paling besar adalah atribut Angsuran. Atribut tersebut sekaligus menjadi root (akar) dalam decision tersebut. Angsuran 67 Atribut ini memiliki nilai information gain dengan nilai paling besar yaitu 0.946340745. <=561400 >561400 Gambar 4.1 Pohon keputusan hasil proses pertama Proses partisi pohon keputusan ini akan berhenti ketika tidak ada atribut didalam tupel yang dipartisi lagi, serta tidak ada tupel didalam cabang yang kosong. Melanjutkan perhitungan di atas yang memperoleh hasil Gain terbesar ialah atribut Angsuran, perhitungan Entropy dan Gain yang kedua dengan patokan <=561400. Tabel 4.3 Perhitungan Entropy dan Gain Kedua JUMLAH KASUS (S) Angsuran <=561400 121 Umur >37 <=37 PENGHASILAN >1771200 <=1771200 85 36 ENTROPY GAIN 0.878239026 0.003950927 47 74 STATUS kawin blm kawin PEKERJAAN PNS wiraswasta Swasta LANCAR MACET (S1) (S2) 35 50 12 24 0.819600435 0.909022156 0.000348705 112 9 79 6 33 3 0.874643448 0.918295834 0.047583125 57 36 28 33 29 23 24 7 5 0.981940787 0.710676854 0.67694187 0.107414371 7 114 0 85 7 29 0 0.818155993 68 MAKS KREDIT >92500000 <=92500000 0.007694601 61 60 JW KREDIT >180 <=180 40 45 21 15 0.928839146 0.811278124 0.0396939 9 112 9 76 0 36 0 0.905928216 Perhitungan Entropy dan Gain Kedua. 1. Perhitungan Entropy Angsuran <=561400 =( ( = 0.878239026 )) ( ( )) 2. Perhitungan Entropy dan Gain Umur a. Entropy >37 =( ( )) = 0.819600435 ( ( )) ( ( )) b. Entropy <=37 =( ( )) = 0.909022156 c. Gain Umur = 0.878239026 ( (( ) )) = 0.003950927 3. Perhitungan Entropy dan Gain Status a. Entropy Kawin =( ( = 0.874643448 )) b. Entropy Belum Kawin ( ( )) 69 =( ( )) = 0.918295834 ( ( )) c. Gain Status (( = ( ) )) = 0.000348705 4. Perhitungan Entropy dan Gain Pekerjaan a. Entropy PNS =( ( )) = 0.981940787 ( ( )) =( ( )) = 0.710676854 c. Entropy Swasta ( ( )) =( ( )) = 0.67694187 d. Gain Pekerjaan ( ( )) b. Entropy Wiraswasta (( = ( ) ) ( )) = 0.047583125 5. Perhitungan Entropy dan Gain Penghasilan a. Entropy >1771200 =( =0 ( )) ( ( )) b. Entropy <=1771200 =( ( )) ( ( )) 70 = 0.818155993 c. Gain Penghasilan (( = ) ( )) = 0.107414371 6. Perhitungan Entropy dan Gain Maks Kredit a. Entropy >98000000 =( ( )) = 0.928839146 ( ( )) ( ( )) b. Entropy <=98000000 =( ( )) = 0.811278124 c. Gain Maks Kredit (( = ( ) )) = 0.007694601 7. Perhitungan Entropy dan Gain JW Kredit a. Entropy >180 =( =0 ( )) ( ( )) b. Entropy <=180 =( ( = 0.905928216 c. Gain JW Kredit )) ( ( )) 71 (( = ) ( )) = 0.0396939 Dari perhitungan di atas yang memperoleh hasil Gain terbesar ialah atribut Penghasilan, perhitungan Entropy dan Gain yang kedua dengan patokan <=1771200, perhitungan belum selesai karena nilai belum 0 . Dari hasil perhitungan diatas maka atribut nilai Bahasa Indonesia kategori A sudah didapatkan tree seperti dibawah ini: Angsuran <=561400 <=1771200 >561400 Penghasilan >1771200 KKKKkK Gambar 4.2 Pohon keputusan hasil proses kedua Dari perhitungan di atas yang memperoleh hasil Gain terbesar ialah atribut Penghasilan, perhitungan Entropy dan Gain yang kedua dengan patokan <=1771200, perhitungan belum selesai karena nilai belum 0 . Tabel 4.4 Perhitungan Entropy dan Gain Ketiga JUMLAH KASUS (S) Peghasilan <=1771200 114 LANCAR MACET (S1) (S2) 85 29 ENTROPY GAIN 0.818155993 Umur >37 <=37 STATUS kawin blm kawin 0.003950927 53 60 41 44 12 17 0.77170947 0.843641114 105 8 79 6 33 2 0.812660792 0.811278124 PEKERJAAN PNS Wiraswasta 59 31 39 26 20 5 0.923842228 0.637387499 0.000348705 0.029855624 72 Swasta 24 MAKS KREDIT >98000000 <=98000000 20 4 0.650022422 0.016639907 60 54 JW KREDIT >180 <=180 41 44 19 0.90071968 10 0.691289869 0.026979277 7 107 7 78 0 29 0 0.84293594 Perhitungan Entropy dan Gain Kedua. 1. Perhitungan Entropy Penghasilan <=1771200 =( ( = 0.818155993 )) ( ( )) 2. Perhitungan Entropy dan Gain Umur a. Entropy >37 =( ( )) = 0.77170947 ( ( )) ( ( )) b. Entropy <=37 =( ( )) = 0.853657673 c. Gain Umur (( = 0.818155993 ( ) )) = 0.002597046 3. Perhitungan Entropy dan Gain Status a. Entropy Kawin =( ( )) ( ( )) 73 = 0.8186669118 b. Entropy Belum Kawin =( ( )) = 0.811278124 ( ( )) c. Gain Status = (( ( ) )) = 0.00 4. Perhitungan Entropy dan Gain Pekerjaan a. Entropy PNS =( ( )) = 0.981940787 ( ( )) ( ( )) ( ( )) b. Entropy Wiraswasta =( ( )) = 0.710676854 c. Entropy Swasta =( ( )) = 0.67694187 d. Gain Pekerjaan = (( ( ) ) ( = 0.047583125 5. Perhitungan Entropy dan Gain Maks Kredit a. Entropy >98000000 )) 74 =( ( )) = 0.928839146 b. Entropy <=98000000 ( ( )) =( ( )) = 0.811278124 c. Gain Maks Kredit ( ( )) (( = ( ) )) = 0.007694601 6. Perhitungan Entropy dan Gain JW Kredit a. Entropy >180 =( =0 ( )) ( ( )) b. Entropy <=180 =( ( = 0.905928216 )) ( ( )) c. Gain JW Kredit (( = ) ( )) = 0.0396939 Setelah perhitungan Entropy dan Gain yang ke tiga selesai, lakukan perhitngan lagi hingga nilai nya sudah sama semua atau tidak memungkinkan dihitung lagi maka tree sudah terbentuk seperti gambar di bawah ini : Angsuran <=561400 Penghasilan >561400 Kredit macet 75 <=1771200 >1771200 Kredit macet Status Kawin Kredit lancar Belum Kawin Kredit macet Gambar 4.3 Pohon keputusan hasil proses ketiga 76 Gambar 4.4 Pohon keputusan hasil dari rapid miner 77 4.2 Implementasi Setelah melakukan perhitungan data training dan sudah mendapatkan hasil pohon keputusan maka langsung bisa diimplementasikan kedalam bahasa pemrograman PHP. Berikut penjelasannya: 4.2.1 Tampilan Input Manual Tampilan ini merupakan tampilan utama yang menampilkan menu-menu yang dapat diakses oleh user. Desain sistem yang dilakukan dengan prototype sistem menggunakan PHP yang dibuat untuk mendukung pengoperasian data mining. Implementasi antarmuka dari pembangunan aplikasi klasifikasi ini adalah sebagai berikut : Gambar 4.5 Tampilan Halaman Input Data Manual Gambar 4.3 tersebut merupakan desain tampilan awal dari sistem algoritma C4.5 yang dibuat untuk memasukkan data nasabah baru yang akan mengajukkan kredit dengan 1 78 mengimplementasikan algoritma C4.5 sehingga dapat diprediksi kedepannya nasabah tersebut dinyatakan Kredit lancar atau macet. 4.2.2 Tampilan Import Data dari Ms.Excel Gambar 4.6 Tampilan Halaman Import Data Excel Gambar 4.4 diatas tersebut merupakan desain tampilan untuk mengimpor atau memasukkan data nasabah dari Ms.Excel yang kemudian akan diolah sesuai rule yang sudah dibuat. 4.2.3 Tampilan Hasil Import Ms.Excel 79 Gambar 4.7 Tampilan Halaman Hasil Import Data Ms.Excel Tabel 4.5. keterangan Nama Keterangan Dalam Program True Positif True Negatif Hasil True Kredit Lancar Hasil True Kredit Macet False Negatif Hasil True False Negatif False Positif Hasil True False Positif Gambar 4.5 diatas tersebut merupakan desain tampilan hasil impor atau masukkan data Ms.Excel yang sudah diolah sehingga diketahui hasil yang diinginkan selain itu juga untuk mengecek kebenaran hasil dari peritungan manual yang sebelumnya dilakukan oleh Koperasi Simpan Pinjam Primkoveri, sedangkan table 4.2 adalah table keterangan dari detail akurasi. 80 4.3 Akurasi Untuk menentukan tingkat akurasi ini menggunakan data testing bisa dilihat di gambar 4.5 dengan acuan table 4.2 dengan data berjumlah 100 kemudian bisa dihitung menggunakan tabel confussion matrix dibawah ini: Tabel 4.6. Confussion matrix Classified as Correct Classfication + + TP= 38 FN=1 _ FP= 14 TN=47 Tingkat akurasi dari seluruh klasifikasi ditentukan dengan jumlah klasifikasi yang benar dibagi dengan total jumlah record klasifikasi. Accuracy = = = 0.86 Untuk menghitung prosentasi akurasi, maka tingkat sukses dikalikan 100%. Ini berarti prosentase error dapat dicari dengan cara 100% dikurangi dengan prosentase sukses. Accuracy = *100 = = 86% *100 81 BAB V KESIMPULAN DAN SARAN 5.1. Kesimpulan Berdasarkan hasil penelitian pada klasifikasi prediksi nasabah yang berpotensi kredit macet dapat diambil beberapa kesimpulan sebagai berikut: 1. Klasifikasi data mining untuk menentukan penyebab kredit macet pada Koperasi Simpan Pinjam Primkoveri Waleri dapat mengklasifikasikan nasabah tersebut masuk dalam tahapan kredit lancar atau macet. 2. Dari data testing nasabah yang digunakan menunjukkan tingkat akurasi dengan algoritma C4.5 sebesar 86%. 5.2. Saran Saran yang diajukan dalam penelitian ini yaitu untuk penelitian selanjutnya dengan permasalahan yang sama dengan metode yang sama sehingga dapat ditingkatkan salah satunya dengan melakukan pruning terhadap algoritma C4.5 jika pohon yang terbentuk terlalu besar, dengan melakukan pruning maka pohon yang terbentuk akan otomatis terjadi pemangkasan walopun dengan jumlah data yang sangat besar. Ini dilakukan untuk mempermudah kinerja dari algoritma C4.5 tanpa mengurangi tingkat akurasi yang nantinya akan diperoleh. Selain itu saran dari penulis adalah penerapan rules dari algoritma C4.5 selanjutnya dibuat sistem aplikasi yang lebih baik lagi sehingga dapat diperuntukkan untuk pihak Koperasi Simpan Pinjam Primkoveri Cabang Weleri karena ini masih sebatas prototype sehingga dapat digunakan dalam klasifikasi hasil proses seleksi yang berupa lancar atau tidaknya nasabah pemohon kredit untuk bahan pertimbangan bagi pemohon kredit yang berikutnya. 82 Daftar Pustaka [1] Mudrajat Kuncoro, Suhardjono, “Manajemen Perbankan” Teori dan Aplikasi, Edisi Kedua, Fakultas Ekonomi dan Bisnis UGM, 2012. [2] Dr. (Cand) Taswan, SE, M.Si, “Manajemen Perbankan” Konsep, Teknik dan Aplikasi, Edisi Kedua UPP STIM YKPN, Yogyakarta, 2010. [3] Larose, Daniel T, "Discovering Knowledge in Data: An Introduction to Data Mining," John Willey & Sons, Inc, 2005. [4] Anik Andriani, "Penerapan Algoritma C4.5 Pada Program Klasifikasi Mahasiswa Dropout," 2012. [5] Angga Ginanjar Mabrur, Riani Lubis, "Penerapan Data Mining Untuk Memprediksi Kriteria Nasabah Kredit,"2012. [6] Liliana Swastina, Penerapan Algoritma C4.5 Untuk Penentuan Jurusan Mahasiswa," 2013. [7] Sunjana, "Klasifikasi Data Nasabah Sebuah Asuransi Menggunakan Algoritma C4.5," 2010. [8] Khafizh Hastuti, "Analisis Komparasi Algoritma Klasifikasi Data Mining Untuk Prediksi Mahasiswa Non-Aktif," 2012. [9] Swastina Liliana, "Penerapan Algoritma C4.5 Untuk Penentuan Jurusan Mahasiswa," Gema Aktualita, Juni 2013. [10] Fatayat and Joko Risanto, "Proses Data Mining dalam Meningkatkan Sistem Pembelajaran pada Pendidikan Sekolah Menengah Pertama," 2013.