29 BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Lembaga

advertisement
29
BAB I
PENDAHULUAN
1.1. Latar Belakang Masalah
Lembaga finansial adalah suatu lembaga yang bergerak dalam bidang
keuangan dimana para nasabahnya terdiri dari berbagai lapisan dan bermacammacam perilaku. Masyarakat Indonesia dalam melakukan transaksi peminjaman
dana dari bank masih banyak menggunakan nanalisa kebutuhan secara pribadi
walaupun dalam pengajuaannya menggunakan analisa perusahaan, hal ini
dikarenakan tuntutan yang harus dipenuhi karena persyaratan perbankan. Masih
banyak lembaga finasial baik itu perbankan maupun koperasi simpan pinjam
yang masih mempunyai jumlah kredit macet yang cukup besar, hal ini akan
sangat menganggu kelangsungan koperasi maupun perbankan [1].
Dalam koperasi simpan pinjam masih banyak para manajer (pengelola)
koperasi mengambil keputusan untuk memberikan kredit pada nasabah
menggunakan pendekatan kedekatan nasabah dengan pengambil keputusan
(Pengurus dan atau Manajer), walaupun masih tetap mempertimbangkan
persyaratan-persyaratan yang harus dipenuhi. Perencanaan koperasi menjadi hal
yang sangat penting dalam mengelola koperasi agar dapat berjalan sesuai dengan
harapan semua pihak terutama para anggota. Dalam kaitannya dengan
perencanaan, maka misi bank harus dijabarkan dalam tujuan perencanaan yang
terinci. Walaupun demikian, penyusunan perencanaan kredit secara umum harus
memenuhi kriteria dapat dilaksanakan (feasible), dapat memberikan arah yang
kita kehendaki (suitable), dapat diterima (acceptable), mempunyai nilai yang
berarti
(valuable),
mudah
dicapai
dievaluasi/diukur (measurable) [2].
(achievable),
dan
hasilnya
dapat
30
Koperasi Primkoveri adalah salah satu koperasi yang bergerak dibidang
simpan pinjam dan menawarkan permohonan kredit. Permohonan kredit pada
koperasi simpan pinjam biasanya dilakukan secara sederhana tidak seperti di
bank, namun masih tetap memenuhi persyaratan prinsip dari sebuah kredit.
Penilaian yang terkait dengan jumlah pinjaman, waktu pengembalian, jenis
usaha/pekerjaan, jumlah, status perkawinan, angsuran dan ketentuan-ketentuan
lain. Permohonan ini biasanya diisi oleh calon nasabah dalam blanko yang telah
tersedia untuk berkas pengajuan kredit, selebihnya ditentukan oleh hasil analisis
team yang telah ditentukan koperasi simpan pinjam.
Analisa yang dilakukan oleh para manajer koperasi simpan pinjam dilakukan
secara sederhana karena keterbatasan koperasi dalam melibatkan tenaga analis
kredit yang cukup mahal dan memberatkan nasabah, karena kesederhanaan
analisis inilah yang memicu terjadinya kredit macet. Antisipasi yang biasa
dilakukan hanyalah dengan melakukan pendekatan-pendekatan personal pada
semua nasabah kredit, ini memang tidak efektif manakala jumlah nasabah kredit
menunggak sangat banyak [1].
Dari masalah tersebut, maka ada cara lebih efektif yang dapat digunakan
untuk menggantikan cara sederhana yaitu dengan menggunakan data mining.
Data mining merupakan bidang dari beberapa bidang keilmuan yang menyatukan
teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan
visualisasi untuk penanganan permasalahan pengambilan informasi dari database
yang besar [3].
Dalam data mining banyak metode, teknik maupun algoritma yang
digunakan sangatlah bervariasi. Pemilihan metode dan algoritma yang tepat,
semuanya bergantung dengan tujuan dan proses secara keseluruhan.
Di sini, penulis akan mengolah data menggunakan metode klasifikasi.
Klasifikasi adalah proses penempatan objek atau konsep tertentu ke dalam satu
set kategori berdasarkan objek yang digunakan [4].
31
Di sini metode yang digunakan dalam klasifikasi adalah metode
pengklasifikasian dengan menggunakan desicion tree (pohon keputusan) dengan
salah satu algoritma desicion tree yang dipakai adalah C4.5. Penggunaan
algoritma klasifikasi yaitu algoritma C4.5 dikarenakan dari hasil uji coba
referensi- referensi yang sudah didapatkan tingkat akurasi penggunaan algoritma
C4.5 lebih tinggi dalam menemukan record yang belum diketahui kelasnya jika
dibandingkan dengan algoritma naive bayes.
Mengacu dari masalah tersebut maka penulis tertarik untuk mengklasifikasi
atau mengelompokkkan suatu data mining yang dapat menyajikan informasi
secara cepat dan akurat serta mudah digunakan yaitu mengklasifikasi data
mining untuk menentukan potensi kredit macet pada Koperasi Simpan Pinjam
Primkoveri Waleri menggunakan algoritma decision tree C4.5 .
1.2. Rumusan Masalah
Berdasarkan dari latar belakang di atas dapat dirumuskan, bagaimana
penerapan data mining klasifikasi pada data nasabah pemohon kredit pada
Koperasi Simpan Pinjam Primkoveri Waleri yang berpotensi kredit macet
dengan algoritma decision tree C4.5.
1.3. Batasan Masalah
Untuk menghindari penyimpangan dari topik yang telah dibuat selama
penelitian, maka penulis membuat batasan masalah dalam penelitian ini. Adapun
batasan masalahnya adalah:
a)
Data yang digunakan berasal dari Koperasi Simpan Pinjam Primkoveri
Waleri tahun 2014.
b)
Penelitian ini dibatasi hanya pada penerapan algoritma C4.5 untuk
klasifikasi pemohon kredit yang berpotensi menyebabkan kredit macet
pada Koperasi Simpan Pinjam Primkoveri Waleri.
c)
Pengelolaan data aplikasi menggunakan aplikasi rapid miner.
32
1.4. Tujuan Penelitian
Berdasarkan rumusan masalah diatas maka tujuan dari penelitian ini adalah
menerapkan algoritma C4.5 untuk mengklasifikasi pemohon kredit yang
berpotensi menyebabkan kredit macet pada Koperasi Simpan Pinjam Primkoveri
Waleri sehingga dapat menjadi acuan pengambilan kredit selanjutnya.
1.5. Manfaat Penelitian
Manfaat yang diharapkan akan diperoleh dari penelitian ini adalah:
1.
Bagi Instansi
Memudahkan Koperasi Simpan Pinjam Primkoveri Waleri dalam
menentukan kemungkinan pemohon kredit yang berpotensi kredit
macet.
2.
Bagi Akademik
Sebagai bahan evaluasi akademik guna peningkatan mutu pendidikan
serta dapat dijadikan rujukan tentang pengolahan data (data mining).
3.
Bagi Pembaca
Diharapkan dapat digunakan sebagai tambahan pengetahuan dan dapat
menyelesaikan masalah yang sama yaitu memprediksi apakah
masyarakat atau nasabah yang bersangkutan dapat mengambil kredit
yang telah ditentukan oleh suatu koperasi simpan pinjam.
33
BAB II
TINJAUAN PUSTAKA
2.1. Penelitian Terkait
Beberapa
penelitian
terkait
tentang
Metode
Klasifikasi
dan
penggunaan algoritma C4.5 adalah sebagai berikut.
2.1.1
Penerapan Data Mining Untuk Memprediksi Kriteria Nasabah Kredit
Penelitian ini tentang bagaimana membuat aplikasi yang
berfungsi untuk memprediksi kriteria nasabah kredit yang berpotensi
melakukan peminjaman (kredit) terhadap bank. Pada penelitian ini
terdapat beberapa kriteria yang digunakan, yaitu jenis kelamin, umur,
desa, kecamatan, status marital, nilai pinjaman, jumlah angsuran,
kode integrasi dan cek. Kesimpulan dari penelitian ini yaitu aplikasi
34
yang dibuat dapat membantu pada bagian dana dalam menganalisis
data nasabah untuk menentukan target pemasaran kredit sehingga
diharapkan biaya operasional marketing perbankan dapat ditekan
seminimal mungkin [5].
2.1.2
Penerapan Algoritma C4.5 Untuk Penentuan Jurusan Mahasiswa.
Penelitian ini tentang bagaimana menentukan jurusan yang
akan diambil oleh mahasiswa sesuai dengan latar belakang, minat dan
kemampuannya sendiri, dengan demikian dapat digunakan juga oleh
pihak perguruan tinggi sebagai acuan penentuan jurusan mahasiswa.
Pada penelitian ini terdapat beberapa kriteria yang digunakan yaitu
atribut nama, jenis kelamin, umur, asal sekolah, jurusan asal sekolah,
nilai UN, IPK semester 1, IPK semester 2. Dari penelitian ini dapat
disimpulkan bahwa bahwa algoritma decision tree C4.5 akurat
diterapkan untuk penentuan kesesuaian jurusan mahasiswa dengan
tingkat keakuratan 93,31 % dan akurasi rekomendasi jurusan sebesar
82,64%. Dengan demikian dengan diterapkannya algoritma decision
tree C4.5 diharapkan mampu memberikan solusi bagi mahasiswa dan
dapat membantu perguruan tinggi dalam menentukan jurusan yang
sesuai dengan kemampuan mahasiswa sehingga peluang untuk sukses
dalam studi diperguruan tinggi semakin besar [6].
2.1.3
Klasifikasi Data Nasabah Sebuah Asuransi menggunakan Algoritma
C4.5.
Penelitian ini tentang mengklasifikasikan data nasabah sebuah
asuransi sehingga dapat dicari pola status nasabah untuk dapat
dijadikan bahan analisis perusahaan dalam menentukan calon nasabah
di masa yang akan datang. Atribut-atribut yang digunakan dalam
penelitian ini adalah penghasilan, premi dasar, cara pembayaran, mata
35
uang, dan status. Label yang digunakan unuk pengklasifikasian
adalah lancar dan tidak lancar. Kesimpulan yang didapatkan dari
penelitian ini adalah aplikasi dapat menyimpulkan bahwa rata-rata
nasabah memiliki status L (Lapse) dikarenakan pembayaran premi
yang melebihi 10% dari penghasilan. Dengan presentase atribut
Premi Dasar dan Penghasilan, maka dapat diketahui rata-rata status
nasabah memiliki P (Presistent) atau L (Lapse) [7].
2.1.4
Analisis Komparasi Algoritma Klasifikasi Data Mining Untuk Prediksi
Mahasiswa Non Aktif.
Penelitian ini tentang analisis komparasi algoritma klasifikasi
data mining untuk memprediksi mahasiswa non aktif. Data yang
digunakan sebanyak 3861 mahasiswa program studi Teknik
Informatika, Sistem Informasi dan Desain Komunikasi Visual
Universitas Dian Nuswantoro. Kesimpulan yang didapatkan adalah
decision tree merupakan algoritma yang paling akurat, namun
demikian decision tree tidak dominan terhadap algoritma yang lain.
Logistic regression merupakan algoritma yang paling dominan di
antara algoritma yang lain meskipun akurasinya paling rendah.
Berdasarkan nilai AUC, logistic regression, decision tree, naïve
bayes, dan neural network masuk dalam kategori excellent
classification [8].
Tabel 2.1 Ringkasan Penelitian
Penulis,
Judul
Masalah
Metode
Hasil
Penerapan
Memprediksi
Metode
Kesimpulan
Ginanja Data
kriteria
yang
penelitian
r
nasabah kredit digunakan
tahun
Angga
Mining
dari
ini
yaitu
aplikasi yang dibuat
36
Mabrur, Untuk
yang
pada
dapat membantu pada
Riani
Mempredi
berpotensi
penelitian
bagian
Lubis,
ksi
melakukan
ini
2012.
Kriteria
peminjaman
metode
nasabah
untuk
Nasabah
(kredit)
klasifikasi
menentukan
target
Kredit
terhadap bank.
pemasaran
kredit
dana
dalam
adalah menganalisis
data
sehingga
diharapkan
biaya
operasional
marketing perbankan
dapat
ditekan
seminimal mungkin.
Liliana
Penerapan
Menentukan
Penelitian
yang ini
Dengan diterapkannya
Swastin Algoritma
jurusan
a, 2013
C4.5
akan
Untuk
oleh
pada
mampu
Penentuan
mahasiswa
proses
solusi bagi mahasiswa
Jurusan
sesuai dengan menentuka
Mahasisw
latar belakang, n
a
minat
diambil difokuskan
dengan
sendiri, algoritma
dengan
decision
tree C4.5 diharapkan
memberikan
dan dapat membantu
jurusan perguruan
dan mahasiswa
kemampuanny
a
algoritma
C4.5.
dalam
tinggi
menentukan
jurusan yang sesuai
dengan
kemampuan
mahasiswa
sehingga
demikian dapat
peluang untuk sukses
digunakan juga
dalam
oleh
diperguruan
pihak
perguruan
tinggi sebagai
acuan
semakin besar.
studi
tinggi
37
penentuan
jurusan
mahasiswa.
Sunjana Klasifikasi Banyaknya
, 2010.
Pada
yang penelitian
Setelah
dilakukan
Data
data
Nasabah
tersimpan
Sebuah
sebuah
mengguna
Asuransi
perusahaan
kan metode disimpulkan
Mengguna
hanya sebagai algoritma
aplikasi
kan
dokumentasi
menyimpulkan
Algoritma
dan
C4.5
dipakai untuk
status
kebutuhan
dikarenakan
transaksi saja .
pembayaran
di ini
C4.5
hanya
analisis menggunakan
metode
algoritma
C4.5
dapat
bahwa
dapat
rata-
rata nasabah memiliki
L
(Lapse)
premi
yang melebihi 10%
dari penghasilan dan
dengan
presentase
atribut
premi
dan
dasar
penghasilan,
maka dapat diketahui
rata-rata
status
nasabah
memiliki
nilai
P
(Presistent)
atau L (Lapse).
Khafizh Analisis
Masalah
Hastuti,
Komparasi penelitian
2012
Algoritma
adalah
dari Metode
ini yang
digunakan
Dari
permasalahan
tersebut
disimpulkan
dapat
bahwa
38
Klasifikasi mahasiswa
pada
decision
Data
yang memiliki penelitian
Mining
status non aktif ini
Untuk
memiliki
klasifikasi
namun
Prediksi
kecenderungan
data
decision
Mahasisw
untuk drop out mining
a
Aktif
tree
merupakan algoritma
adalah yang paling akurat,
Non- dan tingginya dengan
demikian
tree
dominan
tidak
terhadap
4 algoritma yang lain.
prosentase
algoritma
Logistic
regression
mahasiswa
yaitu,
merupakan algoritma
dengan status logistic
yang paling dominan
non
di
aktif regression,
mempengaruhi
decision
antara
algoritma
yang lain meskipun
nilai akreditasi tree, naïve akurasinya
universitas
bayes dan rendah.
paling
Berdasarkan
neural
nilai
AUC,
network.
regression,
logistic
decision
tree, naïve bayes, dan
neural network masuk
dalam
excellent
classification.
2.2. Data Mining
Data mining merupakan bidang dari beberapa bidang keilmuan yang
menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik,
database, dan visualisasiuntuk penanganan permasalahan pengambilan
informasi dari database yang besar [3].
kategori
39
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas
yang dapat dilakukan, yaitu :
1. Deskripsi
2. Estimasi
3. Klasifikasi
4. Klasterisasi (Pengelompokan)
5. Asosiasi
Hal penting yang terkait dengan data mining adalah sebagai berikut :
1. Data mining merupakan proses otomatis terhadap data yang
dikumpulkan di masa lalu.
2. Data yang akan digunakan dalam proses data mining berupa data
yang sangat besar.
3. Tujuan dari data mining adalah menemukan hubungan-hubungan
atau pola-pola
yang mungkin memberikan indikasi
yang
bermanfaat.
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa
tahap yang diilustrasikan pada Gambar 2.1 di bawah ini.
40
Gambar 2.1 Tahap-tahap Data Mining
Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat
langsung atau dengan perantaraan knowledge base. Tahapan-tahapan
tersebut, diantaranya:
1. Pembersihan data (untuk membuang data yang tidak konsisten dan
noise)
41
Pada umumnya data yang diperoleh, baik dari database suatu
perusahaan maupun hasil eksperimen, memiliki isian-isian yang
tidak sempurna seperti data yang hilang, data yang tidak valid atau
juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut
data yang tidak relevan dengan hipotesa data mining yang kita
miliki. Data-data yang tidak relevan itu juga lebih baik dibuang
karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil
data mining nantinya. Garbage in garbage out (hanya sampah yang
akan dihasilkan bila yang dimasukkan juga sampah) merupakan
istilah yang sering dipakai untuk menggambarkan tahap ini.
Pembersihan data juga akan mempengaruhi performasi dari sistem
data mining karena data yang ditangani akan berkurang jumlah dan
kompleksitasnya.
2. Integrasi data (penggabungan data dari beberapa sumber)
Tidak jarang data yang diperlukan untuk data mining tidak
hanya berasal dari satu database tetapi juga berasal dari beberapa
database atau file teks. Integrasi data dilakukan pada atribut-aribut
yang mengidentifikasikan entitas-entitas yang unik seperti atribut
nama, jenis produk, nomor pelanggan dsb. Integrasi data perlu
dilakukan secara cermat karena kesalahan pada integrasi data bisa
menghasilkan hasil yang menyimpang dan bahkan menyesatkan
pengambilan aksi nantinya. Sebagai contoh bila integrasi data
berdasarkan jenis produk ternyata menggabungkan produk dari
kategori yang berbeda maka akan didapatkan korelasi antar produk
yang sebenarnya tidak ada. Dalam integrasi data ini juga perlu
dilakukan transformasi dan pembersihan data karena seringkali data
42
dari dua database berbeda tidak sama cara penulisannya atau bahkan
data yang ada di satu database ternyata tidak ada di database lainnya.
3. Seleksi dan Transformasi data (data diubah menjadi bentuk yang
sesuai untuk di-mining).
Beberapa teknik data mining membutuhkan format data yang
khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa teknik
standar seperti analisis asosiasi dan klastering hanya bisa menerima
input data kategorikal. Karenanya data berupa angka numerik yang
berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini
sering disebut binning. Disini juga dilakukan pemilihan data yang
diperlukan oleh teknik data mining yang dipakai. Transformasi dan
pemilihan data ini juga menentukan kualitas dari hasil data mining
nantinya karena ada beberapa karakteristik dari teknik-teknik data
mining tertentu yang tergantung pada tahapan ini.
4. Aplikasi teknik data mining
Aplikasi teknik data mining sendiri hanya merupakan salah
satu bagian dari proses data mining. Ada beberapa teknik data
mining yang sudah umum dipakai. Kita akan membahas lebih jauh
mengenai teknik-teknik yang ada di seksi berikutnya. Perlu
diperhatikan bahwa ada kalanya teknik-teknik data mining umum
yang tersedia di pasar tidak mencukupi untuk melaksanakan data
mining di bidang tertentu atau untuk data tertentu. Sebagai contoh
akhir-akhir ini dikembangkan berbagai teknik data mining baru
untuk penerapan di bidang bioinformatika seperti analisa hasil
microarray untuk mengidentifikasi DNA dan fungsi-fungsinya.
43
5. Evaluasi
pola
yang
ditemukan
(untuk
menemukan
yang
menarik/bernilai)
Dalam tahap ini hasil dari teknik data mining berupa pola-pola
yang khas maupun model prediksi dievaluasi untuk menilai apakah
hipotesa yang ada memang tercapai. Bila ternyata hasil yang
diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat
diambil seperti : menjadikannya umpan balik untuk memperbaiki
proses data mining, mencoba teknik data mining lain yang lebih
sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar
dugaan yang mungkin bermanfaat. Ada beberapa teknik data mining
yang menghasilkan hasil analisa berjumlah besar seperti analisis
asosiasi. Visualisasi hasil analisa akan sangat membantu untuk
memudahkan pemahaman dari hasil data mining.
6. Presentasi pola yang ditemukan untuk menghasilkan aksi
Tahap terakhir dari proses data mining adalah bagaimana
memformulasikan keputusan atau aksi dari hasil analisa yang
didapat. Ada kalanya hal ini harus melibatkan orang-orang yang
tidak memahami data mining. Karenanya presentasi hasil data
mining dalam bentuk pengetahuan yang bisa dipahami semua orang
adalah satu tahapan yang diperlukan dalam proses data mining.
Dalam
presentasi
ini,
visualisasi
juga
bisa
membantu
mengkomunikasikan hasil data mining.
2.3. Cross-Industry Stadard Process for Data Mining (CRISP-DM)
CRISP-DM menyediakan standar proses data mining sebagai strategi
pemecahan masalah secara umum dari bisnis atau unit penelitian. Dalam
CRISP-DM, sebuah proyek data mining memiliki siklus hidup yang terbagi
dalam enam fase (Gambar.2.2). Keseluruhan fase berurutan yang ada tersebut
44
bersifat adaptif. Fase berikutnya dalam urutan bergantung kepada keluaran
dari fase sebelumnya. Hubungan penting antarfase digambarkan dengan
panah. Sebagai contoh, jika proses berada pada fase pemodelan. Berdasar
pada perilaku dan karakteristik model, proses mungkin harus kembali kepada
fase pengolahan data untuk perbaikan lebih lanjut terhadap data atau
berpindah maju kepada fase evaluasi [3].
Gambar 2.2 Proses Data Mining menurut CRISP-DM
Enam fase CRISP-DM :
1. Fase Pemahaman Bisnis (Business Understanding Phase)
a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup
bisnis atau unit penelitian secara keseluruhan
b. Menerjemahkan
tujuan
permasalahan data mining.
dan
batasan
menjadi
formula
dari
45
c. Menyiapkan strategi awal untuk mencapai tujuan.
2. Fase Pemahaman Data (Data Understanding Phase)
a. Mengumpulkan data
b. Menggunkan analisis penyelidikan data untuk mengenali lebih lanjut
data dan pencarian pengetahuan awal.
c. Mengevaluasi kualitas data.
d. Jika diinginkan, pilih sebagian grup data yang mungkin mengandung
pola dari permasalahan.
3. Fase Pengolahan Data (Data Preparation Phase)
a. Siapkan dari data awal, kumpulan data yang akan digunakan untuk
keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang
perlu dilaksanakan secara intensif.
b. Pilih kasus dan variable yang ingin dianalisis dan yang sesuai analisis
yang akan dilakukan.
c. Lakukan perubahan pada beberapa variable jika dibutuhkan.
d. Siapkan data awal sehingga siap untuk perangkat pemodelan.
4. Fase Pemodelan (Modeling Phase)
a. Pilih dan aplikasikan teknik pemodelan yang sesuai.
b. Kalibrasi aturan model untuk mengoptimalkan hasil.
c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan
pada permasalahan data mining yang sama.
d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk
menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi
kebutuhan teknik data mining tertentu.
5. Fase Evaluasi (Evaluation Phase)
a. Mengevaluasi satu atau lebih model yang digunakan dalam fase
pemodelan untuk mendapatkan kualitas dan efektivitas sebelum
disebarkan untuk digunakan.
46
b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase
awal.
c. Menentukan apakah terdapat permasalahan penting dari bisnis atau
penelitian yang tidak tertangani dengan baik.
d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data
mining.
6. Fase Penyebaran (Deployment Phase)
a. Menggunakan model yang dihasilkan. Terbentuknya model tidak
menandakan telah terselesaikannya proyek.
b. Contoh sederhana penyebaran : Pembuatan Laporan.
c. Contoh kompleks penyebaran : Penerapan proses data mining secara
parallel pada departemen lain.
2.4. Klasifikasi
Klasifikasi pertama kali diterapkan pada bidang tanaman yang
mengklasifikan suatu spesies tertentu, seperti yang dilakukan oleh Carolus
von Linne (atau dikenal dengan nama Carolus Linnaeus) yang pertama kali
mengklasifikasikan spesies berdasarkan karakteristik fisik. Selanjutnya dia
dikenal sebagai bapak klasifikasi. Klasifikasi merupakan salah satu teknik
dalam data mining. Klasifikasi ( taksonomi) merupakan proses penempatan
objek atau konsep tertentu ke dalam satu set kategori berdasarkan objek yang
digunakan. Salah satu teknik klasifikasi yang popular digunakan adalah
decision tree [4]. Klasifikasi sendiri terbagi menjadi dua tahap, yaitu
pengklasifikasian dan pembelajaran. Pada tahap pembelajaran, sebuah
algoritma klasifikasi akan membangun sebuah model klasifikasi dengan cara
menganalisis training data. Tahap pembelajaran dapat juga dipandang sebagai
tahap pembentukan fungsi atau pemetaan y=f(x) di maana y adalah kelas hasil
prediksi dan X adalah truple yang ingin diprediksi kelasnya.
47
Pada tahap penglasifikasian, model yang telah dihasilkan akan
digunakan untuk melakukan untuk melakukan klasifikasi terhadap data- data
yang belum diketahui. Akan tetapi, sebuah model hanya boleh digunakan
untuk klasifikasi jika model tersebut mempunyai tingkat akurasi yang cukup
tinggi..
2.5. Decesion Tree
Konsep klasifikasi dengan pengawasan (supervised classification)
adalah untuk membangun sebuah model dari data yang telah diketahui, atau
sering disebut sebagai classifier. Model atau fungsi ini kemudian dapat
digunakan untuk memetakan data kedalam suatu basis data kepada suatu
atribut target tertentu, selanjutnya dapat memperkirakan suatu kelas dari data
yang baru. Algoritma decision tree merupakan salah satu algoritma klasifikasi
di dalam data mining yang bekerja berdasarkan teori informasi (information
theory). Decision tree menggunakan representasi struktur pohon (tree) dimana
setiap node mempresentasikan atribut, cabangnya mempresentasikan nilai dari
atribut, dan daun mempresentasikan kelas. Decision tree juga memiliki
beberapa keunggulan, yaitu mudah dalam pengembangan sebuah model,
mudah dipahami oleh penggunanya, dan mampu menangani noisy data dan
unknown data.
Decision tree sendiri terdiri atas beberapa bagian yaitu simpul dalam
yang merepresentasikan nilai dari suatu atribut, cabang, dan simpul daun.
Simpul paling atas disebut dengan simpul akar. Node yang paling atas dari
decision tree disebut sebagai root.
Terdapat 3 node dalam decision tree, yaitu [4]:
1. Root Node, merupakan node yang paling atas, pada node ini tidak
terdapat input dan bisa tidak mempunyai output atau mempunyai
output lebih dari satu.
48
2. Internal Node, merupakan node percabangan, pada node ini terdapat
satu input dan mempunyai output minimal dua.
3. Leaf node atau terminal node, merupakan node paling akhir, pada
node ini hanya terdapat satu input dan tidak mempunyai output.
Banyak algoritma yang digunakan dalam pembentukan pohon
keputusan, antara lain ID3, CART, dan C4.5 [9]. Data dalam pohon keputusan
biasanya berbentuk tabel dengan atribut. Atribut menyatakan suatu parameter
yang dibuat sebagai kriteria dalam pembentukan pohon.
2.6. Algoritma C4.5
Algoritma C4.5 merupakan salah satu algoritma yang telah secara luas
digunakan, khususnya di area machine learning yang memiliki beberapa
perbaikan dari algoritma sebelumnya yaitu ID3. Algoritma C4.5 dan ID3
model yang tak terpisahkan, karena membangun sebuah pohon keputusan,
dibutuhkan algoritma C4.5 Diakhir tahun 1980- an, J. Ross Quinlan seorang
peneliti di bidang mesin pembelajaran mengembangkan sebuah model pohon
keputusan yang dinamakan ID3. Walaupun sebenarnya proyek ini telah dibuat
sebelumnya oleh E.B. Hunt, J. Marin, dan P.T. Stone. Kemudian Quinlan
membuat algoritma dari pengembangan ID3 yang dinamakan C4.5 yang
berbasis supervised learning [10].
Serangkaian perbaikan yang dilakukan pada ID3 mencapai puncaknya
dengan menghasilkan sebuah sistem praktis dan berpengaruh untuk decision
tree yaitu C4.5. Perbaikan ini meliputi metode untuk menangani numeric
attributes, missing values, noisy data, dan aturan yang menghasilkan rules dan
trees [4].
Adapun perbaikannya adalah sebagai berikut:
1. Algoritma C4.5 menghitung gen ratio untuk masing- masing
atribut, dan atribut yang memiliki nilai yang tertinggi akan dipilih
49
sebagai simpul. Penggunaam
gain
ratio ini memperbaiki
kelemahan dari ID3 yang menggunakan information gain.
2. Pemangkasan dapat dilakukan pada saat pembangunan pohon
(tree) ataupun pada saat proses pembangunan pohon selesai.
3. Mampu menangani continues attribute.
4. Mampu menangani missing data.
5. Mampu membangkitkan rule dari sebuah pohon.
Ada beberapa tahapan dalam membuat sebuah pohon keputusan dalam
algoritma C4.5 [4], yaitu:
1. Mempersiapkan data training. Data training biasanya diambil dari
data histori yang sudah pernah terjadi sebelumnya dan sudah
dikelompokkan dalam kelas- kelas tertentu.
2. Menghitung akar pohon. Akar akan diambil dari atribut yang akan
dipilih, dengan cara menghitung nilai gain dari masing- masing
atribut, nilai gain yang paling tinggi akan menjadi akar pertama.
Sebelum menghitung nilai gain dari atribut, hitung dahulu nilai
entropy. Untuk menghitung nilai entropy digunakan rumus :
Entropy (S) = ∑
Keterangan :
S = Himpunan Kasus
n = Jumlah Partisi S
pi = proporsi
terhadap S
Kemudian setelah nilai entropy pada masing- masing atribut sudah
diperoleh maka hitung nilai gain dengan menggunakan rumus :
Gain ( S, A ) = entropy ( S )
∑
( )
50
Keterangan :
S= Himpunan kasus
A = Fitur
n = jumlah partisi atribut A
|
= Proporsi
terhadap S
|S| = Jumlah Kasus dalam S
2.7. Confusion Matrix
Confusion matrix merupakan sebuah table yang terdiri dari banyaknya
baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi. [6].
Tabel 2.2 Tabel Confusion Matrik 2 Kelas
Rumus untuk menghitung tingkat akurasi pada matrik adalah :
51
BAB III
METODE PENELITIAN
3.1 Objek Penelitian
Penulis melakukan penelitian di Koperasi Simpan Pinjam Primkoveri
Weleri yang beralamatkan di Jl. Utama Timur No. 85 (Sebelah Rel Kereta
Api) Weleri. Koperasi Primkoveri adalah salah satu koperasi yang bergerak
dibidang simpan pinjam dan menawarkan permohonan kredit. Permohonan
kredit pada koperasi simpan pinjam biasanya dilakukan secara sederhana tidak
seperti di bank, namun masih tetap memenuhi persyaratan prinsip dari sebuah
kredit. Penilaian yang terkait dengan jumlah pinjaman, waktu pengembalian,
jenis usaha/pekerjaan, jumlah, status perkawinan, angsuran dan ketentuanketentuan lain. Permohonan ini biasanya diisi oleh calon nasabah dalam
blanko yang telah tersedia untuk berkas pengajuan kredit, selebihnya
ditentukan oleh hasil analisis team yang telah ditentukan koperasi simpan
pinjam. Penelitian ini dilakukan pada bulan Maret 2014. Adapun penelitian ini
dilakukan untuk mengetahui calon nasabah yang diprediksi berpotensi kredit
macet.
3.2 Jenis Data
Jenis data yang digunakan dalam penyusunan laporan tugas akhir ini
adalah kualitatif dan kuantittif. Data kualitatif sendiri adalah data yang berupa
kata-kata. Data kualitatif diperoleh dengan berbagai macam teknik
pengumpulan data, diantaranya wawancara, analisis dokumen, diskusi
terfokus, atau observasi. Sedangkan data kuantitatif adalah data yang
berbentuk angka atau biolangan. Sesuai dengan bentuknya sendiri, data
kuantitatif dapat diolah atau dianalisis menggunakan teknik perhitungan
matematika atau statistika. Data kuantitatif sendiri berfungsi untuk
mengetahui jumalah atau besaran dari sebuah objek yang akan diteliti. Data
52
ini bersifat nyata atau dapat diterima oleh panca indera, sehingga pada
penelitian ini peneliti harus benar- benar jeli dan teliti untuk mendapatkan
keakuratan data dari objek yang akan diteliti.
3.3 Sumber Data
Selama peneliti melakukan penelitian di Koperasi Simpan Pinjam
Prinkoveri Waleri data yang sudah dikumpulkan penulis antara lain:
a.
Pengambilan data primer dengan cara mewawancarai kepala
cabang (interview). Pengumpulan data nasabah kredit yang
dilakukan untuk pengolahan dalam penelitian ini dengan
pemilihan atribut seperti nama nasabah, alamat nasabah,
pengajuan kredit dengan menggadaikan kendaraan bermotor yang
memiliki jumlah nilai tersendiri setelah itu nasabah akan
mendapat pinjaman dari koperasi sesuai jumlah harga kendaraan
yang di gadainya. Setelah itu tedapat atribut angsuran yang harus
dibayar setiap bulannya untuk menyicil uang uang di pinjam
nasabah pada kopersi.
b.
Data Sekunder, adalah data yang didapat secara tidak langsung
dari objek penelitian. Penulis mendapatkan data dari studi
literature yang telah diperoleh sebelumnya.
3.4 Instrumental Penelitian
Dalam penelitian yang dibuat guna menyelesaikan laporan tugas akhir
ini, instrumen penelitiannya meliputi:
3.4.1
Perangkat Lunak ( Software )
a. Sistem operasi Microsoft Widows 7 32bit
Sistem operasi yang digunakan pada penelitian ini yaitu
Windows 7 32 bit, karena pada system operasi ini bahasa
53
pemrograman Rapid Miner sudah dapat dijalankan dengan
baik.
b. Rapid Miner
Rapid Miner adalah software yang nantinya akan
digunakan untuk mengimplementasikan metode yang
digunaan dalam proses penelitian.
3.4.2
Perangkat Keras ( Hardware )
Selain kebutuhan perangkat lunak, juga diperlukan
perangkat keras
yang digunakan dalam menyelesaikan
penelitian ini. Adapun perangkat keras yang digunakan adalah,
personal Computer dengan spesifikasi minimal:
- Processor Intel (R) Celeron (R) CPU 1007U @1.50GHz
1.50GHz
- RAM 4 GB
- Satu buah mouse
- Printer Canon Pixma iP 2770
3.5 Metode Pengumpulan Data
Metode pengumpulan data yang penulis gunakan untuk mendapatkan
data- data yang dibutuhkan adalah sebagai berikut :
a.
Metode Studi Literatur
Pada metode ini, penulis mengumpulkan, membaca, dan
mempelajari mengumpulkan literatur yang berkaitan dengan
pemodelan yang menggunakan metode klasifikasi dan algoritma
yang akan digunakan berupa algoritma C4.5. Studi literatur
diharapkan mampu memberikan teori-teori yang tepat agar dapat
diimplementasikan pada aplikasi yang sesuai dengan metode yang
digunakan dan hasilnya akan mendapatkan aplikasi benar dan
dapat dijalankan dengan benar pula.
54
b.
Metode Wawancara atau Interview
Metode wawancara dalam wawancara yang berhubungan dengan
pihak terkait yaitu kepala cabang Koperasi Simpan Pinjam
Primkoveri
Waleri.
Wawancara
mengenai
nasabah
yang
mengambil kredit berupa id, nama nasabah, alamat, pinjaman,
angsuran,
jaminan,
dan
besar
jaminan,
tanggal
pinjam,
keterangan.
3.6 Metode Penelitian
Penelitian ini difokuskan pada proses menganalisis data prediksi
nasabah yang berpotensi kredit macet pada Koperasi Simpan Pinjam
Primkoveri Waleri dengan algoritma C4.5 menggunakan program Rapid
Miner ( Tools Data Mining ) untuk memperoleh hasil klasifikasi yang
kemudian akan di implmentaikan dalam bahasa pemrograman PHP. Seperti
yang sudah dijelaskan di bab sebelumnya, terdapat beberapa pemdekatan
metode penelitan yang dipakai adalah sebagai berikut :
3.6.1 Pembersihan Data
Tahap ini adalah pemilihan atribut data yang akan digunakan.
Tabel 3.1 Detail Atribut Data Penelitian
Atribut
Detail Penggunaan
Nomor Kredit
√
Nilai Model
Nama Nasabah
×
No
Alamat
×
No
Jenis Kelamin
×
No
Umur
√
Nilai Model
55
Agama
×
No
Status
√
Nilai Model
Pekerjaan
√
Nilai Model
Penghasilan
√
Nilai Model
Maksimal Kredit
√
Nilai Model
Jangka Waktu
√
Nilai Model
Angsuran
√
Nilai Model
Hasil
√
Label Target
Tabel 3.1 merupakan atribut-atribut yang akan digunakan
dalam penelitian, indikator ya (√) menunjukan bahwa atribut
tersebut akan digunakan dalam penelitian, sedangkan indikator
tidak (×) menandakan atribut tersebut tidak digunakan
sehingga harus dihapus atau dibersihkan.
3.6.2 Integrasi Data
Setelah dilakukan pembersihan data maka selajutnya dilakukan
integrasi data. Integrasi data yang dimaksud adalah mengecek
dan menyamakan atribut-atribut yang sekiranya masih terjadi
perbedaan dari segi penulisan sehingga dapat menghasilkan hasil
yang tidak menyimpang dari yang diharapkan.
3.6.3 Seleksi dan Transformasi Data
Disini akan dilakukan pemilihan data yang diperlukan oleh
teknik data mining yang dipakai yaitu dengan membuat interval
atau range guna menentukan kualitas data mining ini.
Tabel 3.2 Contoh Range atau Interval
56
UMUR
>37
<=37
STATUS
Kawin
Belum Kawin
PEKERJAAN
PNS
Wiraswasta
Swasta
PENGHASILAN
>1771200
<=1771200
MAKS KREDIT
>98000000
<=98000000
JW KREDIT
>180
<=180
ANGSURAN
>561600
<=561600
3.6.4 Aplikasi Teknik Data Mining
Dalam Pengujian ini menggunakan teknik data mining
klasifikasi dengan mengaplikasikan metode decision tree C4.5
karena data yang diolah memiliki label khusus dengan hasil
“Kredit macet” atau “Kredit lancar”. Data yang digunakan dalam
penelitian ini adalah data berdasarkan kriteria yang digunakan
dalam perhitungan, yaitu pada nasabah Koperasi Simpan Pinjam
Promkoveri Waleri tahun 2014 yang digunakan untuk prediksi
nasabah kredit macet sebagai acuan untuk pengambilan kredit
57
selanjutnya. Metode yang diusulkan untuk proses seperti yang
telah dijelaskan di atas yaitu metode klasifikasi dengan algoritma
yang digunakan adalah algoritma Decision Tree C4.5. Metode
yang diusulkan untuk proses penentuan prediksi nasabah kredit
macet adalah seperti gambar di bawah ini:
Data nasabah berdasarkan kriteria yang ditentukan dan
selanjutnya akan digunakan untuk acuan dalam
penggunaan metode pangaplikasian
Penerapan metode klasifikasi
Penerapan algoritma C4.5
Lanjutan
Pengaplikasian rapid miner
Hasil
58
Gambar 3.1. Alur permodelan yang diusulkan
Setelah
alur
pemodelan
sudah
ditentukan,
maka
penerapan
perhitungan algoritma C4.5 berupa perhitungan nilai entropy dan nilai
gain bisa dilakukan dari masing- masing atribut. Berikut adalah
tahap-tahap analisis data yang digunakan dalam penelitian ini
meliputi :
Pengambilan
data
Penentuan
kriteria
Pengujian
Pengaplikasia
n Metode
Hasil
Gambar 3.2. Tahap analisis data
1. Melakukan mengambilan data nasabah Koperasi Simpan
Pinjam Primkoveri Weleri tahun 2014.
59
2. Menentukan
kriteria
yang
akan
digunakan
untuk
perhitungan.
3. Mengaplikasikan peritungan manual dengan algoritma C
4.5.
4. Setelah melakukan proses perhitungan manual, selanjutnya
dilakukan pengujian dengan menggunakan rapid miner.
5. Diperoleh hasil akhir yang di inginkan.
3.6.5 Evaluasi Pola
Hasil dari data mining ini berupa pohon dan rule-rule yang
nantinya akan diolah dan di implementasikan ke dalam suatu
aplikasi atau sistem yang akan membantu dalam proses prediksi
nasabah macet.
3.6.6 Presentasi Pola
Setelah melewati tahap evaluasi pola maka akan dilakukan
implementasi hasil analisa dan keputusan nasabah yang akan
mengajukkan kredit akan menjadi nasabah kredit macet atau
tidak sehingga bisa menjadi bahan pertimbangan Koperasi
Simpan Pinjam Primkoveri Waleri untuk nasabah yang akan
mengajukkan kredit selanjutnya.
3.6.7 Pengujian Sistem dan Tingkat Akurasi
Tahap terakhir yang dilakukan yaitu pengujian sistem dan
mengukur tingkat akurasi yang dilakukan oleh sistem yang telah
dibuat sehingga mendapatkan hasil yang sesuai dengan apa yang
diharapkan.
60
BAB IV
ANALISIS DAN PEMBAHASAN
4.1 Data Uji
Pada pengujian kali ini adalah dengan menerapkan algoritma C4.5 untuk
memprediksi nasabah yang berpotensi kredit macet pada Koperasi Simpan
Pinjam Primkoveri Weleri tahun 2014 dengan dataset nasabah yang terdiri
dari 300 data nasabah dimana 250 data digunakan untuk data training dan 50
data untuk data testing, kemudian menentukan 7 variabel utama yang
dijadikan sebagai acuan penting yaitu Umur, Status, Pekerjaan, Penghasilan,
Maks Kredit, Jangka Waktu Kredit dan Angsuran yang diolah melalui
algoritma C4.5. Berikut data nasabah yang digunakan :
Table 4.1 Data Nasabah Pemohon Kredit Tahun 2014
Statu
s
Pekerjaan
Pengha
silan
Maks
Kredit
JW
Kredit
(Bulan
)
Angsu
ran
No
No Kredit
Um
ur
1
130101016
1936
37
KA
WIN
PNS
161040
0
1490000
00
120
40260
0
2
130101017
5676
41
KA
WIN
PNS
161360
0
4500000
00
180
40340
0
3
130101017
7644
29
KA
WIN
PNS
164320
0
4830000
00
240
41080
0
4
130102091
6119
35
KA
WIN
PNS
172840
0
2000000
0
180
43210
0
5
130102090
2649
28
BEL
UM
KA
WIRASWA
STA
172880
0
2200000
00
180
43220
0
Hasil
Kredi
t
lancar
Kredi
t
lancar
Kredi
t
lancar
Kredi
t
lancar
Kredi
t
macet
61
WIN
Kredi
t
macet
Kredi
t
macet
Kredi
t
macet
Kredi
t
lancar
Kredi
t
lancar
Kredi
t
lancar
Kredi
t
macet
Kredi
t
macet
6
130101015
5529
50
KA
WIN
PNS
182200
0
9600000
0
180
45550
0
7
130101015
4638
33
KA
WIN
SWASTA
182200
0
1000000
00
180
45550
0
8
130102091
5163
36
KA
WIN
PNS
185920
0
1580000
00
180
46480
0
9
130102091
3569
34
KA
WIN
WIRASWA
STA
185920
0
2040000
00
180
46480
0
10
130103009
9339
44
KA
WIN
WIRASWA
STA
187840
0
8560000
0
120
46960
0
29
6
130102090
2982
51
KA
WIN
PNS
209130
0
2640000
00
180
69710
0
29
7
130102091
0820
33
KA
WIN
SWASTA
211920
0
8600000
0
180
70640
0
29
8
130102090
1481
30
KA
WIN
PNS
219600
0
1120000
00
180
73200
0
29
9
130102090
2916
29
PNS
268290
0
4400000
0
180
89430
0
…
…
…
BEL
UM
KA
WIN
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
30
0
130101016
8629
37
KA
WIN
PNS
270780
0
5500000
0
240
…
…
…
Kredi
t
macet
Table 4.1
90260
0
Kredi
t
macet
adalah data asli nasabah yang mengajukan kredit yang
terdapat sembilan atribut yang akan diproses dan dimodelkan dengan metode
klasifikasi dan menggunakan algoritma C4.5. Inputan
proses klasifikasi
62
tersebut menggunakan sembilan variabel atribut yang telah dideskripsikan
pada bab sebalumnya, kemudian akan dilakukan proses klasifikasi untuk
menentukan variabel target atau label yaitu “Kredit lancar” atau “Kredit
macet”.
Setelah semua data dikonversi kedalam kategori- kategori tertentu, maka
dilakukan perhitungan entropi untuk masing- masing atribut menggunakan
rumus entropi :
Entropy (S) = ∑
Langkah pertama adalah menghitung nilai entropi dari atribut label.
Sebelum menghitung nilai entropi label, terlebih dahulu dihitung jumlah
kemunculan masing- masing label untuk semua data.
TOTAL
UMUR
>37
<=37
Tabel 4.2 Perhitungan Entropy dan Gain Pertama
JUMLAH KASUS (S) LANCAR (S1) MACET (s2) ENTROPY
250
210
40
1.474309555
127
123
105
105
22
18
0.665036852
0.600608575
STATUS
Kawin
Belum Kawin
232
18
195
15
37
3
0.633070712
0.650022422
PEKERJAAN
PNS
WIRASWASTA
SWASTA
112
79
59
89
69
52
23
10
7
0.732513848
0.547990008
0.52545068
PENGHASILAN
>1771200
<=1771200
120
130
108
102
12
28
0.468995594
0.751649946
63
MAKS KREDIT
>98000000
<=98000000
119
131
96
114
23
17
0.708277217
0.556809796
JW KREDIT
>180
<=180
45
205
44
166
1
39
0.15374218
0.701981406
125
85
4
36
0.199420778
0.878239026
ANGSURAN
>561400
129
<=561400
121
Perhitungan Entropy dan Gain Pertama.
1. Perhitungan Entropy Total
=(
(
= 1.474309555
))
(
(
))
2. Perhitungan Entropy dan Gain Umur
a. Entropy >37
=(
(
= 0.665036852
))
(
(
))
))
(
(
))
b. Entropy <=37
=(
(
= 0.600608575
c. Gain Umur
= 1.474309555
(
((
)
))
= 0.840971415
3. Perhitungan Entropy dan Gain Status
a. Entropy Kawin
=(
(
= 0.633070712
))
(
(
))
64
b. Entropy Belum Kawin
=(
( ))
= 0.650022422
(
( ))
c. Gain Status
((
=
(
)
))
= 0.6
4. Perhitungan Entropy dan Gain Pekerjaan
a. Entropy PNS
=(
(
= 0.732513848
))
(
(
))
b. Entropy Wiraswasta
=(
( ))
= 0.547990008
(
( ))
(
( ))
c. Entropy Swasta
=(
( ))
= 0.52545068
d. Gain Pekerjaan
=
(
= 0.843652866
((
)
)
(
))
65
5. Perhitungan Entropy dan Gain Penghasilan
a. Entropy >1771200
=(
(
= 0.858333698
))
(
(
))
))
(
(
))
b. Entropy <=1771200
=(
(
= 0.751649946
c. Gain Penghasilan
((
=
(
)
))
= 0.858333698
6. Perhitungan Entropy dan Gain Maks Kredit
a. Entropy >98000000
=(
(
= 0.708277217
))
(
(
))
(
(
))
b. Entropy <=98000000
=(
(
= 0.556809796
))
c. Gain Maks Kredit
=
(
((
))
= 0.845401266
7. Perhitungan Entropy dan Gain JW Kredit
a. Entropy >180
)
66
=(
( ))
= 0.15374218
(
( ))
b. Entropy <=180
=(
(
= 0.701981406
))
(
(
))
c. Gain JW Kredit
((
=
(
)
))
= 0.871011209
8. Perhitungan Entropy dan Gain Angsuran
a. Entropy >561400
=(
(
= 0.1994207788
))
(
(
))
))
(
(
))
b. Entropy <=561400
=(
(
= 0.878239026
d. Gain Angsuran
((
=
(
)
))
= 0.946340745
Jika nilai gain dari semua atribut sudah diketahui, dari perhitungan
tersebut diketahui bahwa atribut yang paling besar adalah atribut Angsuran.
Atribut tersebut sekaligus menjadi root (akar) dalam decision tersebut.
Angsuran
67
Atribut ini memiliki nilai information gain dengan nilai paling besar yaitu
0.946340745.
<=561400
>561400
Gambar 4.1 Pohon keputusan hasil proses pertama
Proses partisi pohon keputusan ini akan berhenti ketika tidak ada atribut
didalam tupel yang dipartisi lagi, serta tidak ada tupel didalam cabang yang
kosong.
Melanjutkan perhitungan di atas yang memperoleh hasil Gain terbesar
ialah atribut Angsuran, perhitungan Entropy dan Gain yang kedua dengan
patokan <=561400.
Tabel 4.3 Perhitungan Entropy dan Gain Kedua
JUMLAH
KASUS (S)
Angsuran
<=561400
121
Umur
>37
<=37
PENGHASILAN
>1771200
<=1771200
85
36
ENTROPY
GAIN
0.878239026
0.003950927
47
74
STATUS
kawin
blm kawin
PEKERJAAN
PNS
wiraswasta
Swasta
LANCAR MACET
(S1)
(S2)
35
50
12
24
0.819600435
0.909022156
0.000348705
112
9
79
6
33
3
0.874643448
0.918295834
0.047583125
57
36
28
33
29
23
24
7
5
0.981940787
0.710676854
0.67694187
0.107414371
7
114
0
85
7
29
0
0.818155993
68
MAKS KREDIT
>92500000
<=92500000
0.007694601
61
60
JW KREDIT
>180
<=180
40
45
21
15
0.928839146
0.811278124
0.0396939
9
112
9
76
0
36
0
0.905928216
Perhitungan Entropy dan Gain Kedua.
1. Perhitungan Entropy Angsuran <=561400
=(
(
= 0.878239026
))
(
(
))
2. Perhitungan Entropy dan Gain Umur
a. Entropy >37
=(
( ))
= 0.819600435
(
( ))
(
( ))
b. Entropy <=37
=(
( ))
= 0.909022156
c. Gain Umur
= 0.878239026
(
((
)
))
= 0.003950927
3. Perhitungan Entropy dan Gain Status
a. Entropy Kawin
=(
(
= 0.874643448
))
b. Entropy Belum Kawin
(
(
))
69
=(
( ))
= 0.918295834
(
( ))
c. Gain Status
((
=
(
)
))
= 0.000348705
4. Perhitungan Entropy dan Gain Pekerjaan
a. Entropy PNS
=(
( ))
= 0.981940787
(
( ))
=(
( ))
= 0.710676854
c. Entropy Swasta
(
( ))
=(
( ))
= 0.67694187
d. Gain Pekerjaan
(
( ))
b. Entropy Wiraswasta
((
=
(
)
)
(
))
= 0.047583125
5. Perhitungan Entropy dan Gain Penghasilan
a. Entropy >1771200
=(
=0
(
))
(
(
))
b. Entropy <=1771200
=(
(
))
(
(
))
70
= 0.818155993
c. Gain Penghasilan
((
=
)
(
))
= 0.107414371
6. Perhitungan Entropy dan Gain Maks Kredit
a. Entropy >98000000
=(
( ))
= 0.928839146
(
( ))
(
( ))
b. Entropy <=98000000
=(
( ))
= 0.811278124
c. Gain Maks Kredit
((
=
(
)
))
= 0.007694601
7. Perhitungan Entropy dan Gain JW Kredit
a. Entropy >180
=(
=0
( ))
(
( ))
b. Entropy <=180
=(
(
= 0.905928216
c. Gain JW Kredit
))
(
(
))
71
((
=
)
(
))
= 0.0396939
Dari perhitungan di atas yang memperoleh hasil Gain terbesar ialah atribut
Penghasilan, perhitungan Entropy dan Gain yang kedua dengan patokan
<=1771200, perhitungan belum selesai karena nilai belum 0 .
Dari hasil perhitungan diatas maka atribut nilai Bahasa Indonesia kategori
A sudah didapatkan tree seperti dibawah ini:
Angsuran
<=561400
<=1771200
>561400
Penghasilan
>1771200
KKKKkK
Gambar 4.2 Pohon keputusan hasil proses kedua
Dari perhitungan di atas yang memperoleh hasil Gain terbesar ialah atribut
Penghasilan, perhitungan Entropy dan Gain yang kedua dengan patokan
<=1771200, perhitungan belum selesai karena nilai belum 0 .
Tabel 4.4 Perhitungan Entropy dan Gain Ketiga
JUMLAH
KASUS (S)
Peghasilan
<=1771200
114
LANCAR MACET
(S1)
(S2)
85
29
ENTROPY
GAIN
0.818155993
Umur
>37
<=37
STATUS
kawin
blm kawin
0.003950927
53
60
41
44
12
17
0.77170947
0.843641114
105
8
79
6
33
2
0.812660792
0.811278124
PEKERJAAN
PNS
Wiraswasta
59
31
39
26
20
5
0.923842228
0.637387499
0.000348705
0.029855624
72
Swasta
24
MAKS
KREDIT
>98000000
<=98000000
20
4
0.650022422
0.016639907
60
54
JW KREDIT
>180
<=180
41
44
19 0.90071968
10 0.691289869
0.026979277
7
107
7
78
0
29
0
0.84293594
Perhitungan Entropy dan Gain Kedua.
1. Perhitungan Entropy Penghasilan <=1771200
=(
(
= 0.818155993
))
(
(
))
2. Perhitungan Entropy dan Gain Umur
a. Entropy >37
=(
( ))
= 0.77170947
(
( ))
(
( ))
b. Entropy <=37
=(
( ))
= 0.853657673
c. Gain Umur
((
= 0.818155993
(
)
))
= 0.002597046
3. Perhitungan Entropy dan Gain Status
a. Entropy Kawin
=(
(
))
(
(
))
73
= 0.8186669118
b. Entropy Belum Kawin
=(
( ))
= 0.811278124
(
( ))
c. Gain Status
=
((
(
)
))
= 0.00
4. Perhitungan Entropy dan Gain Pekerjaan
a. Entropy PNS
=(
( ))
= 0.981940787
(
( ))
(
( ))
(
( ))
b. Entropy Wiraswasta
=(
( ))
= 0.710676854
c. Entropy Swasta
=(
( ))
= 0.67694187
d. Gain Pekerjaan
=
((
(
)
)
(
= 0.047583125
5. Perhitungan Entropy dan Gain Maks Kredit
a. Entropy >98000000
))
74
=(
( ))
= 0.928839146
b. Entropy <=98000000
(
( ))
=(
( ))
= 0.811278124
c. Gain Maks Kredit
(
( ))
((
=
(
)
))
= 0.007694601
6. Perhitungan Entropy dan Gain JW Kredit
a. Entropy >180
=(
=0
( ))
(
( ))
b. Entropy <=180
=(
(
= 0.905928216
))
(
(
))
c. Gain JW Kredit
((
=
)
(
))
= 0.0396939
Setelah perhitungan Entropy dan Gain yang ke tiga selesai, lakukan
perhitngan lagi hingga nilai nya sudah sama semua atau tidak
memungkinkan dihitung lagi maka tree sudah terbentuk seperti gambar di
bawah ini :
Angsuran
<=561400
Penghasilan
>561400
Kredit macet
75
<=1771200
>1771200
Kredit macet
Status
Kawin
Kredit lancar
Belum Kawin
Kredit macet
Gambar 4.3 Pohon keputusan hasil proses ketiga
76
Gambar 4.4 Pohon keputusan hasil dari rapid miner
77
4.2 Implementasi
Setelah melakukan perhitungan data training dan sudah mendapatkan hasil
pohon keputusan maka langsung bisa diimplementasikan kedalam bahasa
pemrograman PHP. Berikut penjelasannya:
4.2.1 Tampilan Input Manual
Tampilan ini merupakan tampilan utama yang menampilkan
menu-menu yang dapat diakses oleh user. Desain sistem yang
dilakukan dengan prototype sistem menggunakan PHP yang
dibuat untuk mendukung pengoperasian data mining.
Implementasi antarmuka dari pembangunan aplikasi
klasifikasi ini adalah sebagai berikut :
Gambar 4.5 Tampilan Halaman Input Data Manual
Gambar 4.3 tersebut merupakan desain tampilan awal dari
sistem algoritma C4.5 yang dibuat untuk memasukkan data
nasabah baru yang akan mengajukkan kredit dengan
1
78
mengimplementasikan algoritma C4.5 sehingga dapat diprediksi
kedepannya nasabah tersebut dinyatakan Kredit lancar atau
macet.
4.2.2 Tampilan Import Data dari Ms.Excel
Gambar 4.6 Tampilan Halaman Import Data Excel
Gambar 4.4 diatas tersebut merupakan desain tampilan untuk
mengimpor atau memasukkan data nasabah dari Ms.Excel yang
kemudian akan diolah sesuai rule yang sudah dibuat.
4.2.3
Tampilan Hasil Import Ms.Excel
79
Gambar 4.7 Tampilan Halaman Hasil Import Data Ms.Excel
Tabel 4.5. keterangan
Nama
Keterangan Dalam Program
True Positif
True Negatif
Hasil True Kredit Lancar
Hasil True Kredit Macet
False Negatif
Hasil True False Negatif
False Positif
Hasil True False Positif
Gambar 4.5 diatas tersebut merupakan desain tampilan hasil
impor atau masukkan data Ms.Excel yang sudah diolah sehingga
diketahui hasil yang diinginkan selain itu juga untuk mengecek
kebenaran hasil dari peritungan manual yang sebelumnya dilakukan
oleh Koperasi Simpan Pinjam Primkoveri, sedangkan table 4.2 adalah
table keterangan dari detail akurasi.
80
4.3 Akurasi
Untuk menentukan tingkat akurasi ini menggunakan data testing bisa
dilihat di gambar 4.5 dengan acuan table 4.2 dengan data berjumlah 100
kemudian bisa dihitung menggunakan tabel confussion matrix dibawah ini:
Tabel 4.6. Confussion matrix
Classified as
Correct Classfication +
+
TP= 38
FN=1
_
FP= 14
TN=47
Tingkat akurasi dari seluruh klasifikasi ditentukan dengan jumlah
klasifikasi yang benar dibagi dengan total jumlah record klasifikasi.
Accuracy =
=
= 0.86
Untuk menghitung prosentasi akurasi, maka tingkat sukses dikalikan
100%. Ini berarti prosentase error dapat dicari dengan cara 100% dikurangi
dengan prosentase sukses.
Accuracy =
*100
=
= 86%
*100
81
BAB V
KESIMPULAN DAN SARAN
5.1.
Kesimpulan
Berdasarkan hasil penelitian pada klasifikasi prediksi nasabah yang berpotensi
kredit macet dapat diambil beberapa kesimpulan sebagai berikut:
1.
Klasifikasi data mining untuk menentukan penyebab kredit macet pada
Koperasi Simpan Pinjam Primkoveri Waleri dapat mengklasifikasikan nasabah tersebut
masuk dalam tahapan kredit lancar atau macet.
2.
Dari data testing nasabah yang digunakan menunjukkan tingkat akurasi
dengan algoritma C4.5 sebesar 86%.
5.2.
Saran
Saran yang diajukan dalam penelitian ini yaitu untuk penelitian selanjutnya
dengan permasalahan yang sama dengan metode yang sama sehingga dapat ditingkatkan
salah satunya dengan melakukan pruning terhadap algoritma C4.5 jika pohon yang
terbentuk terlalu besar, dengan melakukan pruning maka pohon yang terbentuk akan
otomatis terjadi pemangkasan walopun dengan jumlah data yang sangat besar. Ini
dilakukan untuk mempermudah kinerja dari algoritma C4.5 tanpa mengurangi tingkat
akurasi yang nantinya akan diperoleh.
Selain itu saran dari penulis adalah penerapan rules dari algoritma C4.5
selanjutnya dibuat sistem aplikasi yang lebih baik lagi sehingga dapat diperuntukkan
untuk pihak Koperasi Simpan Pinjam Primkoveri Cabang Weleri karena ini masih
sebatas prototype sehingga dapat digunakan dalam klasifikasi hasil proses seleksi yang
berupa lancar atau tidaknya nasabah pemohon kredit untuk bahan pertimbangan bagi
pemohon kredit yang berikutnya.
82
Daftar Pustaka
[1] Mudrajat Kuncoro, Suhardjono, “Manajemen Perbankan” Teori dan Aplikasi, Edisi
Kedua, Fakultas Ekonomi dan Bisnis UGM, 2012.
[2] Dr. (Cand) Taswan, SE, M.Si, “Manajemen Perbankan” Konsep, Teknik dan
Aplikasi, Edisi Kedua UPP STIM YKPN, Yogyakarta, 2010.
[3] Larose, Daniel T, "Discovering Knowledge in Data: An Introduction to Data
Mining," John Willey & Sons, Inc, 2005.
[4] Anik Andriani, "Penerapan Algoritma C4.5 Pada Program Klasifikasi Mahasiswa
Dropout," 2012.
[5] Angga Ginanjar Mabrur, Riani Lubis, "Penerapan Data Mining Untuk
Memprediksi Kriteria Nasabah Kredit,"2012.
[6] Liliana Swastina, Penerapan Algoritma C4.5 Untuk Penentuan Jurusan
Mahasiswa," 2013.
[7] Sunjana, "Klasifikasi Data Nasabah Sebuah Asuransi Menggunakan Algoritma
C4.5," 2010.
[8] Khafizh Hastuti, "Analisis Komparasi Algoritma Klasifikasi Data Mining Untuk
Prediksi Mahasiswa Non-Aktif," 2012.
[9] Swastina Liliana, "Penerapan Algoritma C4.5 Untuk Penentuan Jurusan
Mahasiswa," Gema Aktualita, Juni 2013.
[10] Fatayat and Joko Risanto, "Proses Data Mining dalam Meningkatkan Sistem
Pembelajaran pada Pendidikan Sekolah Menengah Pertama," 2013.
Download