14 BAB II LANDASAN TEORI Bab ini membahas teori penunjang

advertisement
14
BAB II
LANDASAN TEORI
Bab ini membahas teori penunjang yang berhubungan dengan penerapan metode
clustering pada sistem pengelompokan mahasiswa potensial drop out.
2.1 Perangkat Lunak
Perangkat Lunak (software) adalah program komputer yang terasosiasi dengan
dokumentasi perangkat lunak seperti dokumentasi kebutuhan, model desain, dan
cara penggunaan (user manual). Sebuah program komputer tanpa terasosiasi
dengan dokumentasinya maka belum dapat dikatakan perangkat lunak (software).
Karakter perangkat lunak adalah sebagai berikut :
1.
Perangkat lunak dibangun dengan rekayasa (software engineering) bukan
diproduksi secara manufaktur atau pabrikan.
2.
Perangkat lunak tidak pernah usang (wear out) karena kecacatan dalam
perangkat lunak dapat diperbaiki.
3.
Barang produksi pabrikan biasanya komponen barunya akan terus diproduksi,
sedangkan perangkat lunak biasanya terus diperbaiki seiring bertambahnya
kebutuhan.
Aplikasi dari perangkat lunak adalah sebagai berikut :
1.
Perangkat lunak sistem (system software)
Universitas Sumatera Utara
15
Adalah kumpulan program dimana program yang satu ditulis untuk
memenuhi kebutuhan program lainnya.
2.
Perangkat lunak waktu nyata (real time software)
Merupakan perangkat lunak yang memonitor, menganalisis, mengontrol
sesuatu secara waktu nyata (real time).Reaksi yang dibutuhkan pada
perangkat lunak harus langsung menghasilkan respon yang diinginkan.
3.
Perangkat lunak bisnis (business software)
Merupakan perangkat lunak pengelola informasi bisnis (seperti akuntansi,
penjualan, pembayaran, dan penyimpanan (inventory)).
4.
Perangkat lunak untuk keperluan rekayasa dan keilmuan (engineering and
scientific software)
Merupakan perangkat lunak yang mengimplementasikan algoritma yang
terkait dengan keilmuan ataupun perangkat lunak yang membantu keilmuan,
misalkan perangkat lunak di bidang astronomi, di bidang matematika, dan
lain sebagainya.
5.
Perangkat lunak tambahan untuk membantu mengerjakan suatu fungsi dari
perangkat lunak yang lainnya (embedded software)
Misalnya perangkat lunak untuk mencetak dokumen ditambahkan agar
perangkat lunak yang memerlukan dapat mencetak laporan, maka perangkat
lunak untuk mencetak dokumen ini disebut embedded software.
6.
Perangkat lunak komputer personal (personal computer software)
Merupakan perangkat lunak untuk PC misalnya perangkat lunak pemroses
teks, pemroses grafik, dan lain sebagainya.
7.
Perangkat lunak berbasis web (web based software)
Merupakan perangkat lunak yang dapat diakses dengan menggunakan web
browser.
8.
Perangkat lunak intelijensia buatan (artificial intelligence software)
Merupakan perangkat lunak yang menggunakan algoritma tertentu untuk
mengelola
data
sehingga
seakan-akan
memiliki
intelijensia
seiring
bertambahnya data yang diproses.
Universitas Sumatera Utara
16
Produk perangkat lunak yang dibuat oleh pengembang (developer)
perangkat lunak terdiri dari dua jenis :
1.
Produk Generik
Produk perangkat lunak yang dibuat oleh pengembang perangkat lunak untuk
dijual atau dipopulerkan (open source) tanpa ada yang memesan terlebih
dahulu, perangkat lunak yang termasuk dalam produk generik misalnya
perangkat lunak sistem operasi, perangkat lunak pendukung perkantoran
untuk membuat dokumen, slide presentasi, atau perhitungan dalam bentuk
papersheet dan lain sebagainya.
2.
Produk Pemesanan
Produk perangkat lunak yang dibuat karena ada pelanggan yang melakukan
pemesanan, misalnya sebuah instansi memerlukan perangkat lunak untuk
memenuhi proses bisnis yang terjadi di instansinya, maka instansi itu akan
bekerja sama dengan pengembang untuk membuat perangkat lunak yang
diinginkan. (Rosa A.S, M. Shalahuddin; 2011: 2-4)
2.2 Rekayasa Perangkat Lunak
Rekayasa Perangkat Lunak (software engineering) merupakan pembangunan
dengan menggunakan prinsip atau konsep rekayasa dengan tujuan menghasilkan
perangkat lunak yang bernilai ekonomi yang dipercaya dan bekerja secara efisien
menggunakan mesin. Perangkat lunak banyak dibuat dan pada akhirnya sering
tidak digunakan karena tidak memenuhi kebutuhan pelanggan atau bahkan karena
masalah non-teknis seperti keengganan pemakai perangkat lunak (user) untuk
mengubaha cara kerja dari manual ke otomatis, atau ketidakmampuan user
menggunakan komputer. Oleh karena itu, rekayasa perangkat lunak dibutuhkan
agar perangkat lunak yang dibuat tidak hanya menjadi perangkat lunak yang tidak
terpakai.
Rekayasa perangkat lunak lebih fokus pada bagaimana membuat
perangkat lunak yang memenuhi kriteria berikut :
Universitas Sumatera Utara
17
1.
Dapat terus dipelihara setelah perangkat lunak selesai dibuat seiring
berkembangnya teknologi dan lingkungan (maintainability).
2.
Dapat diandalkan dengan proses bisnis yang dijalankan dan perubahan yang
terjadi (dependability dan robust).
3.
Efisien dari segi sumber daya dan penggunaan.
4.
Kemampuan untuk dipakai sesuai denga kebutuhan (usability)
(Rosa A.S, M. Shalahuddin; 2011: 4-5).
2.3 Proses Rekayasa Perangkat Lunak
Proses perangkat lunak (software process) adalah sekumpulan aktivitas yang
memiliki tujuan mengembangkan atau mengubah perangkat lunak.
Secara umum proses perangkat lunak terdiri dari :
1.
Pengumpulan Spesifikasi (Specification), yaitu : mengetahui apa saja yang
harus dapat dikerjakan sistem perangkat lunak dan batasan pengembangan
perangkat lunak.
2.
Pengembangan (Development), yaitu : pengembangan perangkat lunak untuk
menghasilkan perangat lunak.
3.
Validasi (Validation) yaitu : memeriksa apakah perangkat lunak sudah
memenuhi kebutuhan pelanggan (custumer).
4.
Evolusi (Evolution) mengubah perangkat lunak untuk memenuhi perubahan
kebutuhan pelanggan (custumer). (Rosa A.S, M. Shalahuddin; 2011: 9).
2.4 Kecerdasan Buatan
Kecerdasan buatan berasal dari bahasa Inggris “Artificial Intelligence” disingkat
AI, yaitu intelliegence adalah kata sifat yang berarti cerdas, sedangkan artificial
artinya buatan. Kecerdasan buatan yang dimaksud disini merujuk pada mesin
Universitas Sumatera Utara
18
yang mampu berfikir, menimbang tindakan yang akan diambil, dan mampu
mengambil keputusan seperti yang dilakukan oleh manusia.
Berdasarkan defenisi ini, maka kecerdasan buatan menawarkan media
maupun uji teori tentang kecerdasan.Teori-teori ini nantinya dapat dinyatakan
dalam bahasa pemrograman dan eksekusinya dapat dibuktikan pada komputer
nyata.
Program konvensional hanya dapat menyelesaikan persoalan yang
diprogram secara spesifik.Jika ada informasi baru, sebuah program konvensional
harus diubah untuk menyesuaikan diri dengan informasi tersebut.Hal ini tidak
hanya menyebabkan boros waktu, namun juga dapat menyebabkan terjadinya
error. Sebaliknya, kecerdasan buatan memungkinkan komputer untuk berfikir atau
menalar dan menirukan proses belajar manusia sehingga informasi baru dapat
diserap sebagai pengetahuan, pengalaman, dan proses pembelajaran serta dapat
digunakan sebagai acuan di masa-masa yang akan datang. Dari sini dapat
dikatakan bahwa : cerdas adalah memiliki pengetahuan, pengalaman dan
penalaran untuk membuat keputusan dan mengambil tindakan. Jadi, agar mesin
bisa cerdas (bertidak seperti manusia) maka harus diberi bekal pengetahuan dan
diberi kemampuan untuk menalar (T. Sutojo, dkk; 2011: 1-3).
2.5 Penambangan Data (Data Mining)
Data mining (penambangan data) adalah suatu proses untuk menemukan suatu
pengetahuan atau informasi yang berguna dari data berskala besar. Sering juga
disebut segabai bagian proses KDD (Knowledge Discovery in Databases).
(Santosa,2007).
Data mining adalah bagian dari proses KDD (Knowledge Discovery in
Database) yang terdiri dari beberapa tahapan seperti pemilihan data, prapengolahan, transformasi, data mining, dan interpretasi hasil. (Opim, 2008: 10).
Universitas Sumatera Utara
19
Data mining adalah suatu istilah yang digunakan untuk menguraikan
penemuan pengetahuan di dalam database. Data mining adalah proses yang
menggunankan teknik statistik, matematika, kecerdasan buatan dan machine
learning untukmengekstraksi dan mengindentifikasi informasi yang bermanfaat
dan pengetahuan yang terkait dari berbagai database besar`(Turban, dkk. 2005).
Menurut Gartner Group data mining adalah suatu proses menemukan
hubungan yang berarti, pola, dan kecendrungan dengan memeriksa dalam
sekumpulan besar data yang tersimpan dalam penyimanan dengan menggunakan
teknik pengenalan pola teknik statistik dan matematika.(Larose. 2005).
Selain defenisi diatas beberapa defenisi juga diberikan seperti tertera di
bawah ini : “data mining adalah serangkaian proses untuk menggali nilai tambah
dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui
secara manual.” (Pramudiono, 2006).
“Data mining adalah analisis otomatis dari data berjumlahbesar atau
komplek dengan tujuan untuk menemukan pola atau kecendrungan yang penting
yang biasanya tidak disadari keberadaannya.”(Pramudiono, 2006).
“Data mining merupakan bidang dari beberapa bidang keilmuan yang
menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database,
dan visualisasi untuk penanganan permasalahan pengambilan informasi dari
database yang besar.” (Larose, 2005).
Data mining adalah mengenai pemecahan masalah dengan menganalisa
data yang ada di dalam database dan sering juga didefinisikan sebagai proses
menemukan pola dalam data, dimana proses tersebut harus otomatis atau semiotomatis dan pola yang ditemukan harus bermakna (Chakrabarti, et al., 2009).
Dari defenisi-defenisi yang telah disampaikan, hal penting yang terkait dengan
data mining adalah :
1. Data mining merupakan suatu proses otomatis terhadap data yang sudah ada.
2. Data yang akan diproses berupa data yang sangat besar.
Universitas Sumatera Utara
20
3. Tujuan data mining adalah mendapatkan hubungan atau pola yang mungkin
memberikan indikasi yang bermanfaat.
Hubungan yang dicari dalam data mining dapat berupa hubungan antara
dua atau lebih dalam satu dimensi. Misalnya dalam dimensi produk kita dapat
melihat keterkaitan pembelian suatu produk dengan produk yang lain. Selain itu,
hubungan juga dapat dilihat antara dua atau lebih atribut dan dua atau lebih objek
(Ponniah, 2001).
Sementara itu, penemuan pola merupakan keluaran lain dari data mining.
Misalkan sebuah perusahaan yang akan meningkatkan fasilitas kartu kredit dari
pelanggan, maka perusahaan akan mencari pola dari pelanggan-pelanggan yang
ada untuk mengetahui pelanggan yang potensial dan pelanggan yang tidak
potensial.
Beberapa dari defenisi awal dari data mining mnyertakan fokus pada
proses otomatisasi. Bery dan Linoff dalam buku Data Mining Technique For
Marketing, Sales, and Cusstomers Support mendefenisikan data mining sebagai
proses ekplorasi dan analisis secara otomatis maupun semiotomatis terhadap data
dalam jumlah besar dengan tujuan menemukan pola atau aturan yang berarti
(Larose, 2005).
Istilah data mining dan knowledge discovery in database (KDD) sering
kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi
tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut
memiliki konsep berbeda, tetapi berkaitan satu sama lain. Dalam salah satu
tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara
garis besar dapat dijelaskan sebagai berikut (Fayyad, 1996).
1. Data selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan
sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi
yang akan digunakan utuk proses data mining, disimpan dalam suatu berkas,
terpisah dari basis data operasional.
2. Pre-processing/ Cleaning
Universitas Sumatera Utara
21
Sebelum proses data mining dapat dilaksakan, perlu dilakukan proses
cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup
antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan
memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga
dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah
ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD,
seperti data atau informasi eksternal.
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data
tersebut sesuai dengan proses data mining. Proses coding dalam KDD
merupakan proses kreatif dan sangat tergantung pada jenis atau pola
informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data
terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode
atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau
algoritma yang tepat sangat tergantung pada tujuan dan proses KDD secara
keseluruhan.
5. Interpretation/Evaluation
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan
dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap
ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini
mencakup pemeriksaan apakah pola atau informasi yang ditemukan
bertentangan dengan fakta atau hipotesis yang ada sebelumnya.
Cros-Industry Standart Process For Data Mining (CRISP-DM) yang
dikembangakan tahun 1996 oleh analisis dari beberapa industri seperti
DaimlerChrysler, SPSS dan NCR. CRISP DM menyediakan standar proses data
mining sebagai strategi pemecahan masalah secara umum dari bisnis atau unit
penelitian.
Universitas Sumatera Utara
22
Dalam CRISP DM, sebuah proyek data mining memiliki siklus hidup yang
terbagi dalam enam fase. Keseluruhan fase berurutan yang ada tersebut bersifat
adaptif.Fase berikutnya dalam urutan bergantung pada keseluruhan dari fase
sebelumnya.Hubungan penting antarfase digambarkan dengan panah. Sebagai
contoh, jika proses berada pada fase modeling. Bedasarkan pada perilaku dan
karakteristik model, proses mungkin harus kembali kepada fase data preparation
untuk perbaikan lebih lanjut terhadap data atau perpindahan maju kepada fase
evaluation.
Enam fase CRISP DM (Larose, 2005)
1. Fase Pemahaman Bisnis (Business Understanding Phase)
a. Menentukan tujuan proyek dan kebutuhan secara detail dalam lingkuo
bisnis atau unit penelitian secara keseluruhan.
b. Menerjemahkan
tujuan
dan
batasan
menjadi
formula
dari
permasalahan data mining.
c. Menyiapkan strategi awal untuk mencapai tujuan.
2. Fase Pemahaman Data (Data Understanding Phase)
a. Mengumpulakan data.
b. Menggunkan analisis penyelidikan data untuk mengenali lebih lanjut
data dan pencarian pengetahuan awal.
c. Mengevaluasi kualitas data.
d. Jika diinginkan, pilih sebagian grup data yang mungkin mengandung
pola dari permasalahan.
3. Fase Pengolahan Data (Data Preperation Phase)
a. Siapkan dari data awal, kumpulan data yang akan digunakan untuk
keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang
perlu dilaksakan secara intensif.
b. Pilih kasus dari variabel yang ingin dianalisis dan yang sesuai dengann
analisis yang aka dilakukan.
c. Lakukan perubahan pada beberapa variabel jika dibutuhkan.
d. Siapkan data awal sehingga siap untuk perangkat pemodelan.
Universitas Sumatera Utara
23
4. Fase Pemodelan (Modelling Phase)
a. Pilih dan aplikasikan teknik pemodelan yang sesuai.
b. Kalibrasi aturan model untuk menoptimalkan hasil.
c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan
pada permasalahan data mining yang sama.
d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk
menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi
kebutuhan teknik data mining tertentu.
5. Fase Evaluasi (Evaluation Phase)
a. Mengevaluasi satu atau lebih model yang digunakan dalam fase
pemodelan untuk mendapatkan kualitas dan efektivitas sebelum
disebarkan untuk digunakan.
b. Menetapkan apakah model yang memenuhi tujuan pada fase awal.
c. Menetukan apakah permasalahan penting ari bisnis atau penelitian
yang tidak tertangani dengan baik.
d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data
mining.
6. Fase Penyebaran ( Deployment Phase)
a. Menggunakan model yang dihasilkan. Terbentuknya model tidak
menandakan telah terselesaikannya proyek.
b. Contoh sederhana penyebaran : Pembuatan lapoaran.
c. Contoh kompleks penyebaran : Penerapan proses data mining secara
paralel pada departemen lain.
2.5.1 Tahapan Penambangan Data (Data mining)
Penambangan data (data mining) dipahami sebagai suatu proses, yang memiliki
tahapan - tahapan tertentu yang bersifat interaktif dan juga ada umpan balik dari
setiap tahapan sebelumnya. (Kusnawi, 2007).
Universitas Sumatera Utara
24
Gambar 2.1.Tahap-tahap penambangan data.( Han, J., et al,2006)
Tahap – tahap tersebut, bersifat interaktif dimana pemakai terlibat
langsung atau dengan perantaraan knowledge base.
1. Pembersihan data
2. Integrasi data
3. Transformasi data
4. Aplikasi teknik penambangan data (data mining)
5. Evaluasi pola yang ditemukan
6. Presentasi pengetahuan
2.5.2 Pengelompkan Data Mining
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat
dilakukan, yaitu (Larose, 2005).
1. Deskripsi
Universitas Sumatera Utara
25
Terkadang peneliti dan analis secara sederhana ingin mencoba mancari cara
untuk menggambarkan pola dan kecendrungan yang terdapat dalam data.
Deskripsi dari pola dan kecendrungan sering memberikan kemungkinan
penjelasan untuk suatu pola atau kecendrungan.
2. Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi
lebih ke arah numerik dari pada ke arah kategori.
3. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam
prediksi nilai ari hasil akan ada di masa mendatang.
4. Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori.
5. Pengklusteran
Pengklusteran merupakan pengelompokkan record, pengamatan, atau
memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.
6. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul
dalam satu waktu.
2.6
Clustering
Clustering
adalah
suatu
metode
pengelompokan
berdasarkan
ukuran
kedekatan(kemiripan).Clustering berbeda dengan group, kalau group berarti
kelompok yang samakondisinya kalau tidak ya pasti bukan kelompoknya.Tetapi
kalau cluster tidak harus sama akan tetapi pengelompokannya berdasarkan pada
kedekatan dari suatu karakteristik sample yang ada, salah satunya dengan
menggunakan rumus jarak euclidean.Aplikasinya cluster ini sangat banyak,
Universitas Sumatera Utara
26
karena hampir dalam mengidentifikasi permasalahan atau pengambilan keputusan
selalu tidak sama persis akan tetapi cenderung memiliki kemiripan saja. (Edi
satriyanto, M,Si)
Clustering adalah suatu alat
untuk analisa
data,
yangmemecahkan
permasalahan penggolongan.(http://www.bandmservices.com)
Clustering berarti penyatuan sekelompok data yang mempunyai korelasi atau
karakteristik
sejenis
atau
dengan
kata
lain
mempunyai
kemiripan
(http:www//bestbuydoc.com).
2.7 K-Means
K-Means merupakan algoritma clustering yang berulang. Algoritma K-Means
dimulai dengan pemilihan secara acak K, K disini merupakan banyaknya cluster
yang ingin dibentuk kemudian tetapkan nilai-nilai K secara acak, untuk sementara
nilai tersebut menjadi pusat dari cluster atau biasa disebut dengan centroid, mean
atau “means” hitung jarak setiap data yang ada terhadap masing-masing centroid
menggunakan rumus Euclidean hingga ditemukan jarak yang paling dekat dari
setiap data dengan centroid. Klasifikasikan setiap data berdasarkan kedekatannya
dengan
centroid.
Lakukan
langkah
tersebut
hingga
nilai
centroid
stabil.(Rismawan, 2008).
Sebagai gambaran, akan diambil contoh kasus berikut : anda diberi data
tentang 8 nasabah yang pernah memperoleh kredit dari Bank Bhatara Putra. Selain
itu, data mereka menyangkut jumlah rumah dan jumlah mobil yang mereka miliki
data lengkapnya sebagai berikut :
Universitas Sumatera Utara
27
Tabel 2.1 Sampel Data
Nasabah
A
B
C
D
E
F
G
H
Jumlah Rumah
1
3
4
5
1
4
1
2
Jumlah Mobil
3
3
3
3
2
2
1
1
Kita akan menerapkan algoritma K-Means pada data di atas. Adapun langkahlangkah pada algoritma K-Means adalah sebagai berikut :
1. Tentukan K.
2. Pilih K buah catatan dari sekian catatan yang ada sebagai pusat kelompok
awal (mi)
3. Untuk langkah ke – 3 ini lakukan :
a. Untuk setiap catatan, tentukan pusat kelompok terdekatnya dan
tetapkan catatan tersebut sebagai kelompok anggota dari kelompok
yang terdekat pusat kelompoknya.
b. Hitung BCV ( Between Cluster Variation ) = Jarak Antar Cluster
c. Hitung WCV( Within cluster Variation ) = Jarak antara anggota
dalam Cluster.
d. rasio =
BCV
WCV
e. Bandingkan rasio tersebut dengan rasio sebelumnya jika sudah ada,
jika rasio tersebut nilainya semakin besar maka lanjutkan ke
langkah ke -4, namun jika tidak hentikan prosesnya.
4. Perbaharui pusat-pusat kelompok (bedasarkan kelompok yang di dapat
dari langkah ke – 3) dan kembalilah ke langkah ke-3.
Implementasi dari algoritma k-means untuk kasus di atas adalah sebagai
berikut ini :
1) K = 3
Universitas Sumatera Utara
28
2) B  m1 = (3,3)
E  m2 = (1,2)
F  m3.= (4,2)
3) Iterasi 1
A  C1=
1−3
1−1
C2 =
2
+ 3−3
2
+ 3−2
2
2
=
−2
=
0
C3 = 1 − 4 2 + 3 − 2 2 =
−3
2
2
+ 1
2
2
+ 0
+ 1
2
= 4=2
= 1=1
2
= 10 = 3,162
Dari hasil tersebut diperoleh tabel iterasi 1 sebagai berikut :
Tabel 2.2 Tabel Iterasi 1
Catatan
C1
C2
C3
Jarak Terdekat
A
2
1
3,162
C2
B
0
2,236
1,414
C1
C
1
3,162
1
C3
D
2
4,123
1,414
C3
E
2,236
0
3
C2
F
1,414
3
0
C3
G
2,828
1
3,162
C2
H
2,236
1,414
2,236
C2
Dari tabel iterasi 1
C1 = B  (3,3)
C2 = A,E,G,H
= (1,3), (1,2), (1,1), (2,1)
C3 =.C, D, F
Universitas Sumatera Utara
29
= (4,3), (15,3), (4,2)

Hitung BCV
BCV = d (m1, m2) + d (m2, m3) + d (m1,m3)
=
3−1
=
2
2
2
+ 3 − 2 2+
+ 1
2
+
−3
1−4
2
+ 0
2
2
+ 2 − 2 2+
+
−1
2
+ 1
3−4
2
+ 3−2
2
2
= 5+ 9+ 2
= 2,263 + 3 + 1,414
= 6,650

Hitung WCV (diambil dari jarak terdekat)
A  C2 = 1
B  C1 = 0
C  C3 = 1
D  C3 = 1,414
E  C2 = 0
F  C3 = 0
G  C2 =1
H  C2 = 1,414
WCV = (1)2 + (0)2 + (1)2 + (1,414)2 +(0)2 + (0)2 + (1)2 + (1,414)2
= 1 + 0 + 1 + 1,999 + 0 + 0 + 1 +1,999 = 6,998
*Rasio =
BCV
WCV
Universitas Sumatera Utara
30
=
6,650
= 0,950
6,998
4) m1 rata-rata C1 (mB) = (3,3)
m2 rata-rata C2 (mA, mE, mG, mH)
(1,3) ; (1,2) ; (1,1) ; (2,1)


1+1+1+2
∶
4
3+2+1+1
4
5 7
:
4 4
(1,25 ; 1,75)
m3rata-rata C3 (mC, mD, mF)
(4,3) ; (5,3) ; (4,2)


(4+5+4)
3
∶
(3+3+2)
3
13 8
3
:
3
(4,333 ; 2,666)
5) A  C1 =
=
1−3
−2
2
2
+ 3−3
+ 0
2
2
= 4 =2
Universitas Sumatera Utara
31
C2 =
1 − 1,25
2
=
0,25
=
0,062
2
+ 3 − 1,75
+ 1,25
2
2
2
+ 1,562
2
= 1,624 = 1,274
C3= dst…
Dari hasil tersebut diperoleh tabel iterasi 2 sebagai berikut :
Tabel 2.3 Tabel Iterasi 2
Catatan
C1
C2
C3
A
B
C
D
E
F
G
H
2
0
1
2
2,236
1,414
2,828
2,236
1,275
1,768
3,021
3,953
0,354
2,813
0,791
1,061
3,350
1,374
0,471
0,745
3,399
0,745
3,727
2,867
Jarak
Terdekat
C2
C1
C3
C3
C2
C3
C2
C2
Dari tabel iterasi 2
C1 = B
C2 = A,E,G,H
C3 =.C, D, F
= (4,3), (15,3), (4,2)
*Hitung BCV
BCV = d (m1, m2) + d (m2, m3) + d (m1,m3)
Universitas Sumatera Utara
32
= (3 − 1,25)2 + (3 − 1,75)2 + (3 − 4,333)2 + (3 − 2,666)2 +
(1,25 − 4,333)2 + (1,75 − 2,666)2
= (1,75)2 + (1,25)2 + (−1,333)2 + (0,334)2 +
(−3,083)2 + (−0,916)2
= 6,714
*Hitung WCV (diambil dari jarak terdekat)
WCV = sama
= 4,833
*Rasio =
BCV
= 1,394
WCV
* Rasio ke-2 (1,394) lebih besar dari rasio ke 1 (0,950) sehingga proses
dilanjutkan ke iterasi ke -3
6) m1 rata-rata (mB) = (3,3)
m2 rata-rata (mA, mE, mG, mH)
(1,25 ; 1,75)
m3rata-rata (mC, mD, mF)
(4,333 ; 2,667)
Dari hasil tersebut diperoleh tabel iterasi 3 sebagai berikut :
Universitas Sumatera Utara
33
Tabel 2.4 Tabel Iterasi 3
Catatan
C1
C2
C3
Jarak Terdekat
A
2
1,275
3,350
C2
B
0
1,768
1,374
C1
C
1
3,021
0,471
C3
D
2
3,953
0,745
C3
E
2,236
0,354
3,399
C2
F
1,414
2,813
0,745
C3
G
2,828
0,791
3,727
C2
H
2,236
1,061
2,867
C2
Dari tabel iterasi 3
C1 = B
C2 = A,E,G,H
C3 =.C, D, F
*Hitung BCV
BCV = 6,741
*Hitung WCV
WCV = 4,833
*Rasio =
BCV
= 1,394
WCV
Universitas Sumatera Utara
34
Rasio 3 tidak lagi lebih besar nilainya dari rasio 2 sehingga algoritma
dihentikan (Susanto; 2010 : 81-92).
2.8 Penelitian Terdahulu
Pada penulisan skripsi ini digunakan beberapa penelitian terdahulu yang berkaitan
dengan skripsi ini:
Tabel 2.5.Penelitian Terdahulu
No Pengarang
1
Gerben W.
Judul
Keterangan
Predicting students drop
Menyebutkan bahwa monitoring
Dekker, 2009 out: a case study
dan dukunganterhadap mahasiswa
di tahun pertama sangat penting
dilakukan.
teknik
Mahasiswa
elektro
Eindhovenyang
jurusan
Universitas
berhenti
studi
pada tahun pertama mencapai
hingga 40%. Kurikulum yang sulit
dianggap
penyebab
sebagai
salah
tingginya
satu
jumlah
mahasiswa drop out. Selain itu,
nilai, prestasi, kepribadian, latar
belakang sosial mempunyai peran
dalam
kesuksesan
akademik
mahasiswa. Dekker menggunakan
algoritma Decision tree, Bayesian
Universitas Sumatera Utara
35
classifiers, logistic models,
rule-based learner dan random
forest.
Dalam penelitian ini, dilakukan
analisis
komparasi
empat
algoritma klasifikasi data mining
yaitu logistic regression,decision
tree, naïve bayes dan neural
network
dengan
menggunakan
3681 data set mahasiswa yang
terdiri atas datademografi dan
akademik
mahasiswa
sehingga
dapat diketahui algoritma yang
paling akurat untuk memprediksi
mahasiswa non-aktif.
2
Md.
An Approach of
Dalam
penelitianini
mereka
Hedayetul
Improving Student’s
menggunakan proses data mining
Islam
Academic Performance
dalam
Shovon,
by using K-means
menggunakan algoritma k-means
Mahfuza
clustering algorithm and
clustering
dan
Haque, 2012
Decision tree
keputusan
untuk
database
siswa
teknik
pohon
memprediksi
kegiatan belajar siswa. Mereka
berharap bahwa informasi yang
dihasilkan
teknik
setelah
penerapan
pertambangan
dan
pengelompokan data data dapat
membantu untuk instruktur serta
bagi
siswa.
meningkatkan
Karya
ini
kinerja
dapat
siswa,
mengurangi rasio gagal dengan
Universitas Sumatera Utara
36
mengambil langkah yang tepat
pada waktu yang tepat untuk
meningkatkan kualitas pendidikan.
Untuk pekerjaan di masa depan,
kami berharap dapat memperbaiki
teknik
kam
kanoutput
iuntuk
lebih
mendapat
berharga
dan
akurat, berguna untuk instruktur
untuk meningkatkan hasil belajar
siswa.
3
Bhise
R.B., Importance of Data
Dalam studi ini mereka membuat
Thorat S.S., Mining in Higher
penggunaan proses data mining
Supekar
dalam
A.K., 2013
Education System
database
siswa
menggunakan K-means algoritma
untuk memprediksi hasil siswa.
Mereka berharap bahwa informasi
yang
dihasilkan
pelaksanaan
setelah
data
Teknik
pertambangan dapat
membantu
untuk instruktur serta bagi siswa.
Untuk pekerjaan di masa depan
mereka
mendefinisikan
teknik
mereka untuk mendapatkan output
yang lebih berharga dan akurat
yang berguna instruktur untuk
meningkatkan hasil belajar siswa.
Beberapa perangkat lunak yang
berbeda
mungkin
akan
memanfaatkan
sementara
pada
kadang-kadang
berbagai
faktor
Universitas Sumatera Utara
37
akan digunakan.
4
Eko
Wahyudi,
Nur Analisa Profil Data
Mahasiswa Baru
Berdasarkan analisa profil data
mahasiswa baru terhadap program
Arief Jananto terhadap Program Studi
studi yang dipilih di perguruan
dan Narwati, yang dipilih di
tinggi swasta jawa tengah dengan
2011
Perguruan Tinggi
menggunakan teknik data mining
Swasta Jawa Tengah
maka dapat disimpulkan bahwa :
dengan Menggunakan
Teknik Data Mining
1. Data mining dengan teknik
klustering pada data
mahasiswa baru pada PTS
di lingkungan Kopertis
Wilayah VI Jawa Tengah
berdasarkan jumlah
mahasiswa yang
melakukan registrasi
menghasilkan informasi
mengenai kelompok
bidang ilmu dan program
studi mulai dari jumlah
yang paling banyak hingga
jumlah yang paling sedikit
2. Hasil
klastering
menunjukkan
beberapa
bahwa
bidang
ilmu
mempunyai dominasi yang
cukup
tinggi
terhadap
minat masuk mahasiswa
baru,
namun
demikian
tidak semua program studi
yang ada pada bidang ilmu
Universitas Sumatera Utara
38
yang
dominan
meraih
jumlah mahasiswa
banyak,
hanya
yang
beberapa
program studi saja yang
memiliki dominasi yang
cukup tinggi sesuai hasil
klaster pada bidang ilmu
3. Trend
minat
terhadap
mahasiswa
bidang
ilmu
cukup signifikan terhadap
program
studi
yang
dipilihnya
5
Ahmad Yusuf,
Hari
dan
Ginardi Perangkat Lunak
Isye Prediktor Nilai
Arieshanti,
2012
Pengembangan
Mahasiswa
Menggunakan Metode
Berdasarkan hasil penelitian yang
telah dilakukan,terdapat beberapa
kesimpulan yang dapat diambil,
yaitu:
1. Perangkat
lunak
Spectral Clustering dan
dikembangkan
Bagging Regresi Linier
algoritma
dengan
Spectral
Clustering
yang
mendukung
Bootstrap
Regresi
yang
algoritma
Aggregating
Linier
mampu
terbukti
melakukan
prediksi nilai mahasiswa.
Hal ini terlihat dari nilai
kesalahan RMSE sekitar
0.05 – 0.08 dari dataset
yang digunakan.
2. Pada
uji
coba
yang
Universitas Sumatera Utara
39
dilakukan, perangkat lunak
yang
memanfaatkan
algoritma
Spectral
Clustering
yang
mendukung
Bootstrap
Aggregating Regresi Linier
memiliki performa yang
lebih
baik
jika
dibandingkan
perangkat
dengan
lunak
yang
menggunakan algoritma KMeans Clustering.
3. Parameter jumlah cluster
yang
tidak
tepat
menyebabkan
dapat
kesalahan
hasil prediksi yang cukup
tinggi.
4. Dari
uji
coba
yang
dilakukan, jumlah atribut
prediktor
yang
lebih
banyak dapat menghasilkan
hasil prediksi menjadi lebih
baik.
2.9 Visual Basic.Net
Microsoft
Visual
Basic.Net
merupakan
bagian
dari
kelompok
bahasa
pemrograman Visual Studio yang dikembangkan oleh Microsoft.Visual Studio
terdiri dari beberapa bahasa pemrograman diantaranya adalah Microsoft Visual
Basic.Net, Microsoft Visual C#.Net, Microsoft Visual C++.Net, dan lain-lain.
Universitas Sumatera Utara
40
Visual Studio ini telah mengalami perubahan versi mulai dari Visual
Studio 6.0, Visual Studio 2005, Visual Studio 2006, Visual Studio 2008, Visual
Studio 2010. Visual Studio 2011, dan Visual Studio 2012.
Microsoft Visual Basic.Net memiliki kelebihan-kelebihan yaitu suport
dengan bahasa queryLanguange- Integreted Query (LINQ) dan suport dengan
database Microsoft SQL Server. Selain itu, kelebihan lain adalah memiliki Object
Relation Designer (O/R Designer) untuk membantu mengedit LINQ ke SQL
dihubungkan dengan database dan fiture lain, seperti WPF (Windows
Presentation Foundation) dan WCF (Windows Communication Foundation).
Semua hal yang baru tersebut di atas menambah kelengkapan aplikasi Microsoft
Visual Basic.Net dalam membuat media dan dokumen. (Raharjo, Budi ; 2011)
Microsoft Visual Basic.Net menggunakan teknologi .Netyang didasarkan
atas susunan berupa .NetFramework, sehingga setiap produk baru yang terkait
dengan teknologi .Netakan selalu berkembang mengikuti perkembangan .Net
Framwork-nya. Pada perkembangan nantinya, mungkin untuk membuat program
dengan teknologi .Net, dan memungkinkan para pengembang perangkat lunak
akan dapat menggunakan lintas sistem operasi, yaitu dapat dikembangkan di
sistem operasi Windows juga dapat dijalankan pada sistem operasi Linux, seperti
yang telah dilakukan pada pemrograman Java oleh Sun Microsystem. Pada saat ini
perusahaan-perusahaan sudah banyak meng-update aplikasi yang lama yang
dibuat dengan Microsoft Visual Basic 6.0 ke teknologi.Net karena kelebihankelebihan yang ditawarkan, terutama memungkinkan pengembang perangkat
lunak secara cepat mampu membuat program yang robust, serta berbasiskan
intergrasi ke internet yang dikenal dengan XML Web Service. (Ketut Darmayuda ;
Pemrograman Aplikasi Database dengan Microsoft Visual Basic .Net 2008 ; 2009
:1-2).
Universitas Sumatera Utara
Download