14 BAB II LANDASAN TEORI Bab ini membahas teori penunjang yang berhubungan dengan penerapan metode clustering pada sistem pengelompokan mahasiswa potensial drop out. 2.1 Perangkat Lunak Perangkat Lunak (software) adalah program komputer yang terasosiasi dengan dokumentasi perangkat lunak seperti dokumentasi kebutuhan, model desain, dan cara penggunaan (user manual). Sebuah program komputer tanpa terasosiasi dengan dokumentasinya maka belum dapat dikatakan perangkat lunak (software). Karakter perangkat lunak adalah sebagai berikut : 1. Perangkat lunak dibangun dengan rekayasa (software engineering) bukan diproduksi secara manufaktur atau pabrikan. 2. Perangkat lunak tidak pernah usang (wear out) karena kecacatan dalam perangkat lunak dapat diperbaiki. 3. Barang produksi pabrikan biasanya komponen barunya akan terus diproduksi, sedangkan perangkat lunak biasanya terus diperbaiki seiring bertambahnya kebutuhan. Aplikasi dari perangkat lunak adalah sebagai berikut : 1. Perangkat lunak sistem (system software) Universitas Sumatera Utara 15 Adalah kumpulan program dimana program yang satu ditulis untuk memenuhi kebutuhan program lainnya. 2. Perangkat lunak waktu nyata (real time software) Merupakan perangkat lunak yang memonitor, menganalisis, mengontrol sesuatu secara waktu nyata (real time).Reaksi yang dibutuhkan pada perangkat lunak harus langsung menghasilkan respon yang diinginkan. 3. Perangkat lunak bisnis (business software) Merupakan perangkat lunak pengelola informasi bisnis (seperti akuntansi, penjualan, pembayaran, dan penyimpanan (inventory)). 4. Perangkat lunak untuk keperluan rekayasa dan keilmuan (engineering and scientific software) Merupakan perangkat lunak yang mengimplementasikan algoritma yang terkait dengan keilmuan ataupun perangkat lunak yang membantu keilmuan, misalkan perangkat lunak di bidang astronomi, di bidang matematika, dan lain sebagainya. 5. Perangkat lunak tambahan untuk membantu mengerjakan suatu fungsi dari perangkat lunak yang lainnya (embedded software) Misalnya perangkat lunak untuk mencetak dokumen ditambahkan agar perangkat lunak yang memerlukan dapat mencetak laporan, maka perangkat lunak untuk mencetak dokumen ini disebut embedded software. 6. Perangkat lunak komputer personal (personal computer software) Merupakan perangkat lunak untuk PC misalnya perangkat lunak pemroses teks, pemroses grafik, dan lain sebagainya. 7. Perangkat lunak berbasis web (web based software) Merupakan perangkat lunak yang dapat diakses dengan menggunakan web browser. 8. Perangkat lunak intelijensia buatan (artificial intelligence software) Merupakan perangkat lunak yang menggunakan algoritma tertentu untuk mengelola data sehingga seakan-akan memiliki intelijensia seiring bertambahnya data yang diproses. Universitas Sumatera Utara 16 Produk perangkat lunak yang dibuat oleh pengembang (developer) perangkat lunak terdiri dari dua jenis : 1. Produk Generik Produk perangkat lunak yang dibuat oleh pengembang perangkat lunak untuk dijual atau dipopulerkan (open source) tanpa ada yang memesan terlebih dahulu, perangkat lunak yang termasuk dalam produk generik misalnya perangkat lunak sistem operasi, perangkat lunak pendukung perkantoran untuk membuat dokumen, slide presentasi, atau perhitungan dalam bentuk papersheet dan lain sebagainya. 2. Produk Pemesanan Produk perangkat lunak yang dibuat karena ada pelanggan yang melakukan pemesanan, misalnya sebuah instansi memerlukan perangkat lunak untuk memenuhi proses bisnis yang terjadi di instansinya, maka instansi itu akan bekerja sama dengan pengembang untuk membuat perangkat lunak yang diinginkan. (Rosa A.S, M. Shalahuddin; 2011: 2-4) 2.2 Rekayasa Perangkat Lunak Rekayasa Perangkat Lunak (software engineering) merupakan pembangunan dengan menggunakan prinsip atau konsep rekayasa dengan tujuan menghasilkan perangkat lunak yang bernilai ekonomi yang dipercaya dan bekerja secara efisien menggunakan mesin. Perangkat lunak banyak dibuat dan pada akhirnya sering tidak digunakan karena tidak memenuhi kebutuhan pelanggan atau bahkan karena masalah non-teknis seperti keengganan pemakai perangkat lunak (user) untuk mengubaha cara kerja dari manual ke otomatis, atau ketidakmampuan user menggunakan komputer. Oleh karena itu, rekayasa perangkat lunak dibutuhkan agar perangkat lunak yang dibuat tidak hanya menjadi perangkat lunak yang tidak terpakai. Rekayasa perangkat lunak lebih fokus pada bagaimana membuat perangkat lunak yang memenuhi kriteria berikut : Universitas Sumatera Utara 17 1. Dapat terus dipelihara setelah perangkat lunak selesai dibuat seiring berkembangnya teknologi dan lingkungan (maintainability). 2. Dapat diandalkan dengan proses bisnis yang dijalankan dan perubahan yang terjadi (dependability dan robust). 3. Efisien dari segi sumber daya dan penggunaan. 4. Kemampuan untuk dipakai sesuai denga kebutuhan (usability) (Rosa A.S, M. Shalahuddin; 2011: 4-5). 2.3 Proses Rekayasa Perangkat Lunak Proses perangkat lunak (software process) adalah sekumpulan aktivitas yang memiliki tujuan mengembangkan atau mengubah perangkat lunak. Secara umum proses perangkat lunak terdiri dari : 1. Pengumpulan Spesifikasi (Specification), yaitu : mengetahui apa saja yang harus dapat dikerjakan sistem perangkat lunak dan batasan pengembangan perangkat lunak. 2. Pengembangan (Development), yaitu : pengembangan perangkat lunak untuk menghasilkan perangat lunak. 3. Validasi (Validation) yaitu : memeriksa apakah perangkat lunak sudah memenuhi kebutuhan pelanggan (custumer). 4. Evolusi (Evolution) mengubah perangkat lunak untuk memenuhi perubahan kebutuhan pelanggan (custumer). (Rosa A.S, M. Shalahuddin; 2011: 9). 2.4 Kecerdasan Buatan Kecerdasan buatan berasal dari bahasa Inggris “Artificial Intelligence” disingkat AI, yaitu intelliegence adalah kata sifat yang berarti cerdas, sedangkan artificial artinya buatan. Kecerdasan buatan yang dimaksud disini merujuk pada mesin Universitas Sumatera Utara 18 yang mampu berfikir, menimbang tindakan yang akan diambil, dan mampu mengambil keputusan seperti yang dilakukan oleh manusia. Berdasarkan defenisi ini, maka kecerdasan buatan menawarkan media maupun uji teori tentang kecerdasan.Teori-teori ini nantinya dapat dinyatakan dalam bahasa pemrograman dan eksekusinya dapat dibuktikan pada komputer nyata. Program konvensional hanya dapat menyelesaikan persoalan yang diprogram secara spesifik.Jika ada informasi baru, sebuah program konvensional harus diubah untuk menyesuaikan diri dengan informasi tersebut.Hal ini tidak hanya menyebabkan boros waktu, namun juga dapat menyebabkan terjadinya error. Sebaliknya, kecerdasan buatan memungkinkan komputer untuk berfikir atau menalar dan menirukan proses belajar manusia sehingga informasi baru dapat diserap sebagai pengetahuan, pengalaman, dan proses pembelajaran serta dapat digunakan sebagai acuan di masa-masa yang akan datang. Dari sini dapat dikatakan bahwa : cerdas adalah memiliki pengetahuan, pengalaman dan penalaran untuk membuat keputusan dan mengambil tindakan. Jadi, agar mesin bisa cerdas (bertidak seperti manusia) maka harus diberi bekal pengetahuan dan diberi kemampuan untuk menalar (T. Sutojo, dkk; 2011: 1-3). 2.5 Penambangan Data (Data Mining) Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau informasi yang berguna dari data berskala besar. Sering juga disebut segabai bagian proses KDD (Knowledge Discovery in Databases). (Santosa,2007). Data mining adalah bagian dari proses KDD (Knowledge Discovery in Database) yang terdiri dari beberapa tahapan seperti pemilihan data, prapengolahan, transformasi, data mining, dan interpretasi hasil. (Opim, 2008: 10). Universitas Sumatera Utara 19 Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunankan teknik statistik, matematika, kecerdasan buatan dan machine learning untukmengekstraksi dan mengindentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar`(Turban, dkk. 2005). Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecendrungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimanan dengan menggunakan teknik pengenalan pola teknik statistik dan matematika.(Larose. 2005). Selain defenisi diatas beberapa defenisi juga diberikan seperti tertera di bawah ini : “data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.” (Pramudiono, 2006). “Data mining adalah analisis otomatis dari data berjumlahbesar atau komplek dengan tujuan untuk menemukan pola atau kecendrungan yang penting yang biasanya tidak disadari keberadaannya.”(Pramudiono, 2006). “Data mining merupakan bidang dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk penanganan permasalahan pengambilan informasi dari database yang besar.” (Larose, 2005). Data mining adalah mengenai pemecahan masalah dengan menganalisa data yang ada di dalam database dan sering juga didefinisikan sebagai proses menemukan pola dalam data, dimana proses tersebut harus otomatis atau semiotomatis dan pola yang ditemukan harus bermakna (Chakrabarti, et al., 2009). Dari defenisi-defenisi yang telah disampaikan, hal penting yang terkait dengan data mining adalah : 1. Data mining merupakan suatu proses otomatis terhadap data yang sudah ada. 2. Data yang akan diproses berupa data yang sangat besar. Universitas Sumatera Utara 20 3. Tujuan data mining adalah mendapatkan hubungan atau pola yang mungkin memberikan indikasi yang bermanfaat. Hubungan yang dicari dalam data mining dapat berupa hubungan antara dua atau lebih dalam satu dimensi. Misalnya dalam dimensi produk kita dapat melihat keterkaitan pembelian suatu produk dengan produk yang lain. Selain itu, hubungan juga dapat dilihat antara dua atau lebih atribut dan dua atau lebih objek (Ponniah, 2001). Sementara itu, penemuan pola merupakan keluaran lain dari data mining. Misalkan sebuah perusahaan yang akan meningkatkan fasilitas kartu kredit dari pelanggan, maka perusahaan akan mencari pola dari pelanggan-pelanggan yang ada untuk mengetahui pelanggan yang potensial dan pelanggan yang tidak potensial. Beberapa dari defenisi awal dari data mining mnyertakan fokus pada proses otomatisasi. Bery dan Linoff dalam buku Data Mining Technique For Marketing, Sales, and Cusstomers Support mendefenisikan data mining sebagai proses ekplorasi dan analisis secara otomatis maupun semiotomatis terhadap data dalam jumlah besar dengan tujuan menemukan pola atau aturan yang berarti (Larose, 2005). Istilah data mining dan knowledge discovery in database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep berbeda, tetapi berkaitan satu sama lain. Dalam salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut (Fayyad, 1996). 1. Data selection Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan utuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional. 2. Pre-processing/ Cleaning Universitas Sumatera Utara 21 Sebelum proses data mining dapat dilaksakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal. 3. Transformation Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai dengan proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data. 4. Data mining Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat tergantung pada tujuan dan proses KDD secara keseluruhan. 5. Interpretation/Evaluation Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya. Cros-Industry Standart Process For Data Mining (CRISP-DM) yang dikembangakan tahun 1996 oleh analisis dari beberapa industri seperti DaimlerChrysler, SPSS dan NCR. CRISP DM menyediakan standar proses data mining sebagai strategi pemecahan masalah secara umum dari bisnis atau unit penelitian. Universitas Sumatera Utara 22 Dalam CRISP DM, sebuah proyek data mining memiliki siklus hidup yang terbagi dalam enam fase. Keseluruhan fase berurutan yang ada tersebut bersifat adaptif.Fase berikutnya dalam urutan bergantung pada keseluruhan dari fase sebelumnya.Hubungan penting antarfase digambarkan dengan panah. Sebagai contoh, jika proses berada pada fase modeling. Bedasarkan pada perilaku dan karakteristik model, proses mungkin harus kembali kepada fase data preparation untuk perbaikan lebih lanjut terhadap data atau perpindahan maju kepada fase evaluation. Enam fase CRISP DM (Larose, 2005) 1. Fase Pemahaman Bisnis (Business Understanding Phase) a. Menentukan tujuan proyek dan kebutuhan secara detail dalam lingkuo bisnis atau unit penelitian secara keseluruhan. b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan data mining. c. Menyiapkan strategi awal untuk mencapai tujuan. 2. Fase Pemahaman Data (Data Understanding Phase) a. Mengumpulakan data. b. Menggunkan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal. c. Mengevaluasi kualitas data. d. Jika diinginkan, pilih sebagian grup data yang mungkin mengandung pola dari permasalahan. 3. Fase Pengolahan Data (Data Preperation Phase) a. Siapkan dari data awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksakan secara intensif. b. Pilih kasus dari variabel yang ingin dianalisis dan yang sesuai dengann analisis yang aka dilakukan. c. Lakukan perubahan pada beberapa variabel jika dibutuhkan. d. Siapkan data awal sehingga siap untuk perangkat pemodelan. Universitas Sumatera Utara 23 4. Fase Pemodelan (Modelling Phase) a. Pilih dan aplikasikan teknik pemodelan yang sesuai. b. Kalibrasi aturan model untuk menoptimalkan hasil. c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama. d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu. 5. Fase Evaluasi (Evaluation Phase) a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektivitas sebelum disebarkan untuk digunakan. b. Menetapkan apakah model yang memenuhi tujuan pada fase awal. c. Menetukan apakah permasalahan penting ari bisnis atau penelitian yang tidak tertangani dengan baik. d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining. 6. Fase Penyebaran ( Deployment Phase) a. Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek. b. Contoh sederhana penyebaran : Pembuatan lapoaran. c. Contoh kompleks penyebaran : Penerapan proses data mining secara paralel pada departemen lain. 2.5.1 Tahapan Penambangan Data (Data mining) Penambangan data (data mining) dipahami sebagai suatu proses, yang memiliki tahapan - tahapan tertentu yang bersifat interaktif dan juga ada umpan balik dari setiap tahapan sebelumnya. (Kusnawi, 2007). Universitas Sumatera Utara 24 Gambar 2.1.Tahap-tahap penambangan data.( Han, J., et al,2006) Tahap – tahap tersebut, bersifat interaktif dimana pemakai terlibat langsung atau dengan perantaraan knowledge base. 1. Pembersihan data 2. Integrasi data 3. Transformasi data 4. Aplikasi teknik penambangan data (data mining) 5. Evaluasi pola yang ditemukan 6. Presentasi pengetahuan 2.5.2 Pengelompkan Data Mining Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2005). 1. Deskripsi Universitas Sumatera Utara 25 Terkadang peneliti dan analis secara sederhana ingin mencoba mancari cara untuk menggambarkan pola dan kecendrungan yang terdapat dalam data. Deskripsi dari pola dan kecendrungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecendrungan. 2. Estimasi Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik dari pada ke arah kategori. 3. Prediksi Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai ari hasil akan ada di masa mendatang. 4. Klasifikasi Dalam klasifikasi, terdapat target variabel kategori. 5. Pengklusteran Pengklusteran merupakan pengelompokkan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. 6. Asosiasi Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. 2.6 Clustering Clustering adalah suatu metode pengelompokan berdasarkan ukuran kedekatan(kemiripan).Clustering berbeda dengan group, kalau group berarti kelompok yang samakondisinya kalau tidak ya pasti bukan kelompoknya.Tetapi kalau cluster tidak harus sama akan tetapi pengelompokannya berdasarkan pada kedekatan dari suatu karakteristik sample yang ada, salah satunya dengan menggunakan rumus jarak euclidean.Aplikasinya cluster ini sangat banyak, Universitas Sumatera Utara 26 karena hampir dalam mengidentifikasi permasalahan atau pengambilan keputusan selalu tidak sama persis akan tetapi cenderung memiliki kemiripan saja. (Edi satriyanto, M,Si) Clustering adalah suatu alat untuk analisa data, yangmemecahkan permasalahan penggolongan.(http://www.bandmservices.com) Clustering berarti penyatuan sekelompok data yang mempunyai korelasi atau karakteristik sejenis atau dengan kata lain mempunyai kemiripan (http:www//bestbuydoc.com). 2.7 K-Means K-Means merupakan algoritma clustering yang berulang. Algoritma K-Means dimulai dengan pemilihan secara acak K, K disini merupakan banyaknya cluster yang ingin dibentuk kemudian tetapkan nilai-nilai K secara acak, untuk sementara nilai tersebut menjadi pusat dari cluster atau biasa disebut dengan centroid, mean atau “means” hitung jarak setiap data yang ada terhadap masing-masing centroid menggunakan rumus Euclidean hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid. Klasifikasikan setiap data berdasarkan kedekatannya dengan centroid. Lakukan langkah tersebut hingga nilai centroid stabil.(Rismawan, 2008). Sebagai gambaran, akan diambil contoh kasus berikut : anda diberi data tentang 8 nasabah yang pernah memperoleh kredit dari Bank Bhatara Putra. Selain itu, data mereka menyangkut jumlah rumah dan jumlah mobil yang mereka miliki data lengkapnya sebagai berikut : Universitas Sumatera Utara 27 Tabel 2.1 Sampel Data Nasabah A B C D E F G H Jumlah Rumah 1 3 4 5 1 4 1 2 Jumlah Mobil 3 3 3 3 2 2 1 1 Kita akan menerapkan algoritma K-Means pada data di atas. Adapun langkahlangkah pada algoritma K-Means adalah sebagai berikut : 1. Tentukan K. 2. Pilih K buah catatan dari sekian catatan yang ada sebagai pusat kelompok awal (mi) 3. Untuk langkah ke – 3 ini lakukan : a. Untuk setiap catatan, tentukan pusat kelompok terdekatnya dan tetapkan catatan tersebut sebagai kelompok anggota dari kelompok yang terdekat pusat kelompoknya. b. Hitung BCV ( Between Cluster Variation ) = Jarak Antar Cluster c. Hitung WCV( Within cluster Variation ) = Jarak antara anggota dalam Cluster. d. rasio = BCV WCV e. Bandingkan rasio tersebut dengan rasio sebelumnya jika sudah ada, jika rasio tersebut nilainya semakin besar maka lanjutkan ke langkah ke -4, namun jika tidak hentikan prosesnya. 4. Perbaharui pusat-pusat kelompok (bedasarkan kelompok yang di dapat dari langkah ke – 3) dan kembalilah ke langkah ke-3. Implementasi dari algoritma k-means untuk kasus di atas adalah sebagai berikut ini : 1) K = 3 Universitas Sumatera Utara 28 2) B m1 = (3,3) E m2 = (1,2) F m3.= (4,2) 3) Iterasi 1 A C1= 1−3 1−1 C2 = 2 + 3−3 2 + 3−2 2 2 = −2 = 0 C3 = 1 − 4 2 + 3 − 2 2 = −3 2 2 + 1 2 2 + 0 + 1 2 = 4=2 = 1=1 2 = 10 = 3,162 Dari hasil tersebut diperoleh tabel iterasi 1 sebagai berikut : Tabel 2.2 Tabel Iterasi 1 Catatan C1 C2 C3 Jarak Terdekat A 2 1 3,162 C2 B 0 2,236 1,414 C1 C 1 3,162 1 C3 D 2 4,123 1,414 C3 E 2,236 0 3 C2 F 1,414 3 0 C3 G 2,828 1 3,162 C2 H 2,236 1,414 2,236 C2 Dari tabel iterasi 1 C1 = B (3,3) C2 = A,E,G,H = (1,3), (1,2), (1,1), (2,1) C3 =.C, D, F Universitas Sumatera Utara 29 = (4,3), (15,3), (4,2) Hitung BCV BCV = d (m1, m2) + d (m2, m3) + d (m1,m3) = 3−1 = 2 2 2 + 3 − 2 2+ + 1 2 + −3 1−4 2 + 0 2 2 + 2 − 2 2+ + −1 2 + 1 3−4 2 + 3−2 2 2 = 5+ 9+ 2 = 2,263 + 3 + 1,414 = 6,650 Hitung WCV (diambil dari jarak terdekat) A C2 = 1 B C1 = 0 C C3 = 1 D C3 = 1,414 E C2 = 0 F C3 = 0 G C2 =1 H C2 = 1,414 WCV = (1)2 + (0)2 + (1)2 + (1,414)2 +(0)2 + (0)2 + (1)2 + (1,414)2 = 1 + 0 + 1 + 1,999 + 0 + 0 + 1 +1,999 = 6,998 *Rasio = BCV WCV Universitas Sumatera Utara 30 = 6,650 = 0,950 6,998 4) m1 rata-rata C1 (mB) = (3,3) m2 rata-rata C2 (mA, mE, mG, mH) (1,3) ; (1,2) ; (1,1) ; (2,1) 1+1+1+2 ∶ 4 3+2+1+1 4 5 7 : 4 4 (1,25 ; 1,75) m3rata-rata C3 (mC, mD, mF) (4,3) ; (5,3) ; (4,2) (4+5+4) 3 ∶ (3+3+2) 3 13 8 3 : 3 (4,333 ; 2,666) 5) A C1 = = 1−3 −2 2 2 + 3−3 + 0 2 2 = 4 =2 Universitas Sumatera Utara 31 C2 = 1 − 1,25 2 = 0,25 = 0,062 2 + 3 − 1,75 + 1,25 2 2 2 + 1,562 2 = 1,624 = 1,274 C3= dst… Dari hasil tersebut diperoleh tabel iterasi 2 sebagai berikut : Tabel 2.3 Tabel Iterasi 2 Catatan C1 C2 C3 A B C D E F G H 2 0 1 2 2,236 1,414 2,828 2,236 1,275 1,768 3,021 3,953 0,354 2,813 0,791 1,061 3,350 1,374 0,471 0,745 3,399 0,745 3,727 2,867 Jarak Terdekat C2 C1 C3 C3 C2 C3 C2 C2 Dari tabel iterasi 2 C1 = B C2 = A,E,G,H C3 =.C, D, F = (4,3), (15,3), (4,2) *Hitung BCV BCV = d (m1, m2) + d (m2, m3) + d (m1,m3) Universitas Sumatera Utara 32 = (3 − 1,25)2 + (3 − 1,75)2 + (3 − 4,333)2 + (3 − 2,666)2 + (1,25 − 4,333)2 + (1,75 − 2,666)2 = (1,75)2 + (1,25)2 + (−1,333)2 + (0,334)2 + (−3,083)2 + (−0,916)2 = 6,714 *Hitung WCV (diambil dari jarak terdekat) WCV = sama = 4,833 *Rasio = BCV = 1,394 WCV * Rasio ke-2 (1,394) lebih besar dari rasio ke 1 (0,950) sehingga proses dilanjutkan ke iterasi ke -3 6) m1 rata-rata (mB) = (3,3) m2 rata-rata (mA, mE, mG, mH) (1,25 ; 1,75) m3rata-rata (mC, mD, mF) (4,333 ; 2,667) Dari hasil tersebut diperoleh tabel iterasi 3 sebagai berikut : Universitas Sumatera Utara 33 Tabel 2.4 Tabel Iterasi 3 Catatan C1 C2 C3 Jarak Terdekat A 2 1,275 3,350 C2 B 0 1,768 1,374 C1 C 1 3,021 0,471 C3 D 2 3,953 0,745 C3 E 2,236 0,354 3,399 C2 F 1,414 2,813 0,745 C3 G 2,828 0,791 3,727 C2 H 2,236 1,061 2,867 C2 Dari tabel iterasi 3 C1 = B C2 = A,E,G,H C3 =.C, D, F *Hitung BCV BCV = 6,741 *Hitung WCV WCV = 4,833 *Rasio = BCV = 1,394 WCV Universitas Sumatera Utara 34 Rasio 3 tidak lagi lebih besar nilainya dari rasio 2 sehingga algoritma dihentikan (Susanto; 2010 : 81-92). 2.8 Penelitian Terdahulu Pada penulisan skripsi ini digunakan beberapa penelitian terdahulu yang berkaitan dengan skripsi ini: Tabel 2.5.Penelitian Terdahulu No Pengarang 1 Gerben W. Judul Keterangan Predicting students drop Menyebutkan bahwa monitoring Dekker, 2009 out: a case study dan dukunganterhadap mahasiswa di tahun pertama sangat penting dilakukan. teknik Mahasiswa elektro Eindhovenyang jurusan Universitas berhenti studi pada tahun pertama mencapai hingga 40%. Kurikulum yang sulit dianggap penyebab sebagai salah tingginya satu jumlah mahasiswa drop out. Selain itu, nilai, prestasi, kepribadian, latar belakang sosial mempunyai peran dalam kesuksesan akademik mahasiswa. Dekker menggunakan algoritma Decision tree, Bayesian Universitas Sumatera Utara 35 classifiers, logistic models, rule-based learner dan random forest. Dalam penelitian ini, dilakukan analisis komparasi empat algoritma klasifikasi data mining yaitu logistic regression,decision tree, naïve bayes dan neural network dengan menggunakan 3681 data set mahasiswa yang terdiri atas datademografi dan akademik mahasiswa sehingga dapat diketahui algoritma yang paling akurat untuk memprediksi mahasiswa non-aktif. 2 Md. An Approach of Dalam penelitianini mereka Hedayetul Improving Student’s menggunakan proses data mining Islam Academic Performance dalam Shovon, by using K-means menggunakan algoritma k-means Mahfuza clustering algorithm and clustering dan Haque, 2012 Decision tree keputusan untuk database siswa teknik pohon memprediksi kegiatan belajar siswa. Mereka berharap bahwa informasi yang dihasilkan teknik setelah penerapan pertambangan dan pengelompokan data data dapat membantu untuk instruktur serta bagi siswa. meningkatkan Karya ini kinerja dapat siswa, mengurangi rasio gagal dengan Universitas Sumatera Utara 36 mengambil langkah yang tepat pada waktu yang tepat untuk meningkatkan kualitas pendidikan. Untuk pekerjaan di masa depan, kami berharap dapat memperbaiki teknik kam kanoutput iuntuk lebih mendapat berharga dan akurat, berguna untuk instruktur untuk meningkatkan hasil belajar siswa. 3 Bhise R.B., Importance of Data Dalam studi ini mereka membuat Thorat S.S., Mining in Higher penggunaan proses data mining Supekar dalam A.K., 2013 Education System database siswa menggunakan K-means algoritma untuk memprediksi hasil siswa. Mereka berharap bahwa informasi yang dihasilkan pelaksanaan setelah data Teknik pertambangan dapat membantu untuk instruktur serta bagi siswa. Untuk pekerjaan di masa depan mereka mendefinisikan teknik mereka untuk mendapatkan output yang lebih berharga dan akurat yang berguna instruktur untuk meningkatkan hasil belajar siswa. Beberapa perangkat lunak yang berbeda mungkin akan memanfaatkan sementara pada kadang-kadang berbagai faktor Universitas Sumatera Utara 37 akan digunakan. 4 Eko Wahyudi, Nur Analisa Profil Data Mahasiswa Baru Berdasarkan analisa profil data mahasiswa baru terhadap program Arief Jananto terhadap Program Studi studi yang dipilih di perguruan dan Narwati, yang dipilih di tinggi swasta jawa tengah dengan 2011 Perguruan Tinggi menggunakan teknik data mining Swasta Jawa Tengah maka dapat disimpulkan bahwa : dengan Menggunakan Teknik Data Mining 1. Data mining dengan teknik klustering pada data mahasiswa baru pada PTS di lingkungan Kopertis Wilayah VI Jawa Tengah berdasarkan jumlah mahasiswa yang melakukan registrasi menghasilkan informasi mengenai kelompok bidang ilmu dan program studi mulai dari jumlah yang paling banyak hingga jumlah yang paling sedikit 2. Hasil klastering menunjukkan beberapa bahwa bidang ilmu mempunyai dominasi yang cukup tinggi terhadap minat masuk mahasiswa baru, namun demikian tidak semua program studi yang ada pada bidang ilmu Universitas Sumatera Utara 38 yang dominan meraih jumlah mahasiswa banyak, hanya yang beberapa program studi saja yang memiliki dominasi yang cukup tinggi sesuai hasil klaster pada bidang ilmu 3. Trend minat terhadap mahasiswa bidang ilmu cukup signifikan terhadap program studi yang dipilihnya 5 Ahmad Yusuf, Hari dan Ginardi Perangkat Lunak Isye Prediktor Nilai Arieshanti, 2012 Pengembangan Mahasiswa Menggunakan Metode Berdasarkan hasil penelitian yang telah dilakukan,terdapat beberapa kesimpulan yang dapat diambil, yaitu: 1. Perangkat lunak Spectral Clustering dan dikembangkan Bagging Regresi Linier algoritma dengan Spectral Clustering yang mendukung Bootstrap Regresi yang algoritma Aggregating Linier mampu terbukti melakukan prediksi nilai mahasiswa. Hal ini terlihat dari nilai kesalahan RMSE sekitar 0.05 – 0.08 dari dataset yang digunakan. 2. Pada uji coba yang Universitas Sumatera Utara 39 dilakukan, perangkat lunak yang memanfaatkan algoritma Spectral Clustering yang mendukung Bootstrap Aggregating Regresi Linier memiliki performa yang lebih baik jika dibandingkan perangkat dengan lunak yang menggunakan algoritma KMeans Clustering. 3. Parameter jumlah cluster yang tidak tepat menyebabkan dapat kesalahan hasil prediksi yang cukup tinggi. 4. Dari uji coba yang dilakukan, jumlah atribut prediktor yang lebih banyak dapat menghasilkan hasil prediksi menjadi lebih baik. 2.9 Visual Basic.Net Microsoft Visual Basic.Net merupakan bagian dari kelompok bahasa pemrograman Visual Studio yang dikembangkan oleh Microsoft.Visual Studio terdiri dari beberapa bahasa pemrograman diantaranya adalah Microsoft Visual Basic.Net, Microsoft Visual C#.Net, Microsoft Visual C++.Net, dan lain-lain. Universitas Sumatera Utara 40 Visual Studio ini telah mengalami perubahan versi mulai dari Visual Studio 6.0, Visual Studio 2005, Visual Studio 2006, Visual Studio 2008, Visual Studio 2010. Visual Studio 2011, dan Visual Studio 2012. Microsoft Visual Basic.Net memiliki kelebihan-kelebihan yaitu suport dengan bahasa queryLanguange- Integreted Query (LINQ) dan suport dengan database Microsoft SQL Server. Selain itu, kelebihan lain adalah memiliki Object Relation Designer (O/R Designer) untuk membantu mengedit LINQ ke SQL dihubungkan dengan database dan fiture lain, seperti WPF (Windows Presentation Foundation) dan WCF (Windows Communication Foundation). Semua hal yang baru tersebut di atas menambah kelengkapan aplikasi Microsoft Visual Basic.Net dalam membuat media dan dokumen. (Raharjo, Budi ; 2011) Microsoft Visual Basic.Net menggunakan teknologi .Netyang didasarkan atas susunan berupa .NetFramework, sehingga setiap produk baru yang terkait dengan teknologi .Netakan selalu berkembang mengikuti perkembangan .Net Framwork-nya. Pada perkembangan nantinya, mungkin untuk membuat program dengan teknologi .Net, dan memungkinkan para pengembang perangkat lunak akan dapat menggunakan lintas sistem operasi, yaitu dapat dikembangkan di sistem operasi Windows juga dapat dijalankan pada sistem operasi Linux, seperti yang telah dilakukan pada pemrograman Java oleh Sun Microsystem. Pada saat ini perusahaan-perusahaan sudah banyak meng-update aplikasi yang lama yang dibuat dengan Microsoft Visual Basic 6.0 ke teknologi.Net karena kelebihankelebihan yang ditawarkan, terutama memungkinkan pengembang perangkat lunak secara cepat mampu membuat program yang robust, serta berbasiskan intergrasi ke internet yang dikenal dengan XML Web Service. (Ketut Darmayuda ; Pemrograman Aplikasi Database dengan Microsoft Visual Basic .Net 2008 ; 2009 :1-2). Universitas Sumatera Utara