Muhammad Ihsan Evaldy (2013210046) [email protected] KONSEP DATA MINING ABSTRAK Pertumbuhan yang pesat dari akumulasi data telah menciptakan kondisi kaya akan data tapi minim informasi. Data mining merupakan penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data dalam jumlah besar yang diharapkan dapat mengatasi kondisi tersebut. Dengan memanfaatkan data induk mahasiswa dan data kelulusan mahasiswa, diharapkan dapat menghasilkan informasi tentang tingkat kelulusan dengan data induk mahasiswa melalui teknik data mining. Kategori tingkat kelulusan di ukur dari lama studi dan IPK. Algoritma yang digunakan adalah algoritma apriori, informasi yang ditampilkan berupa nilai support dan confidence dari masing-masing kategori tingkat kelulusan. Kata kunci : data mining, algoritma apriori, tingkat kelulusan, data induk mahasiswa BAB I PENDAHULUAN I. 1. Latar Belakang Dengan kemajuan teknologi informasi dewasa ini, kebutuhan akan informasi yang akurat sangat dibutuhkan dalam kehidupan sehari-hari, sehingga informasi akan menjadi suatu elemen penting dalam perkembangan masyarakat saat ini dan waktu mendatang. Namun kebutuhan informasi yang tinggi kadang tidak diimbangi dengan penyajian informasi yang memadai, sering kali informasi tersebut masih harus di gali ulang dari data yang jumlahnya sangat besar. Kemampuan teknologi informasi untuk mengumpulkan dan menyimpan berbagai tipe data jauh meninggalkan kemampuan untuk menganalisis, meringkas dan mengekstrak pengetahuan dari data. Metode tradisional untuk menganalisis data yang ada, tidak dapat menangani data dalam jumlah besar. Pemanfaatan data yang ada di dalam sistem informasi untuk menunjang kegiatan pengambilan keputusan, tidak cukup hanya mengandalkan data operasional saja, diperlukan suatu analisis data untuk menggali potensi-potensi informasi yang ada. Para pengambil keputusan berusaha untuk memanfaatkan gudang data yang sudah dimiliki untuk menggali informasi yang berguna membantu mengambil keputusan, hal ini mendorong munculnya cabang ilmu baru untuk mengatasi masalah penggalian informasi atau pola yang penting atau menarik dari data dalam jumlah besar, yang disebut dengan data mining. Penggunaan teknik data mining diharapkan dapat memberikan pengetahuan-pengetahuan yang sebelumnya tersembunyi di dalam gudang data sehingga menjadi informasi yang berharga. I. 3. Tujuan dan Manfaat Tujuan yang ingin dicapai dari pelaksanaan dan penulisan tugas akhir ini adalah menghasilkan aplikasi untuk mendapatkan informasi yang berguna tentang tingkat kelulusan mahasiswa dengan teknik data mining. Adapun beberapa manfaat yang diharapkan dibahas mengenai pembangunan data pada pembuatan tugas akhir ini adalah: warehouse sederhana yang dibangun untuk memenuhi kebutuhan dari proses data 1. Bagi Penulis mining. Data warehouse yang dibangun bukan merupakan data warehouse yang Penulis dapat lebih mengetahui cara menyimpan seluruh data transaksional, menerapkan ilmu-ilmu yang telah dipelajari hanya merupakan data warehouse yang selama ini dalam merancang dan membuat menunjang aplikasi sistem dengan teknik data mining, sehingga serta sebagai syarat dalam memperoleh gelar disesuaikan dengan kebutuhan data mining. sarjana komputer. Pembahasan juga dibatasi pada bagaimana pembangunan data dan data mining, formatnya pun menghasilkan aplikasi yang menerapkan 2. Bagi Fakultas MIPA teknik data mining guna menghasilkan informasi hubungan tingkat kelulusan Diharapkan dengan adanya aplikasi ini dapat dengan data induk mahasiswa. Dalam tugas membantu menyajikan informasi tentang akhir ini tidak membahas pada hasil proses hubungan tingkat kelulusan dengan data data mining dan analisis hasil yang keluar. induk mahasiswa. Pihak fakultas dapat Pembahasan juga hanya pada Program mengetahui tingkat kelulusan mahasiswanya Sarjana (S1) reguler di Fakultas MIPA dan mengetahui faktor yang mempengaruhi Universitas Diponegoro secara umum. Data tingkat kelulusan. yang diambil adalah data mahasiswa untuk Program Sarjana (S1) reguler di Fakultas I. 4. Batasan Masalah MIPA Universitas Diponegoro. Data induk Pada tugas akhir ini, pembahasan dibatasi mahasiswa adalah atribut yang melekat pada pada menyajikan informasi tentang tingkat mahasiswa seperti nama, NIM (Nomor kelulusan mahasiswa dengan teknik data Induk Mahasiswa), alamat, asal sekolah, dan mining. Informasi yang ditampilkan berupa lain-lain. Tingkat kelulusan di ukur dari nilai support dan confidence hubungan lama studi dan IPK. Dalam Penulisan tugas antara tingkat kelulusan dengan data induk akhir ini, lama studi dan IPK mengacu pada mahasiswa. Dalam penulisan tugas akhir ini peraturan akademik tahun 2009 nomor : tidak membahas pada sistem pendukung 364/PER/H7/2009 tanggal 24 Juli 2009. keputusan Lama maupun sistem informasi studi dikategorikan berdasarkan akademik. Dalam membangun data mining peraturan akademik BAB I pasal 1 ayat 2, membutuhkan suatu data warehouse, oleh sedangkan IPK dikategorikan berdasarkan karena itu dalam pembahasan tugas akhir ini predikat kelulusan yang diatur dalam peraturan akademik BAB IV pasal 19 ayat 1. rumusan masalah, tujuan penelitian, manfaat Implementasi program menggunakan SQL penelitian, batasan masalah, dan sistematika Server 2005 dan Visual Studio 2010 dengan penulisan. bahasa pemrograman Visual Basic. I. 5. Metode Pengambilan Data Metode yang digunakan dalam pengumpulan data adalah sebagai berikut : 1. Metode Pengamatan Langsung Melakukan pengamatan langsung ke bagian Akademik Fakultas MIPA untuk mendapatkan data yang dibutuhkan. 2. Metode Wawancara Mengadakan wawancara dengan pihakpihak yang berkaitan langsung dengan permasalahan yang sedang dibahas pada tugas akhir ini untuk memperoleh gambaran dan penjelasan secara mendasar. 3. Metode Studi Pustaka Merupakan sumber yang dapat dijadikan rujukan dari sumber data atau literatur– literatur. 4. Metode Browsing Melakukan pengumpulan rujukan yang bersumber dari internet. I. 6. Sistematika Penulisan Sistematika dari penulisan tugas sarjana ini adalah sebagai berikut : BAB I PENDAHULUAN Pada bab ini dijelaskan mengenai latar belakang permasalahan, bentuk multidimensi yang mempunyai BAB II DASAR TEORI data Bab ini menjelaskan tentang dasar teori yang digunakan dalam penyusunan tugas akhir ini. Dijelaskan pengertian tentang data mining beserta macam-macamnya, selain itu juga dijelaskan tentang data wareouse, database serta analisis yang rinci. memfasilitasi Sehingga dapat efektif data secara generalization dan data mining. Banyak metode-metode data mining yang lain seperti asosiasi, klasifikasi, prediksi, dan clustering, dapat diintegrasikan dengan operasi OLAP untuk meningkatkan proses mining yang interaktif dari beberapa level perancangan perangkat lunak. dari abstraksi. Oleh karena itu data warehouse menjadi platform yang penting II. 1. Data warehouse Data warehouse adalah sebuah sistem yang mengambil dan menggabungkan data secara periodik dari sistem sumber data ke penyimpanan data bentuk dimensional atau normal (Rainardi, 2008). Data warehouse merupakan penyimpanan data yang berorientasi mempunyai objek, variant terintegrasi, waktu, dan menyimpan data dalam bentuk nonvolatile sebagai pendukung manejemen dalam proses pengambilan keputusan (Han, 2006). Data warehouse menyatukan dan menggabungkan data dalam bentuk multidimensi. Pembangunan data warehouse meliputi pembersihan data, penyatuan data dan transformasi data dan dapat dilihat sebagai praproses yang penting untuk digunakan dalam data mining. Selain itu data warehouse mendukung On-line Analitycal Processing (OLAP), sebuah kakas yang digunakan untuk menganalisis secara interaktif dari untuk data analisis dan OLAP untuk dapat menyediakan platform yang efektif untuk proses data mining. Empat karakteristik dari data warehouse meliputi : 1. Subject oriented : sebuah data warehouse disusun dalam subjek utama, seperti pelanggan, suplier, produk, dan sales. Meskipun data warehouse terkonsentrasi pada operasi harian dan proses transaksi dalam perusahaan, data warehouse fokus pada pemodelan dan analisis data untuk pembuat keputusan. Oleh karena itu data warehouse mempunyai karakter menyediakan secara singkat dan sederhana gambaran seputar subjek lebih detail yang dibuat dari data luar yang tidak berguna dalam proses pendukung keputusan. 2. Integrated : Data warehouse biasanya dibangun dari bermacam-macam sumber yang berbeda, seperti database relasional, flat files, dan on-line transaction records. Pembersihan dan penyatuan data diterapkan untuk menjamin konsistensi dibaca dalam penamaan, struktur kode, ukuran sedangkan data store yang disimpan ETL atribut, dan yang lainnya. disebut target. Proses pengubahan data 3. Time Variant : data disimpan untuk digunakan agar data sesuai dengan format menyajikan informasi dari sudut pandang dan kriteria, atau sebagai validasi data dari masa lampau (misal 5 – 10 tahun yang source system. Proses ETL tidak hanya lalu). Setiap struktur kunci dalam data menyimpan data ke data warehouse, tetapi warehouse mempunyai elemen waktu baik juga digunakan untuk berbagai proses secara implisit maupun eksplisit pemindahan 4. Nonvolatile : sebuah data warehouse mempunya secara fisik selalu disimpan terpisah dari membersihkan data dari source system data aplikasi operasional. Penyimpanan sebelum yang terpisah ini, data warehouse tidak Pembersihan memerlukan proses transaksi, recovery dan identifikasi dan koreksi data yang kotor. mekanisme Proses pengendalian konkurensi. ETL disebut data. data Kebanyakan mekanisme disimpan data pembersihan source, ke untuk warehouse. merupakan ini ETL proses menerapkan Biasanya hanya membutuhkan dua operasi aturan-aturan tertentu yang mendefinisikan dalam akses data yaitu initial load of data data bersih. dan access of data Dari pengertian tersebut, sebuah data Berdasarkan siapa yang memindahkan warehouse merupakan penyimpanan data data, ETL dapat dibedakan menjadi empat tetap sebagai implementasi fisik dari seperti yang dapat dilihat pada gambar 2.1, pendukung keputusan model data. Data yaitu : warehouse juga biasanya dilihat sebagai arsitektur, pembangunan dan penyatuan 1. Proses ETL menarik data keluar dengan data dari bermacam macam sumber data query tertentu di source system database yang berbeda untuk mendukung struktur secara periodik. dan atau query tertentu, laporan analisis, dan pembuatan keputusan (Han, 2006). 2. Triggers pada source system mendorong Extract, (ETL) data keluar. Triggers adalah Suatu SQL merupakan sebuah sistem yang dapat statement yang dijalankan setiap ada membaca data dari suatu data store, perintah insert, update, atau delete dalam merubah bentuk data, dan menyimpan ke tabel. transform, dan load data store yang lain. Data store yang 3. Penjadwalan proses dalam source Dengan kata lain, jika data dalam source system untuk mengekspor data secara system berubah, perubahan ini dilakukan periodik. Hal ini mirip dengan proses yang juga ke dalam data warehouse. Hal ini pertama namun query disimpan dalam data dapat source. trigger dalam source system. dilakukan dengan penggunaan 4. Sebuah log reader yang bertugas membaca log dalam source system untuk mengidentifikasi perubahan data. Log reader merupakan program yang membaca log file. Setelah dibaca, kemudian data dipindahkan keluar ke tempat penyimpanan yang lain. A. ETL dijalankan dalam server terpisah diantara source system dan data warehouse sistem. Pendekatan ini menghasilkan kinerja tinggi, ETL berjalan di server sendiri, sehingga tidak menggunakan sumber daya dari data warehouse server atau data source server. Namun hal ini lebih mahal karena harus menambah server lagi. tempat dijalankan Tidak semua data warehouse mempunyai komponen lengkap seperti mekanisme kualitas data, database multidimensi, aplikasi analisis, aplikasi pengguna, control sistem, audit sistem, metadata. B. ETL dijalankan dalam data warehouse server. Pendekatan ini dapat digunakan jika mempunyai kapasitas lebih dalam data warehouse server atau jika mempunyai iddle time ketika data warehouse tidak digunakan (misal pada waktu malam). Pendekatan ini lebih murah dibandingkan pendekatan Gambar 2.2 Kategori ETL berdasarkan pertama karena tidak membutuhkan tambahan server. C. ETL dijalankan pada server data source. Pendekatan ini diimplementasikan ketika membutuhkan real time data warehousing. II. 2. Pengertian Data Mining Secara sederhana data mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar (Davies, 2004). Data mining juga disebut sebagai serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data (Pramudiono, 2007). Data mining, sering juga disebut sebagai knowledge discovery in database (KDD). KDD adalah kegiatan • Data mining biasa menggunakan data yang meliputi pengumpulan, pemakaian yang sangat besar. Biasanya data yang data, besar digunakan untuk membuat hasil historis untuk menemukan keteraturan, pola atau hubungan dalam set lebih dipercaya. data berukuran besar (Santoso, 2007). Data • Data mining berguna untuk membuat mining adalah kegiatan menemukan pola keputusan yang kritis, terutama dalam yang menarik dari data dalam jumlah strategi (Davies, 2004). besar, data dapat disimpan dalam database, data warehouse, atau penyimpanan informasi lainnya. Data mining berkaitan dengan bidang ilmu – ilmu lain, seperti database system, data warehousing, statistik, machine learning, information retrieval, dan komputasi tingkat tinggi. Selain itu, data mining didukung oleh ilmu lain seperti neural network, pengenalan pola, spatial data analysis, image database, signal processing (Han, 2006). Data mining didefinisikan sebagai proses menemukan pola-pola dalam data. Proses ini otomatis atau seringnya semiotomatis. Pola yang ditemukan harus penuh arti dan pola tersebut memberikan keuntungan, biasanya keuntungan secara ekonomi. Data yang dibutuhkan dalam jumlah besar (Witten, 2005). Karakteristik data mining Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya. ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Beberapa metode yang sering disebutsebut dalam literatur data mining antara lain clustering, classification, association algorithm Data bidang rules mining, neural network, genetic sebagai berikut • dari dan lain-lain (Pramudiono, 2007). II. 3. Pengenalan Pola, Data Mining, dan Machine Learning Pengenalan pola adalah suatu disiplin ilmu yang mempelajari cara-cara mengklasifikasikan obyek ke beberapa kelas atau kategori dan mengenali interaktif, pemakai terlibat langsung atau kecenderungan data. Tergantung pada dengan perantaraan knowledge base. aplikasinya, obyek-obyek ini bisa berupa Tahap-tahap data mining ada 6 yaitu : pasien, mahasiswa, pemohon kredit, image atau signal atau pengukuran lain yang 1. Pembersihan data (data cleaning) perlu diklasifikasikan atau dicari fungsi Pembersihan regresinya (Santoso, 2007). Data mining, menghilangkan noise dan data yang tidak sering juga disebut knowledge discovery konsisten atau data tidak relevan. Pada in database (KDD), adalah kegiatan yang umumnya data yang diperoleh, baik dari meliputi pengumpulan, pemakaian data database suatu perusahaan maupun hasil historis untuk menemukan keteraturan, eksperimen, memiliki isian-isian yang pola atau hubungan dalam set data tidak sempurna seperti data yang hilang, berukuran besar. Keluaran dari data data yang tidak valid atau juga hanya mining ini bisa dipakai untuk memperbaiki sekedar salah ketik. Selain itu, ada juga pengambilan keputusan di masa depan. atribut-atribut data yang tidak relevan Sehingga istilah pattern recognition jarang dengan digunakan karena termasuk bagian dari dimiliki. Data-data yang tidak relevan itu data mining (Santoso, 2007). Machine juga lebih baik dibuang. Pembersihan data Learning adalah suatu area dalam artificial juga akan mempengaruhi performasi dari intelligence atau kecerdasan buatan yang teknik data mining karena data yang berhubungan ditangani akan berkurang jumlah dan dengan pengembangan teknik-teknik yang bisa diprogramkan dan data hipotesa merupakan data proses mining yang kompleksitasnya. belajar dari data masa lalu. Pengenalan pola, data mining dan machine learning 2. Integrasi data (data integration) sering dipakai untuk menyebut sesuatu Integrasi data merupakan penggabungan yang sama. Bidang ini bersinggungan data dari berbagai database ke dalam satu dengan ilmu probabilitas dan statistik database baru. Tidak jarang data yang kadang juga optimasi. Machine learning diperlukan untuk data mining tidak hanya menjadi alat analisis dalam data mining. berasal dari satu database tetapi juga (Santoso, 2007). berasal dari beberapa database atau file II. 4. Tahap-Tahap Data mining teks. Integrasi data dilakukan pada atribut- Sebagai suatu rangkaian proses, data aribut yang mengidentifikasikan entitas- mining dapat dibagi menjadi beberapa entitas yang unik seperti atribut nama, tahap. jenis Tahap-tahap tersebut bersifat produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan beberapa interval. Proses ini sering disebut secara cermat karena kesalahan pada transformasi data. integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. 5. Proses mining, Sebagai Merupakan contoh berdasarkan bila jenis integrasi produk data suatu proses utama saat ternyata metode diterapkan untuk menemukan menggabungkan produk dari kategori yang pengetahuan berharga dan tersembunyi berbeda maka akan didapatkan korelasi dari data. antar produk yang sebenarnya tidak ada. 6. Evaluasi pola (pattern evaluation), 3. Seleksi Data (Data Selection) Untuk mengidentifikasi pola-pola menarik Data yang ada pada database sering kali kedalam tidak semuanya dipakai, oleh karena itu ditemukan. Dalam tahap ini hasil dari hanya data yang sesuai untuk dianalisis teknik data mining berupa pola-pola yang yang akan diambil dari database. Sebagai khas maupun model prediksi dievaluasi contoh, sebuah kasus yang meneliti faktor untuk menilai apakah hipotesa yang ada kecenderungan memang tercapai. Bila ternyata hasil yang orang membeli dalam knowledge diperoleh mengambil beberapa alternatif yang dapat diambil pelanggan, cukup dengan id pelanggan saja. sesuai hipotesa yang kasus market basket analysis, tidak perlu nama tidak based ada seperti menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba 4. Transformasi data (Data metode data mining lain yang lebih sesuai, Transformation) atau menerima hasil ini sebagai suatu hasil Data diubah atau digabung ke dalam yang di luar dugaan yang mungkin format yang sesuai untuk diproses dalam bermanfaat. data mining. Beberapa metode data mining membutuhkan format data yang khusus 7. Presentasi pengetahuan (knowledge sebelum presentation), bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti Merupakan analisis asosiasi dan clustering hanya bisa pengetahuan menerima kategorikal. digunakan untuk memperoleh pengetahuan Karenanya data berupa angka numerik yang diperoleh pengguna. Tahap terakhir yang berlanjut perlu dibagi-bagi menjadi dari proses data mining adalah bagaimana input data visualisasi mengenai dan penyajian metode yang memformulasikan keputusan atau aksi dari dihitung hasil analisis yang didapat. Ada kalanya probabilistik (Santoso, 2007). hal ini harus melibatkan orang-orang yang Analisis asosiasi dikenal juga sebagai tidak memahami data mining. Karenanya salah satu metode data mining yang presentasi hasil data mining dalam bentuk menjadi dasar dari berbagai metode data pengetahuan yang bisa dipahami semua mining lainnya. Khususnya salah satu orang adalah satu tahapan yang diperlukan tahap dari analisis asosiasi yang disebut dalam Dalam analisis pola frekuensi tinggi (frequent bisa pattern mining) menarik perhatian banyak membantu mengkomunikasikan hasil data peneliti untuk menghasilkan algoritma mining (Han, 2006). yang efisien. Penting tidaknya suatu aturan proses presentasi ini, data mining. visualisasi juga dari data yang sifatnya assosiatif dapat diketahui dengan dua II. 5. Metode Data mining parameter, support (nilai penunjang) yaitu Dengan definisi data mining yang luas, ada prosentase kombinasi item tersebut. dalam banyak jenis metode analisis yang dapat database dan confidence (nilai kepastian) digolongkan dalam data mining. yaitu kuatnya hubungan antar item dalam II. 5. 1. Association rules aturan Association rules (aturan asosiasi) atau didefinisikan affinity afinitas) menemukan semua aturan assosiatif yang berkenaan dengan studi tentang “apa memenuhi syarat minimum untuk support bersama apa”. Sebagai contoh dapat (minimum support) dan syarat minimum berupa untuk confidence (minimum confidence) analysis berupa (analisis studi transaksi di assosiatif. Analisis suatu asosiasi proses supermarket, misalnya seseorang yang (Pramudiono, membeli susu bayi juga membeli sabun algoritma mandi. Pada kasus ini berarti susu bayi mengenai aturan asosiasi, namun ada satu bersama dengan sabun mandi. Karena algoritma klasik yang sering dipakai yaitu awalnya berasal dari studi tentang database algoritma apriori. Ide dasar dari algoritma transaksi pelanggan untuk menentukan ini kebiasaan suatu produk dibeli bersama frequent itemset. Dengan menggunakan produk apa, maka aturan asosiasi juga satu sering dinamakan market basket analysis. mengembangkan frequent itemset dengan Aturan memberikan dua item, tiga item dan seterusnya hingga informasi tersebut dalam bentuk hubungan frequent itemset dengan semua ukuran. “if-then” atau “jika-maka”. Aturan ini Untuk asosiasi ingin 2007). yang adalah item Ada untuk sudah dengan dan beberapa dikembangkan mengembangkan secara mengembangkan rekursif frequent set dengan dua item, dapat menggunakan 𝑆=Σ (𝑇𝑎+𝑇𝑐)Σ(𝑇) frequent set item. Alasannya adalah bila ............................................................... set satu item tidak melebihi support (2.1) Keterangan : S = Support minimum, maka sembarang ukuran itemset 𝛴 (𝑇𝑎+𝑇𝑐) = Jumlah transaksi yang yang lebih besar tidak akan melebihi mengandung support minimum tersebut. Secara umum, consequencent mengembangkan Σ(𝑇) = Jumlah transaksi set dengan fc-item antecedent dan menggunakan frequent set dengan k – 1 𝐶=Σ (𝑇𝑎+𝑇𝑐)Σ(𝑇𝑎) item yang dikembangkan dalam langkah ............................................................... sebelumnya. Setiap langkah memerlukan (2.2) Keterangan : C = Confidence sekali pemeriksaan ke seluruh isi database. 𝛴 (𝑇𝑎+𝑇𝑐) = Jumlah transaksi yang Dalam asosiasi terdapat istilah antecedent mengandung dan consequencent consequent, antecedent untuk antecedent dan mewakili bagian “jika” dan consequent Σ(𝑇𝑎) untuk mewakili bagian “maka”. Dalam mengandung antecedent Langkah pertama analisis ini, antecedent dan consequent algoritma apriori adalah, support dari adalah sekelompok item yang tidak punya setiap item dihitung dengan men-scan hubungan secara bersama (Santoso, 2007). database. Setelah support dari setiap item Dari jumlah besar aturan yang mungkin didapat, item yang memiliki support lebih dikembangkan, perlu memiliki aturan- besar aturan = dari Jumlah minimum transaksi support yang dipilih yang cukup kuat tingkat sebagai pola frekuensi tinggi dengan ketergantungan antar item dalam panjang 1 atau sering disingkat 1-itemset. consequent. Untuk Singkatan k-itemset berarti satu set yang antecedent dan mengukur kekuatan aturan asosiasi ini, terdiri dari k item. digunakan ukuran support dan confidence. Iterasi kedua menghasilkan 2-itemset yang Support jumlah tiap set-nya memiliki dua item. Pertama transaksi yang memuat antecedent dan dibuat kandidat 2-itemset dari kombinasi consequent transaksi. semua 1-itemset. Lalu untuk tiap kandidat Confidence adalah rasio antara jumlah 2-itemset ini dihitung support-nya dengan transaksi yang meliputi semua item dalam men-scan database. Support artinya jumlah antecedent dan consequent dengan jumlah transaksi transaksi yang meliputi semua item dalam mengandung kedua item dalam kandidat 2- antecedent. itemset. adalah rasio dengan antara jumlah dalam Setelah database support dari yang semua kandidat 2-itemset didapatkan, kandidat 2- Pola frekuensi tinggi yang memuat k item itemset yang memenuhi syarat minimum atau k-itemset ditetapkan dari kandidat k- support dapat ditetapkan sebagai 2-itemset itemset yang support-nya lebih besar dari yang juga merupakan pola frekuensi tinggi minimum support. Kemudian dihitung dengan panjang 2. (Pramudiono, 2007) confidence masing-masing kombinasi item. Iterasi berhenti ketika semua item Untuk selanjutnya iterasi iterasi ke-k dapat telah dihitung sampai tidak ada kombinasi dibagi lagi menjadi beberapa bagian : item lagi. (Pramudiono, 2007) Secara ringkas algoritma apriori sebagai berikut : 1. Pembentukan kandidat itemset Create L1 = set of supported itemsets of cardinality one Set k to 2 while (Lk−1 _= dari ∅) { Create Ck from Lk−1 Prune all the kombinasi (k-1)-itemset yang didapat dari itemsets in Ck that are not supported, to iterasi sebelumnya. Satu ciri dari algoritma create Lk Increase k by 1 } The set of all apriori pemangkasan supported itemsets is L1 ∪ L2 ∪ • • • ∪ Lk kandidat k-itemset yang subset-nya yang Selain algoritma apriori, terdapat juga berisi k-1 item tidak termasuk dalam pola algoritma frekuensi tinggi dengan panjang k-1. Perbedaan algoritma apriori dengan FP- Kandidat k-itemset adalah adanya dibentuk lain seperti FP-Grwoth. Growth pada banyaknya scan database. 2. Penghitungan support dari tiap kandidat Algoritma k-itemset database setiap kali iterasi sedangkan apriori melakukan scan algoritma FP-Growth hanya melakukan Support dari tiap kandidat k-itemset sekali di awal (Bramer, 2007) didapat dengan men-scan database untuk menghitung jumlah transaksi yang memuat II. 5. 2. Decision Tree semua item di dalam kandidat k-itemset Dalam decision tree tidak menggunakan tersebut. Ini adalah juga ciri dari algoritma vector jarak untuk mengklasifikasikan apriori yaitu diperlukan penghitungan obyek. dengan scan seluruh database sebanyak k- mempunyai atribut-atribut yang bernilai itemset terpanjang. nominal. Seperti yang diilustrasikan pada Seringkali data observasi gambar 2.6, misalkan obyeknya adalah 3. Tetapkan pola frekuensi tinggi sekumpulan buah-buahan yang bisa dibedakan berdasarkan atribut bentuk, warna, ukuran dan rasa. Bentuk, warna, ukuran dan rasa adalah besaran nominal, yang cocok untuk diterapkannya decision yaitu bersifat kategoris dan tiap nilai tidak tree adalah sebagai berikut : bisa dijumlahkan atau dikurangkan. Dalam 1. Data dinyatakan dengan pasangan atribut warna ada beberapa nilai yang atribut dan nilainya mungkin yaitu hijau, kuning, merah. 2. Label/keluaran data biasanya bernilai Dalam atribut ukuran ada nilai besar, diskrit sedang dan kecil. Dengan nilai-nilai atribut 3. Data mempunyai missing value (nilai ini, kemudian dibuat decision tree untuk dari suatu atribut tidak diketahui) menentukan suatu obyek termasuk jenis buah apa jika nilai tiap-tiap atribut Dengan cara diberikan (Santoso, 2007). mengelompokkan beberapa ini akan obyek kelompok. mudah ke Untuk dalam membuat Warnaukuranbentukukuransemangkaapela decision tree perlu memperhatikan hal-hal nggurukuranpisangapelrasaLevel 3Level berikut ini : 0Level 1Level 1. Atribut mana yang akan dipilih untuk 2besarkecillonjongbulatkecilsedangbesar pemisahan obyek Ada beberapa macam algoritma decision 2. Urutan atribut mana yang akan dipilih tree C4.5. terlebih dahulu Beberapa isu utama dalam decision tree 3. Struktur tree yang menjadi perhatian yaitu seberapa 4. Kriteria pemberhentian detail dalam mengembangkan decision 5. Pruning diantaranya CART dan tree, bagaimana mengatasi atribut yang bernilai continues, memilih ukuran yang (Santoso, 2007) cocok untuk penentuan atribut, menangani II. 5. 3. Clustering data training yang mempunyai data yang Clustering termasuk metode yang sudah atributnya cukup dikenal dan banyak dipakai dalam memperbaiki tidak mempunyai efisiensi nilai, perhitungan data mining. Sampai sekarang para (Santoso, 2007). Decision tree sesuai ilmuwan dalam bidang data mining masih digunakan melakukan untuk kasus-kasus yang berbagai usaha untuk keluarannya bernilai diskrit. Walaupun melakukan perbaikan model clustering banyak variasi model decision tree dengan karena tingkat kemampuan dan syarat yang sekarang masih bersifat heuristic. Usaha- berbeda, pada umumnya beberapa ciri usaha untuk menghitung jumlah cluster metode yang dikembangkan yang optimal dan pengklasteran yang paling baik masih terus dilakukan. Dengan II. 6. Software Aplikasi demikian yang Software aplikasi terdiri atas program yang menjamin hasil berdiri sendiri yang mampu mengatasi menggunakan sekarang, tidak bisa metode pengklasteran sudah merupakan hasil yang kebutuhan optimal. dicapai memfasilitasi operasi biasanya sudah cukup bagus dari segi pengambilan keputusan praktis. maupun teknik sebagai tambahan dalam Namun, hasil yang bisnis tertentu. Aplikasi bisnis atau manajemen aplikasi pemrosesan data konvensional. Sofware aplikasi digunakan untuk mengatur fungsi bisnis secara real time (Pressman, 2005). II. 7. Basis Data dan Sistem Manajemen Basis Data (Database and Database Management System) Database adalah sekumpulan data yang saling berelasi (Elmasri, 2000). Database Gambar 2.7 Clustering Tujuan utama dari metode clustering adalah pengelompokan sejumlah data/obyek ke dalam cluster (group) sehingga dalam setiap cluster akan berisi data yang semirip mungkin seperti diilustrasikan pada gambar 2.7. Dalam clustering metode ini berusaha untuk menempatkan obyek yang mirip (jaraknya dekat) dalam satu klaster dan membuat jarak antar klaster sejauh mungkin. Ini berarti obyek dalam satu cluster sangat mirip satu sama lain dan berbeda dengan obyek dalam cluster-cluster yang lain. Dalam metode ini tidak diketahui sebelumnya berapa jumlah cluster dan bagaimana pengelompokannya (Santoso, 2007). didesain, dibuat, dan diisi dengan data untuk tujuan mendapatkan informasi tertentu. Pendekatan database memiliki beberapa keuntungan seperti keberadaan katalog, indepedensi program-data, mendukung view (tampilan) untuk banyak pengguna, dan sharing data pada sejumlah transaksi. Selain fleksibelitas, itu masih ketersediaan ada up-to-date informasi untuk semua pengguna, skala ekonomis. Kategori utama pengguna database terbagi menjadi empat kategori, yakni Administrator, Designer, End user, System Analyst dan Application Programmers. Administrator atau Data Base Administrator (DBA) bertanggung jawab pada otoritas akses database, koordinasi dan monitoring penggunaan, dan pemilihan perangkat keras dan lunak menghasilkan yang dibutuhkan. Designer bertanggung banyak jawab pada identifikasi data yang disimpan constraint, dalam database dan memilih struktur yang recovery. Dalam SMBD menyediakan tepat dan perintah yang digunakan untuk mengelola menyimpan data. End User adalah orang dan mengorganisasikan data, yakni Data yang kegiatannya membutuhkan akses ke Definition Language (DDL) dan Data database untuk melakukan query, update, Manipulation Language (DML). Data dan membuat laporan. System Analysts Definition Language adalah bahasa untuk menentukan User. medefinisikan skema atau dan database Programmers fisik ke SMBD. (DDL). Data Manipulation untuk menggambarkan kebutuhan End Application mengimplementasikan program sesuai interface pengguna, Language (antar menjaga menyediakan adalah muka) integritas backup bahasa dan untuk spesifikasi. memanipulasi data yaitu pengambilan Sistem Manajemen Basis Data (SMBD) informasi yang telah disimpan, penyisipan adalah program yang digunakan pengguna informasi baru, penghapusan informasi, untuk membuat dan memelihara database. modifikasi informasi yang disimpan dalam SMBD database. memfasilitasi mendefinisikan, untuk mengkonstruksi, dan Selanjutnya, query adalah statemen yang ditulis untuk mengambil memanipulasi database untuk berbagai informasi. aplikasi. Pendefinisian database meliputi menangani pengambilan informasi ini spesifikasi dan disebut bahasa query. SQL (dibaca "ess- constraint untuk data yang disimpan dalam que-el") singkatan dari Structured Query database. Language. SQL adalah bahasa tipe data, struktur, Pengkonstruksian database Bagian dari DML yang yang adalah proses penyimpanan data itu sendiri digunakan untuk berkomunikasi dengan pada media penyimpanan. Pemanipulasian database. database meliputi fungsi memanggil query National Standards Institute), bahasa ini database untuk mendapatkan data yang merupakan spesifik, update database, dan meng- database management systems (RDBMS). generate tersebut Secara prinsip, perintah-perintah SQL yang (biasa disebut dengan pernyataan) dapat laporan (Elmasri, 2000). dari data Keuntungan diperoleh menggunakan SMBD meliputi Menurut standard ANSI untuk (American relational dibagi dalam tiga kelompok, yaitu : mengontrol redudansi, membatasi akses yang tidak penyimpanan berwenang, yang menyediakan bahasa penerjemah data adalah perintah- persisten, perintah yang berkaitan dengan penciptaan atau penghapusan objek seperti tabel dan setiap field atau file dalam sistem. Simbol- indek simbol yang digunakan dalam kamus data dalam database. Versi ANSI mencakup CREATE TABLE, CREATE diterangkan dalam tabel 2.1. INDEX, ALTER TABLE, DROP TABLE, DROP VIEW, dan DROP INDEX. Beberapa sistem database menambahkan pernyataan DDL seperti CREATE DATABASE dan CREATE SCHEMA. Tabel 2.1 SimbolSimbol Data Dictionary Notasi = + () [] atau bahasa pemanipulasi data {} Mencakup perintah-perintah yang digunakan untuk memanipulasi data. Misalnya untuk menambahkan data ** @ | (INSERT), memperoleh data (SELECT), mengubah data (UPDATE), Arti Terdiri atas Dan Opsional (bisa ada dan bisa tidak ada) Memilih salah satu alternatif Pengulangan sebanyak n kali Komentar Identitas atribut kunci Pemisah alternatif simbol [ ] dan menghapus data (DELETE). II. 9. Desain Model Aplikasi Desain model dari aplikasi terdiri dari bahasa pengendali data physical Merupakan dipakai kelompok untuk dan logical model. yang Physical model dapat digambarkan dengan otorisasi bagan alir sistem. Logical model dalam perintah melakukan model dan sistem informasi lebih menjelaskan kepada pengalokasian ruang. Misalnya, suatu data pengguna bagaimana nantinya fungsi- bisa diakses si A, tetapi tidak bisa diakses fungsi di sistem informasi secara logika oleh si B. Termasuk dalam kategori DCL akan yaitu digambarkan dengan DFD (Data Flow terhadap pengaksesan data pernyataan-pernyataan GRANT, bekerja. (Kadir, 1999) Dictionary). Adapun penjelasan dari alat II. 8. Kamus Data (Data Dictionary) bantu dalam desain model adalah sebagai Kamus data adalah kumpulan elemen- berikut : digunakan simbol-simbol yang membantu dalam untuk penggambaran atau pengidentifikasian data dapat Diagram) atau kamus model REVOKE, COMMIT, dan ROLLBACK elemen dan Logical (Data 1. Diagram Konteks (Context Diagram) 1. Perancangan data Perancangan data mentransformasikan Diagram konteks adalah sebuah diagram model data yang dihasilkan oleh proses sederhana yang menggambarkan hubungan analisis antara proses dan entitas luarnya. Adapun dibutuhkan pada saat pembuatan program simbol-simbol dalam diagram konteks. (coding). Selain itu juga akan dilakukan menjadi struktur data yang desain terhadap struktur database yang 2. DFD (Data Flow Diagram) akan dipakai. DFD merupakan suatu model logika yang 2. Perancangan fungsional menggambarkan asal data dan tujuan data Perancangan fungsional mendeskripsikan yang kebutuhan fungsi-fungsi utama perangkat keluar dari sistem, serta menggambarkan penyimpanan data dan lunak. proses yang mentranformasikan data. DFD 3. Perancangan antarmuka menunjukkan hubungan antara data pada sistem dan proses pada sistem. II. 11. Implementasi dan Pengujian Unit Pada tahap ini, perancangan perangkat II. 10. Perancangan Perangkat Lunak lunak direalisasikan sebagai serangkaian Proses program atau unit program. Kemudian perancangan sistem membagi persyaratan dalam sistem perangkat keras pengujian atau bahwa setiap unit program telah memenuhi perangkat menentukan lunak. arsitektur Kegiatan sistem ini secara unit spesifikasinya melibatkan (Sommerville, Program melibatkan deskripsi dikembangkan, diuji untuk memperbaiki abstraksi sistem perangkat lunak yang kesalahan yang ditemukan pada pengujian mendasar hubungan-hubungannya untuk menjamin kualitasnya (Padmini, 2003). 2005). Terdapat dua metode pengujian dan (Sommerville, dan Sebagaimana dirilis 2003). keseluruhan. Perancangan perangkat lunak identifikasi sebaiknya verifikasi setelah persyaratan, desain didokumentasikan dan yaitu : menjadi bagian dari konfigurasi software 1) Metode white box yaitu pengujian yang (Pressman, 1997). Tahap desain meliputi berfokus pada logika internal software perancangan data, perancangan fungsional, (source code program). dan perancangan antarmuka. 2) Metode black box yaitu mengarahkan pengujian untuk menemukan kesalahankesalahan dan memastikan bahwa input yang dibatasi akan memberikan hasil aktual yang sesuai dengan hasil yang dibutuhkan. Pada tahap pengujian, penulis melakukan metode black box yaitu menguji fungsionalitas dari perangkat lunak saja tanpa harus mengetahui struktur internal program (source code). BAB III ANALISIS DAN PERANCANGAN APLIKASI DATA MINING Dari atribut proses masuk dan asal sekolah dicari hubungan tingkat kelulusan dengan asal sekolah yang melalui proses masuk PSSB dengan harapan dapat mengetahui Bab ini menjelaskan tentang analisis dan tingkat keberhasilan mahasiswa dengan perancangan dalam membangun Aplikasi sekolah tertentu. Data Mining. Analisis meliputi analisis data mining, analisis lingkungan sistem 3. Hubungan tingkat kelulusan dengan serta analisis dalam membangun aplikasi. kota asal sekolah III. 1. Analisis Data Mining Dalam penulisan tugas akhir ini akan Hubungan tingkat kelulusan dengan asal dicari nilai support dan confidence dari kota bermanfaat untuk mengetahui daerah- hubungan tingkat kelulusan dengan data daerah mana yang mempunyai tingkat induk mahasiswa. Tidak semua data induk keberhasilan siswa akan dicari hubungannya dengan Diasumsikan bahwa kota asal sekolah data kelulusan, hanya beberapa atribut merupakan kota tempat asal mahasiswa. tinggi ataupun rendah. yang kira-kira berguna dan sebarannya tidak terlalu acak. Karena data yang terlalu 4. Hubungan tingkat kelulusan dengan acak program studi akan memakan membuat waktu lama proses mining dan tingkat hubungannya pun rendah. Data induk Dari atribut program studi dapat diketahui mahasiswa yang akan dicari hubungannya hubungan tingkat kelulusun dan program meliputi proses masuk, asal sekolah, kota studi untuk megetahui tingkat kelulusan asal sekolah, dan program studi. Adapun program studi. yang akan diproses mining meliputi : 1. Hubungan tingkat kelulusan dengan proses masuk hasil dari proses mining ini dapat membantu untuk mengetahui sejauh mana tingkat keberhasilan PSSB dan SPMB. 2. Hubungan tingkat kelulusan dengan asal sekolah dan proses masuk III. 1. 1. Sumber Data Data yang digunakan dalam penulisan tugas akhir ini terdiri dari dua sumber data, yaitu data Induk Mahasiswa dan data Kelulusan. 1. Data Induk Mahasiswa Dalam penulisan tugas akhir kali ini dicari hubungan beberapa atribut dari data induk Data induk mahasiswa adalah data mahasiswa dengan tingkat kelulusan. mahasiswa yang didata ketika mahasiswa Karena tidak semua tabel digunakan maka pertama kali masuk perguruan tinggi perlu dilakukan pembersihan data agar setelah melakukan registrasi ulang. Data data yang akan diolah benar-benar relevan yang dicatat adalah identitas pribadi dengan yang dibutuhkan. Pembersihan ini mahasiswa dan identitas sekolah asal penting mahasiswa. Proses pendataan dilakukan di dalam proses mining. Cara pembersihan tingkat universitas, setelah direkapitulasi dengan menghapus atribut yang tidak kemudian disebarkan ke fakultas masing- terpakai dan menghapus data-data yang masing. tidak lengkap isiannya. atribut guna meningkatkan performa yang digunakan terdiri dari atribut pada data kelulusan dan pada data induk mahasiswa. 2. Data Kelulusan Data Kelulusan adalah data mahasiswa yang telah dinyatakan lulus. Data yang dicatat adalah identitas mahasiswa dan data kelengkapan kelulusan. Atribut yang digunakan dalam data induk mahasiswa meliputi : 1. Atribut NIM digunakan sebagai primary key untuk menghubungkan dengan data kelulusan Data induk mahasiswa yang diambil dalam 2. Atribut proses masuk digunakan untuk sampel adalah data mahasiswa angkatan proses mining guna mengetahui hubungan 2000, 2001, 2002 dan 2003. Hal ini antara tingkat kelulusan dengan jalur didasarkan pada kebutuhan data yang akan masuk yang digunakan mahasiswa. di hubungkan dengan data kelulusan, 3. Atribut nama asal sekolah digunakan dengan asumsi bahwa mahasiswa angkatan untuk proses mining guna mengetahui 2000 -2003 akan lulus dari rentang waktu hubungan antara tingkat kelulusan dengan tahun data asal sekolah. data 4. Atribut kota asal sekolah digunakan kelulusan dari tahun 2004 sampai 2008. untuk proses mining guna mengetahui Kedua data tersebut diperoleh dari bagian hubungan tingkat kelulusan dengan kota akademik asal mahasiswa. 2004-2008. kelulusan yang Sedangkan diambil fakultas adalah MIPA Universitas Diponegoro. Data yang diambil hanya dari mahasiswa sarjana (S1) reguler. Atribut III. 1. 2. Data Yang Digunakan kelulusan meliputi : yang digunakan dalam data 1. NIM digunakan sebagai primary key dirubah formatnya. Dalam penulisan tugas untuk menghubungkan dengan data induk akhir ini penulis mencari keterkaitan mahasiswa. antara tingkat kelulusan dengan data induk 2. Indeks digunakan Prestasi Kumulatif (IPK) mahasiswa. Tingkat kelulusan mahasiswa sebagai ukuran tingkat dapat dilihat dari lama studi dan IPK kelulusan mahasiswa (Indeks Prestasi Kumulatif). Dari dua 3. Lama studi digunakan sebagai ukuran parameter tersebut data diubah menjadi tingkat kelulusan mahasiswa. tipe 4. Program studi digunakan untuk proses diproses. Tingkat kelulusan diukur dari mining guna mengetahui hubungan tingkat lama kelulusan dengan program studi. dikategorikan data yang studi dan memudahkan IPK, lama berdasarkan untuk studi peraturan akademik BAB I pasal 1 ayat 2 yang III. 1. 3. Integrasi Data berbunyi “Program sarjana (S1) reguler Dalam penulisan tugas akhir kali ini adalah program pendidikan akademik diasumsikan bahwa data yang diambil setelah sudah berupa tabel-tabel dalam satu server. memiliki beban studi sekurang-kurangnya Untuk proses mining, data kelulusan dan 144 (seratus empat puluh empat ) sks dan data digabungkan sebanyak-banyaknya 160 (seratus enam dengan primary key NIM. Setelah itu baru puluh) sks yang dijadwalkan untuk 8 dilakukan proses mining. Proses integrasi (delapan) semester dan dapat ditempuh data ETL dalam waktu kurang dari 8 (delapan) (ekstract, transform, and Load) ketika semester dan paling lama 14 (empat belas) membangun data warehouse, dalam proses semester.” sedangkan IPK dikategorikan ETL data dalam data source digabungkan berdasarkan predikat kelulusan yang diatur menjadi dalam peraturan akademik BAB IV pasal induk mahasiswa dilakukan satu ketika dalam proses data warehouse pendidikan menengah, yang dengan key NIM. 19 ayat 1 III. 1. 4. Transformasi Data kelulusan program sarjana dan program Transformasi data merupakan proses yang berbunyi “predikat diploma adalah sebagi berikut : ” pengubahan atau penggabungan data ke III. 1. 5. Penggunaan Algoritma Apriori dalam format yang sesuai untuk diproses Algoritma apriori adalah algoritma paling dalam data mining. Seringkali data yang terkenal untuk menemukan pola frekuensi akan digunakan dalam proses data mining tinggi. Pola frekuensi tinggi adalah pola- mempunyai format yang belum langsung pola item di dalam suatu database yang bisa digunakan, oleh karena itu perlu memiliki frekuensi atau support di atas ambang batas tertentu yang disebut dengan 2-itemset yang juga merupakan pola istilah minimum support atau threshold. frekuensi tinggi dengan panjang 2. Threshold adalah batas minimum transaksi. Jika jumlah transaksi kurang III. 3. Analisis Perangkat Lunak dari threshold maka item atau kombinasi III. 3. 1. Deskripsi Umum Perangkat item tidak akan diikutkan perhitungan Lunak selanjutnya. Penggunaan threshold dapat mempercepat perhitungan. Algoritma Perangkat Lunak yang dikembangkan apriori dibagi menjadi beberapa tahap dalam Aplikasi Data Mining ini berbasis yang dekstop, dengan database lokal. disebut iterasi. Tiap iterasi menghasilkan pola frekuensi tinggi dengan Pengguna dalam aplikasi adalah pihak panjang yang sama dimulai dari pass penentu kebijakan dalam analisi tingkat pertama yang menghasilkan pola frekuensi kelulusan tinggi dengan panjang satu. Di iterasi diambil langkah-langkah strategis guna pertama ini, support dari setiap item meningkatkan tingkat kelulusan. Untuk dihitung menjaga kerahasiaan data, maka pengguna dengan men-scan database. mahasiswa dibatasi item yang memiliki support lebih besar berwenang dari minimum support dipilih sebagai pola mahasiswa dan data kelulusan. frekuensi tinggi dengan panjang 1 atau Sebagai suatu rangkaian proses, data sering disingkat 1-itemset. Singkatan k- mining dibagi dalam beberapa tahap itemset berarti satu set yang terdiri dari k seperti yang sudah diterangkan pada sub item. Iterasi kedua menghasilkan 2-itemset bab 3.1. Begitu juga dalam membangun yang tiap set-nya memiliki dua item. perangkat Pertama dibuat kandidat 2-itemset dari tahapan dari analisis, perancangan sampai kombinasi semua 1-itemset. Lalu untuk aplikasi. Sehingga dalam membangun tiap Aplikasi 2-itemset ini dihitung kepada dapat Setelah support dari setiap item didapat, kandidat hanya sehingga menggunakan lunak Data pihak yang data induk diperlukan Mining, tahapan- tahapan data support-nya dengan men-scan database. mining sejalan dengan tahapan dalam Support artinya jumlah transaksi dalam membangun perangkat lunak. Analisis dari database yang mengandung kedua item tahapan data mining menjadi acuan dalam dalam kandidat 2-itemset. Setelah support analisis dan perancangan Aplikasi Data dari semua kandidat 2-itemset didapatkan, Mining ini. kandidat 2-itemset yang memenuhi syarat minimum support dapat ditetapkan sebagai III. 3. 2. Spesifikasi Kebutuhan Fungsional selain itu data warehouse memudahkan dalam menyatukan data dari dua database Spesifikasi kebutuhan fungsional pada sumber. Aplikasi Data Mining ini merujuk pada Proses ETL (Ekstrak Transform Load) kebutuhan akan perancangan data mining, dalam seperti yang tertera berikut ini : merupakan proses yang penting karena 1. Dapat menggabungkan data yang akan menentukan pembangunan data warehouse diproses mining dari data kelulusan dan selanjutnya. data induk mahasiswa warehouse ini, terdapat dua source system 2. Dapat menghapus data-data yang tidak yaitu dari database induk mahasiswa dan relevan serta atribut yang tidak dipakai database kelulusan. Proses pemuatan data 3. Dapat merubah data menjadi data yang dari data source ke data warehouse melalui siap diproses proses ETL. Diagram Proses ETL dapat 4. Dapat memproses data untuk dimining digambarkan seperti pada gambar 3.2 pembangunan Pada data warehouse pembangunan data meliputi : • Hubungan tingkat kelulusan dengan proses masuk • Hubungan tingkat kelulusan dengan asal sekolah yang melalui proses masuk PSSB • Hubungan tingkat kelulusan dengan asal kota • Hubungan tingkat kelulusan dengan program studi 5. Dapat menampilkan hasil proses mining Gambar 3.2 Proses ETL Dalam dengan nilai support dan confidence pembangunan data warehouse ini proses III. 3. 3. Pemodelan Data ETL dibangkitkan disisi storage tujuan seperti digambarkan pada gambar 3.3. Dalam aplikasi warehouse yang ini dibangun digunakan data untuk menampung data dari database induk mahasiswa dan database kelulusan mahasiswa. Tujuan utama pembangunan data warehouse adalah agar database sumber tidak terganggu bila terjadi error, Data pada source di pull ke data warehouse dengan proses ETL yang terletak di data warehouse. data yang sama dari dua data source seperti, nama, alamat wali dan yang lain, maka yang di load hanya salah satu dari data source, dengan asumsi memiliki nilai yang sama. Hal ini dilakukan agar tidak ada redudancy data atau data rangkap. Dalam membangun data warehouse, model data yang paling sering digunakan adalah multidimensi dengan bentuk star schema, Gambar 3.3 Proses Pembangkitan ETL Database Induk mahasiswa dan database kelulusan merupakan data source dalam pembangunan data warehouse. Dalam proses ETL kedua data source tersebut di load kedalam data warehouse. Proses ETL mencangkup proses integrasi data dari data induk dan data kelulusan menjadi data gabungan dengan key NIM. Proses load data dan integrasi dapat dlihat dalam gambar 3.4 snowflake schema, atau fact constellation schema. Karena setelah proses ETL hanya terbentuk satu table yang sudah normal dan tidak memiliki dimensi lebih lanjut maka skema hanya berupa satu tabel saja yaitu tabel data gabungan Dari skema tersebut dapat dibangun database baru untuk menampung data-data dari database induk mahasiswa dan database kelulusan mahasiswa. Karena hanya terdapat satu entitas maka tidak ada relasi antar entitas, sehingga hanya terbentuk satu tabel. III. 4. 3. Rancangan Tampilan Dalam Aplikasi Data Mining ini terdapat dua buah form. Form pertama merupakan halaman awal yang berisi perintah pengambilan data pemilihan atribut data induk mahasiswa, input threshold, perintah proses mining dan tombol keluar aplikasi. Form kedua merupakan halaman report data mining yang berisi hasil proses data Gambar 3.4 Proses load data Semua data mining yaitu tabel nilai support dan yang ada pada data source diimport ke confidence. Perintah-perintah dalam form dalam data warehouse, kecuali jika ada pertama berupa tombol ambil data untuk data, untuk keluar aplikasi. Desain tampilan form inputan teks threshold untuk memasukkan report Aplikasi Data Mining seperti pada nilai threshold, inputan combo box untuk gambar 3.8. melakukan proses pengambilan memilih jurusan, inputan combo box untuk memilih atribut yang akan diproses mining, tombol proses untuk perintah proses mining dan tombol keluar untuk perintah keluar aplikasi. Selain tombol tersebut terdapat tabel data hasil dari perintah yang diberikan. Desain tampilan form awal dari Aplikasi Data Mining seperti pada gambar 3.7. Gambar 3.7 Desain Tampilan Form Awal Aplikasi Data Mining Hasil keluaran dari proses data mining disajikan dalam form report Aplikasi Data Mining. Form ini terdiri dari dua informasi utama, yaitu informasi atribut dengan confidence tertinggi masing-masing kategori kelulusan dan tabel yang berisi nilai confidence dan support masing-masing kombinasi tingkat kelulusan dan Atribut. Selain itu terdapat dua tombol perintah yaitu tombol kembali ke menu utama dan tombol • BAB IV IMPLEMENTASI PROGRAM DAN Microsoft® .NET Framework® 2.0.50727.4927 PENGUJIAN Dalam bab implementasi ini dari menjelaskan tentang perancangan data IV. 2. Implementasi Data Implementasi rancangan data merupakan mining, perancangan fungsi, perancangan transformasi data dihasilkan dan perancangan tampilan dari rancangan data yang Aplikasi Data Mining. Selain itu juga dari proses perancangan data menjadi terdapat pengujian Aplikasi Data Mining suatu database. Database 55 dengan pengujian black box testing. merupakan suatu data warehouse dengan IV. 1. Lingkungan Pembangunan nama “dataMining” yang dibangun untuk Lingkungan dan menyimpan data kelulusan mahasiswa dan perangkat keras yang digunakan untuk data induk mahasiswa yang disatukan membangun Aplikasi Data Mining ini dengan key NIM dan disimpan dalam tabel adalah sebagai berikut : data gabungan. 1) CPU IV. 3. Implementasi Fungsi • Prosesor Intel® Celeron® 2.66 Ghz Implementasi rancangan fungsi merupakan • Memori 1024 Gb hasil transformasi dari proses perancangan • VGA 128 bit fungsi yang telah dijelaskan pada sub bab • Hardisk 160 GB 3.4.1 2) Sistem perangkat Operasi lunak : Microsoft® menjadi modul-modul dalam aplikasi. Hasil dari algoritma tersebut Windows® 7 Professional 6.1 dituangkan dalam list program yang dapat 3) Editor Script : Notepad ++ v5.0.3. dilihat pada lampiran. 4) Platform IV. • Microsoft® Visual Studio® 2008 4. Implementasi Rancangan Antarmuka Version 9.0.21022.8 Professional Edition Hasil rancangan antarmuka Aplikasi Data • Microsoft .NET Framework® Version Mining diimplementasikan dalam dua 3.5 SP1 form. Form pertama merupakan halaman 5) DBMS : awal yang berisi perintah pengambilan • Microsoft® SQL Server® Management data Studio 9.00.1399.00 mahasiswa, • Microsoft® MSXML 3.0 4.0 5.0 6.0 proses mining dan tombol keluar aplikasi. pemilihan input atribut data threshold, induk perintah Sedangkan form kedua berupa informasi hasil proses data mining yaitu tabel nilai tersebut. Dalam form ini terdapat dua support dan confidence. Tombol dan tombol yaitu tombol kembali ke form awal inputan dalam form awal disusun secara dan tombol keluar. Tampilan pada form berurutan dan hanya bisa diakses secara report data mining dapat dilihat pada gambar terurut. Karena dalam data mining proses 4.2 tersebut bersifat sekuensial. Misalkan pengguna menekan tombol bersihkan data sebelum data diambil maka tombol tersebut tidak akan aktif. Dalam inputan threshold jika pengguna menginputkan bukan angka otomatis threshold bernilai default yaitu nol. Tampilan dari form awal dapat dilihat pada gambar 4.1. Gambar 4.2 Tampilan form report data mining. Dalam menggunakan Aplikasi Data Mining ini pertama kali pengguna akan masuk dalam halaman awal. Pada halaman awal pengguna melakukan perintah secara Gambar 4.1 Tampilan form awal Aplikasi sekuensial dari atas ke bawah. Tombol ambil Data Mining data adalah tombol untuk mengeksekusi fungsi ambil data, yaitu Form kedua yaitu form report data mining. Form ini akan aktif dan tampil jika mengambil data kelulusan dan data induk mahasiswa kemudian menyimpannya pengguna menekan tombol proses, dalam dalam tabel baru yaitu data gabungan. form ini terdapat hasil dari proses mining Pengguna dapat memilih jurusan dengan berupa nilai masing-masing kategori yang memilih pada combo box pilihan jurusan. mempunyai nilai confidence tertinggi. Selain Setelah itu terdapat tabel itemset dengan atribut threshold dengan mengisi label teks. itemset, cacah jumlah itemset atau count, Setelah support, memilih item yang akan diproses mining dan confidence dari itemset itu pengguna mengisi threshold menentukan pengguna dengan memilih pada combo box. Kemudian pengguna membersihkan data dengan menekan tombol bersihkan data. Sampai pada proses ini data siap diproses mining. 1. Processor : Intel Celeron 2.66 2. RAM : 1024 Mb 3. VGA : 128 bit, 256 Mb 4. Harddisk : 160Gb Selanjutnya pengguna menekan tombol proses mining untuk melakukan proses mining. Barulah hasil dari proses mining Sedangkan spesifikasi perangkat lunaknya akan keluar pada form ke dua. Dalam form sebagai berikut : kedua pengguna dapat melihat dua tampilan hasil data mining dan dua 1. Sistem Operasi : Microsoft® Windows® 7 Professional 6.1 tombol. Tampilan pertama merupakan hasil mining masing-masing tingkat kelulusan dengan atribut yang paling tinggi nilai confidence serta nilainya. Sedangkan tampilan kedua merupakan 2. FrameWork : Microsoft .NET Framework® Version 3.5 SP1 3. DBMS : Microsoft® SQL Server® Management Studio 9.00.1399.00 tabel hasil mining seluruh item kategori kelulusan dengan semua item data induk 4. XML sistem : Microsoft® MSXML 3.0 dan nilai support dan confidence. Tombol 4.0 5.0 6.0 dalam tampilan report Aplikasi Data Mining merupakan tombol untuk kembali IV. 5. 2. Rancangan Pengujian ke form awal dan keluar dari aplikasi. Dalam pengujian Aplikasi Data Mining ini IV. 5. Pengujian Aplikasi Data Mining digunakan teknik pengujian Black Box. IV. 5. 1. Lingkungan Pengujian Lingkungan perangkat lunak Teknik yang digunakan dalam pengujian dan Black Box antara lain : perangkat keras yang digunakan untuk 1. Digunakan untuk menguji fungsi-fungsi membangun Aplikasi Data Mining ini khusus meliputi perangkat keras dan perangkat dirancang. dari perangkat lunak yang lunak. Spesifikasi perangkat lunak sebagai berikut : 2. Kebenaran perangkat lunak yang diuji hanya dilihat berdasarkan keluaran yang dihasilkan dari data atau kondisi masukan yang diberikan untuk fungsi yang ada nilai hubungan antar atribut. Data induk tanpa melihat bagaimana proses untuk mahasiswa yang diproses mining meliputi mendapatkan data proses masuk, data asal sekolah, data keluaran tersebut dan bagaimana hasil dari proses mining. kota mahasiswa, dan data program studi. Hasil dari proses data mining ini dapat 3. Dari keluaran yang dihasilkan, digunakan sebagai pertimbangan dalam kemampuan program dalam memenuhi mengambil keputusan lebih lanjut tentang kebutuhan pemakai dapat diukur sekaligus faktor dapat diketahui kesalahan-kesalahannya. kelulusan khususnya faktor dalam data yang mempengaruhi tingkat induk mahasiswa. IV. 5. 3. Hasil Uji Hasil uji dianggap sukses jika pada tabel V. 2. Saran pengujian, hasil yang didapat sesuai Untuk pengembangan Aplikasi Data Mining dengan kriteria evaluasi hasil dan hasil lebih lanjut, dapat menggunakan algoritma yang diharapkan. lain, misal algoritma FP-Growth. Perbedaannya adalah algoritma apriori IV. 5. 4. Analisis Hasil Uji harus melakukan scan database setiap kali Berdasarkan pengujian di atas, dapat iterasi, sedangkan algoritma FP-Growth disimpulkan bahwa Aplikasi Data Mining hanya melakukan satu kali scan database dapat diawal. digunakan untuk mengetahui hubungan data kelulusan dengan data induk mahasiswa. BAB V PENUTUP V. 1. Kesimpulan Kesimpulan yang dapat diambil dalam pengerjaan tugas akhir ini adalah Aplikasi Data Mining ini dapat digunakan untuk menampilkan informasi tingkat kelulusan. Informasi yang ditampilkan berupa nilai support dan confidence hubungan antara tingkat kelulusan dengan data induk mahasiswa. Semakin tinggi nilai confidence dan support maka semakin kuat Anonim, 2009 “Peraturan Akademik Universitas Diponegoro Bidang Pendidikan”, Semarang. Bramer, Max, 2007, [2] [3] [4] “Principles of Data Mining”, [5] [6] [7] Springer, London. [8] [9] [10] Chintakayala, Padmini. 2005. [11] [12] “Beginners Guide for Software [13] [14] Testing : Symbiosys Technologies”. Davies, and Paul Beynon, 2004, “Database Systems Third Edition”, Palgrave Macmillan, New York. Elmasri, Ramez and Shamkant B. Navathe, 2000, “Fundamentals of Database Systems. Third Edition”, Addison Wesley Publishing Company, New York. Han, J. and Kamber, M, 2006, “Data Mining Concepts and Techniques Second Edition”. Morgan Kauffman, San Francisco. Kadir, Abdul, 1999, “Konsep dan Tuntunan Praktis Basis Data”, Penerbit Andi, Yogyakarta. Kusrini, dan Emha Taufik Luthfi, 2009, “Algoritma Data Mining”, Penerbit Andi, Yogyakarta. Pramudiono, I. 2007. Pengantar Data Mining : Menambang Permata Pengetahuan di Gunung Data. http://www.ilmukomputer.org/ wpcontent/uploads/2006/08/ikodatamining.zip Diakses pada tanggal 15 Maret 2009 jam 08.54 Pramudiono, I., 2007, Algoritma Apriori, http://datamining.japati.net/cgi bin/indodm.cgi?bacaarsip&11 72210143 Diakses pada tanggal 25 April 2009 jam 10.00 Rainardi, Vincent, 2008, “Building a Data Warehouse with Examples in SQL Server”, Springer, New York. DAFTA R PUSTA KA [1] Pressman, Roger S, 1997, “Software Engineering:A Practitioner’s Approch.” The McGraw-Hill Companies, Inc., New York Santosa, Budi, 2007, “Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis”, Graha Ilmu, Yogyakarta. Sommerville, Ian, 2003, “Software Engineering (Rekayasa Perangkat Lunak)/ Edisi 6/Jilid 1” Erlangga, Jakarta.