perpustakaan.uns.ac.id digilib.uns.ac.id PENERAPAN ALGORITME APRIORI PADA DATA KELULUSAN MAHASISWA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET Durri Indy Mahbubah, Isnandar Slamet, dan Bowo Winarno Program Studi Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sebelas Maret Surakarta Abstrak. Data mining merupakan proses pengekstrakan informasi yang berasal dari basis data berukuran besar untuk membantu dalam pengambilan keputusan. Salah satu metode data mining yang biasanya digunakan adalah aturan asosiasi. Algoritme apriori merupakan aturan asosiasi dengan menggunakan frequent item. Algoritme apriori dapat diterapkan pada data kelulusan mahasiswa untuk menemukan aturan asosiasi. Tujuan penelitian ini untuk menentukan hubungan semua variabel yang memenuhi syarat minimum untuk support dan syarat minimum untuk confidence. Penelitian ini dilakukan dengan terlebih dahulu melihat hubungan antara data induk mahasiswa dan data kelulusan mahasiswa. Hubungan antara data induk mahasiswa dan data kelulusan mahasiswa dapat dilihat dari nilai support, confidence dan lift yang diperoleh. Berdasarkan pada pembahasan menggunakan data induk dan data kelulusan mahasiswa diperoleh kesimpulan bahwa 50.818% kelulusan mahasiswa FMIPA UNS dipengaruhi oleh lama studi mahasiswa lebih dari 4 tahun dengan predikat sangat memuaskan ditunjukkan oleh aturan{L2}→{A2}. 38.356% kelulusan mahasiswa FMIPA UNS dipengaruhi oleh mahasiswa yang lulus dengan predikat sangat memuaskan dan lama studi mahasiswa lebih dari 4 tahun ditunjukkan oleh aturan {A2}→{L2}. 35.942% kelulusan mahasiswa FMIPA UNS dipengaruhi oleh jalur masuk SNMPTN dan predikat kelulusan sangat memuaskan ditunjukkan oleh aturan {M2}→{A2}. Kata kunci: data mining, aturan asosiasi, algoritme apriori. 1. Pendahuluan Data mining didefinisikan sebagai sebuah proses untuk menemukan hubungan, pola dan trend baru yang bermakna dengan menyaring data yang berukuran sangat besar, yang tersimpan dalam penyimpanan, menggunakan teknik pengenalan pola (Larose [5]). Menurut Demir [3], algoritme dan model data mining yang paling sering digunakan yaitu aturan asosiasi(association rule), pohon keputusan (decision tree), klaster (clustering), regresi linear ganda (multiple linear regression), pola-pola berurutan (sequential patterns) dan model karakteristik (characteristics model ). Aturan asosiasi digunakan untuk penemuan pengetahuan dan pengambilan keputusan manajerial berdasarkan asosiasi antar data untuk membentuk sistem yang baik (Vijayalakshmi dan Pethalakshmi [8]). Beberapa jenis analisis asosiasi pada data mining adalah algoritme apriori, algoritme hash-based dan GRI (generalized rule induction) (Kusrini dan Luthfi [4]). Algoritme apriori merupakan 1 commit to user perpustakaan.uns.ac.id digilib.uns.ac.id Penerapan algoritme apriori . . . D.I.Mahbubah, I.Slamet, B.Winarno aturan asosiasi dengan menggunakan frequent item (Vijayalakshmi dan Pethalakshmi [8]). Salah satu aplikasi algoritme apriori adalah dalam bidang pendidikan. Dalam bidang pendidikan, data kelulusan mahasiswa dan data induk mahasiswa dapat digunakan untuk menentukan hubungan semua variabel yang memenuhi syarat minimum untuk support dan syarat minimum untuk confidence. Berdasarkan data kelulusan mahasiswa strata 1 (S1) Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) Universitas Sebelas Maret (UNS), rata-rata lama studi yang ditempuh selama 4,4 tahun. Oleh karena itu dalam penelitian ini dibahas mengenai penerapan algoritme apriori pada data kelulusan mahasiswa Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sebelas Maret. 2. DATA MINING Tan et al. [7] mendefinisikan data mining sebagai proses untuk mendapatkan informasi dari basis data yang besar. Data mining juga dapat diartikan sebagai pengekstrakan informasi baru yang diambil dari bongkahan data besar yang membantu dalam pengambilan keputusan. Metode data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan (Larose [5]). Kelompok-kelompok tersebut diuraikan sebagai berikut. (1) Deskripsi (Description). Deskripsi adalah teknik yang digunakan untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. (2) Klasifikasi (Classification). Klasifikasi adalah proses membedakan kelas data ke dalam beberapa kategori. (3) Estimasi (Estimation). Estimasi hampir sama dengan klasifikasi namun dalam estimasi variabel yang digunakan lebih ke arah numerik dari pada ke arah kategori. (4) Prediksi (Prediction). Prediksi hampir sama dengan klasifikasi dan estimasi namun hasil dari prediksi akan ada di masa mendat ang. (5) Klaster (Clustering). Klaster adalah pengelompokan daftar, pengamatan dan membentuk kelas objek-objek yang mempunyai kemiripan. 2 commit to user 2016 perpustakaan.uns.ac.id digilib.uns.ac.id Penerapan algoritme apriori . . . D.I.Mahbubah, I.Slamet, B.Winarno (6) Aturan Asosiasi (Association Rule). Aturan asosiasi merupakan teknik data mining yang digunakan untuk mengetahui hubungan atau asosiasi antara nilai tertentu dari variabel kategori pada data set besar (Demir [3]). Aturan asosiasi dinyatakan dalam bentuk X → Y , dimana X ⊂ I, Y ⊂ I dan X ∩ Y = ∅ dengan I = {i1 , i2 , . . . , im } (Agrawal dan Srikant [1]). Untuk mengukur penting tidaknya suatu aturan asosiasi dapat diketahui dengan dua parameter yaitu nilai penunjang (support) dan nilai kepastian (confidence) (Kusrini dan Luthfi [4]). 3. Algoritme Apriori Algoritme apriori adalah suatu algoritme dasar yang diusulkan oleh Agrawal dan Srikant [1] pada tahun 1994 untuk menentukan frequent itemsets. Algoritme apriori merupakan algoritme analisis asosiasi pertama yang mempelopori penggunaan pemangkasan itemset berdasarkan nilai support (Tan et al. [7]). Menurut Larose [5] metodologi dasar algoritme apriori dibagi menjadi dua tahap. (1) Tahap pertama. Analisis pola frekuensi tinngi. Tahap ini mencari kombinasi item yang memenuhi batas minimal untuk nilai support (minimum support) dalam database. support(A ∪ B) = Banyaknya transaksi mengandung A dan B Total transaksi (3.1) Nilai support dari suatu itemset diperoleh dari persamaan (3.1). (2) Tahap kedua. Pembentukan aturan asosiasi. Setelah semua pola frekuensi tinggi ditemukan, maka selanjutnya dicari aturan asosiasi yang memenuhi batas minimal untuk nilai confidence (minimum confidence). conf idence(A → B) = support(A ∪ B) supportA (3.2) Nilai confidence dari aturan asosiasi diperoleh dari persamaan (3.2). Berry dan Linoff [2] menyebutkan bahwa nilai confidence yang tinggi terkadang bisa menyesatkan karena nilai confidence yang dipilih mengabaikan nilai 3 commit to user 2016 perpustakaan.uns.ac.id digilib.uns.ac.id Penerapan algoritme apriori . . . D.I.Mahbubah, I.Slamet, B.Winarno support dari itemset yang muncul dalam aturan yang terbentuk. Salah satu cara untuk menangani masalah tersebut adalah dengan menghitung lift pada setiap itemset. lif t(A → B) = conf idence(A → B) support(B) (3.3) Demir ([3]) menjelaskan lift sebagai perhitungan rasio antara aturan confidence dan support itemset. Nilai lift dapat diperoleh dari persamaan (3.3). Menurut Santosa [6] lift digunakan untuk mengevaluasi kuat tidaknya sebuah aturan asosiasi. Jika nilai lift lebih dari 1, maka menunjukkan adanya manfaat dari aturan asosiasi tersebut. 4. Metode Penelitian Langkah-langkah yang dilakukan dalam penelitian adalah mengumpulkan data induk dan data kelulusan mahasiswa mulai tahun 2008 sampai 2015, menyeleksi data yang telah diperoleh berdasarkan atribut yang dipilih dan kelengkapan data yang diperoleh, menentukan nilai minimum support dan nilai minimum confidence serta membentuk pola frekuensi tinggi. Terdapat beberapa iterasi untuk memperoleh pola frekuensi tinggi. Iterasi pertama membentuk kandidat itemset, menghitung nilai support tiap kandidat itemset, menghapus kandidat itemset yang memiliki nilai support < minimum support. Iterasi selanjutnya dilakukan dengan cara yang sama seperti iterasi pertama sampai nilai support tiap kandidat sama atau tidak ditemukan lagi kombinasi itemset dan diperoleh pola frekuensi tinggi. Setelah membentuk pola frekuensi tinggi, menghitung nilai confidence masing-masing kandidat dan membentuk aturan asosiasi dari itemset yang memenuhi nilai minimum confidence. Langkah selanjutnya adalah menghitung nilai lift dari aturan asosiasi yang terbentuk dan menghapus aturan asosiasi yang mempunyai nilai lift <1. Langkah terakhir adalah membentuk aturan asosiasi final dengan mengalikan nilai support dan confidence tiap kombinasi item kemudian menganalisis hasil yang diperoleh. Perhitungan dalam penelitian ini dilakukan dengan menggunakan Microsoft Excel dan Software Tanagra. 4 commit to user 2016 perpustakaan.uns.ac.id digilib.uns.ac.id Penerapan algoritme apriori . . . D.I.Mahbubah, I.Slamet, B.Winarno 5. Hasil dan Pembahasan 5.1. Atribut Data. Data yang digunakan dalam penelitian ini terdiri atas dua sumber yaitu data induk mahasiswa dan data kelulusan mahasiswa. Atribut yang digunakan adalah IPK yang terdiri atas A1 (IPK diantara 2.00-2.75), A2 (IPK diantara 2.76-3.50) dan A3 (IPK diantara 3.51-4.00). Atribut jenis kelamin terdiri atas G1 (laki-laki) dan G2 (perempuan). Atribut lama studi terdiri atas L1 (lama studi ≤ 4 tahun) dan L2 (lama studi > 4 tahun). Atribut jalur masuk terdiri atas M1 (jalur PMDK atau Undangan), M2 (jalur SNMPTN) dan M3 (Jalur Swadana). Atribut program studi terdiri atas P1 (Program Studi Biologi), P2 (Program Studi Fisika), P3 (Program Studi Informatika), P4 (Program Studi Kimia) dan P5 (Program Studi Matematika). Atribut asal sekolah terdiri atas S01 (Balikpapan), S02 (Bandung), S03 (Banyumas),. . . , S65 (lain-lain). 5.2. Nilai support. Tahapan pertama dalam algoritme apriori adalah membentuk pola frekuensi tinggi. Dalam penelitian ini ditetapkan minimum support = 0.05 dan minimum confidence = 0.50. Berikut adalah iterasi untuk memeroleh pola frekuensi tinggi. 1. Pada iterasi pertama, dihitung nilai support tiap item. Setelah nilai support setiap item diperoleh, item yang memiliki nilai support ≥ minimum support dipilih sebagai pola frekuensi tinggi dengan panjang 1 atau 1 − itemset. 2. Iterasi kedua, mencari nilai support dari kandidat 2 − item. Kandidat 2 − item diperoleh dari mengkombinasikan semua item dalam 1 − itemset menjadi 2 − item tiap set-nya. Kandidat 2 − itemset yang mempunyai nilai support ≥ nilai minimum support dihapuskan sehingga diperoleh pola frekuensi tinggi dengan panjang 2 atau 2 − itemset. 3. Pada iterasi ketiga dilakukan dengan cara yang sama diperoleh pola frekuensi tinggi dengan panjang 3 atau 3 − itemset. 4. Iterasi keempat dilakukan dengan cara yang sama diperoleh pola frekuensi tinggi dengan panjang 4 atau 4 − itemset. 5 commit to user 2016 perpustakaan.uns.ac.id digilib.uns.ac.id Penerapan algoritme apriori . . . D.I.Mahbubah, I.Slamet, B.Winarno 5. Iterasi kelima dilakukan dengan cara yang sama diperoleh pola frekuensi tinggi dengan panjang 5 atau 5 − itemset. 6. Iterasi keenam karena tidak ada kandidat 6 − itemset yang mempunyai nilai support ≥ nilai minimum support maka iterasi berhenti. Dari iterasi tersebut, diperoleh pola frekuensi tinggi seperti pada Tabel 1. Tabel 1. Pola frekuensi tinggi (ditampilkan 5 dari 193 itemset) Itemset banyaknya support(%) A2,G2,L2,M2,P5 29 6.532 A2,G2,L2,M2,S55 34 7.658 A2,G1,L2,M2 40 9.009 A2,G1,L2,M3 24 5.405 A2,G1,L2,S55 25 5.631 5.3. Nilai confidence. Setelah semua pola frekuensi tinggi diperoleh, langkah selanjutnya adalah mencari aturan asosiasi yang memenuhi nilai minimum confidence. Setelah nilai confidence diperoleh, kandidat aturan asosiasi yang memiliki nilai confidence < minimum support akan dihapuskan sehingga diperoleh aturan asosiasi seperti pada Tabel 2. 5.4. Nilai lift. Untuk mengetahui kekuatan dari aturan asosiasi yang terbentuk, dicari nilai lift masing-masing itemset kemudian menghapus aturan asosiasi yang mempunyai nilai lift kurang dari 1, hasilnya seperti pada Tabel 3. 5.5. Aturan Asosiasi Final. Aturan asosiasi pada penelitian ini berbentuk {A2}→{L2} dengan supoort = 56.306% dan confidence = 68.120%, {A2,G1}→{L2} Tabel 2. Kandidat aturan asosiasi (ditampilkan 5 dari 368 itemset) Itemset banyaknya support(%) confidence(%) A2,M2,P1 → L1 23 5.180 50.000 A2,M2,P1 → L2 23 5.180 50.000 L1,P5 → G2 26 5.856 96.296 G2,L2,M2,S55 → A2 34 7.658 97.143 L2,P2 → A2 33 7.432 100.00 6 commit to user 2016 perpustakaan.uns.ac.id digilib.uns.ac.id Penerapan algoritme apriori . . . D.I.Mahbubah, I.Slamet, B.Winarno Tabel 3. Nilai lift aturan asosiasi (ditampilkan 5 dari 239 itemset) Itemset banyaknya support(%) confidence(%) lift M3 → G2 77 17.342 72.642 1.00163 G2,P1 → M2 47 10.586 52.222 1.00375 A3,G2 → L1 42 9.459 75.000 1.99399 A3,M2 → G2,L1 23 5.180 62.162 2.04447 A3,G2,M2 → L1 23 5.180 79.310 2.10859 dengan supoort = 17.568% dan confidence = 76.471%, {A2,G1,M2}→{L2} dengan supoort = 9.009% dan confidence = 70.175%, {A2,G2,L2,S55}→{M2} dengan supoort = 7.658% dan confidence = 77.273%. Aturan asosiasi final diperoleh dengan mengalikan nilai support dan confidence tiap kombinasi itemset. Tabel 4 menunjukkan 3 nilai support × confidence terbesar dari 239 aturan asosiasi final yang dihasilkan. Tabel 4. Aturan asosiasi final Itemset banyaknya support(%) confidence(%) lift support×confidence(%) L2 → A2 250 56.306 90.253 1.09188 50.818 A2 → L2 250 56.306 68.120 1.09189 38.356 M2 → A2 192 43.243 83.117 1.00555 35.942 6. Kesimpulan Berdasarkan hasil pembahasan diperoleh kesimpulan berikut. (1) Aturan pertama menunjukkan bahwa 50.818% kelulusan mahasiswa FMIPA UNS dipengaruhi oleh lama studi mahasiswa lebih dari 4 tahun dengan predikat sangat memuaskan (IPK diantara 2.76-3.50). Mahasiswa yang menempuh studi selama ≥4 tahun memiliki kemungkinan 90.253% lulus dengan predikat sangat memuaskan. Aturan tersebut mewakili 56.306% dari data kelulusan mahasiswa FMIPA UNS. (2) Aturan kedua menunjukkan bahwa 38.356% kelulusan mahasiswa FMIPA UNS dipengaruhi oleh mahasiswa yang lulus dengan predikat sangat memuaskan dan lama studi mahasiswa lebih dari 4 tahun. Mahasiswa yang lulus dengan predikat sangat memuaskan memiliki kemungkinan 68.120% 7 commit to user 2016 perpustakaan.uns.ac.id digilib.uns.ac.id Penerapan algoritme apriori . . . D.I.Mahbubah, I.Slamet, B.Winarno menempuh studi selama ≥4 tahun. Aturan tersebut mewakili 56.306% dari data kelulusan mahasiswa FMIPA UNS. (3) Aturan ketiga menunjukkan bahwa 35.942% kelulusan mahasiswa FMIPA UNS dipengaruhi oleh jalur masuk SNMPTN dan predikat kelulusan sangat memuaskan. Mahasiswa yang masuk universitas melalui jalur SNMPTN memiliki kemungkinan 83.117% lulus dengan predikat sangat memuaskan. Aturan tersebut mewakili 43.243% dari data kelulusan mahasiswa FMIPA UNS. DAFTAR PUSTAKA [1] Agrawal, R. and R. Srikant. Fast Algorithms for Mining Association Rules. IBM Research Report RJ9839 in IBM Almaden Research Center, San Jose, Calif., June 1994. [2] Berry, M. J. A. and G. S. Linoff. Data Mining Techniques for Marketing, Sales, and Customer Relationship Management Second Edition. Wiley Publishing, Inc., Hoboken, New Jersey, 2004. [3] Demir, N. Association Rules Mining in Plastic Pipe Sector. International Journal of Scientific Engineering and Applied Science (IJSEAS), 1(4), July 2015. [4] Kusrini dan E. T. Luthfi. Algoritma Data Mining. Andi Offset, Yogyakarta, 2009. [5] Larose, D. T. Discovering Knowledge in Data : An Introduction to Data Mining. John Willey & Sons. Inc, Hoboken, New Jersey, 2005. [6] Santosa, B. Data Mining : Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha Ilmu, Yogyakarta, 2007. [7] Tan, P., M. Steinbach and V. Kumar. Introduction to Data Mining. Pearson Education, Boston, 2006. [8] Vijayalakshmi, V. and A. Pethalakshmi. Mining of Frequent Itemsets with an Enhanced Apriori Algorithm. International Journal of Computer Applications, 81(4), November 2013. 8 commit to user 2016