Artikel_Durri Indy M_M0111024

advertisement
perpustakaan.uns.ac.id
digilib.uns.ac.id
PENERAPAN ALGORITME APRIORI PADA DATA KELULUSAN
MAHASISWA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN
ALAM UNIVERSITAS SEBELAS MARET
Durri Indy Mahbubah, Isnandar Slamet, dan Bowo Winarno
Program Studi Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Sebelas Maret Surakarta
Abstrak. Data mining merupakan proses pengekstrakan informasi yang berasal dari
basis data berukuran besar untuk membantu dalam pengambilan keputusan. Salah
satu metode data mining yang biasanya digunakan adalah aturan asosiasi. Algoritme apriori merupakan aturan asosiasi dengan menggunakan frequent item. Algoritme
apriori dapat diterapkan pada data kelulusan mahasiswa untuk menemukan aturan
asosiasi. Tujuan penelitian ini untuk menentukan hubungan semua variabel yang
memenuhi syarat minimum untuk support dan syarat minimum untuk confidence.
Penelitian ini dilakukan dengan terlebih dahulu melihat hubungan antara data induk
mahasiswa dan data kelulusan mahasiswa. Hubungan antara data induk mahasiswa dan data kelulusan mahasiswa dapat dilihat dari nilai support, confidence dan
lift yang diperoleh. Berdasarkan pada pembahasan menggunakan data induk dan
data kelulusan mahasiswa diperoleh kesimpulan bahwa 50.818% kelulusan mahasiswa FMIPA UNS dipengaruhi oleh lama studi mahasiswa lebih dari 4 tahun dengan
predikat sangat memuaskan ditunjukkan oleh aturan{L2}→{A2}. 38.356% kelulusan mahasiswa FMIPA UNS dipengaruhi oleh mahasiswa yang lulus dengan predikat
sangat memuaskan dan lama studi mahasiswa lebih dari 4 tahun ditunjukkan oleh
aturan {A2}→{L2}. 35.942% kelulusan mahasiswa FMIPA UNS dipengaruhi oleh
jalur masuk SNMPTN dan predikat kelulusan sangat memuaskan ditunjukkan oleh
aturan {M2}→{A2}.
Kata kunci: data mining, aturan asosiasi, algoritme apriori.
1. Pendahuluan
Data mining didefinisikan sebagai sebuah proses untuk menemukan hubungan, pola dan trend baru yang bermakna dengan menyaring data yang berukuran sangat besar, yang tersimpan dalam penyimpanan, menggunakan teknik pengenalan pola (Larose [5]). Menurut Demir [3], algoritme dan model data mining
yang paling sering digunakan yaitu aturan asosiasi(association rule), pohon keputusan (decision tree), klaster (clustering), regresi linear ganda (multiple linear
regression), pola-pola berurutan (sequential patterns) dan model karakteristik
(characteristics model ).
Aturan asosiasi digunakan untuk penemuan pengetahuan dan pengambilan
keputusan manajerial berdasarkan asosiasi antar data untuk membentuk sistem
yang baik (Vijayalakshmi dan Pethalakshmi [8]). Beberapa jenis analisis asosiasi
pada data mining adalah algoritme apriori, algoritme hash-based dan GRI (generalized rule induction) (Kusrini dan Luthfi [4]). Algoritme apriori merupakan
1
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
Penerapan algoritme apriori . . .
D.I.Mahbubah, I.Slamet, B.Winarno
aturan asosiasi dengan menggunakan frequent item (Vijayalakshmi dan Pethalakshmi [8]).
Salah satu aplikasi algoritme apriori adalah dalam bidang pendidikan. Dalam bidang pendidikan, data kelulusan mahasiswa dan data induk mahasiswa
dapat digunakan untuk menentukan hubungan semua variabel yang memenuhi
syarat minimum untuk support dan syarat minimum untuk confidence. Berdasarkan data kelulusan mahasiswa strata 1 (S1) Fakultas Matematika dan Ilmu
Pengetahuan Alam (FMIPA) Universitas Sebelas Maret (UNS), rata-rata lama
studi yang ditempuh selama 4,4 tahun. Oleh karena itu dalam penelitian ini
dibahas mengenai penerapan algoritme apriori pada data kelulusan mahasiswa
Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sebelas Maret.
2. DATA MINING
Tan et al. [7] mendefinisikan data mining sebagai proses untuk mendapatkan informasi dari basis data yang besar. Data mining juga dapat diartikan
sebagai pengekstrakan informasi baru yang diambil dari bongkahan data besar
yang membantu dalam pengambilan keputusan. Metode data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan (Larose [5]).
Kelompok-kelompok tersebut diuraikan sebagai berikut.
(1) Deskripsi (Description). Deskripsi adalah teknik yang digunakan untuk
menggambarkan pola dan kecenderungan yang terdapat dalam data.
(2) Klasifikasi (Classification). Klasifikasi adalah proses membedakan kelas
data ke dalam beberapa kategori.
(3) Estimasi (Estimation). Estimasi hampir sama dengan klasifikasi namun
dalam estimasi variabel yang digunakan lebih ke arah numerik dari pada
ke arah kategori.
(4) Prediksi (Prediction). Prediksi hampir sama dengan klasifikasi dan estimasi namun hasil dari prediksi akan ada di masa mendat ang.
(5) Klaster (Clustering). Klaster adalah pengelompokan daftar, pengamatan
dan membentuk kelas objek-objek yang mempunyai kemiripan.
2
commit to user
2016
perpustakaan.uns.ac.id
digilib.uns.ac.id
Penerapan algoritme apriori . . .
D.I.Mahbubah, I.Slamet, B.Winarno
(6) Aturan Asosiasi (Association Rule). Aturan asosiasi merupakan teknik
data mining yang digunakan untuk mengetahui hubungan atau asosiasi
antara nilai tertentu dari variabel kategori pada data set besar (Demir [3]).
Aturan asosiasi dinyatakan dalam bentuk X → Y , dimana X ⊂ I, Y ⊂ I
dan X ∩ Y = ∅ dengan I = {i1 , i2 , . . . , im } (Agrawal dan Srikant [1]).
Untuk mengukur penting tidaknya suatu aturan asosiasi dapat diketahui
dengan dua parameter yaitu nilai penunjang (support) dan nilai kepastian
(confidence) (Kusrini dan Luthfi [4]).
3. Algoritme Apriori
Algoritme apriori adalah suatu algoritme dasar yang diusulkan oleh Agrawal
dan Srikant [1] pada tahun 1994 untuk menentukan frequent itemsets. Algoritme
apriori merupakan algoritme analisis asosiasi pertama yang mempelopori penggunaan pemangkasan itemset berdasarkan nilai support (Tan et al. [7]).
Menurut Larose [5] metodologi dasar algoritme apriori dibagi menjadi dua
tahap.
(1) Tahap pertama. Analisis pola frekuensi tinngi.
Tahap ini mencari kombinasi item yang memenuhi batas minimal untuk
nilai support (minimum support) dalam database.
support(A ∪ B) =
Banyaknya transaksi mengandung A dan B
Total transaksi
(3.1)
Nilai support dari suatu itemset diperoleh dari persamaan (3.1).
(2) Tahap kedua. Pembentukan aturan asosiasi.
Setelah semua pola frekuensi tinggi ditemukan, maka selanjutnya dicari aturan asosiasi yang memenuhi batas minimal untuk nilai confidence
(minimum confidence).
conf idence(A → B) =
support(A ∪ B)
supportA
(3.2)
Nilai confidence dari aturan asosiasi diperoleh dari persamaan (3.2).
Berry dan Linoff [2] menyebutkan bahwa nilai confidence yang tinggi terkadang bisa menyesatkan karena nilai confidence yang dipilih mengabaikan nilai
3
commit to user
2016
perpustakaan.uns.ac.id
digilib.uns.ac.id
Penerapan algoritme apriori . . .
D.I.Mahbubah, I.Slamet, B.Winarno
support dari itemset yang muncul dalam aturan yang terbentuk. Salah satu cara
untuk menangani masalah tersebut adalah dengan menghitung lift pada setiap
itemset.
lif t(A → B) =
conf idence(A → B)
support(B)
(3.3)
Demir ([3]) menjelaskan lift sebagai perhitungan rasio antara aturan confidence
dan support itemset. Nilai lift dapat diperoleh dari persamaan (3.3). Menurut
Santosa [6] lift digunakan untuk mengevaluasi kuat tidaknya sebuah aturan asosiasi. Jika nilai lift lebih dari 1, maka menunjukkan adanya manfaat dari aturan
asosiasi tersebut.
4. Metode Penelitian
Langkah-langkah yang dilakukan dalam penelitian adalah mengumpulkan
data induk dan data kelulusan mahasiswa mulai tahun 2008 sampai 2015, menyeleksi data yang telah diperoleh berdasarkan atribut yang dipilih dan kelengkapan
data yang diperoleh, menentukan nilai minimum support dan nilai minimum confidence serta membentuk pola frekuensi tinggi. Terdapat beberapa iterasi untuk
memperoleh pola frekuensi tinggi. Iterasi pertama membentuk kandidat itemset, menghitung nilai support tiap kandidat itemset, menghapus kandidat itemset
yang memiliki nilai support < minimum support. Iterasi selanjutnya dilakukan
dengan cara yang sama seperti iterasi pertama sampai nilai support tiap kandidat
sama atau tidak ditemukan lagi kombinasi itemset dan diperoleh pola frekuensi tinggi. Setelah membentuk pola frekuensi tinggi, menghitung nilai confidence
masing-masing kandidat dan membentuk aturan asosiasi dari itemset yang memenuhi nilai minimum confidence. Langkah selanjutnya adalah menghitung nilai lift
dari aturan asosiasi yang terbentuk dan menghapus aturan asosiasi yang mempunyai nilai lift <1. Langkah terakhir adalah membentuk aturan asosiasi final
dengan mengalikan nilai support dan confidence tiap kombinasi item kemudian
menganalisis hasil yang diperoleh. Perhitungan dalam penelitian ini dilakukan
dengan menggunakan Microsoft Excel dan Software Tanagra.
4
commit to user
2016
perpustakaan.uns.ac.id
digilib.uns.ac.id
Penerapan algoritme apriori . . .
D.I.Mahbubah, I.Slamet, B.Winarno
5. Hasil dan Pembahasan
5.1. Atribut Data. Data yang digunakan dalam penelitian ini terdiri atas dua
sumber yaitu data induk mahasiswa dan data kelulusan mahasiswa. Atribut
yang digunakan adalah IPK yang terdiri atas A1 (IPK diantara 2.00-2.75), A2
(IPK diantara 2.76-3.50) dan A3 (IPK diantara 3.51-4.00). Atribut jenis kelamin
terdiri atas G1 (laki-laki) dan G2 (perempuan). Atribut lama studi terdiri atas
L1 (lama studi ≤ 4 tahun) dan L2 (lama studi > 4 tahun). Atribut jalur masuk
terdiri atas M1 (jalur PMDK atau Undangan), M2 (jalur SNMPTN) dan M3
(Jalur Swadana). Atribut program studi terdiri atas P1 (Program Studi Biologi),
P2 (Program Studi Fisika), P3 (Program Studi Informatika), P4 (Program Studi
Kimia) dan P5 (Program Studi Matematika). Atribut asal sekolah terdiri atas
S01 (Balikpapan), S02 (Bandung), S03 (Banyumas),. . . , S65 (lain-lain).
5.2. Nilai support. Tahapan pertama dalam algoritme apriori adalah membentuk pola frekuensi tinggi. Dalam penelitian ini ditetapkan minimum support =
0.05 dan minimum confidence = 0.50. Berikut adalah iterasi untuk memeroleh
pola frekuensi tinggi.
1. Pada iterasi pertama, dihitung nilai support tiap item. Setelah nilai
support setiap item diperoleh, item yang memiliki nilai support ≥ minimum support dipilih sebagai pola frekuensi tinggi dengan panjang 1
atau 1 − itemset.
2. Iterasi kedua, mencari nilai support dari kandidat 2 − item. Kandidat
2 − item diperoleh dari mengkombinasikan semua item dalam 1 − itemset
menjadi 2 − item tiap set-nya. Kandidat 2 − itemset yang mempunyai
nilai support ≥ nilai minimum support dihapuskan sehingga diperoleh
pola frekuensi tinggi dengan panjang 2 atau 2 − itemset.
3. Pada iterasi ketiga dilakukan dengan cara yang sama diperoleh pola frekuensi tinggi dengan panjang 3 atau 3 − itemset.
4. Iterasi keempat dilakukan dengan cara yang sama diperoleh pola frekuensi
tinggi dengan panjang 4 atau 4 − itemset.
5
commit to user
2016
perpustakaan.uns.ac.id
digilib.uns.ac.id
Penerapan algoritme apriori . . .
D.I.Mahbubah, I.Slamet, B.Winarno
5. Iterasi kelima dilakukan dengan cara yang sama diperoleh pola frekuensi
tinggi dengan panjang 5 atau 5 − itemset.
6. Iterasi keenam karena tidak ada kandidat 6 − itemset yang mempunyai
nilai support ≥ nilai minimum support maka iterasi berhenti.
Dari iterasi tersebut, diperoleh pola frekuensi tinggi seperti pada Tabel 1.
Tabel 1. Pola frekuensi tinggi (ditampilkan 5 dari 193 itemset)
Itemset
banyaknya support(%)
A2,G2,L2,M2,P5
29
6.532
A2,G2,L2,M2,S55
34
7.658
A2,G1,L2,M2
40
9.009
A2,G1,L2,M3
24
5.405
A2,G1,L2,S55
25
5.631
5.3. Nilai confidence. Setelah semua pola frekuensi tinggi diperoleh, langkah
selanjutnya adalah mencari aturan asosiasi yang memenuhi nilai minimum confidence. Setelah nilai confidence diperoleh, kandidat aturan asosiasi yang memiliki
nilai confidence < minimum support akan dihapuskan sehingga diperoleh aturan
asosiasi seperti pada Tabel 2.
5.4. Nilai lift. Untuk mengetahui kekuatan dari aturan asosiasi yang terbentuk,
dicari nilai lift masing-masing itemset kemudian menghapus aturan asosiasi yang
mempunyai nilai lift kurang dari 1, hasilnya seperti pada Tabel 3.
5.5. Aturan Asosiasi Final. Aturan asosiasi pada penelitian ini berbentuk
{A2}→{L2} dengan supoort = 56.306% dan confidence = 68.120%, {A2,G1}→{L2}
Tabel 2. Kandidat aturan asosiasi (ditampilkan 5 dari 368 itemset)
Itemset
banyaknya support(%) confidence(%)
A2,M2,P1 → L1
23
5.180
50.000
A2,M2,P1 → L2
23
5.180
50.000
L1,P5 → G2
26
5.856
96.296
G2,L2,M2,S55 → A2
34
7.658
97.143
L2,P2 → A2
33
7.432
100.00
6
commit to user
2016
perpustakaan.uns.ac.id
digilib.uns.ac.id
Penerapan algoritme apriori . . .
D.I.Mahbubah, I.Slamet, B.Winarno
Tabel 3. Nilai lift aturan asosiasi (ditampilkan 5 dari 239 itemset)
Itemset
banyaknya support(%) confidence(%)
lift
M3 → G2
77
17.342
72.642
1.00163
G2,P1 → M2
47
10.586
52.222
1.00375
A3,G2 → L1
42
9.459
75.000
1.99399
A3,M2 → G2,L1
23
5.180
62.162
2.04447
A3,G2,M2 → L1
23
5.180
79.310
2.10859
dengan supoort = 17.568% dan confidence = 76.471%, {A2,G1,M2}→{L2} dengan supoort = 9.009% dan confidence = 70.175%, {A2,G2,L2,S55}→{M2} dengan supoort = 7.658% dan confidence = 77.273%. Aturan asosiasi final diperoleh
dengan mengalikan nilai support dan confidence tiap kombinasi itemset. Tabel 4
menunjukkan 3 nilai support × confidence terbesar dari 239 aturan asosiasi final
yang dihasilkan.
Tabel 4. Aturan asosiasi final
Itemset
banyaknya support(%) confidence(%)
lift
support×confidence(%)
L2 → A2
250
56.306
90.253
1.09188
50.818
A2 → L2
250
56.306
68.120
1.09189
38.356
M2 → A2
192
43.243
83.117
1.00555
35.942
6. Kesimpulan
Berdasarkan hasil pembahasan diperoleh kesimpulan berikut.
(1) Aturan pertama menunjukkan bahwa 50.818% kelulusan mahasiswa FMIPA
UNS dipengaruhi oleh lama studi mahasiswa lebih dari 4 tahun dengan
predikat sangat memuaskan (IPK diantara 2.76-3.50). Mahasiswa yang
menempuh studi selama ≥4 tahun memiliki kemungkinan 90.253% lulus
dengan predikat sangat memuaskan. Aturan tersebut mewakili 56.306%
dari data kelulusan mahasiswa FMIPA UNS.
(2) Aturan kedua menunjukkan bahwa 38.356% kelulusan mahasiswa FMIPA
UNS dipengaruhi oleh mahasiswa yang lulus dengan predikat sangat memuaskan dan lama studi mahasiswa lebih dari 4 tahun. Mahasiswa yang
lulus dengan predikat sangat memuaskan memiliki kemungkinan 68.120%
7
commit to user
2016
perpustakaan.uns.ac.id
digilib.uns.ac.id
Penerapan algoritme apriori . . .
D.I.Mahbubah, I.Slamet, B.Winarno
menempuh studi selama ≥4 tahun. Aturan tersebut mewakili 56.306%
dari data kelulusan mahasiswa FMIPA UNS.
(3) Aturan ketiga menunjukkan bahwa 35.942% kelulusan mahasiswa FMIPA
UNS dipengaruhi oleh jalur masuk SNMPTN dan predikat kelulusan sangat memuaskan. Mahasiswa yang masuk universitas melalui jalur SNMPTN
memiliki kemungkinan 83.117% lulus dengan predikat sangat memuaskan.
Aturan tersebut mewakili 43.243% dari data kelulusan mahasiswa FMIPA
UNS.
DAFTAR PUSTAKA
[1] Agrawal, R. and R. Srikant. Fast Algorithms for Mining Association Rules. IBM Research
Report RJ9839 in IBM Almaden Research Center, San Jose, Calif., June 1994.
[2] Berry, M. J. A. and G. S. Linoff. Data Mining Techniques for Marketing, Sales, and Customer Relationship Management Second Edition. Wiley Publishing, Inc., Hoboken, New
Jersey, 2004.
[3] Demir, N. Association Rules Mining in Plastic Pipe Sector. International Journal of Scientific Engineering and Applied Science (IJSEAS), 1(4), July 2015.
[4] Kusrini dan E. T. Luthfi. Algoritma Data Mining. Andi Offset, Yogyakarta, 2009.
[5] Larose, D. T. Discovering Knowledge in Data : An Introduction to Data Mining. John
Willey & Sons. Inc, Hoboken, New Jersey, 2005.
[6] Santosa, B. Data Mining : Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha Ilmu,
Yogyakarta, 2007.
[7] Tan, P., M. Steinbach and V. Kumar. Introduction to Data Mining. Pearson Education,
Boston, 2006.
[8] Vijayalakshmi, V. and A. Pethalakshmi. Mining of Frequent Itemsets with an Enhanced
Apriori Algorithm. International Journal of Computer Applications, 81(4), November 2013.
8
commit to user
2016
Download