Edisi Juli 2015 Volume IX No. 2 ISSN 1979

advertisement
Edisi Juli 2015 Volume IX No. 2
ISSN 1979-8911
ANALISA POLA ASOSIASI JALUR MASUK TERHADAP KELULUSAN
MAHASISWA DENGAN MENGGUNAKAN METODE FOLD-GROWTH
(STUDI KASUS FAKULTAS SAINS DAN TEKNOLOGI)
Mohamad Irfan
Jurusan Teknik Informatika, Fakultas Sains dan Teknologi
Universitas Islam Negeri Sunan Gunung Djati Bandung
[email protected]
Abstrak
Teknologi komunikasi dan informasi telah berkembang seiring dengan tuntutan untuk
mendapatkan informasi yang lebih spesifik dan terukur. Data yang diolah dijadikan
pendukung untuk mengambil keputusan dengan memanfaatkan basisdata yang dimiliki
untuk menentukan pola asosiasi jalur masuk calon mahasiswa terhadap kelulusan. Pola
asosiasi antara data mahasiswa dan data kelulsan mahasiswa. Pola asosiasi antara dua jenis
data tersebut dapat menunjukkan apakah ada keterkaitan antara variabel data mahasiswa
yang terdiri dari jalur masuk dan Jurusan, dengan tingkat kelulusan mahasiswa yang bisa
dilihat dari lama studi dan indeks prestasi kumulatif (IPK). Penelitian mencari pola
asosiasi antara jalur masuk dengan kelulusan mahasiswa menggunakan metode FOLDGrowth. Dalam metode FOLD-Growth tahapan pertama yang dilakukan adalah mencari
frequent itemset, pemangkasan item-item yang tidak frequent, pembangunan FP-Tree
menggunakan transaksi yang telah dipangkas dan penggalian itemset frequent. Pencarian
pola antara jalur masuk dengan kelulusan mahasiswa disertai nilai support dan nilai
confident menghasilkan jalur masuk melalui tes tulis maka lama lulusnya lebih dari 4
tahun dengan IPK berada diantara 3.00 sampai 3.49 masuk dalam kategori B2 di jurusan
Teknik Informatika, dengan nilai support 28,73. Jalur masuk tes PPA maka lulusnya lebih
dari 4 tahun dengan IPK berada diantara 3,00 smapai 3,49 atau kategori B2 dengan niali
support 12,80.
Kata Kunci: Asosiasi Rule, Itemset, FOLD-Growth, Mahasiswa, Data Mining
1.
memakai sistem infor-masi untuk kegiatan
Pendahuluan
sehari-hari.
1.1 Latar Belakang Masalah
Sistem
informasi
dapat
digunakan untuk mendapatkan, mengolah
Saat
ini,
sudah
banyak
instansi
dan
menyebarkan
informasi
untuk
pemerintahan maupun swasta yang sudah
menunjang
kegiatan,
memberikan
172
Edisi Juli 2015 Volume IX No. 2
ISSN 1979-8911
informasi dan sebagai sarana pengambil
mining,
keputusan dengan memanfaatkan data-
diharapkan
base yang dimiliki. Database merupakan
pengetahuan-pengetahuan
sistem
memakai
lumnya tersimpan di dalam database
tersebut
sehingga menjadi informasi yang berharga.
penyimpanan
komputer
dimana
data
database
penggunaan
data
dapat
memberikan
yang
sebe-
merupakan komponen utama dalam sistem
Ada
informasi, karena merupakan dasar dalam
menyelesaikan
menyediakan
diantaranya algoritma Fold-Growth, yang
informasi
[5].
Dimana
banyak berbagai bidang menggunakan
sejumlah
mining
algoritma
untuk
association
rule,
masuk dalam algortima asosiasi [4].
database. Bahkan saat ini hampir semua
Penelitian ini dibuat dengan tujuan
perusahaan,
perkantoran,
supermarket
untuk
mendapatkan
informasi
yang
termasuk Perguruan Tinggi meng-gunakan
berguna tentang hubungan antara tingkat
database.
kelulusan mahasiswa dengan jalur masuk
Belum diketahuinya pola asosiasi
perguruan tinggi menggunakan teknik data
antara data mahasiswa dan data kelulusan
mining
mahasiswa di Universitas Islam Negeri
Growth. Informasi yang disajikan untuk
Sunan Gunung Djati Bandung.
mengukur
Pola
menggunakan
tingkat
metode
kelulusan
Fold-
dan
asosiasi antara dua jenis data tersebut
hubungannya
dapat menunjukkan apakah ada keterkaitan
mahasiswa. Informasi yang ditampilkan
antara variabel data mahasiswa yang
berupa nilai support (nilai penunjang)
terdiri dari jalur masuk dan program studi,
confident (nilai kepastian) dan hubungan
dengan tingkat kelulusan mahasiswa yang
antara tingkat kelulusan dengan proses
bisa dilihat dari lama studi dan IPK.
masuk mahasiswa.
dengan
jalur
masuk
Pencarian data dari pola tersebut sangat
1.2 Identifikasi Masalah
erat kaitannya dengan penggunan data
173
Edisi Juli 2015 Volume IX No. 2
ISSN 1979-8911
Berdasarkan latar belakang masalah
diatas pokok permasalahan yang dicari
solusinya adalah:
hubungan antara tingkat kelulusan
dengan proses masuk mahasiswa.
2. Pembahasan dilakukan pada Program
Sarjana (SI) di Fakultas Fakultas Sains
1. Bagaimana membuat aplikasi untuk
dan
Teknologi
Universitas
Islam
menghasilkan informasi yang dapat
Negeri Sunan Gunung Djati Bandung.
digunakan untuk mengukur tingkat
3. Bahasa pemograman yang digunakan
kelulusan dan hubungannya dengan
yaitu bahasa Java.
jalur masuk mahasiswa.
4. Data yang dijadikan penelitian ini
2. Informasi yang ditampilkan berupa
adalah data mahasiswa Fakultas Sains
nilai
support
(nilai
penunjang)
dan
confident
(nilai
kepastian)
Teknologi
Universitas
Islam
dan
Negeri Sunan Gunung Djati Bandung
hubungan antara tingkat kelulusan
dari tahun 2006 sampai 2009 dan data
dengan proses masuk mahasiswa.
mahasiswa yang sudah menempuh
pendidikan dari tahun 2006 sampai
1.3 Batasan Masalah
2009 di Fakultas Sains dan Teknologi.
Adapun
batasan
masalah
dalam
aplikasi data mining untuk menganalisa
hubungan antara jalur masuk dengan
tingkat
kelulusan
mahasiswa
menggunakan metode Fold-Growth ini
adalah:
5. Input dari aplikasi ini adalah memilih
data
mahasiswa
sesuai
jurusan,
memilih nilai support dan memilih
nilai Confidence.
6. Output dari aplikasi ini adalah hasil
dari perhitungan menggunakan metode
Fold-Growth
berupa
kombinasi
nilai support (nilai penunjang) dan
itemset,
support
dan
confident
confidence.
1. Informasi yang ditampilkan berupa
(nilai
kepastian)
dan
nilai
nilai
174
Edisi Juli 2015 Volume IX No. 2
ISSN 1979-8911
beberapa kategori (atau class) yang telah
1.4 Tujuan
Penelitian ini dibuat dengan tujuan,
menghasilkan aplikasi untuk mendapatkan
didefinisikan sebelumnya.
b.
informasi yang berguna tentang hubungan
antara
tingkat
kelulusan
mahasiswa
Clustering [ Descriptive]
Mempartisi data-set menjadi beberapa
sub-set atau kelompok sedemikian rupa
dengan jalur masuk menggunakan teknik
sehingga
data mining menggunakan metode Fold-
kelompok tertentu memiliki set property
Growth di Fakultas Sains dan teknologi.
yang dishare bersama, dengan tingkat
2.
elemen-elemen
similaritas
Dasar Teori
yang
tinggi
dari
dalam
suatu
satu
kelompok dan tingkat similaritas antar
2.1 Data Mining
kelompok yang rendah. Disebut juga
Data mining merupakan analisis dari
peninjauan
kumpulan
data
dengan ‘unsupervised learning’
untuk
menemukan hubungan yang tidak diduga
dan meringkas data dengan cara yang
berbeda dengan sebelumnya, yang dapat
dipahami dan bermanfaat bagi pemilik
data.
c.
Assosiation
Rule
Discovery
[Descriptive]
Mendeteksi kumpulan atribut-atribut
yang muncul bersamaan (co-accur) dalam
frekuensi yang sering, dengan membentuk
sejumlah kaidah dari kumpulan-kumpulan
2.2 Teknik Data Mining
Beberapa teknik dan sifat data mining
adalah sebagai berikut:
a.
Classification [Predictive]
Klasifikasi adalah merupakan sebuah
tersebut. Contohnya: 90% orang yang
belanja
di
suatu
supermarket
yang
membeli roti juga membeli selai, dan 60%
dai semua orang yang berbelanja membeli
keduanya.
record data baru ke salah satu dari
175
Edisi Juli 2015 Volume IX No. 2
d.
Sequential
Pattern
ISSN 1979-8911
Discovery
mengasumsikan
[Descriptive]
ketergantungan
Mencari sejumlah event yang secara
Teknik
ini
sebuah
linier
banyak
atau
model
nonlininer.
dipelajari
dalam
umum terjadi bersama-sama. Contohnya,
statistika, bidang jaringan saraf tiruan
dalam satu set urutan DNA, ACGTC
(neuron network).
diikuti oleh GTCA setelah suatu celah
selebar 9 dengan probabilitas sebesar 30%.
Jika diberikan sekumpulan obyek,
dengan
masing-masing
obyek
2.3 Analisa Asosiasi
a.
Frequent itemset
Semua record dalam satu kelompok
mempunyai idtrans yang sama. Mereka
dihubungkan dengan waktu kejadiannya
bersama-sama
maka dapatkan pola yang memprediksi
transaksi
ketergantungan
sekuensial
pembelian satu item atau lebih. Suatu
dependencies)
yang
(sequential
kuat
diantara
kejadian-kejadian yang berbeda.
(AB) (C)→(D
E)
dasarnya dibentuk dengan cara mencari
semua kemungkinan pola yang ada. Nilaikejadian
dalam
pelanggan
terjadi
yang
pada
suatu
melibatkan
suatu
tanggal
tertentu dan nama dari tiap item yang
Pola-pola sekuensial pertama, pada
nilai
transaksi
menggambarkan
pola
diatur
dibeli dicatat bersama dengan jumlahnya.
Pembuatan tabel ‘denormalized’ untuk
mempermudah
data
mining
biasanya
dilakukan pada tahan data cleaning dari
proses KDD.
Lebar transaksi didefinisikan sebaga
berdasarkan urutan waktu kejadian.
jumlah item yang terdapat dalam sebuah
e.
Regression [Predictive]
transaksi. Suatu transaksi
Memprediksi nilai dari suatu variable
kontinyu yang diberikan berdasarkan nilai
dari
variable
yang
lain,
dikatakan
berisi sebuah itemset X jika X merupakan
subset
dari
.
Contohnya transaksi
dengan
176
Edisi Juli 2015 Volume IX No. 2
ISSN 1979-8911
pertama pada tabel diatas berisi itemset
muncul dalam transaksi yang berisi X.
{Pena, Tinta} dan bukan {Pena, Air}.
secara formal dapat dinyatakan dengan
Support count(σ) merupakan jumlah
transaksi yang berisi suatu itemset tertentu
persamaan berikut ini:
s(X→Y)=
( ∪ )
atau dengan kata lain merupakan frekuensi
c(X→Y)=
( ∪ )
( )
kejadian dari suatu itemset. Support dari
dimana s adalah support dan c adalah
sutau itemset adalah perbandingan dari
confidence.
transasksi dalam basisdata yang berisi
2.4 Association Rule Mining
semua item dalam itemset.
Biasanya jumlah himpunan item yang
Jika
terdapat
sebuah
himpunan
sering dibeli bersamaan relative kecil,
transaksi T, maka tujuan dari association
khususnya saat ukuran itemset meningkat.
rule mining adalah untuk menemukan
Semua itemset yang support-nya lebih
semua aturan yang mempunyai support
tinggi dari nilai minimum yang ditetapkan
≥minsup
user yang disebut dengan minsup; disebut
Pendekatan brute-force untuk association
frequentitemset.
rule mining menggunakann pendekatan
b.
Association Rule
dengan
Association rule merupakan sebuah
confidence dari semua kemungkinan rule.
ekspresi implikasi yang berbentuk X →Y,
Pendekatan Brute-frce terdiri dari langkah-
dimana X dan Y merupakan disjoint
langkah berikut:
itemset ( X∩Y) = ∅ . Contoh :{Pena,
a. Daftar
Tinta} ® {jus}. Dalam association rule,
kita dapat
confidence.
menghitung support adan
Confidence
menyatakan
dan
confidence
menghitung
semua
≥minconf.
support
dan
kemungkinan
association rule
b. Hitung support dan confidence
untuk setiap rule
seberapa sering item-item-item dalam Y
177
Edisi Juli 2015 Volume IX No. 2
ISSN 1979-8911
c. Pangkas rule yang tidak memenuhi
minsup dan minconf thresholds.
(support Ordered-Trie Itemset) dalam
penggalian
itemset
yang
frequent.
Secara umum, pendekatan ini sangat
SOTrielT adalah sebuah struktur data yang
mahal dalam waktu komputasinya. Jumlah
melakukan ekstraksi 1-itemset dan 2-
kemungkinan
itemset dari semua transaksi dalam basis
rule
dari sebuha
tabel
transaksi yang terdiri d item adalaha
data.
sebesar:
Dengan
R =3 ͩ - 2 ͩ +1
menggunakan
basis
data
transaksi yang terdiri dari kode transaksi,
Misalkan digunakan data pada tabel
dan kode dari barang yang di beli,
pembelian diatas dengan jumlah itemd=5,
algoritma
maka jumlah kemungkinan rule adalah
menghasilkan
sebesar:
penelitian yang dilakukan oleh Woon et al.
R=3 - 2 + 1 = 243 – 64 +1 =180
ini
akan
diproses
untuk
pola
asosiasi.
pada
(2004), penggabungan dua buah algoritma
yaitu FP-GROWTH dengan FOLDARM
Semua rule diatas merupakan partisi
pada
metode
assosiasi
menghasilkan
biner dari itemset yang sama. Rules yang
sebuah algoritma baru (FOLD-GROWTH)
berasal dari itemset yang sama mempunyai
yang memiliki kinerja yang lebih baik.
support yang identik tetapi mempunyia
Algoritma ini menggunakana struktur data
confidence yang berbeda, sehingga kita
SOTrielT, SOTrielT atau Sub Ordered Trie
dapat
memasangkan
ulang
untuk
Itemset
merupakan
suatu
Tree
yang
keperluan support dan confidence.
digabungkan dengan yang utuh. Kinerja
2.5 Fold-Growth
dari
Fold-Growth merupakan salah satu
metode
penggalian
menggunakan
struktur
pola
asosiasi
data
SOTrielT
algoritma
tersebut
menghasilkan
proses yang lebih fleksibel dan efisien jika
dibandingkan dengan algoritma-algoritma
178
Edisi Juli 2015 Volume IX No. 2
ISSN 1979-8911
aturan asosiasi lainnya seperti apriori dan
yang mengandung suatu pola dikatakan
FP-Growth.
sering muncul (frequent pattern) apabila
support dari pola tersebut tidak kurang
2.6 FP-Tree
dari sutau konstanta ᶓ
FP-Tree
merupakan
(batas ambang
struktur
minimum support). Permasalahan mencari
penyimpanan data yang dimampatkan. FPpola
frequent
dengan
batas
ambang
Tree dibangun dengan memetkan setuap
minimum support count ᶓ inilah yang
data transaksi ke dalam setiap lintasan
dicoba untuk dipecahkan oleh FOLDtertentu dalam FR-Tree. Karena dalam
Growth dengan bantuan struktur FP-Tree.
setiap transaksi yang dipetakan, mungkin
ada transaksi yang memiliki item yang
sama, maka lintasanya memungkinkan
3.
Data
Data
merupakan
untuk saling menimpa. Semakan banyak
keterangan
data transaksi yang memiliki item yang
dikumpulkan dari suatu populasi atau
sama, maka proses pemampatan dengan
bagian
struktur data FP-Tree semakin efektif.
karakte-ristik populasi tersebut [5].
Kelebihan dari FP-Tree adalah hanya
atau
keterangan-
populasi
fakta-fakta
untuk
yang
menjelaskan
3.1 Data induk Mahasiswa
memerlukan dua kali pemindaian data
Data induk mahasiswa adalah data
transaksi yang trebukti sangat efisien.
mahasiswa yang di data ketika mahasiswa
Missal
I={a1,
a2,
…….,an}
adalah
pertama masuk ke Universitas Islam
kumpulan dari item. Dan basis data
Negeri Sunan Gunung Djati Bandung
transaksi DB= {T1, T2, …..Tn}, dimana
setelah melakukan registrasi ulang. Data
Ti (I € [1….n]) adalah sekumpulan
yang dicatat adalah identitas pribadi
transaksi yang mengandung item di l.
mahasiswa dan identitas sekolah asal
sedangkan support adalah perhitungan
mahasiswa. Proses pendaftaran dilakukan
(counter) frequensi kemunculan transaksi
179
Edisi Juli 2015 Volume IX No. 2
di tingkat Universitas, setelah di rekap lalu
disebarkan ke Fakultas dan Jurusan.
Atribut yang terdaftar pada data induk
Mahasiswa.
Tabel 1 Atribut Mahasiswa
Atribut
No_Daftar
Angkatan
NIM
Nama lulus
Kota Lahir
Tanggal
Lahir
Alamat
Atribut
Desa
RT
Kecamatan
Kota
Fakultas
Keterangan
No daftar adalah, no
pendaftar pada saat siswa
tersebut daftar ke
Universitas Islam Negeri
Sunan Gunung Djati
Bandung
Angkat adalah keterangan
untuk tahun pada saat
mahasiswa pertama masuk
NIM (Nomor Induk
Mahasiswa) adalah nomor
Identitas mahasiswa yang
diberikan oleh pihak
Universitas
Nama mahasiswa yang lulus
seleksi masuk
Kota dimana tempat
mahasiswa yang
bersangkutan lahir
Tanggal dimana mahasiswa
yang bersangkutan lahir
Alamat temapt mahasiswa
tinggal
Keterangan
Desa dimana mahasiswa
yang bersangkutan tinggal
RT (Rukun Tetangga)
tempat dimana mahasiswa
yang bersangkutan
bertempat tinggal
Kecamatan tempat dimana
mahasiswa yang
bersangkutan tinggal
Kota dimana Tempat
mahasiswa yang
bersangkutan lihar
Fakultas tempat dimana
mahasiswa tersebut diterima
ISSN 1979-8911
Kode Prodi
Nomor unik prodi dimana
tempat mahasiswa
bersanglutan diterima
Prodi
Prodi dimana tempat
mahasiswa tersebut diterima
Kelas
Kelas tempat dimana
mahasiswa tersebut diterima
Jenis
Jenis kelamin mahasiswa
Kelamin
yang bersangkutan
Kode Pos
Kode Pos tempat dimana
mahasiswa bertempat tinggal
No Telp
No Telp mahasiswa yang
bersangkutan
Sekolah
Sekolah asal tempat
mahasiswa sebelum
melanjutkan ke jenjang
Universitas
Nama
Nama sekolah tempat
Sekolah
mahasiswa yang
bersangkutan sekolah
sebelum menlanjutkan ke
jenjang Universitas
Rumpun
Asal jurusan mahasiswa
tersebut pada saat di sekolah
menengah atas
Warga
Kewarganagaraan
Negara
mahasiswa yang
bersangkutan
Agama
Agama yang dianut oleh
mahasiswa yang
bersangkutan
Penghasilan Penghasilan orang tua
Orang Tua mahasiswa yang
bersangkutan
Atribut
Keterangan
Nama
Nama orang tua mahasiswa
Orang Tua yang bersangkutan
Pekerjaan
Pekerjaan orang tua
Orang Tua mahasiswa yang
bersangkutan
Tes
Jalur masuk tes mahasiswa
yang bersangkutan pada saat
pertama masuk ke
Universitas. Pada
Universitas Islam Negeri
Sunan Gunung Djati
Bandung terdapat beberapa
jalur masuk diantaranya,
PPA, Jalur Tulis, dan juga
180
Edisi Juli 2015 Volume IX No. 2
Pendidikan
Orang Tua
Status 1
Propinsi
SNMPTN
Pendidikan treakhir orang
tua Mahasiswa yang
bersangkutan
Status sekolah terakhir
mahasiswa yang
bersangkutan
Propinsi dimana mahasiswa
yang bersangkutan tinggal
Tabel 2 Atribut Data Kelulusan
Atribut
Keterangan
No pokok Nomor unik yang terdapat
Ijazah
di ijazah pada saat
mahasiswa yang
bersangkutan telah
menyelesaikan
pendidikannya di
Universitas
Tanggal
Tanggap pada saat
siding
mahasiswa tersebut sidang
tugas akhir dan dinyatakan
lulus
Nama
Nama Mahasiswa yang
Mahasiswa
bersangkutan
Tempat, tgl Tempat dan tanggal lahir
Lahir
mahasiswa yang
bersangkutan
Alamat
Alamat tempat mahasiswa
tinggal
Yudicium
Indeks prestasi yang di
capai mahasiswa yang
bersangkutan selama
berkuliah di universitas
Atribut
Keterangan
Judul
Judul tugas dari
Skripsi
mahasiswa yang
bersangkutan
Pembimbing Orang/dosen yang
membimbing tugas akhir
mahasiswa yang
bersangkutan
Prodi
Jurusan dari mahasiswa
yang bersangkutan
ISSN 1979-8911
Data kelulusan adalah data mahasiswa
yang telah dinyatakan lulus dan sudah
menyelesaikan pendidikan di Fakultas
Sains dan teknologi. Dalam data kelulusan
terdapat
atribut
data mahasiswa dan
kelengkapan kelulusan diantaranya nomor
pokok Ijazah, Tanggal sidang, Nama
mahasiswa, Yudisium, judul skripsi, Program Studi, pembimbing, alamat serta
tempat tanggal lahir. IPK dikategorikan
berdasarkan prediksi kelulusan yang sudah
ditetapkan dalam Universitas Islam Negeri
Sunan Gunung Djati Bandung sebagai
berikut [8]:
Tabel 3 Indeks Prestasi Kumulatif
No
1
2
3
4
5
Indek Prestasi
3.50-4.00
3.00-3.49
2.50-2.99
2.00-2.49
0.00-1.99
Predikat
Kelulusan
Cumlaude
Amat Baik
Baik
Cukup
Tidak Lulus
3.3 Proses Mining
Data mining adalah proses yang memperkerjakan
pembelajaran
satu
atau
lebih
komputer
teknik
untuk
3.2 Data Kelulusan
181
Edisi Juli 2015 Volume IX No. 2
menganalisis
dan
ISSN 1979-8911
mengekstraksi
pengetahuan secara otomatis [2]. Data
( ) =
mining berisi pencarian trend atau pola
(2.1)
yang diinginkan dalam database besar
( . )=
untuk membantu pengam-bilan keputusan
di waktu yang akan datang. Pola-pola ini
(2.2)
dikenal oleh perangkat tertentu yang dapat
memberikan suatu analisa data yang
berguna dan berwawasan yang kemudian
( → )=
dapat dipelajari dengan lebih teliti, yang
mungkin saja meng-gunakan perangkat
(2.3)
pendukung keputusan yang lainnya.
Algoritma FOLD-Growth
4.
Metode
Algoritma FOLD-Growth merupakan
4.1 Assosiasi Rule
hasil gabungan dari algoritma FOLDARM
Association Rule merupakan sebuah
ekspresi implikasi yang berbentuk X→Y ,
dimana X dan Y merupakan disjoint
itemset. Dalam assosiasi rule kita dapat
menghitung support dan confidence [1][3].
Confidence menyatakan seberapa sering
item-item dalam Y muncul dalam transaksi
yang berisi X. secara formal dapat
dinyatakan dengan persamaan berikut ini:
dan
FP-Growth.
diharapkan
Pada
dapat
algoritma
ini
menggabungkan
keuntungan dan kebaikan dari 2 (dua)
algoritma
antara
FP-Growth
dengan
FOLD-ARM. Algoritma FOLDARM yang
memiliki kinerja cepat dalam pengukuran
itemset
frequent
maksi-mum(
)
adalah kecil atau K ≤ 10, sedangkan
algoritma FP-Growth memiliki kinerja
yang cepat pada saat
>
10 [1]. Dalam
182
Edisi Juli 2015 Volume IX No. 2
ISSN 1979-8911
algoritma ini terdapat pembagian tahap
itemset dan 2-itemset. Sehingga, untuk
pengerjaan sebanyak 4 (empat) tahapan
item-item yang tidak sesuai akan
utama [7].
dilakukan pemangkasan.
Tahapan Utama dalam algoritma FOLD-
c.
Membangun FP-Tree menggunakan
transaksi –
Growth yaitu:
transaksi
yang
telah
dipangkas
a.
Penggalian L1 (large 1 – itemset) dan
d.
Penggalian itemset frequent
5.
Pencarian Pola Asosiasi
L2 (large 2 – Itemset) dengan
menggunakan SOTrielT. Pada tahapan
ini, dilakukan pembacaan basis data
Dalam penelitian ini, variabel yang
sebanyak satu kali untuk membaca
digunakan yaitu jalur masuk, program
transaksi-transaksi yang ada dalam
studi,
lama
studi
dan
IPK.
Dari
tersebut
akan
yang
bisa
basis data. Untuk setiap transaksi akan
penggbabungan
data
dibangkitkan semua kemungkinan 1terbentuk
suatu
pola
itemset dan 2-itemsey yang kemudian
memberikan informasi yang berkaitan
dicatat dalam SOTrieIT.
antara jalur masuk dengan kelulusan
b.
Pemangkasan item-item yang tidak
mahasiswa. Pada data yang ada, akan
frequent. Dalam tahapan ini, akan
ditransformasi
agar
mudah
dibaca.
dilakukan pemang-kasan pada setiap
Transfor-masi data yang dilakukan pada
transaksi yang ada dalam basis data
penelitian ini adalah data tingkat kelulusan
dengan menggunakan 1-itemset dan 2mahasiswa.
Dari
data
kelulu-san
itemset. Untuk setiap transaksi T, pada
mahasiswa dapat dilihat dari lama studi
itemset Lk
yang terdapat
dalam
dengan IPK. Dari dua data tersebut dapat
transaksi tersebut dimana panjang k
di kategorikan sesuai tingkat IPK yang
lebih
dari
2,
akan
dilakukan
sudah ditentukan oleh Universitas. Dari
pengecekan dengan menggunakan 1183
Edisi Juli 2015 Volume IX No. 2
ISSN 1979-8911
data tersebut dapat dikategorikan menjadi
8 kategori, yaitu.
Tabel 4 Kategori Tingkat kelulusan
Mahasiswa
Kategori
Keterangan
Lama studi 4 tahun atau kurang
A1
dari 4 tahun dan IPK 3,50 – 4,00
Lama studi 4 tahun atau kurang
A2
dari 4 tahun dan IPK 3,00 – 3,49
Lama studi 4 tahun atau kurang
A3
dari 4 tahun dan IPK 2.50 – 2,99
Lama studi 4 tahun atau kurang
A4
dari 4 tahun dan IPK 2.00 – 2,49
Lama studi lebih dari 4 tahun
B1
dan IPK 3,50 – 4,00
Kategori
Keterangan
Lama studi lebih dari 4 tahun
B2
dan IPK 3,00 – 3,49
Lama studi lebih dari 4 tahun
B3
dan IPK 2,50 – 2,99
Lama studi lebih dari 4 tahun
B4
dan IPK 2,00 – 2,49
Gambar 1 Diagram alir prose FOLDGrowth
Untuk melakukan analisa terhadap
data
mahasiswa
dengan
kelulusan
mahasiswa. Perlu melakukan beberapa
proses yang meliputi:
Dalam proses pencarian pola ini ada
a.
Sistem
menerima
inputan
beberapa langkah yang harus dijalani
minimum
secara
mendapatkan
support, data mahasiswa yang telah
informasi yang baru dari dalam database.
disimpan dalam database. Kemudian
Pada proses ini dimulai dengan pengum-
sistem
pulan data. Preprocessing, data mining,
association rule yang menghasilkan
proses FOLD-Growth
aturan asosiasi pada data inputan dan
bertahap
guna
confident,
berupa
akan
melakukan
minimum
proses
selanjutnya melakukan pengujian rule
b.
Proses yang ada dalam algoritma foldgrowth ini terdiri dari 4 tahapan, yaitu
penggalian
1-2
itemset
dengan
184
Edisi Juli 2015 Volume IX No. 2
ISSN 1979-8911
menggunakan struktur data SOTrieIT,
berdasarkan nilai support dan nilai
pemangkasan
counfidence yang paling besar dan
item
yang
tidak
frequent, pembangunan FP Tree, dan
penggalian itemset frequent.
c.
f.
pembanguna
Growth adalah penggalian 1-2 itemset
menggunakan
dengan SOTrieIT yang dilakukan
dipangkas
dengan membaca database sebanyak
urutan
satu kali untuk membaca data-data
counfident.
setiap
dan
data
kelulusan.
akan
Untuk
g.
dibangkitkan
kemungkinan 1 itemset dan 2 itemset
FP
Tree
item
yang
selanjutnya
nilai
support
dengan
telah
berdasarkan
dan
nilai
Tahap pada proses selanjutnya adalah
tahap penggalian itemset frequent.
h.
Tahapan selanjutnya akan dilakukan
yang kemudian dicatat dalam struktur
conditional FP Tree, yaitu support
data SOTrieIT.
count dari setiap item dijumlahkan.
Proses
selanjutnya
adalah
Hanya item dengan nilai support lebih
pemangkasan item yang tidak frequent
besar
yaitu apabila nilai support dan nilai
minimum
count
dibangkitkan.
nya
minimum
e.
Kemudian tahapan selanjutnya adalah
Proses pertama pada algoritma FOLD-
mahasiswa
d.
yang telah dipangkas.
kurang
support
dari
yang
batasan
sudah
i.
atau
sama
support
dengan
nilai
yang
akan
Tahapan terakhir dalam sistem adalah
ditentukan. Jika minimum support dan
pengujian
terhadap
rule
yang
minimum confidence tidak sesuai
dihasilkan, yaitu pengujian lift ratio.
maka akan dipangkas.
Pada pengujian lift ratio dilakukan
Setelah dilakukan pemangkasan item
perbandingan antara confidence rule
yang tidak frequent, maka item-item
yang terbentuk dengan nilai beckmark
yang diproses tersebut akan diurutkan
confidence.
185
Edisi Juli 2015 Volume IX No. 2
j.
ISSN 1979-8911
Kemudian sistem akan menampilkan
rule
yang
dihasilkan,
nilai
counfidence, nilai support, lift ratio
yang telah dip roses diatas.
206700050
207429727
207429751
206700073
206700102
206700144
206700163
Tulis
PPA
Tulis
SNMPTN
SPMB
SPMB
Tulis
B3
B3
A2
A3
A1
B2
B2
Pada perhitungan manual, dilakukan
dengan sample 30 data yang sudah melalui
proses prepro-cessing dengan minimum
support 20% dan minimum confident 50%.
Sample data terdapat pada tabel 3.2
Tabel 5 Sample data mahasiswa
NIM
206700110
206700072
206700076
206700103
206700105
206700112
206700180
206700026
206700034
206700044
206700046
206700071
206700091
206700094
206700098
206700109
206700141
206700142
206700143
206700146
206700169
206700181
206700194
Jalur
PPA
PPA
Tulis
SPMB
SPMB
SNMPTN
Tulis
Tulis
PPA
PPA
SPMB
SPMB
Tulis
SNMPTN
PPA
PPA
SNMPTN
SNMPTN
SPMB
SPMB
PPA
PPA
Tulis
Kategori
B2
B2
B1
A1
B1
B3
B3
A2
A2
B2
B2
B2
A1
A3
A3
B3
B3
B2
B2
B1
B1
B2
B2
Selanjutnya adalah tahap penggalian
1-2 itemset dengan menggunakan struktur
data SOTrieIT. Proses pengalian 1-2
itemset dengan menggunakan struktur data
SOTrieIT dapa dilihat pada gambar.
Gambar 2 Struktur data SOTrieIT
penggalian 1-2 itemset
Pada gambar 3.3. data yang sudah di
SOTrieIT penggalian 1-2 itemset terdapat
beberapa jalur masuk diantaranya PPA
sebanyak 9 dengan kategori kelulusan
yang berada di PPA ada A2 sebanyak 1,
A3 sebanyak 1, B1 sebanyak 1, B2
sebanyak 4 dan B3 sebanyak 2. Tulis
186
Edisi Juli 2015 Volume IX No. 2
sebanyak 8 dengan kategori kelulusan
ISSN 1979-8911
B3
6
0.30
yang berada di Tulis yaitu B1 sebanyak 1,
B3 sebanyak 2, B2 sebanyak 2, A2
Tabel 7 Perhitungan Support 2-itemset
sebanyak 2, A1 sebanyak 1. SNMPTN
sebanyak 5 dengan kategori kelulusan
yang berada di SNMPTN yaitu B3
sebanyak 2, A3 sebanyak 2, B2 sebanyak
1. Sedangkan SPMB sebanyak 8 dengan
kategori kelulusan yang berada di jalur
SPMB yaitu B2 sebanyak 4, B1 sebanyak
2, dan A1 sebanyak 2.
Setelah membangun SOTrieIT yang
utuh. Dilakukan penghitungan support
Itemset
PPA,A2
PPA,B2
PPA,A3
PPA,B1
PPA,B3
TULIS,A1
TULIS,A2
TULIS,B1
TULIS,B2
TULIS,B3
SNMPTN,A3
SNMPTN,B2
SNMPTN,B3
SPMB,A1
SPMB,B1
SPMB,B2
Count
1
4
1
1
2
1
2
1
2
2
2
1
2
2
2
4
Support
0.05
0.2
0.05
0.05
0.1
0.05
0.1
0.05
0.1
0.1
0.1
0.05
0.1
0.1
0.1
0.2
count pada 1-itemset dan 2-itemset, pada
tabel
3.13 untuk hasil penghitungan
support 1-itemset dan untuk tabel 3.4
perhitungan Support 2-itemset.
Tabel 6 Perhitungan Support 1-itemset
Itemset
PPA
TULIS
SNMPTN
SPMB
A1
A2
A3
B1
B2
Count
9
8
5
8
3
3
3
4
11
Support
0.45
0.40
0.25
0.40
0.15
0.15
0.15
0.20
0.55
Pada tabel 3.4 terdapat penggabungan
2-itemset dan perhitungan nilai count
dengan nilai support.
Tahap
pemangkasan
selanjutnya
item-item
adalah
yang
tidak
frequent. Minimum support yang telah
ditentukan adalah 20% atau 0.2, jadi
apabila nilai support countnya kurang dari
batas
minimum
support
yang
telah
ditentukan maka dilakukan pemangkasan.
187
Edisi Juli 2015 Volume IX No. 2
ISSN 1979-8911
Tabel 8 perhitungan support 2 itemset
Itemset
PPA,B2
SPMB,B2
Count
4
4
Support
0.2
0.2
Berdasarkan
minimum
confidence
yang telah ditentukan yaitu sebesar 50%
maka apabila nilai confidence dari frequent
Tahapan
membangun
adalah
itemset ≥ minimum confidence maka akan
menggunakan
dibangkitkan menjadi rule. Rule yang
selanjutnya
FP-Tree
transaksi-transaksi data yang telah di
terbentuk dapat dilihat pada tabel 4.6
pangkas
Tabel 10 Rule yang dihasilkan
Frequent
Itemset
SPMB →B2
Keterangan
Jika Jalur Masuknya
SPMB maka Kategori
kelulusannya B2
Dari hasil perhitungan manual dengan
sampel 30 data, dihasilkan SPMB→B2
dengan nilai confident 0,50.
Gambar 3 FP-Tree
6.
Kesimpulan
Tahap selanjutnya adalah perhitungan
nilai confidence pada frequent itemset.
Pada tahapan ini, dicari nilai confidence
pada frequent itemset yang telah terbentuk.
1. Jika jalur masuknya melalui tes TULIS
maka lama lulusnya lebih dari 4 tahun
dan IPK berada diantara 3.00 sampai
3.49 atau masuk dalam kategori B2
Tabel 9 Confidence Frequent itemset
Frequent
Itemset
PPA →B2
SPMB
→B2
Support Support
Confidence
(A,B)
(A)
0,2
0,45
0.44
0,2
0,40
0.50
untuk jurusan Manajemen pendidikan
Islam.
2. Jika jalur masuknya melalui tes PPA
maka lama lulusnya lebih dari 4 tahun
188
Edisi Juli 2015 Volume IX No. 2
ISSN 1979-8911
dengan IPK berada diantara 3.00
6. Jika
jalur
masuknya
melalui
tes
sampai 3.49 atau masuk dalam kategori
SNMPTN maka lama lulusnya lebih
B2 untuk jurusan pendidikan Agama
dari 4 tahun dan IPK berada diantara
Islam, pendidikan fisika,matematika,
3.00 sampai 3.49 atau masuk dalam
biologi, kimia, Agroteknologi.
kategori
3. Jika jalur masuknya melalui tes TULIS
B2
untuk
jurusan
matematika,Biologi, Teknik elektro.
maka lama lulusnya lebih dari 4 tahun
7. Jika jalur masuknya melalui tes SPMB
dan IPK berada diantara 3.00 sampai
maka lama lulusnya lebih dari 4 tahun
3.49 atau masuk dalam kategori B2
dan IPK berada diantara 3.00 sampai
untuk jurusan Pendidikan Agama Islam,
3.49 atau masuk dalam kategori B2
matematika,
fisika,
kimia,
Teknik
untuk jurusan matematika, biologi.
Informatika,
Agroteknologi,
Teknik
8. Jika
Elektro.
jalur
masuknya
melalui
tes
SNMPTN maka lama lulusnya kurang
4. Jika jalur masuknya tes TULIS maka
dari atau pas 4 tahun dan IPK berada
lama lulusnya kurang dari atau pas 4
diantara 3.00 sampai 3.49 atau masuk
tahun dan IPK berada diantara 3.00
dalam kategori A2 untuk jurusan Fisika,
sampai 3.49 atau masuk kategori A2
kimia.
untuk jurusan Pendidikan Bahasa Arab,
kimia.
DAFTAR PUSTAKA
[1]
Hamnon, Marissa. 2012. Penerapan
Metode
5. Jika jalur masuknya tes PPA maka lama
Association
Algoritma
lulusnya kurang dari atau pas 4 tahun
Rule
FP-Growth
Dengan
Pada
Data
Transaksi Penjualan Buku. Semarang:
dan IPK berada diantara 3.00 sampai
Universitas Brawijaya.
3.49 atau masuk kategori A2 untuk
jurusan
Pendidikan
Bahasa
[2]
Hermawati, A. F. 2009. Data Mining.
Surabaya: Penerbit Andi.
Arab,Bahasa Inggris,
189
Edisi Juli 2015 Volume IX No. 2
[3]
Slimani,
Thabet.
2013.
ISSN 1979-8911
Efecient
Analysis of Pattem Association Rule
Mining. LARODEC Lab.
[4]
Ma’ruf, Amrul, F .2013. Aplikasi Data
Mining Untuk Mengetahui Hubungan
Proses
Masuk
Dengan
Kelulusan Mahasiswa.
Tingkat
Yogyakarta:
AMIKOM.
[5]
Mata, T. Ramon, A. 2002. Dasardasar Database Relational. Jakarta:
Penerbit Erlangga
[6]
Prasetyo, Eko. 2012. Data Mining
Konsep dan Aplikasi Menggunakan
MATLAB. Gresik: Penerbit Andi
[7]
Prastow, Deni. 2008. Penggunaan
Struktur
Data
Pemangkasan
SoTrieIT
Transaksi
untuk
dengan
Algoritma Data Mining Fold-Growth.
Institut Pertanian Bogor(IPB). Bogor.
[8]
UIN
Bandung.
2014.
Pedoman
Akademik UIN Sunan Gunung Djati
Bandung. CV. Insan Mandiri.
190
Download