CONTENT YUGI + SUNJANA

advertisement
SN T KT III
=;
9
Seminar :'\asiollai Tek u ologi KomputeT dan Telekonnmik a s!
----------------------~--~~--------------~~------------~.-.-----------­
PENERAPAN DATA MINING UNTUK MENEMUKAN POLA ANTARA
NILAIUJIAN SARINGAN MASUK TERHADAPINDEKS PRESTASI
,
iF ~
Yugi Trianto Purba\ Sunjana l
ABSTRAK
~
==
Makalah ini membahas pemanfaatan dala mining dalam menggali dan menemukan"­
hubungan antara nilai ujian saringan masuk calon mahasiswa dengan indek prestasi yang
diperoleh mahasiswa le7"sebut. Melode yang digunakan dalam menggali pola tersebul adalah
model regresi linier.
Kala kunci : Data Mining, Regresi Linier
I.
PENDAHULUAN
Pesatnya perkembangan teknologi informasi dewasa ini khususnya dalam aplikasi-aplikasi
database yang diiringi dengan meningkatnya kapabilitas media penyimpanan yang semakin besar
telah memungkinkan terjadinya akumulasi data dalam jumlah besar. Komputerisasi diberbagai
bidang dan penggunaan iJ1ternet sebagai sarana sistem informasi global secara signifikan juga
turut berperan dalam terjadinya akumulas i data dan informasi tersebut. Pertumbuhan yang begitu
pesat dari akumulasi data yang tersimpan dalam suatu database akan menciptakan suatu kondisi
"rich of data bUI poor of informalion " dan data yang tersimpan akan menjadi kuburan data
apabila tumpukan data tersebut dibiarkan begitu saja sehingga tidak dapat digunakan untuk
aplikasi yang berguna.
Didalam tumpukan data tersebut mungkin terdapat informasi-infomlasi tersembunyi yang
sangat penting atau menjadi penting pada saat dibutuhkan yang dapat dUadikan dasar atau
pedoman dalam pengambilan keputusan. Keputusan sering sekali dibuat tidak berdasarkan pada
data-data yang ada yang tersimpan dalam tumpukan data tersebut melainkan hanya didasarkan
intuisi sang pembuat keputusan. Hal ini dikarenakan tidak adanya sistem atau perangkat lunak
yang dapat membantu dalam pencarian informasi yang tepat, cepat dan akurat, dilain pihak
penggalian data untuk mendapatkan informasi yang dilakukan secara manual sangatlah tidak
efektif dan memakan banyak waktu .
Universitas X merupakan salah satu organisasi yang bergerak dalam bidang pendidikan yang
memanfaatkan teknologi informasi dalam menjalankan proses bisnisnya. Dengan adanya
pemanfaatan teknologi infonnasi di Universitas X maka akan terjadi akumulasi data dalam
jumlah besar tiap tahunnya. Salah satu data yang mengalami peningkatan tiap tahunnya yaitu data
nilai Ujian Saringan Masuk (USM) mahasiswa baru .
Semakin lama data nilai USM ini akan menjadi kuburan data yang tidak memiliki suatu nilai
maupun infonnasi yang dihasilkan dari data tersebut. Oleh karena itu diperlukan suatu teknik dan
pe-rangkat yang dapat membantu kita dalam mentransformasikan data dalam jumlah besar
tersebut menjadi suatu informasi yang berguna yaitu dengan penerapan Dala Mining yang
diaplikasikan dengan pembuatan perangkat lunak data mining atau data mining engine.
'Uni versitas Widyata ma 13alldung
email sUlli .. n\l®.~a lamaac . td
276
F II•
.­
=
==
=
=
, S;
Berdasarkan latar belakang masalah terscbut penults tertarik untuk meneltti bldang ini dengan
rnengambil judul "Penerapan Data l~finillg Untuk lVlenemukan PoIa Antara NiIai Ujian
Sal'jngan Masuk (USM) Terbadap Indeks Prestasi (IP)".
II. LANDASAl'\f TEOR!
11.1 Pcnge.-tian Data Mkining
Data Mining rnerupakan salah satu cabang ilmu kornputer yang relatif baruyang memilikl
keterkaitan dengan machine learning, kecerdasan buatan (artificial intelligence), statistic dan
da/abase. Data Mining mengacu kepada ekstraksi atau penggalian pengetahuan dari suatu data
dalarn jumlah besar. Ada banyak pengertian data mining itu senditi, diantaranya seperti
penggalian pengetahuan dari database, ekstraksi pengetahuan (knowledge extraction), analisis
data atau pola (pattern analysis), penggaltan data dan lain sebagainya.
Definisi umum dari data mining itu sendiri adalah proses pencatian polapola yang menarik
(hidden patenl) berupa pengetahuan (knowledge) yang tldak diketahui sebelumnya dari suatu
kumpulan data dimana data tersebut dapat berada dalarn database, data warehouse , atau media
penyimpanan informasl yang lain. Data mining seringkali diartikan dengan "menulis banyak
laporan dan query", namun pada faktanya kegiatan data mining tidak rnelakukan pembuatan
iaporan dan query sarna sekah. Data mining dilakukan dengan tool khusus, yang mengeksekusl
operasi data mining yang telah didefinisikan berdasarkan model analisis. Data mining merupakan
proses 311alisls terhadap data dengan penekanan menernukan informasi yang tersembllnYI pada
se.1umlah besar data yang dlsimpan ketika menJalankan bisnis perusahaan.
Dalam aplikasinya, data mining sebenarnya merllpakan bagian dari proses Knowledge
Discovery in Database atau KDD, bukan sebagai teknologl yang utuh dan berdiri sendiri Data
mining mempakan suatu bagian langkah yang pent1l1g dalam proses KDD terutama berkaitan
dengan ekstraksi dan penghitungan polapola dari data yang ditelaah, seperti ditunjukkan oleh
gambar 2. 1, langkah langkah atau proses KDD itu sendlri terdiri dari :
1. Pembersihan data (Data cleaning), rnembuan g nOise dan data yang tidak konsisten
2 lntegrasi data (Data integration), menggabungan data yang berasal dari beberapa sumber
3. Pemilihan data (Dara selection), memilih data yang relevan atau sesuai dengan proses anilisls
yang akan dilakukan.
4 Transformasi data (Data tran ,~ronJ1ation) , mengubah data menjadi bentuk yang sesuai untuk
proses data mining.
s. Penggailan data (Data mining), merupakan proses terpenting dimana teknik data mining
dlaplikasikan untuk mengekstraksi pola-pola dari suatu data
6 E valuasi pola (Pattern evaLuation), evaluasi pota yang dltemukan untuk menemukan pola yang
bernilai atau menarik.
7 . Presentasi pengetahuan (Knowledge presel1latition), visual isasi dan teknlk represe ntasi
pengetahuan digunakan untuk diperlihatkan kepada pengguna atau user.
Tahap-tahap tersebut bersifat interaktif dlmana pengguna atau user terlibat langsung atau
dengan perantaraan basis pengetahuan (h71011ledge base) yang terintegrasi dida la m Sistelll. Pola­
pola yang rnenarik di saj ikan kepada pengguna dan di s impan sebagai pengetahuan baru didalam
basis pengetahuan . Dari tahapan diatas dapat diketahui bahvva data mining hanya merupakan satl!
bagain lan gkah dan keseluruhan proses KDD
277 SNT TT III
-
Seminar .\"a<;iollaI Te-k1l01ogi Kompu!eT dan
T~lekomun i
';:;-I si
Gambar 2.1 Langkah-langkah Proses KDD
11.2 Teknik Data Mining
Dari definisi data mining yang luas, terdapat ban yak jenis teknik analisa yang dapat
digolongkan dalam data mining. Dalam penelitian ini teknik analisa yang digunakan yaitu teknik
regresi linier.
11.2.1 Regresi Linier.
Analisis regresi adalah teknik statistik untuk pemodelan dan investigasi hubungan dua atau
lebih variabel. Yang sering dipakai dan paling sederhana adalah regresi linier sederhana. Dalam
analisis regresi ada satu atau lebih variabel independentlprediktor yang biasa diwakili dengan
notasi x dan satu variabel respon yang diwakili dengan notasi y. Sesuai namanya, hubungan
antara duavariabel yang bersifat linier. Gambar 2.4 dan gambar 2.5 memberi ilustrasi bagaimana
hubungan dua variabel iill bersifat linier dan tidak linier. Gambar 2.4 menunjukkan hubungan
linier dua variabel. Garis regresi linier akan sangat sesuai untuk mewakili hubungan dua variabel
seperti ini. Gambar 2.5 menunjukkan hubungan tidak linier antara dua variabel. Pendekatan
regresi linier kurang sesuai untuk mewaki Ii hubungan dua variabel seperti gambar 2.4 ini. Dalam
regresi linier sederhana hanya ada satu variabel independentlprediktor dan satu variabel respon.
Jika variabel independen-nya x dan variabel re!>pon adalah y maka model regresi linier sederhana
untuk populasi adalah :
~
:1
e; . 11
!
;ill
F cJ
r
;J
c
=
,=
=
r-----------~====~----~
[A30+P1 X i-{
y
N<I'li n.n~"m"I'ln y
Untuk,
Nlla; p·e6ks y
Un·.ukx,
14-----.
1
j
•
•~~:1
"f<
I+-_ _~/""
/~
I
~
~
•
,-
an do:'" Euor
urIUk n~, xini
:=
': ;1
x
Gambar 2.2 Geometri garis regresi linier
278
i=
==
==
Prediksi nilai dengan pendekatan regresi linter s ederhana , dl dapatkan dan rumus dibawah ini •
\ , "=
b!!
+bl ,t
Koefi s ien-koefisien regresi bo dan bl untuk regresi linier, dihitung dengan rumus •
II.2.2 Bel'bagai Val'ians Sehubungan Deugan Regrcsi Liniel' Sederhana
Untuk analtsis selanjutnya tentang regresi linier sederhana beberapa asumsi harus diambil.
Peliama , mengingat has il pengamatan vanabel tak bebas y belum tentu sama besamya dengan
harga diharapkan , yakni y yang didapat dari regresi hasil pengamatan, maka terjadi perbedaan
e -~ y - Y , biasa disebut kekeliruan prediksi awu galat prediksi (Error). Dalam populasi, galat
predlksi iOl dimisalkan berbentuk variabel acak yang m engiklltl dlstribusi normal dengan rata rata
nol dan varians v .~ . Tenlu saJa sudal) Jelas balnva kita Juga memisalkan tidak terJ3di kekellrua n
ata s pe ngamatan vanabel bebas x. Asumsi kedua yang dia mbil adalah bahwa untuk setiap harga x yang diberikan, variabe l tak bebas y independen dan berdistribusi normal dengan rata rata (8 1+ 82x) dan varians
CT:. x .
Va rians a;2:.:
ditnisalkan sama untuk setia p x dan karenanya dapat dinyatakan oleb a ,2yang biasa pula
dinatnakan varians kekeliruan taks iran s edan g kan a~\ dikenal dengan kekeliruan baku taks iran
Berpegang kepada asumsi-a'3 umsi diatas , m aka varians
a; ditaksir oleh rata-rata kuadrat
penyimpangan sekita r regresi atau di sebut JUga rata -rata kuadrat residu , dinyatakan oleb varian s
JYfean ,Square Error (MSE) dengan rumlls
SSE
." 1S1~
.SSL :=
1' f -
\l
;,s ,.
'" ss=
s\. -
s ~'
b, S ~
Dengan SSE yaitu Jumlah kuadrat resldu atau ""'lIl1J oj'Sqllare .lor Error (SSE) , SSy ya itu
Jutnlah kuadrat reg resi y, SSxy yaitu jumlah kuadrat XJ) dan n yaitu ukuran sampeJ
n.2.3 lnteTval KepeJ'cayaan Sehubullgan Dengan Regl'csi Linier
279
SNTf(T III Semillal' :'\asiOllal
T ~ kuo!ogi.
Komputer dan Telekomunik as i
Kita lihat bahwa regresi linier populas! telah ditaksir oleh regresi linier sampel
y == bo + b1x dengan koefisien-koefi s ien bO dan bl. jadi nampak bahwa bO dan bl masing-masing
merupakan titik taksiran untuk ~o dan ~ l. maka berbagai interval taksiran sehubungan dengan
regresi linier, termasuk untuk BO dan 0[ dapat ditentukan.
A ( I-u) I nl)(;;, inlt·"'"l I:epcrc"ya<lll lIr,ruk (.), Yilitll :
~~ '-::t t(a ... ~ , r. _2)s (bl)
s(b ) '" -
---
---
,­
. ' , "iSS.
rI.2.4 Uji Signifikan Dan Tabel Analysis of Variance (ANOVA)
Pada sub-bab ini akan dibahas tentang melakukan kriteria uji signifikan dengan menghitung
Fhitung dan membandingkan hasilnya dengan hasil perhitungan Ftabel. Berikut rumus mencari
Fhitung:
F
= MSR
" (1.,,,2. _
,MSE
Mean Square Regression (MSR) atau rata:-rata kuadrat regresi, dengan rumus :
Mi~R=SiR
dall
SSR
=- b.S.sxj-'
Setelah ditemukan hasil dari Fhitung maka selanjutnya kita melaukan uji signifikan dengan
membandingkan Fhitung dengan Ftabel , berikut kaidah pengujian signifikan :
'
, Jika Fhitung ? Ftabel, maka tolak HO (Signifikan)
Jika Fhitung:'S FtabeJ, maka tolak Ha (Tidak Signifikan)
Setelah kita menghitung seluruh perhitungan yang ada di proses regresi, maka kita tinggal
menyusunnya dalam tabel analysis ofvariance (ANOYA). Berikut skema dari tabel ANOY A,
Source-o" "
Variation
Di!grcssof
Freedom
,SUm ofSquarcs
, is.~)
OW)
Me-dn
Sqllare~'IS)
:lISH
SSR = L', S'S •.
= SSR
I
SSE= <;'S·. -1>,5) ..
Jl - :
MSL
= SSE
1:-
SST = 55,'
11,1
Tabel 2.[ Tabel ANOYA pada Regresi
.2
,
.­
~
­--
--­
-
-
=
-...
(
II.2.S Korelasi Pearson
280
Korelasl merupakan suatu hubungan antara satu variabel dengan variabel lall1n ya. Hubungan
an tara variabel tersebut bisa seeara kOlelas LOnal dan bisa juga seeara kama! Jika hubungan
tersebut tidak menunjukkan sifat sebab akibat, ' maka korelasi tersebut dikatakan korelasional,
artinya sifat hubungan variabel satu dengan varia bel la1t1l1ya tidak jelas mana variabel sebab dan
mana variabel akibat Sebaliknya, JIb hubun gan tersebut menunjukkan slfat sebab akibat, maka
korelasinya dikatakan kausal, artinya jlka variabel yang satu merupakan sebab, maka variabel
lainnya merupakan akibat
Korelasi Pearson adalah korelasi yang sering digunakan oleh peneiiti, terutama peneliti yang
mempunyai data-data interval. Sebeillm kita mempergunakan korelasi ini terleblh dahulu kita
harus memperhatikan data yang terkumpul, apakah memenuhi persyaratan yang diminta oleh
rumus korelasi ini Adapun beberapa persyaratan yang harus dipenuhi apabila kita menggunakan
rumus ini adalah •
L Pengambilan sampel dari populasi hams random Caeak)
2 . Data yang dieari korelasinya harus berskala interval atall ratio.
3 Variasi skor kedua variabel yang akan dieari korelasinya harus sarna.
4. Distribusi skor variabel yang dleari korelasinya hendaknya merupakan distribusl unimodal
5. Hubungan antara variabel x dany hendaknya tinier.
Korelasi Pearson dapat dihltung dengan rumus dibawah ini •
.
;l~.\ ;··-> \ '~'"
.
r .: ;:. ~====-======
. ~~=="===-~
\ ,'i! ,," .\
~
-;- 1"\ \ ):
J I! ~
\: -:f;;': 'I-
Atau
.t ·
=
~ S$xs s \'
1[,2.6 Pengujian Signifilwnsi KOl'elasi
Langkah awal dalam pengujian disini Juga menyusun hipotesis nol dan hlpotesis alternatif
Baru kemlldian hasil r hitung kita bandingkan dengan hasil r tabel dari tabel r Pearson Apabila
kita menggunakan tabel r Pearson, rnaka hlpotesls nol yang rnengatakan tidak ada korelasi (r =:: 0)
ditolak jika hasil perhitungan r > dari pada r tabel, demikian pula sebaliknya apabda r hitung
ternyata lebih keeil < dari pada r tabel, maka kita akan menerima Ho yang menyatakan bahwa
dua variabel yang dieari hitungannya ll yata-nyata tldak berkorelasi . Untuk lebih jelasnya blsa kita
lihat kriteria signifikan sebagai beflkut
• Jika rhitung 2: rtabel maka Ho ada didaerah penolakan, berarti Ha diteflma artinya antara
varia bel x dan y ada hubungannya
• Jika rhltung :S liabel maka Ho ada didaerah penerimaan, berarti Ha dltolak artl11ya an tara
variabel x dan y tldak hubungannya
II.2.7 Analisis Koefisien Determinasi
Analisis koefislen determinasl adalah menunjukkan seberapa besar pengaruh an tar kedua
variabel yang diteliti, maka dihitung Koefislen Determmasl(KD) dengan asumsi dasar f(1ktor­
faktor la in diluar variabel dianggap tetap atau konstan , koefisien diantara laill -l :s. r 2: +-, ,
281
SNTKT III
Semluar .\" asional T e-knologi
Kompuf~r
dan T ~lekomullikasi
tanda (-) bedawanan arah, sedangkan tanda (+) menunjukkan searah. Selanjutnya untuk
mengetahui seberapa besar faktor yang berperan antara variabel x terhadap variabe! y, maka
hubungan atau pengaruh dihitung koefisien determinasinya dengan rumus :
', " , ~. . :"
>.!\'loo%
.
KEJ·~ r'~
III. HASIL PENELITIAN
Pada penelitian ini data yang diuji adalah sebanyak 1637 record. Penelitian dilakukan dua
tahap, pertama pengujian terhadap data sampel. Data sampel merupakan tabel yang terdiri dan
beberapa recordltupel hasil sampling dari tabel populasi, metode sampiing yang digunakan
adalah systematic sampling. Systematic sampling kadang disebut juga dengan interval sampling
yang berarti terdapat gap atau celah diantara data yang diambiL Metode ini biasanya digunakan
dalam industri. Kelebihan dari metode ini adalah sangat sederhana dalam memilih sampel yang
dipilih secara acak dan sebaran datanya sangatlah bagus karena menyebar secara menyeluruh dari
awaI sampai akhir data Tahap kedua adalah pengujian terhadap data populasi sebanyak 1637
record.
Hasil yang diperoleh baik terhadap data sampel maupun data populasi adalah sebagai berikut:
Il(i '
. ' , b;.
'
'.rhilut;.
KI>
16,61
35 .-15312
0.' 1-'.\ 5
0-107(>6
1)(
s·
.. (~,i
," !{hl I
89
1829i.l.Q
7.02] ~
0. 169 -"7 1
~>
-.­
I ahel .\ ., 0\ . \
$V
.' SS '
Fntrlo '
Error
' ~~7{)R,11
-­•
41
Tabe1 3.l Tabel HasiI Perhitungan Data Sampel
7.87S{··
4154291167
0.50061 791 S
·or
's
, s(l)o) .
17.796.27122
1.77426S7J2
"' sv . '
SS
MS
'
Error
Towi
'Frafio '
-' 16,707261,14.
56206',61
16.'1)
Tabel 3.2 Tabel Hasil Perhitungan Data Populasi
I;::
Ie:::
282
-. - - - -
-­
...
_'iii_;o;;;;;;;;;;;_iiiiiiii"~
~
· '" ;;0
,
~~iiiiii"iP5·".= "'_;:;;n~"",;;:,,_~,",-'.:;;o;,;;;:a;:.,,;
, ...
, ;:;,.-;;;;;;;Oiiiii&miiiiiiiiiiiiiiiii....._~_~1iiii,. "';:;;-;;;2"'"~.'
i'i'
:
S i? n 'Ill.U
.'\- "( '; in, _~j
[( :... .:1 0
lc.;!.t
~. t' ' I. tJ/..I '" d
K(· ; i.j Il~ ,. tjl-::t 'l
t-=hilU".~ ":: rl ~! "l'
( -, . ' . I . :.
'.~
•
i
E I
. . . i~ninj,;·'n_
11I J J..::'-l
1 (~L;7k.~H.,.'-·\-:-,I--: ,ll------1
~..:·~H(l.~;.: :-) l1 irkl l('~. j ~. :. \ \\.' ~d .;
CbJl'l.'n,f: :...- C, _.C_: I_ I1Lfk. l I n ! ~ IL
St..'~ i)lIl.~ _:":- :
E
:,
H ...·· ~i \ ~.t1J
...
Hd
~
i!.lldnk.::.tlI .
1 11ipPI.:':-<:'.I .f. H \v ~ d I H ~· j.1 t'j~"'; 1 ,II( :;-'( "j n );- I
. dritullt!' .
K V£ ll s'kn ,t .~( I<TI11 i ti n ,,;
d~n l
\ ", l-Ld):.'1
,
t
nfldl trS f\ f
~
r, ' i'11:t .. I:q'
~.
:':l(L ,h l:t
..
f flll':'lL If-'\ !<~tt\l ':--0 t 'I,.';..: r 2S.2l « .
Tabel 33 Tabe l Keslmpulan Dari Data Sampel
K(-siJlJ pub n
.'-
,.
r---------~+_------~-----
Kl.Til li l nHuhun~an ' L'UiU Ui-J i.
----r-:r,-·l ,-··r-ll-.u-,l-l-l-,,-r,'L ' ) kfl l,r. < (:;\lill' . ·l · i. I:\ ,tI,,, ,
l 'l l ;:~ . l -.1 1l , .
0 .' 1\ -:,Ill I . h:: ) .J"; :;o n h ",,- Ir~H1
'.'-',!'[, Ji '.(' 1 ,
I L I . .li
\,,'
·)J',llll \
U S lv l i krll:...t:c r '::'(1 :1h(·1
Tabe l 34 Tabel Kesimpulan Dari Data PopuJ as i
28 3 "I n".
,·1
SNTKT III Semill-ar
~ asiOllal
T ekuologi Komputer dan T elen: oltwuikasi
IV.KESIMPULAN
Dari hasil yang diperoleh terlihat bahwa :
1. Untuk data sampel diperoleh korelasi sebesar 0,40766, menu rut tafsiran kriteria Guilford,
maka nilai USM terhadap IP memiliki hubungan yang cukup.
2. Sedangkan untuk data populasi diperoleh korelasi sebesar 0,280, menurut tafsiran kriteria
Guilford, maka nil?i USM terhadap IP memiliki hubungan yang sangat kecil (tidak erat).
DAFTAR PUSTAKA
[l] Aczel, Amir dan Jayavel Sounderpandian. Complete Business Statistics, Sixlh Edition.
Singapore: Me Graw Hill, 2006.
[2] Fajar, Abdullah, dan Guntari Sekarwangi. Modul PrakJikum Stalistika Dasar. Jurusan Teknik
lnformatika Universiitas Widyatama, 2004.
[3] Irianto, Agus. Slatistik Konsep Dasar dan Aplikasinya. Jakarta: Pranada Media, 2004.
[4] Jaenudin. Belajar Sendiri .Net dengan Visual C# 2005. Yogyakarta:ANDI, 2005.
[5] Martina, lnge. 36 Jam Belajar Komputer Microsoft SQL Server 2000. Jakarta: Elex Media
Komputindo, 2002 .
[6] Riduwan. Dasar-dasar StatisliM. Bandung: Alfabeta, 2003
[7] Santosa, Budi. Data Mining Teknik Pemanfaatan Data Untuk Keperluan
Bisnis Teori dan Aplikasi. Yogyakarta: Graha Hmu, 2007.
[8] Santosa, Budi. Data Mining Terapan dengan MATLAB. Yogyakarta:Graha lImu, 2007.
[9] Walpole, Ronald. Pengantar Statistika Edisi ke-3. Jakarta: GramediaPustaka Utama, 1992.
e :::
p
•
f
:
==
==
c:
284 c=
I::
Download