Implementasi Regresi Linear Untuk Prediksi Nilai Ujian

advertisement
Proxies - Volume 2 - Nomor 1
Data Mining: Implementasi Regresi Linear Untuk Prediksi Nilai Ujian
Widyastuti Andriani l , Hironimus Leonfi
'Information Technology STMIK Akakom, 2Faculty of Computer Science Unika Soegijapranata
[email protected]
Abstract
One of the objectives of data mining is prediction based on the pattern of data that already exists.
One method used to form linear prediction data is linear regression. Prediction data using linear
regression using two variables that can be described in two dimensions. This journal uses linear
regression method for the prediction of test scores.
Keyword: Regresi Linear, Data Mining, Prediksi
2. Tinjauan Pustaka
2.1 Konsep Data Mining
1. Pendahuluan
Salah satu manfaat dari implementasi
Data Mining adalah menggali informasi yang
dapat digunakan sebagai pola atau model
dalam melakukan prediksi terhadap sebuah
pola data.
Beberapa algoritma Data Mining
digunakan untuk prediksi data di masa
mendatang berdasarkan data yang dimiliki
saat ini. Umumnya klasifikasi data seperti
model BayeSian, Nearest Neighbor dan
decision tree dapat digunakan untuk prediksi
data.
Khusus data dengan model linear
atau continues value dapat diformulasikan
dalam model regresi statistik. Model regresi
sederhana dapat digunakan untuk melakukan
prediksi nilai suatu mata kuliah berdasarkan
nilai ujian mid semester dan ujian akhir
semester.
Lebih
lanjut,
prediksi
data
menggunakan regresi linear juga dapat
diimplementasikan
dalam
berbagai
pemecahan masalah; termasuk permasalahan
yang lebih kompleks seperti transformasi
model data non linear menjadi linear.
Jurnal ini membahas tentang prediksi
data nilai menggunakan regresi linear.
Tujuan akhir adalah mengembangkan model
prediksi nilai uj ian mahasiswa berdasarkan
perolehan nilai mid semester. Proses prediksi
disimulasikan dalam bentuk grafik dan
implementasi database menggunakan bahasa
Structure Query Language (SQL)
Pengertian data mining mengacu pada
kata "menyaring" atau "menarnbang"
pengetahuan dari sejumlah data berukuran
besar. Berry dan Linoff mendefinisikan data
mining sebagai: "suatu proses eksplorasi dan
analisis, dengan cara otomatis atau semi
otomatis, dari sejumlah data yang besar
supaya menemukan pola dan aturan yang
sangat penting"
Umumnya data mining mempunyai
pengertian yang sarna dengan istilah
"Know/edge Discovery in Databases" atau
menemukan pengetahuan dalarn database.
Proses menemukan pengetahuan dalam
database menggunakan beberapa langkah
iteratif secara sekuensial yaitu sebagai
berikut:
1. Data cleaning (untuk membersihkan data
pencilan dan tidak konsisten)
2. Data integration (menggabungkan data
dari beberapa sumber data yang berbeda)
3. Data selection (mengambil data yang
relevan dari database yang akan
digunakan dalam proses analisis)
4. Data
transformation
(data
ditransfonnasikan atau digabungkan
dalam bentuk form untuk proses analisis)
5. Data mining (proses-proses mendasar
dengan menggunakan metode kecerdasan
buatan dalam menemukan pola-pola
yang khusus dari analisis data)
6. Pattern Evaluation (mengidentifikasikan
pola
yang
menarik
berdasarkan
pengukuran tertentu dari pengetahuan)
1
Proxies - Volume 2 - Nomor 1
7. Knowledge presentation (teknik yang
digunakan untuk visualisasi
dan
representasi pengetahuan)
Berdasarkan fungsi dan tujuannya,
semua proses eksplorasi dalam data mining
dapat digolongkan ke dalam 2 kategori besar
yaitu proses data mining yang bersifat
deskriptif atau menjelaskan dan proses data
mInIng yang bersifat prediktif atau
meramalkan.
Metode
yang digunakan
dalam
penelitian adalah metode CRISP-DM (CRoss
Industry Standard Process for Data Mining).
Metode CRISP-DM adalah standarisasi yang
berhubungan dengan proses pemodelan data
mining. Standarisasi ini tidak mengaeu pada
teknologi tertentu, melainkan pada semua
tingkatan pengguna data mining untuk
menyelesaikan masalah perusahaan atau
lembaga secara umum.
2.2 Regresi Linear
Dalam Regresi Linear, data dimodelkan
dalam bentuk grafik berbentuk garis
continues dua dimensi. Oleh karena
penggambaran data menggunakan dua
dimensi, maka dibutuhkan variabel X dan Y.
Dalam regresi linear, variabel Y disebut
sebagai response variable sedangkan
variabel X disebut sebagai predictor
variable. Kedua variabel diformulasikan
seeara statistik dengan runlUS sebagai
berikut:
Y=a.+I3X.....................................(l)
Gambar 3.1 Metode CRISP-DM
Nilai Y pada rumusan di atas dianggap
sebagai nilai konstan, sedangkan nilai a dan
13 adalah nilai regression coefficient yang
mempengaruhi penggambaran data dalam
bentuk grafik dua dimensi.
Nilai a dan 13 dapat dieari menggunakan
metode least square yang berfungsi untuk
meminimalkan nilai error antara data
sebenarnya dan data hasil prediksi.
Diberikan nilai sampel data S dengan
titik-titik (Xt, Yt), (X2, Y2), ... (X3, Y3), maka
regression
coefficient
dapat
dicari
menggunakan rumus sebagai berikut:
a =
Business Understanding: merupakan
fase inisialisasi awal pengembangan data
mInIng
yaitu
pemahaman
tentang
obyektivitas dan kebutuhan. Pemahaman
tersebut diterjemahkan ke dalam definisi
masalah yang akan diselesaikan dengan data
mInIng
sebingga
dapat
dirancang
pereneanaan awal untuk meneapai tujuan.
Data Understanding: Fase data
understanding dimulai dengan eksplorasi
data yang akan digunakan dalam
permasalahan data mining, verifikasi dan
menemukan pengertian awal dari data yang
akan digunakan dalam proses analisis. Dari
proses-proses tersebut, maka dapat diperoleh
hal-hal menarik untuk penyusunan hipotesis
dari informasi yang tersembunyi.
Data Preparation: Hampir sebagian
besar dari proses pemodelan data mining
terfokus pada fase data preparation atau
persiapan data. Pengumpulan data, penilaian
terhadap data, konsolidasi dan pembersihan
data,
seleksi dan transformasi data
dibutuhkan dalam fuse ini.
y - J3x...................................(3)
Dimana x adalah rata-rata dari X), X2, ....
Xs dan Y adalah rata-rata dari Yh Y2, .... Ys
3. Metodologi Penelitian
2
Proxies - Volume 2 - Nomor 1
Modeling: Fase modeling adalah fase
pemilihan model analisis yang akan
diimplementasikan dalam data mining,
misalnya decision tree, neural network,
aturan asosiasi, dan lain-lain. Pemilihan
model
analisis
disesuaikan
dengan
pennasalahan yang diselesaikan, bahkan
beberapa model dapat diimplementasikan
dalam penyelesaian masalah.
Evaluation: Fase evaluation atau
evaluasi adalah fase analisis terhadap model
yang digunakan, bagaimana kineIja model
terhadap anal isis data yang digunakan;
apakah model yang diimplementasikan
sudah atau belum memenuhi fase pertama
Deployment:
Fase
deployment
mendefmisikan
bagaimana
model
dikembangkan dalam bentuk sistem, siapa
yang akan menggunakannya, dan seberapa
sering sistem tersebut digunakan. Terdapat 3
langkah yang ada dalam fase ini, yaitu:
Perencanaan deployment,
Perencanaan
pengawasan dan pemeliharaan; langkah ini
penting apabila hasil dari pemodelan dalam
data mining digunakan seeara periodik.
4.Implementasi
Persiapan data adalah proses awal dari
implementasi
sistem.
Dalam
proses
persiapan data, perlu dilakukan proses
perekaman data nilai ujian mid dan ujian
akhir semester dalam bentuk tabel.
Berikut adalah nilai ujian untuk mata
kuliah Pemrograman Basis Data untuk 11
mahasiswa Ilmu Komputer.
Data nilai di atas dapat dilakukan
penggambaran dalam bentuk grafik linear
dua dimensi dimana data nilai ujian mid dan
nilai ujian akhir berbentuk garis linear. Titik
x adalah data untuk nilai ujian mid semester
sedangkan titik y adalah data untuk ujian
akhir semester.
Prediksi Nilai
72
93
85
58
82
66
35
89
84
~------~ :L._·_-·_···_-_·_···_-·_·
f-_ _
I
~ 2~
•
••
. · · · - _ - ·. .
[
o
20
40
60
Mid Semester
80
100
·Regresi Linear Untuk-Data
Gambar 4.1 Visu8llSasi
Nilai
Berdasarkan formula dari regresi linear,
maka dapat dilakukan proses perhitungan
untuk prediksi data. Langkah pertaIna adalah
menghitung nilai rata-rata untuk x dan y.
Berdasarkan nilai yang disajikan, maka
didapatkan nilai x adalah 72.08 dan nilai y
adalah 74.25.
Kedua
nilai
tersebut
dapat
disubstitusikan ke dalam rumus untuk
mendapatkan nilai a. dan 13 sebagai berikut:
13=
(71-72.08)(82 -7 4.25) +(50-72.08)(65-74.25)+···
(71-72.08)2 +(50-72.08Yz + ...
label 4.1 Nil aI ujlan Pemrograman BasIs Data
Mid
Akhir
71
50
80
f~1
o
-
0.613
82
65
78
79
89
74
50
78
76
51
0.=74.25-(0.613)(72.08)=30.05
Berdasarkan basil perhitungan a. dan 13
di atas, maka rumus regresi linear untuk
prediksi nilai dapat ditentukan, yaitu:
Y=30.05+0.6 I3X
77
Model tersebut dapat digunakan untuk
prediksi berbagai macam nilai berdasarkan
nilai mid semester. Sebagai eontoh adalah
prediksi nilai akhir untuk nilai ujian mid 86,
maka didapatkan basil prediksi uj ian akhir
92
3
Proxies - Volume 2 - Nomor 1
82.78 atau prediksi untuk nilai ujian mid 47
maka didapatkan hasil prediksi ujian akhir
58.87
Dengan berbagai pendekatan metode
prediksi, maka dapat diselesaikan berbagai
permasalahan
prediksi
data
dengan
pendekatan statistik.
s. Kesimpulan dan Saran
Daftar Pustaka
5.1 Kesimpulan
I. Regresi Linear dapat digunakan untuk
melakukan prediksi data berdasarkan
data yang sudah ada sebelumnya
2. Syarat utama dalam melakukan prediksi
data menggunakan regresi linear adalah
data dalam bentuk continues value. Nilai
data divisualisasikan terlebih dahulu
dalam bentuk grafik 2 dimensi.
[1] Michael J.A Berry and Gordons S.
Linnoff, "Data Mining Techniques", Wiley
Publishing, Inc, 2004
[2] Cross Industry Standard Process for Data
Mining, http://www.crisp-dm.org/
[3] Jiawei Han dan Micheline Kamber, "Data
Mining: Concepts and Techniques", Morgan
Kaufmann Publisher, 2001
[4] Mehmed Kantardzic, "Data MiningConcepts,
Models,
Methods,
and
Algorithms'" New John Wiley & Sons, Inc.,
2003
[5] Sean Kelly, "Data Warehouse in Action",
John Wiley & Sons, Inc., 1997
[6] Efrem G. Mallach, "Decision Support
and Data Warehouse Systems", McGrawHill, 2000
[7] George M. Marakas , "Modem Data
Warehousing, Mining, and Visualization Core Concepts", Prentice Hall, Inc., 2003
S.2 Saran
Proses prediksi data yang digunakan
dalam jurnal ini menggunakan regresi linear
dua dimensi; artinya proses prediksi hanya
menggunakan variabel x dan y.
Beberapa permasalahan yang lebih
kompleks tentunya membutuhkan regresi
dengan banyak variabel. Regresi linear dapat
dikembangkan menggunakan metode regresi
multiple dengan banyak atribut yang
diprediksi.
Khusus prediksi data yang tidak
berbentuk linear atau non linear, maka dapat
menggunakan polynomial regression.
4
Download