Proxies - Volume 2 - Nomor 1 Data Mining: Implementasi Regresi Linear Untuk Prediksi Nilai Ujian Widyastuti Andriani l , Hironimus Leonfi 'Information Technology STMIK Akakom, 2Faculty of Computer Science Unika Soegijapranata [email protected] Abstract One of the objectives of data mining is prediction based on the pattern of data that already exists. One method used to form linear prediction data is linear regression. Prediction data using linear regression using two variables that can be described in two dimensions. This journal uses linear regression method for the prediction of test scores. Keyword: Regresi Linear, Data Mining, Prediksi 2. Tinjauan Pustaka 2.1 Konsep Data Mining 1. Pendahuluan Salah satu manfaat dari implementasi Data Mining adalah menggali informasi yang dapat digunakan sebagai pola atau model dalam melakukan prediksi terhadap sebuah pola data. Beberapa algoritma Data Mining digunakan untuk prediksi data di masa mendatang berdasarkan data yang dimiliki saat ini. Umumnya klasifikasi data seperti model BayeSian, Nearest Neighbor dan decision tree dapat digunakan untuk prediksi data. Khusus data dengan model linear atau continues value dapat diformulasikan dalam model regresi statistik. Model regresi sederhana dapat digunakan untuk melakukan prediksi nilai suatu mata kuliah berdasarkan nilai ujian mid semester dan ujian akhir semester. Lebih lanjut, prediksi data menggunakan regresi linear juga dapat diimplementasikan dalam berbagai pemecahan masalah; termasuk permasalahan yang lebih kompleks seperti transformasi model data non linear menjadi linear. Jurnal ini membahas tentang prediksi data nilai menggunakan regresi linear. Tujuan akhir adalah mengembangkan model prediksi nilai uj ian mahasiswa berdasarkan perolehan nilai mid semester. Proses prediksi disimulasikan dalam bentuk grafik dan implementasi database menggunakan bahasa Structure Query Language (SQL) Pengertian data mining mengacu pada kata "menyaring" atau "menarnbang" pengetahuan dari sejumlah data berukuran besar. Berry dan Linoff mendefinisikan data mining sebagai: "suatu proses eksplorasi dan analisis, dengan cara otomatis atau semi otomatis, dari sejumlah data yang besar supaya menemukan pola dan aturan yang sangat penting" Umumnya data mining mempunyai pengertian yang sarna dengan istilah "Know/edge Discovery in Databases" atau menemukan pengetahuan dalarn database. Proses menemukan pengetahuan dalam database menggunakan beberapa langkah iteratif secara sekuensial yaitu sebagai berikut: 1. Data cleaning (untuk membersihkan data pencilan dan tidak konsisten) 2. Data integration (menggabungkan data dari beberapa sumber data yang berbeda) 3. Data selection (mengambil data yang relevan dari database yang akan digunakan dalam proses analisis) 4. Data transformation (data ditransfonnasikan atau digabungkan dalam bentuk form untuk proses analisis) 5. Data mining (proses-proses mendasar dengan menggunakan metode kecerdasan buatan dalam menemukan pola-pola yang khusus dari analisis data) 6. Pattern Evaluation (mengidentifikasikan pola yang menarik berdasarkan pengukuran tertentu dari pengetahuan) 1 Proxies - Volume 2 - Nomor 1 7. Knowledge presentation (teknik yang digunakan untuk visualisasi dan representasi pengetahuan) Berdasarkan fungsi dan tujuannya, semua proses eksplorasi dalam data mining dapat digolongkan ke dalam 2 kategori besar yaitu proses data mining yang bersifat deskriptif atau menjelaskan dan proses data mInIng yang bersifat prediktif atau meramalkan. Metode yang digunakan dalam penelitian adalah metode CRISP-DM (CRoss Industry Standard Process for Data Mining). Metode CRISP-DM adalah standarisasi yang berhubungan dengan proses pemodelan data mining. Standarisasi ini tidak mengaeu pada teknologi tertentu, melainkan pada semua tingkatan pengguna data mining untuk menyelesaikan masalah perusahaan atau lembaga secara umum. 2.2 Regresi Linear Dalam Regresi Linear, data dimodelkan dalam bentuk grafik berbentuk garis continues dua dimensi. Oleh karena penggambaran data menggunakan dua dimensi, maka dibutuhkan variabel X dan Y. Dalam regresi linear, variabel Y disebut sebagai response variable sedangkan variabel X disebut sebagai predictor variable. Kedua variabel diformulasikan seeara statistik dengan runlUS sebagai berikut: Y=a.+I3X.....................................(l) Gambar 3.1 Metode CRISP-DM Nilai Y pada rumusan di atas dianggap sebagai nilai konstan, sedangkan nilai a dan 13 adalah nilai regression coefficient yang mempengaruhi penggambaran data dalam bentuk grafik dua dimensi. Nilai a dan 13 dapat dieari menggunakan metode least square yang berfungsi untuk meminimalkan nilai error antara data sebenarnya dan data hasil prediksi. Diberikan nilai sampel data S dengan titik-titik (Xt, Yt), (X2, Y2), ... (X3, Y3), maka regression coefficient dapat dicari menggunakan rumus sebagai berikut: a = Business Understanding: merupakan fase inisialisasi awal pengembangan data mInIng yaitu pemahaman tentang obyektivitas dan kebutuhan. Pemahaman tersebut diterjemahkan ke dalam definisi masalah yang akan diselesaikan dengan data mInIng sebingga dapat dirancang pereneanaan awal untuk meneapai tujuan. Data Understanding: Fase data understanding dimulai dengan eksplorasi data yang akan digunakan dalam permasalahan data mining, verifikasi dan menemukan pengertian awal dari data yang akan digunakan dalam proses analisis. Dari proses-proses tersebut, maka dapat diperoleh hal-hal menarik untuk penyusunan hipotesis dari informasi yang tersembunyi. Data Preparation: Hampir sebagian besar dari proses pemodelan data mining terfokus pada fase data preparation atau persiapan data. Pengumpulan data, penilaian terhadap data, konsolidasi dan pembersihan data, seleksi dan transformasi data dibutuhkan dalam fuse ini. y - J3x...................................(3) Dimana x adalah rata-rata dari X), X2, .... Xs dan Y adalah rata-rata dari Yh Y2, .... Ys 3. Metodologi Penelitian 2 Proxies - Volume 2 - Nomor 1 Modeling: Fase modeling adalah fase pemilihan model analisis yang akan diimplementasikan dalam data mining, misalnya decision tree, neural network, aturan asosiasi, dan lain-lain. Pemilihan model analisis disesuaikan dengan pennasalahan yang diselesaikan, bahkan beberapa model dapat diimplementasikan dalam penyelesaian masalah. Evaluation: Fase evaluation atau evaluasi adalah fase analisis terhadap model yang digunakan, bagaimana kineIja model terhadap anal isis data yang digunakan; apakah model yang diimplementasikan sudah atau belum memenuhi fase pertama Deployment: Fase deployment mendefmisikan bagaimana model dikembangkan dalam bentuk sistem, siapa yang akan menggunakannya, dan seberapa sering sistem tersebut digunakan. Terdapat 3 langkah yang ada dalam fase ini, yaitu: Perencanaan deployment, Perencanaan pengawasan dan pemeliharaan; langkah ini penting apabila hasil dari pemodelan dalam data mining digunakan seeara periodik. 4.Implementasi Persiapan data adalah proses awal dari implementasi sistem. Dalam proses persiapan data, perlu dilakukan proses perekaman data nilai ujian mid dan ujian akhir semester dalam bentuk tabel. Berikut adalah nilai ujian untuk mata kuliah Pemrograman Basis Data untuk 11 mahasiswa Ilmu Komputer. Data nilai di atas dapat dilakukan penggambaran dalam bentuk grafik linear dua dimensi dimana data nilai ujian mid dan nilai ujian akhir berbentuk garis linear. Titik x adalah data untuk nilai ujian mid semester sedangkan titik y adalah data untuk ujian akhir semester. Prediksi Nilai 72 93 85 58 82 66 35 89 84 ~------~ :L._·_-·_···_-_·_···_-·_· f-_ _ I ~ 2~ • •• . · · · - _ - ·. . [ o 20 40 60 Mid Semester 80 100 ·Regresi Linear Untuk-Data Gambar 4.1 Visu8llSasi Nilai Berdasarkan formula dari regresi linear, maka dapat dilakukan proses perhitungan untuk prediksi data. Langkah pertaIna adalah menghitung nilai rata-rata untuk x dan y. Berdasarkan nilai yang disajikan, maka didapatkan nilai x adalah 72.08 dan nilai y adalah 74.25. Kedua nilai tersebut dapat disubstitusikan ke dalam rumus untuk mendapatkan nilai a. dan 13 sebagai berikut: 13= (71-72.08)(82 -7 4.25) +(50-72.08)(65-74.25)+··· (71-72.08)2 +(50-72.08Yz + ... label 4.1 Nil aI ujlan Pemrograman BasIs Data Mid Akhir 71 50 80 f~1 o - 0.613 82 65 78 79 89 74 50 78 76 51 0.=74.25-(0.613)(72.08)=30.05 Berdasarkan basil perhitungan a. dan 13 di atas, maka rumus regresi linear untuk prediksi nilai dapat ditentukan, yaitu: Y=30.05+0.6 I3X 77 Model tersebut dapat digunakan untuk prediksi berbagai macam nilai berdasarkan nilai mid semester. Sebagai eontoh adalah prediksi nilai akhir untuk nilai ujian mid 86, maka didapatkan basil prediksi uj ian akhir 92 3 Proxies - Volume 2 - Nomor 1 82.78 atau prediksi untuk nilai ujian mid 47 maka didapatkan hasil prediksi ujian akhir 58.87 Dengan berbagai pendekatan metode prediksi, maka dapat diselesaikan berbagai permasalahan prediksi data dengan pendekatan statistik. s. Kesimpulan dan Saran Daftar Pustaka 5.1 Kesimpulan I. Regresi Linear dapat digunakan untuk melakukan prediksi data berdasarkan data yang sudah ada sebelumnya 2. Syarat utama dalam melakukan prediksi data menggunakan regresi linear adalah data dalam bentuk continues value. Nilai data divisualisasikan terlebih dahulu dalam bentuk grafik 2 dimensi. [1] Michael J.A Berry and Gordons S. Linnoff, "Data Mining Techniques", Wiley Publishing, Inc, 2004 [2] Cross Industry Standard Process for Data Mining, http://www.crisp-dm.org/ [3] Jiawei Han dan Micheline Kamber, "Data Mining: Concepts and Techniques", Morgan Kaufmann Publisher, 2001 [4] Mehmed Kantardzic, "Data MiningConcepts, Models, Methods, and Algorithms'" New John Wiley & Sons, Inc., 2003 [5] Sean Kelly, "Data Warehouse in Action", John Wiley & Sons, Inc., 1997 [6] Efrem G. Mallach, "Decision Support and Data Warehouse Systems", McGrawHill, 2000 [7] George M. Marakas , "Modem Data Warehousing, Mining, and Visualization Core Concepts", Prentice Hall, Inc., 2003 S.2 Saran Proses prediksi data yang digunakan dalam jurnal ini menggunakan regresi linear dua dimensi; artinya proses prediksi hanya menggunakan variabel x dan y. Beberapa permasalahan yang lebih kompleks tentunya membutuhkan regresi dengan banyak variabel. Regresi linear dapat dikembangkan menggunakan metode regresi multiple dengan banyak atribut yang diprediksi. Khusus prediksi data yang tidak berbentuk linear atau non linear, maka dapat menggunakan polynomial regression. 4