analisis pemanfaatan data mining dalam penentuan variabel untuk

advertisement
BAB 2
TINJAUAN PUSTAKA
2.1.
Data Mining
Data mining adalah kombinasi secara logis antara pengetahuan data, dan
analisa statistik yang dikembangkan dalam pengetahuan bisnis atau suatu proses yang
menggunakan teknik statistik, matematika, kecerdasan buatan, tiruan dan machinelearning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat bagi
pengetahuan yang terkait dari berbagai database besar [15,16]. Data mining juga
merupakan proses analisa yang dirancang untuk menelusuri data untuk mendapatkan
bentuk konsisten dan hubungan yang sistematik antara variabel yang kemudian
divalidasi dengan menggunakan sub set data yang baru [17].
Data mining sebagai bentuk dari penelusuran dengan analisis data, merupakan
proses yang otomatis melakukan pengumpulan bentuk dan relasi dari sekumpulan
data yang besar dibandingkan dengan melakukan percobaan hipotesa tanpa rumus
[17], bahkan beberapa teknik data mining menggunakan metode validasi silang yang
merupakan teknik sampling [18].
Kerangka proses data mining tersusun atas tiga tahapan,yaitu pengumpulan
data (data collection), transformasi data (data transformation), dan analisis data (data
analysis) [7]. Pada Gambar 2.1 ditunjukkan bahwa proses tersebut diawali dengan
preprocessing yang terdiri atas pengumpulan data untuk menghasilkan data mentah
(raw data) yang dibutuhkan oleh data mining, yang kemudian dilanjutkan dengan
8
Universitas Sumatera Utara
9
transformasi data untuk mengubah data mentah menjadi format yang dapat diproses
oleh data mining, misalnya melalui filtrasi atau agregasi. Hasil transformasi data akan
digunakan
oleh
analisis
data
untuk
membangkitkan
menggunakan teknik seperti analisis statistik,
pengetahuan
dengan
machine learning, dan visualisasi
informasi.
Gambar 2.1 Proses Data Mining [17]
Machine Learning
adalah suatu area dalam
kecerdasan buatan
yang
berhubungan dengan pengembangan teknik-teknik yang bisa diprogramkan dan
belajar dari data masa lalu.
Data mining memiliki 4 tipe relasi [19] yakni:
a. Kelas, data dikelompokkan dalam kategori oleh pengguna,
b. Klaster, data dikelompokkan dalam group, berdasarkan relasi logika,
c. Asosiasi, data digunakan untuk menemukan relasi antar data set,
Universitas Sumatera Utara
10
d. Bentuk sekuensial, data digunakan untuk menentukan perilaku dan trend.
Pengumpulan data yang digunakan dalam data mining dapat berupa
pengambilan data secara langsung melalui hasil survey, basis data, maupun catatan
yang dimasukkan secara manual. Pada pengambilan data menggunakan basis data,
dapat dilakukan dengan mengakses sistem basis data maupun melaui perantaraan
webservice.
Salah satu prosedur data mining yang banyak digunakan dalam penelitian [6]
terutama oleh peneliti dari beberapa perusahaan Eropa adalah Cross-Industry
Standard Process for Data Mining (CRISP-DM) [19] [21]. Berdasarkan metode
CRISP-DM, terdapat 6 proses data mining yakni:
a. Bussiness understanding
Proses ini fokus pada pemahaman dan perspektif bisnis proses dari suatu
sistem.
b. Data Understanding
Proses ini fokus pada pembelajaran data yang ada, pengumpulan dan
penyeleksian data.
c. Data Preparation
Proses ini meliputi persiapan data yang disusun menjadi suatu dataset
sehingga data tersebut dapat digunakan dalam permodelan.
Universitas Sumatera Utara
11
d. Modeling
Data yang telah terkumpulkan akan diproses pada tahap ini. Untuk
mendapatkan hasil yang optimal, perlu dilakukan pengulangan proses data
preparation.
e. Evaluation
Melakukan evaluasi terhadap hasil pemodelan, proses pemodelan dan
dataset yang disiapkan sehingga tujuan penelitian dapat tercapai.
f. Deployment
Pada proses ini model telah dihasilkan. Proses ini umumnya bukan
merupakan akhir dari data mining, namun proses ini dapat menjadi awal
dari proses berikutnya.
Gambaran dari proses di atas dapat dilihat pada Gambar 2.2.
Gambar 2.2 Proses Pada Metode CRISP-DM [19]
Universitas Sumatera Utara
12
2.2.
Neural Network
Neural network atau jaringan syaraf tiruan(JST) merupakan prosesor tersebar
paralel yang sangat besar yang memiliki kecendrungan untuk menyimpan
pengetahuan yang bersifat pengalaman dan membuatnya siap untuk digunakan [22].
Jaringan syaraf tiruan merupakan suatu sistem pemrosesan informasi yang
mempunyai karakteristik menyerupai jaringan syaraf manusia. Jaringan syaraf tiruan
tersusun dari sejumlah besar elemen yang melakukan kegiatan analog dengan fungsifungsi saraf biologis yang paling mendasar. Jaringan syaraf tiruan menyerupai otak
manusia dalam dua hal [22]:
a. Pengetahuan diperoleh jaringan melalui proses belajar
b. Kekuatan hubungan antar sel syaraf yang dikenal sebagai bobot sinaptik
digunakan untuk menyimpan pengetahuan
c.
Jaringan syaraf tiruan dapat melakukan pembelajaran dari pengalaman
sebelumnya, melakukan generalisasi, yakni dapat menghasilkan keluaran yang
benar untuk input yang belum pernah dilatih sebelumnya, atas contoh-contoh
yang diperolehnya dan mengabstraksi karakteristik masukan.
Sel syaraf adalah unit pemrosesan informasi yang merupakan dasar dari
operasi jaringan saraf tiruan. Gambar 2.3 menunjukkan susunan dari sebuah jaringan
syaraf tiruan dengan 1 lapisan tersembunyi. Terdapat tiga elemen dasar dari model
neuron yaitu [22]:
a. Sekumpulan sinapsis atau jalur hubungan yang masing-masing memiliki
bobot dan kekuatan hubungan
Universitas Sumatera Utara
13
b. Suatu penjumlah yang menjumlahkan sinyal-sinyal input yang diberi bobot
oleh sinapsis syaraf yang sesuai
c. Fungsi aktivasi, yaitu fungsi yang digunakan untuk membatasi amplitudo
keluaran dari setiap neuron.
Gambar 2.3 Sebuah Jaringan Syaraf Tiruan Dengan 1 Lapisan Tersembunyi [23]
2.3.
Mengaktifkan Jaringan Saraf Tiruan
Mengaktifkan jaringan saraf tiruan berarti mengaktipkan setiap neuron yang
dipakai pada jaringan tersebut. Banyak fungsi yang dapat dipakai sebagai pengaktif,
seperti fungsi-fungsi goniometri dan hiperboliknya, fungsi unit step, impulse, linier,
sigmoid, dan lain sebagainya [24]. Pada Gambar 2.4 ditunjukkan beberapa bentuk
fungsi pengaktif.
Universitas Sumatera Utara
14
a.Fungsi Step
c.Fungsi Sigmoid
b. Fungsi Sign
d.Fungsi Linier
Gambar 2.4 Fungsi Pengaktif
Fungsi sigmoid merupakan fungsi aktivasi yang umum digunakan dalam pelatihan
jaringan syaraf tiruan [24,25]. Fungsi sigmoid didefenisikan sebagai berikut
............................................(2.1)
Fungsi sigmoid memiliki keunikan yakni bila dilakukan pengaturan nilai σ
pada persamaan diatas, maka fungsi sigmoid akan memiliki karakteristik menyerupai
fungsi step ataupun linier. Pengaruh pengaturan σ pada karakteristik fungsi sigmoid
dapat dilihat pada Gambar 2.5.
Universitas Sumatera Utara
15
Gambar 2.5 Pengaruh Pengaturan σ Pada Karakteristik Fungsi Sigmoid
Bila nilai σ mendekati 0, maka karakteristik fungsi sigmoid menyerupai fungsi
linier, dan bila nilai σ mendekati tak hingga, maka karakteristik fungsi sigmoid
menyerupai fungsi step.
2.4.
Jaringan Syaraf Tiruan Back Propagation
Model JST merupakan pengembangan dari model perceptron. Arsitektur ini
pertama kali di kemukakan oleh Rumellhart dan Mc Clelland tahun 1986. Ciri utama
jaringan syaraf ini adalah dipunyainya tiga tipe lapisan jaringan yang terhubung
penuh, yakni: jaringan penerima masukan, jaringan tersembunyi dan jaringan
keluaran. Pelatihan jaringan dilakukan dengan cara memberikan vektor masukan dan
vektor keluaran (himpunan data pelatihan). Untuk lebih jelasnya arsitektur JST back
propagation dapat dilihat di Gambar 2.6.
Universitas Sumatera Utara
16
lapisan masukkan
lapisan keluaran
lapisan
tersembunyi
vektor masukkan
Gambar 2.6 Arsitektur JST Back Propagation
Pelatihan pada JST back propagation, umpan maju dilakukan dalam rangka
perhitungan bobot sehingga pada akhir pelatihan akan diperoleh bobot-bobot yang
baik. Hubungan antara bobot ini ditunjukkan seperti pada Gambar 2.7.
unit prasikap
a0
i1
wj1
i2
wj2
wjo
.
. wjn
sj
in
Gambar 2.7 Hubungan Antara Bobot Pada JST
Selama proses pelatihan, bobot-bobot diatur untuk meminimumkan kesalahan
yang terjadi. Sebagian besar pelatihan untuk jaringan umpan maju menggunakan
gradien dari fungsi aktivasi untuk menentukan bagaimana mengatur bobot-bobot
dalam rangka meminimumkan kinerja. Algoritma pelatihan standar back propagation
akan menggerakkan bobot dengan arah gradien negatif. Prinsip dasar dari algoritma
back propagation adalah memperbaiki bobot-bobot jaringan dengan arah yang
membuat fungsi aktivasi menjadi turun dengan cepat.
Universitas Sumatera Utara
17
Algoritma back propagation dengan fungsi aktivasi sigmoid adalah sebagai
berikut:
a. Inisialisasi nilai bobot awal dengan menggunakan nilai acak yang cukup kecil,
yakni antara 0 dan 1.
b. Berikan data masukan dan keluaran
c. Melakukan perhitungan keluaran. Perhitungan keluaran dilakukan dengan
menggunakan persamaan sebagai berikut:
Bila X merupakan matriks data masukan dan
bobot neuron
merupakan matriks dari
ke-h, dan bila Z merupakan nilai aktivasi neuron
tersembunyi terhadap setiap nilai masukan X yang berbanding lurus
terhadap bobot. Defenisi X,W dan Z adalah sebagai berikut:
....................................................(2.2)
......................................(2.3)
...............................(2.4)
Nilai Z merupakan hasil dari fungsi:
......................................................... (2.5)
Universitas Sumatera Utara
18
dan bila keluaran dari setiap layer tersembunyi adalah V, dimana
.....................................................(2.6)
dan nilai keluaran Y didefenisikan sebagai:
.................................................(2.7)
dimana
merupakan matriks bobot awal dari setiap neuron
tersembunyi, sehingga akan kita peroleh keluaran sebagai matriks
d. Penyesuaian bobot dilakukan dengan memanfaatkan algoritma rekursif,
dimulai dari keluaran menuju ke lapisan tersembunyi pertama. Pengaturan
bobot dilakukan dengan menggunakan persamaan:
...........................(2.8)
Dimana:
= merupakan bobot dari titik tersembunyi i atau dari
masukan ke titik j pada waktu t, atau merupakan
keluaran dari titik i ataupun masukannya.
= merupakan perbaikan bobot antara lapisan tersembunyi
dengan keluaran
= merupakan nilai kesalahan dari titik j
e. Nilai kesalahan
ditentukan oleh:
................................(2.9)
Universitas Sumatera Utara
19
Dimana:
d
= keluaran yang diinginkan
= hasil keluaran jaringan
f. Ada kalanya penambahan nilai momentum (α) dapat mempercepat proses
pelatihan dan memperbaiki linieritas perubahan bobot. Nilai momentum
memiliki rentang antara 0 dan 1. Penambahan nilai momentum didefenisikan
dengan:
......(2.10)
g. Melakukan kembali langkah ke-2 diatas sampai iterasi (T) tercapai.
Universitas Sumatera Utara
Download