ii. tinjauan pustaka

advertisement
II. TINJAUAN PUSTAKA
2.1 Sistem Informasi Manajemen
Mcleod R dan Schell G, (2004) membagi sumber daya menjadi dua
bagian yaitu sumberdaya fisikal dan sumberdaya konseptual. Sumber daya
fisikal terdiri atas personil, mesin, bahan dan materiil, sedangkan
Sumberdaya konseptual terdiri atas modal dan informasi. Suatu informasi
merupakan suatu unsur kunci yang penting di dalam suatu sistem konseptual,
informasi dapat bersifat manual ataupun dapat berupa komputer elektronik
atau mekanik. Informasi dapat dilihat sebagai data penuh arti di mana data
telah diubah jadi suatu konteks yang bermanfaat untuk membantu keputusan
manajemen (Mutch, 1996).
Sistem informasi dibagi menjadi dua bagian yaitu sistem pendukung
operasi dan sistem pendukung manajemen. Sistem pendukung operasi dapat
berupa sistem proses transaksi, sistem proses kontrol, sistem kolaborasi
perusahaan. Bagian dari sistem pendukung manajemen antara lain sistem
informasi manajemen, sistem pendukung keputusan, dan sistem informasi
eksekutif (Mcleod dan Schell, 2004).
Sistem Informasi Manajemen adalah manajemen dari suatu sistem dan
merupakan
suatu
proses
menciptakan,
memperoleh,
mengorganisir,
menyimpan, mendistribusikan, dan menggunakan informasi. Tujuan dari
Sistem Informasi Manajemen adalah membantu orang dan organisasi untuk
akses informasi secara efektif dan efisien. Sehingga sistem informasi
manajemen dapat membantu organisasi untuk beroperasi secara kompetitif
dan strategis, serta membantu manajemen untuk lebih mudah dalam
menjalani tugas dan mendapatkan data yang lebih baik (Detlor, 2009).
Gambar.1 Proses Sistem Informasi Manajemen (Mcleod dan Schell, 2004)
6
2.2 Data Mining
Data Mining merupakan istilah dari menambang atau mengektraksi
suatu informasi dari sebuah data. Ekstraksi informasi yang berguna dari suatu
penyimpan data besar menjadi pekerjaan yang cukup menantang, seringkali
alat dan teknik analisis data tradisional tidak dapat digunakan dalam
mengekstrak informasi dari data berukuran besar. Data mining adalah
teknologi yang merupakan campuran metode-metode analisis data dengan
algoritma-algoritma untuk memproses data berukuran besar (Giudici dan
Figini, 2009). Data mining merupakan salah satu tahapan Knowledge
discovery in database yang merupakan proses untuk menemukan informasi
yang berguna serta pola-pola yang ada dalam data (Goharian dan Grossman,
2003). Langkah kerja Knowledge discovery in database yaitu :
1.
Pembersihan Data : tahapan untuk menghilangkan data yang tidak
konsisten dan terdapat noise
2.
Mengintegrasikan data : di mana beberapa sumber data yang dapat
dikombinasikan
3.
Menyeleksi data : Mengambil data yang relevan yang dapat digunakan
untuk proses analisis
4.
Transformasi data : Mentrasformasikan atau menggabungkan data ke
dalam bentuk yang tepat untuk ditambang dengan cara melakukan
peringkasan atau operasi agregrasi
5.
Data Mining : Merupakan proses penting, dimana metode-metode
cerdas diaplikasikan untuk mengekstraksi pola-pola yang menarik
dalam data.
6.
Evaluasi Pola : Evaluasi Pola diperlukan untuk mengidentifikasi polapola yang menarik dalam merepresentasikan pengetahuan.
7.
Presentasi Pengetahuan
:
Penggunaan
visualisasi dan
teknik
representasi untuk menyajiakan pengetahuan hasil data mining kepada
pengguna
7
Gambar. 2 Alur Proses KDD (Knowledge discovery in database)
Data mining merupakan proses analisa data yang terdiri dari rangkaian
aktivitas mulai dari mendefinisikan tujuan analisis, analisis data sampai
kepada interpretasi dan evaluasi hasil (Giudici dan Figini, 2009). Disamping
itu diperlukan juga restrukturisasi data yang beragam pada pusat informasi
yang besar yaitu data warehouse (Connoly dan Begg, 2002)
Proses data mining menurut Han dan Kamber (2006) dapat dibedakan
menjadi dua tujuan utama :
a. Descriptive data mining :
Deskripsi konsep atau task relevan data dalam bentuk yang ringkas,
informatif dan diskriminatif.
b. Predictive data mining :
Berdasarkan analisis data dibuat model untuk kemudian dijadikan
sebagai alat prediksi trend dan data yang tidak diketahui nilainya.
8
Pencarian pola secara otomatis terhadap data dalam jumlah besar
dalam data mining menggunakan beberapa tehnik seperti klasifikasi,
penggugusan (clustering), deskripsi konsep, prediksi dan association rule
(Han dan Kamber, 2006).
Untuk membuat pengguna dapat berkomunikasi dengan sistem data
mining, diperlukan data mining primitive yang dirancang untuk memfasilitasi
penemuan pengetahuan secara efisien. Data mining primitive menurut
Riyanti (2005) meliputi :
 Pengkoleksian data; digunakan untuk menspesifikasikan data yang akan
di-mining karena pengguna pada umumnya hanya tertarik pada subset
tertentu pada basis data.
 Analisis relevansi dimensi yaitu hirarki konsep yang merupakan informasi
tentang domain yang akan di-mining yang dapat bermanfaat untuk proses
penemuan pengetahuan. Konsep hierarki dapat didefinisikan serangkaian
pemetaan dari konsep ber-level rendah menjadi level yang lebih tinggi
 Perhitungan nilai kemenarikan diperlukan karena tidak semua hasil dari
data mining merupakan pengetahuan sehingga diperlukan nilai tertentu
yang dapat ditetapkan oleh pengguna sebagai batas.
 Presentasi dan visualisasi pola yang ditemukan. Sistem data mining yang
efektif harus mampu menampilkan pola-pola yang ditemukan dalam
bermacam-macam bentuk seperti aturan, tabel, tabel silang, grafik, pohon
keputusan, cube, atau visualisasi lain sehingga pengguna dari latar
belakang yang berbeda dapat mengidentifikasi pola dan dapat beriteraksi
dengan sistem.
2.3. Association Rule Mining
Association Rule Mining digunakan untuk mencari hubungan menarik
di antara items dalam suatu himpunan data (Han dan Kamber 2006). Di
dalam data mining tehnik Association Rule Mining merupakan format yang
paling sering digunakan pada penelusuran pola pada sistem data yang tidak
dapat terlihat (Kantardzic, 2003).
9
Dengan Association Rule hubungan dapat diimplementasikan dengan
Format X→ Ij, dimana X adalah suatu itemset yang terpisah dari Ij tetapi
masih dalam suatu database (Agarwal et al, 1993), berdasarkan hubungan
yang terbentuk dari beberapa item data tersebut dapat diambil kesimpulan
item yang dapat digunakan untuk informasi (Kona dan Chakravarthy, 2003).
Ukuran objektif yang dapat digunakan untuk menemukan aturan
asosiasi
adalah
dengan
menggunakan
dua
ukuran
kepercayaan
(interestingness measure) (Srikant dan Agrawal, 1996) yaitu :
a.
Support adalah suatu ukuran yang menunjukkan presentase
banyaknya kejadian kombinasi item A dalam basis data.
Support = jika asosiasi X → Y =
b.
Confidence
adalah
...(1)
presentase
menunjukkan
keakuratan
dari
hubungan antar 2 item atau lebih dalam aturan asosiasi (Han dan
Kamber 2006).
Confidence= jika asosiasi X → Y=
..(2)
Batasan nilai support dan confidence ditentukan oleh user, sehingga
akan terjadi maximum support, minimum suport, maximum confidence, dan
minimum confidence. Keterangan confidence versus support dapat dilihat
dalam Tabel. 1
Tabel.1 Confidence versus Support (Tanjung,2005)
maximum
suport
minimum
support
minimum confidence
maximum confidence
Aturan asosiasi jarang bernilai
benar, tetapi dapat sering
terjadi
Aturan asosiasi jarang bernilai
benar, tetapi dapat jarang
terjadi
Aturan asosiasi sering
bernilai benar, tetapi dapat
sering terjadi
Aturan asosiasi sering
bernilai benar, tetapi dapat
jarang terjadi
Aturan asosiasi yang memenuhi minimum support dan minimum
confidence terkadang bisa menjadi aturan asosiasi yang menyesatkan bagi
pengguna. Aturan Asosiasi X → Y bisa menyesatkan jika ternyata pembelian
item X tidak diikuti pembelian item Y. Pembelian item X adalah independent
terhadap pembelian item Y jika P(X
Y) = P(X)P(Y), jika (X
Y)
10
P(X)P(Y) maka item X dan Y bersifat dependent dan saling berhubungan
(Han dan Kamber, 2006). Untuk itu perlu paramater penting selain support
dan confidence yaitu adanya Lift Ratio. Lift Ratio merupakan nilai yang
menunjukkan kevalidan proses transaksi dan memberikan informasi apakah
benar produk X dibeli bersamaan dengan produk Y.
Lift Ratio dapat ditulis sebagai:
Lift Ratio X→Y =
…. (3)
Sebuah transaksi dikatakan valid jika mempunyai nilai Lift Ratio lebih
dari 1 (satu), yang berarti bahwa dalam transaksi tersebut produk X dan Y
benar-benar terdapat hubungan korelasi. Selain Lift Ratio juga terdapat nilai
Laverage yaitu nilai dari jumlah kekurangan ataupun kelebihan support untuk
memenuhi syarat. Nilai leverage dapat mengartikan jika suatu aturan
memiliki nilai leverage positif maka hubungan antara kedua item adalah
positif, sebaliknya jika nilai leverage negatif maka hubungan kedua item
tersebut juga negatif.
Leverage dapat ditulis dengan rumus:
Leverage =
…(4)
2.4 Market Basket Analysis
Market basket analysis merupakan fungsi dari Association Rule
Mining yang biasanya digunakan untuk mempelajari kebiasaan konsumen
dengan mencari frekuensi itemset yang sering dibeli dan item yang dibeli
secara bersamaan (Han dan Kamber 2006). Market basket analysis
merupakan teknik matematis yang biasanya digunakan profesional marketing
untuk mencari hubungan produk individual ataupun group (Redlon,2008).
Istilah analisis ini sendiri datang dari kejadian yang sudah sangat umum
terjadi di dalam supermarket, yaitu pengambilan barang secara bersamaan
oleh pelanggan saat mengunjungi supermarket (Cavique , 2007).
Tujuan dari market basket analysis untuk mengidentifikasi produk,
atau kelompok produk yang cenderung terdapat korelasi bersamaan (Giudici
dan Figini, 2009). Market basket analysis adalah alat yang ampuh untuk
11
diterapkan didalam strategi cross-selling (Cavique, 2007). Hasil dari analisis
ini dapat digunakan untuk mengorganisir tata ruang, mengorganisir produk
yang sering menjual bersama-sama, serta dapat juga digunakan untuk
meningkatkan efisiensi promosi produk (Factpoint Group, 2008). Terdapat
dua riset utama dalam Market basket analysis, yaitu bersifat penyelidikan dan
bersifat menjelaskan model.
Pendekatan penyelidikan terbatas kepada tugas dalam menemukan
cross-category yaitu hubungan timbal balik dasarkan pada pola dasar yang
diamati dari kategori produk atau konsumen. Pendekatan penyelidikan juga
dikenal sebagai gaya gabung atau analisa hubungan dekat. Analisa ini
mengarahkan suatu ukuran asosiasi symmetric dan memasangkan sehingga
memperoleh pola dari cross-tabulation berbagai faktor (Boztug , 2008).
2.5. Algoritma Apriori
Algoritma Apriori adalah algoritma paling terkenal untuk menemukan
pola frekuensi tinggi yang digunakan untuk menghasilkan aturan asosiasi
dengan pola “if condition –then result”(Hochreiter, 2006). Pola frekuensi
tinggi adalah pola-pola item di dalam suatu database yang memiliki frekuensi
atau support di atas ambang batas tertentu yang disebut dengan istilah
minimum support. Pola frekuensi tinggi ini digunakan untuk menyusun
aturan assosiatif dan juga beberapa teknik data mining lainnya.
Menurut Srikant dan Agrawal (1996) Algoritma Apriori menggunakan
pendekatan iteratif yang dikenal dengan level-wise search yang dibagi
menjadi beberapa tahap, dimana k-kelompok produk digunakan untuk
mengeksplorasi (k+1)-kelompok produk atau (k+1)-itemset. Tiap iterasi
menghasilkan pola frekuensi tinggi dengan panjang yang sama dimulai dari
fase pertama yang menghasilkan pola frekuensi tinggi dengan panjang satu.
Dalam iterasi pertama ini, support dari setiap item dihitung dengan men-scan
database. Setelah support dari setiap item didapat, item yang memiliki
support diatas minimum support dipilih sebagai pola frekuensi tinggi dengan
panjang 1 atau sering disingkat 1-itemset. Singkatan k-itemset berarti satu set
yang terdiri dari k item.
12
Iterasi kedua menghasilkan 2-itemset yang tiap set-nya memiliki dua
item. Pertama dibuat kandidat 2-itemset dari kombinasi semua 1-itemset. Lalu
untuk tiap kandidat 2-itemset ini dihitung support-nya dengan men-scan
database. Support disini artinya jumlah transaksi dalam database yang
mengandung kedua item dalam kandidat 2-itemset. Setelah support dari
semua kandidat 2-itemset didapatkan, kandidat 2-itemset yang memenuhi
syarat minimum support dapat ditetapkan sebagai 2-itemset yang juga
merupakan pola frekuensi tinggi dengan panjang 2.
Selanjutnya pada iterasi ke-k dapat dibagi lagi menjadi beberapa
bagian :
1.
Pembentukan kandidat itemset. Kandidat k-itemset dibentuk dari
kombinasi (k-1)-itemset yang didapat dari iterasi sebelumnya. Satu ciri
dari algoritma apriori adalah adanya pemangkasan kandidat k-itemset
yang subset-nya yang berisi k-1 item tidak termasuk dalam pola
frekuensi tinggi dengan panjang k-1.
2.
Penghitungan support dari tiap kandidat k-itemset. Support dari tiap
kandidat
k-itemset
didapat
dengan
men-scan
database
untuk
menghitung jumlah transaksi yang memuat semua item di dalam
kandidat k-itemset tersebut. Ini adalah ciri dari algoritma apriori dimana
diperlukan penghitungan dengan scan seluruh database sebanyak kitemset terpanjang.
3.
Tetapkan pola frekuensi tinggi. Pola frekuensi tinggi yang memuat k
item atau k-itemset ditetapkan dari kandidat k-itemset yang support-nya
lebih besar dari minimum support.
4.
Bila tidak didapat pola frekuensi tinggi baru maka seluruh proses
dihentikan. Bila tidak, maka k ditambah satu dan kembali ke bagian 1.
13
Ada dua proses utama yang dilakukan algoritma apriori (Srikant dan
Agrawal, 1996) , yaitu:
1.
Join (penggabungan): untuk menemukan Lk, Ck dibangkitkan dengan
melakukan proses join Lk-1 dengan dirinya sendiri, Ck=Lk-1*Lk-1, lalu
anggota Ck diambil hanya yang terdapat didalam Lk-1.
2.
Prune (pemangkasan): menghilangkan anggota Ck yang memiliki
support count lebih kecil dari minimum support agar tidak dimasukkan
ke dalam Lk.
..(5)
Gambar 3. Pseudocode dari Pembentukan Kandidat Itemset Bersama
Pemangkasannya
Beberapa istilah yang digunakan dalam algoritma apriori antara lain:
a.
Support (dukungan): probabilitas pelanggan membeli beberapa produk
secara bersamaan dari seluruh transaksi. Support untuk aturan “X=>Y”
adalah probabilitas atribut atau kumpulan atribut X dan Y yang terjadi
bersamaan.
b.
Confidence (tingkat kepercayaan): probabilitas kejadian beberapa
produk dibeli bersamaan dimana salah satu produk sudah pasti dibeli.
Contoh: jika ada n transaksi dimana X dibeli, dan ada m transaksi
dimana X dan Y dibeli bersamaan, maka confidence dari aturan if X
then Y adalah m/n.
c.
Minimum support: parameter yang digunakan sebagai batasan frekuensi
14
d.
kejadian atau support count yang harus dipenuhi suatu kelompok data
untuk dapat dijadikan aturan.
e.
Minimum confidence: parameter yang mendefinisikan minimum level
dari confidence yang harus dipenuhi oleh aturan yang berkualitas.
f.
Itemset: kelompok produk.
g.
Support count: frekuensi kejadian untuk sebuah kelompok produk atau
itemset dari seluruh transaksi.
h.
Kandidat itemset: itemset-itemset yang akan dihitung support count-nya.
i.
Large itemset: itemset yang sering terjadi, atau itemset-itemset yang
sudah melewati batas minimum support yang telah diberikan.
2.6. Kompetensi Akademik
Kompetensi akademik adalah nilai atau ukuran yang diperoleh
seseorang dalam kelembagaan pendidikan. Nilai tersebut didasarkan menurut
standar atau kriteria tertentu dan merupakan fungsi dari faktor-faktor sekolah
dan faktor-faktor lainnya (Indriyanto, 2005).
Kompetensi akademik yang diperoleh di pendidikan menengah,
diharuskan dapat memenuhi standar kompetensi lulusan yaitu dapat
meningkatkan kecerdasan, pengetahuan, kepribadian, akhlak mulia, serta
keterampilan untuk hidup mandiri dan mengikuti pendidikan lebih lanjut
(permendiknas, 2006). Salah satu ketetapan yang menjadi standar adalah
menguasai pengetahuan yang diperlukan untuk mengikuti pendidikan tinggi.
2.7. Penelitian Terdahulu
Penelitian terdahulu dilakukan oleh Agarwal dan Srikant, 1996 yang
meneliti database dari transaksi penjualan di supermarket dengan melihat ID
pelanggan, untuk melihat pola-pola pembelian pelanggan. Penelitian oleh
Erdani, (2007) Departemen Ilmu Komputer FMIPA IPB dengan judul
pengembangan aplikasi Data Mining menggunakan metode Induksi
Beroreantasi Atribut ( studi kasus : Data PPMB IPB) , Dalam Penelitiannya
Erdani membuat sistem data mining yang menganalisis pemilihan fakultas
dengan atribut pulau asal pelamar, dalam analisisnya menggunakan aplikasi
data mining tetapi dengan metode yang berbeda yaitu induksi atribut yang
Download