Bab II Tinjauan Pustaka

advertisement
Bab II Tinjauan Pustaka
II.1
II.1.1
Corporate Information Factory
Ekosistem Informasi dan Corporate Information Factory
Ekosistem informasi merupakan suatu sistem dengan komponenkomponen berbeda, yang masing-masing melayani komunitas (divisi kerja)
tertentu
sekaligus
bekerja
sama
dengan
komponen
lain
untuk
menghasilkan lingkungan informasi yang kohesif[6].
Selama tiga dekade terakhir, ekonomi berjalan dengan proses bisnis manual. Hal ini
tentu saja tidak cukup untuk bersaing di pasar saat ini. Untuk dapat memenangkan
persaingan, perusahaan harus mampu membangun kekuatan dan kemampuan dalam
menyediakan solusi bisnis dan manajemen[6].
Saat ini, perusahaan mulai menerapkan teknologi informasi demi kelangsungan
bisnisnya. Divisi teknologi informasi kemudian dituntut untuk dapat menerapkan
arsitektur informasi, teknologi, metodologi, dan perangkat lainnya, khususnya dalam
pemrosesan data dan pengolahan informasi. Namun penerapan berbagai elemen
pemroses data pada saat yang bersamaan akan menimbulkan kebingungan dan
mengakibatkan
inefisiensi.
Untuk
itu
dibutuhkan
suatu
model
yang
mengkombinasikan elemen-elemen tersebut menjadi suatu ekosistem yang selaras
dengan kebutuhan bisnis.
Ekosistem informasi dibutuhkan untuk memandu penggunaan berbagai teknologi dan
konstruksi informasi, serta menggambarkan jalur komunikasi dan kerja sama dalam
pertukaran data, proses, dan pengetahuan. Ekosistem informasi adalah suatu model
yang mendukung semua pemrosesan informasi perusahaan. Bentuk fisik dari
ekosistem informasi adalah corporate information factory (CIF). CIF merupakan
5
suatu struktur generik dan unik terhadap setiap perusahaan, serta dibentuk oleh kultur,
iklim politik, ekonomi dan teknologi perusahaan tersebut[6].
Secara definitif, corporate information factory (CIF) dinyatakan sebagai
suatu arsitektur logis yang bertujuan untuk menghasilkan kemampuan
intelegensia bisnis dan manajemen bisnis yang berasal dari data yang
dihasilkan operasional bisnis perusahaan[4].
CIF dibangun dari beberapa komponen. Komponen-komponen yang berbeda dalam
CIF menciptakan dasar bagi penyampaian informasi dan aktivitas pengambilan
keputusan yang dapat terjadi di komponen manapun dalam CIF. Sebagian besar
aktivitas tersebut dijalankan dalam bentuk sistem pendukung pengambilan keputusan
(decision-support systems, DSS) yang menyediakan aplikasi yang mudah digunakan
bagi user, perangkat sederhana untuk memperoleh informasi dari data[6].
II.1.2
Komponen Corporate Information Factory
Komponen kunci dari CIF dijelaskan dalam Gambar II.1.
Gambar II.1 Struktur dasar CIF.
6
a.
Data warehouse
Data warehouse merupakan struktur arsitektural yang mendukung
pengelolaan data yang subject-oriented, terintegrasi, time-variant, nonvolatile dan berisi data summary maupun detil[6].
Komponen arsitektural yang paling penting dalam CIF adalah data warehouse.
Data warehouse merupakan landasan bagi semua pemrosesan pengambilan
keputusan strategis. Data warehouse ada untuk mendukung keputusan
manajemen, dengan kata lain mendukung proses perencanaan strategis
perusahaan. Data warehouse sering kali menjadi tempat pertama di mana data
terintegrasi dan tempat yang tepat bagi data historis perusahaan. Data mengalir
ke data warehouse dari Operational Data Store (ODS) dan Integration and
Trasformation (I&T) layer. Aliran data keluar dari data warehouse menuju data
mart[6]. Setiap aliran data yang masuk dan keluar data warehouse memiiki
karakteristik tertentu. Gambar II.2 menggambarkan posisi data warehouse
dalam konteks CIF.
Gambar II.2 Data warehouse dalam konteks CIF.
7
b.
Data mart
Data
mart adalah sekumpulan data yang dipersiapkan untuk kebutuhan
pemrosesan DSS pada departemen tertentu. Data mart merupakan subset dari
DWH yang dikostumisasi untuk memenuhi kebutuhan departemen[6]. Data mart
berisi sebagian kecil data detil dan sebagian besar data summary. Data tersebut
tidak terlalu banyak mengandung data historis, seperti data dalam DWH.
Peran Data mart dalam CIF[6].
-
Kontrol.
Dengan adanya data mart, departemen memegang kendali menyeluruh
terhadap data dan pemrosesan yang terkait dengan departemennya.
-
Biaya.
Suatu departemen hanya ingin menganalisa bagian data tertentu dari data
warehouse. Biaya dan waktu yang dibutuhkan untuk penyimpanan dan
pemrosesan akan lebih sedikit jika departemen tersebut memindahkan data
yang diperlukan ke tempat pemrosesan tersendiri.
-
Kostumisasi.
Data yang mengalir dari data warehouse ke data mart sebelumnya telah
dikostumisasi untuk memenuhi kebutuhan departemen tertentu.
Kunci utama dari data mart adalah fleksibilitas dan aksesibilitas[6]. Dikarenakan
data pada data mart jauh lebih sedikit dari data di DWH, data mart mampu
mengakomodasi query-query dalam berbagai jenis dan ukuran.
c.
Operational Data Store
Operational data store (ODS) adalah sekumpulan data yang berisi data detil
untuk tujuan memenuhi kebutuhan operasional perusahaan secara kolektif dan
terintegrasi. Secara umum, karakteristik ODS dapat dijabarkan sebagai
berikut[6]:
-
volatile, berarti ODS dapat berubah seperti pemrosesan lainnya,
8
-
aktual, ODS umumnya berisi data periodik (harian, mingguan, bulanan),
-
detil, ODS hanya berisi data detil dan tidak mengandung data historis,
-
subject-oriented, dan
-
terintegrasi
Kelas ODS
Data yang mengalir ke ODS berasal dari I&T layer. ODS dapat dikategorikan
menjadi tiga jenis, berdasarkan sifat data yang masuk dari I&T layer. Suatu
ODS dikategorikan pada kelas I jika data yang masuk bersifat asynchronous [6].
Dengan kata lain, hanya dibutuhkan waktu yang sangat sedikit untuk
merefleksikan perubahan data akibat transaksi dari aplikasi ke ODS. Pada kelas
ini, tidak ada proses serius yang dilakukan di I&T layer. Kelas II besifat storeand-forward, dibutuhkan waktu satu sampai dua jam sejak transaksi dilakukan
dari sisi aplikasi sampai transaksi tersebut terefleksi di ODS[6]. Ada
kemungkinan dibutuhkan waktu sampai satu hari untuk melihat perubahan
akibat suatu transaksi di ODS, ODS jenis ini masuk kategori kelas III. Hal ini
disebabkan banyak sekali proses integrasi yang dilakukan di I&T layer[6].
Terdapat beberapa hal yang harus diperhatikan dalam menentukan jenis kelas
ODS, antara lain[6]: kecepatan aliran data menuju ODS, volume data yang
mengalir, volume data yang harus disimpan, serta update data dan integritas dari
proses transaksi.
Proses dalam ODS
ODS merupakan lingkungan yang sangat riskan, karena terdapat beberapa
elemen dari berbagai proses yang harus disinergikan[6].
-
Loading
Salah satu proses yang dilakukan oleh ODS adalah proses loading data.
Secara umum, proses load ini sangat kompleks baik dalam pengembangan
9
maupun maintenance. Tantangan yang dihadapi terkait dengan seberapa
canggih teknologi yang diterapkan.
-
Update
Meskipun perubahan langsung jarang sekali terjadi, namun ODS harus
mengakomodasi proses update.
-
Pengaksesan
Terdapat pengguna ODS dengan karakteristik tertentu yang meminta
pelayanan cepat. Proses pengaksesan merupakan proses dominan dalam
ODS dan umumnya jenis aksesnya adalah meminta data, tidak melakukan
perubahan terhadap data.
-
Analisa DSS
Analis DSS umumnya meminta proses yang rumit yang melibatkan
banyak record data. Analis DSS berbeda juga memiliki kecenderungan
yang berbeda pula. Untuk itu, perancang ODS harus mengakomodasi
proses ini.
d.
Integration and Transformation Layer
Integration and Transformation layer (I&T layer) merupakan tempat dimana
data yang tidak terintegrasi dari berbagai aplikasi dikombinasikan (diintegrasi)
dan ditransformasi[6]. Selanjutnya data tersebut akan di alirkan menuju data
warehouse dan ODS untuk pemrosesan lebih lanjut.
I&T layer sangat tidak stabil, sering kali berubah. Hal ini dikarenakan aplikasi
selalu berubah, sehingga dengan sendirinya I&T layer juga akan berubah setiap
terjadi perubahan pada aplikasi. Selain itu, data warehouse dibangun secara
inkremental dan iteratif. Hal ini memaksa I&T layer untuk menyesuaikan diri
dengan data yang dibutuhkan data warehouse. Selain kompleksitas pemrosesan,
hal yang menjadi perhatian pada I&T layer adalah kecepatan dan volume aliran
data yang melewatinya.
10
Secara umum, dalam I&T layer data melalui proses pembacaan, transformasi
(pengkodean, pemformatan dan substitusi), pemetaan ke DWH dan ODS, dan
pembuatan file intermediate (untuk selanjutnya digunakan oleh program lain)[6].
Proses Transformasi dalam I&T layer[6]
-
Struktur Pengkodean.
Logika pada antar muka integrasi dan transformasi diperlukan untuk
membuat representasi standard dalam pengkodean data di DWH dan ODS.
-
Pemformatan.
Pemformatan ulang diperlukan untuk kepentingan konsistensi data. Salah
satu contoh pemformatan yang umum adalah standardisasi penulisan
tanggal.
-
Konversi Matematis.
Konversi matematis dilakukan untuk menangani perbedaan mata uang,
perubahan kurs nilai, dan lain-lain.
e.
Aplikasi
Aplikasi telah ada sejak sistem pertama kali dibangun. Siklus pengembangan
aplikasi, operasional sehari-hari, dan pemeliharaan yang berjalan umumnya
terdokumentasi sehingga komponen aplikasi sangat familiar di lingkungan CIF.
Dalam CIF, aplikasi dianggap sebagai sekumpulan tempat pemasukan data yang
bertanggung jawab terhadap pengumpulan data detil, interaksi dengan user,
audit dan edit data[6].
Integrasi antar Aplikasi
Selama ini aplikasi yang dibangun dan dijalankan tidak terintegrasi satu sama
lain. Hal ini merupakan akibat dari pembangunan aplikasi yang dilakukan untuk
pemenuhan kebutuhan kelompok pekerja tertentu, aplikasi dibuat terpisah -inhouse maupun out-source.
11
Kurangnya integrasi menyebabkan banyak masalah inkonsistensi, seperti
inkonsistensi struktur data dan pengkodean. Kurangnya integrasi antar aplikasi
juga mempengaruhi kredibilitas dan agilitas sistem, untuk itu banyak
perusahaan yang kemudian bermigrasi mengintegrasikan sistemnya. Berikut
adalah beberapa langkah kunci yang umum dilakukan dalam merekayasa ulang
aplikasi[6]:
-
definisikan visi bisnis strategis,
-
definisikan arsitektur informasi yang dibutuhkan untuk mendukung visi
bisnis strategis,
-
lakukan assessment terhadap aplikasi saat ini dan apakah aplikasi yang
ada sejalan dengan visi bisnis strategis,
-
kembangkan rencana migrasi yang mendefinisikan dan menyusun
prioritas dalam tiga sampai empat bulan pertama, dan
-
eksekusi rencana migrasi.
Aliran Data
Aliran data masuk dan keluar aplikasi sangat sederhana. Data masuk ke aplikasi
langsung dari end-user dan data dari aplikasi mengalir ke I&T layer untuk
kemudian ditransformasikan untuk pemrosesan selanjutnya.
f.
Metadata
-
Metadata didefinisikan sebagai semua informasi yang dibutuhkan data
dalam pengelolaan dan penggunaannya. Dengan kata lain, metadata
adalah data tentang data. Metadata sangat penting dalam CIF, metadata
adalah perekat yang mengikat keseluruhan arsitektur. Tanpa metadata,
komponen berbeda dalam CIF akan berdiri sendiri-sendiri tanpa relasi satu
sama lain. Dengan metadata, suatu komponen dapat berkomunikasi
dengan komponen lain[6]. Data tentang data yang tersimpan dalam
metadata, antara lain
[6]
:
tampilan data, konten, indeks, penjadwalan
refreshment, penggunaan, Referential Integrity, dan dokumentasi umum.
12
II.2
Arsitektur Informasi Perusahaan
Arsitektur
Informasi
Perusahaan
Architecture)
merupakan
representasi
deskriptif
(Enterprise
sekumpulan
(dokumen)
Information
rancangan
yang
relevan
artefak,
untuk
menggambarkan perusahaan saat ini dan yang akan datang,
untuk digunakan dalam mencapai tujuan perusahaan dan
dipelihara selama diperlukan[2].
Artifak atau dokumen dalam Arsitektur Informasi Perusahaan dapat berupa statemen
visi dan misi, proses bisnis, proses kerja, organisasi (peran & tanggung jawab),
kebijakan (aturan bisnis), informasi (entitas data), aplikasi (logika bisnis), teknologi
(komponen teknologi), jaringan (komponen teknologi jaringan), dan keamanan
(komponen keamanan).
Arsitektur Informasi Perusahaan dapat merupakan suatu representasi roadmap untuk
mencapai misi organisasi melalui kinerja optimal proses bisnisnya dalam suatu
lingkungan teknologi informasi yang efisien. Dengan demikian Arsitektur Informasi
Perusahaan pada dasarnya adalah suatu cetak biru (blueprint) yang secara sistematis
dan lengkap mendefinisikan teknologi informasi yang sedang berjalan dan
lingkungan teknologi informasi yang diinginkan.
Faktor utama pendorong pengembangan dan penggunaan sebuah Arsitektur Informasi
Perusahaan pada suatu organisasi adalah[2]:
1.
alignment (keselarasan) --memastikan realisasi atau pelaksanaan perusahaan
sesuai dengan keinginan manajemen,
2.
integration (integrasi) --memastikan konsistensi pelaksanaan aturan bisnis dan
kebijakan di seluruh unit organisasi di mana data dan penggunaannya aman,
antar muka dan arus informasi sesuai standard, dan konektivitas dan
interoperabilitas dikelola di semua unit organisasi,
13
3.
change (perubahan) --menyediakan fasilitas dan pengelolaan perubahan untuk
semua aspek perusahaan,
4.
time-to-market --melakukan pengurangan pengembangan sistem, pembuatan
program, pembaharuan ’timeframe’ dan kebutuhan sumber daya,
5.
convergence (konvergensi), menuju standardisasi produk teknologi infomasi.
Manfaat dari arsitektur informasi adalah sebagai berikut [2]:
1.
keselarasan --menciptakan keselarasan antara lingkungan TI dengan kebutuhan
bisnis perusahaan,
2.
integrasi --standard antar muka dan aliran informasi.
3.
time-to-market --mengurangi siklus pengembangan aplikasi dan sistem,
4.
konvergensi --mengusahakan portfolio produk-produk TI standard,
5.
meningkatkan kompatibilitas antar berbagai solusi yang dikembangkan masingmasing departemen/unit,
6.
memungkinkan penggunaan ulang solusi yang telah dibuat, sehingga
mengurangi biaya investasi TI,
7.
memberikan metode dan proses bersama,
8.
meningkatkan produktivitas dan mengurangi learning curve dari developer dan
user,
9.
meningkatkan komunikasi antar pengguna TI dengan developer, dan
10.
membantu mengidentifikasi keahlian yang dibutuhkan.
Keluaran yang dihasilkan akan bermanfaat bagi:
1.
eksekutif perusahaan, dalam mendeskripsikan proses bisnis,
2.
manager, dalam memahami proses bisnis dengan menggunakan diagram yang
standard,
3.
manajer TI, dalam mendeskripsikan aplikasi TI dan merencanakan infrastruktur
software dan hardware yang sesuai dengan visi, misi dan strategi bisnis
perusahaan,
14
4.
software developer, dalam mengembangkan dan merancang perangkat lunak
dengan menggunakan diagram defacto standard,
5.
software implementator, dalam mengimplementasikan perangkat lunak yang
dirancang oleh software developer,
6.
Hardware planner, dalam merencanakan infrastruktur perangkat keras TI, dan
7.
Vendor, dalam mengajukan solusi software dan hardware.
II.3
Kerangka Kerja Zachman
Arsitektur Informasi Perusahaan mengandung banyak informasi dan memahami
seluruh informasi yang banyak bukanlah pekerjaan yang mudah. Oleh karenanya
dibutuhkan apa yang disebut dengan kerangka kerja Arsitektur Informasi Perusahaan.
Dengan menggunakan kerangka kerja (framework), kita akan lebih mudah mengerti
berbagai informasi dalam Arsitektur Informasi Perusahaan sehingga kita dapat
memutuskan
seberapa
banyak
informasi
yang
diperlukan
dan
bagaimana
menggunakannya.
Kerangka kerja Zachman populer digunakan dalam pembangunan Arsitektur
Informasi Perusahaan karena memberikan gambaran yang lengkap dan menetapkan
nama yang unik untuk setiap sel dalam kerangka kerja. Kerangka kerja Zachman
merupakan logika terstruktur untuk pengklasifikasian dan pengorganisasian tipe-tipe
dokumen, rancangan atau model yang merepresentasikan sebuah perusahaan[17].
Kerangka kerja Zachman memiliki aturan sebagai berikut[5]:
1.
kolom yang ada tidak tersusun dalam suatu urutan tertentu,
2.
masing-masing kolom merupakan model dasar sederhana,
3.
model dasar dari tiap kolom harus unik,
4.
setiap baris menggambarkan sebuah pandangan jelas dan lengkap,
5.
setiap sel dalam suatu baris dan kolom harus unik, dan
6.
gabungan sel dalam suatu baris merupakan deskripsi lengkap dari perspektif
pada baris tersebut.
15
Gambar II.3 Kerangka kerja Zachman untuk arsitektur perusahaan.
Keenam baris pada Gambar II.3 menyajikan enam pandangan (perspektif),
sebagaimana yang dipandang oleh perencana, pemilik, perancang, pembangun, dan
functioning enterprise. Penjelasannya adalah sebagai berikut[5]:
1.
perencana --yang menetapkan obyek dalam pembahasan; latar
belakang, lingkup, dan tujuan enterprise,
2.
pemilik --penerima atau pemakai produk/jasa akhir dari enterprise,
3.
perancang --perantara antara apa yang diinginkan (pemilik) dan apa
yang dapat dicapai secara teknis dan fisik,
4.
pembangun --pengawas/pengatur dalam menghasilkan produk/jasa
akhir,
5.
subkontraktor --bertanggung jawab membangun dan merakit bagianbagian dari produk/jasa akhir, dan
6.
functioning enterprise --wujud nyata dari produk/jasa akhir.
16
Keenam kolom pada Gambar II.3 menyajikan fokus (abstraksi atau topik) dari
arsitektur enterprise, yaitu: data, fungsi, jaringan, manusia, waktu, dan motivasi.
Enam fokus ini masing-masing berkaitan dengan pertanyaan dasar: apa, bagaimana,
di mana, siapa, kapan, dan mengapa.
Pertemuan antara baris dan kolom pada Gambar II.3 disebut sebagai sel. Isi dari
setiap sel dapat berupa satu atau beberapa artefak (obyek atau deskripsi penyajian
arsitektural) yang berhubungan dengan baris dan kolom yang terkait [5].
Kerangka kerja Zachman adalah pendekatan klasifikasi artefak arsitektur perusahaan
yang diterima sebagai standard de-facto. Kerangka kerja ini disanjung karena
keunikannya dalam klasifikasi arsitektur dalam perspektif perusahaan. Walaupun
kerangka kerja Zachman merupakan standar de-facto untuk klasifikasi artefak
arsitektur perusahaan dan mudah dipahami, harus disadari bahwa kerangka kerja ini
tidak
mengandung
metodologi
dan
tidak
ada
cara
standard
untuk
mempopulasikannya.
Kerangka kerja Zachman sendiri bukanlah metodologi untuk mengembangkan
arsitektur perusahaan (meskipun banyak yang cenderung memandangnya sebagai
metodologi).
Kerangka
kerja
Zachman
hanyalah
kerangka
kerja
untuk
mengkategorikan artefak arsitektur perusahaan. Kerangka kerja Zachman dapat
dimanfaatkan untuk menentukan apakah suatu metodologi meliputi semua aspek
dalam arsitektur perusahaan atau aspek apa saja yang dicakup oleh suatu metodologi.
II.4
Data Mining
II.4.1 Definisi
Secara sederhana, data mining mengacu pada ekstraksi atau ’menambang’
pengetahuan dari data dalam jumlah banyak[3].
17
Data mining telah menarik perhatian kalangan industri informasi dalam beberapa
tahun ini, seiring dengan ketersediaan data dalam jumlah yang sangat besar dan
kebutuhan menjadikan data tersebut menjadi informasi dan pengetahuan yang
bermanfaat. Informasi dan pengetahuan yang dihasilkan dapat digunakan untuk
aplikasi analisa pasar, deteksi fraud, untuk kendali produksi dan eksplorasi ilmu
pengetahuan[3].
Data mining dapat dipandang sebagai hasil evolusi alamiah dari teknologi informasi.
Industri sistem basis data telah mengalami evolusi perkembangan fungsionalitas:
pengumpulan data dan pembuatan basis data, pengelolaan data, dan analisa data
lanjut. Secara singkat, perkembangan awal mekanisme dari pengumpulan data dan
pembuatan basis data bertindak sebagai syarat pengembangan lebih lanjut dari
mekanisme penyimpanan dan pengambilan data, dan pemrosesan query dan transaksi.
Dengan banyaknya sistem basis data menawarkan pemrosesan query dan transaksi
sebagai fungsi umum, analisa data secara natural menjadi target selanjutnya[3].
Banyak orang menamakan data mining dengan istilah Knowledge Discovery from
Data (KDD). Ada juga yang memandang data mining sebagai tahap penting dari
proses penemuan pengetahuan. Penemuan pengetahuan sebagai proses terdiri dari
serangkaian tahapan[3]:
1. data cleaning (untuk menghilangkan noise dan data yang tidak konsisten),
2. data integration (di mana data dari berbagai sumber dikombinasikan),
3. data selection (data yang relevan untuk aktivitas analisa diambil dari basis data),
4. data transformation (dimana data ditransformasikan atau dikonsolidasikan
menjadi bentuk yang sesuai),
5. data mining (proses penting di mana metode intelijen diterapkan untuk
mengekstrak pola data),
6. data evaluation (untuk mengidentifikasi pola yang menyajikan pengetahuan), dan
7. knowledge presentation (di mana teknologi visualisasi digunakan untuk
menampilkan pengetahuan kepada pengguna).
18
Gambar II.4 Data mining dalam proses penemuan pengetahuan[3].
II.4.2
Fungsionalitas Data Mining
Fungsionalitas data mining digunakan untuk menspesifikasi jenis pola yang akan
ditemukan. Secara umum, data mining dapat diklasifikasikan menjadi dua kategori:
deskriptif dan prediktif. Data mining deskriptif menjelaskan properti umum dari data
di basis data. Data mining prediktif melakukan kajian pada data yang ada untuk
menghasilkan prediksi.[3].
19
1. Frequent Patterns, Asosiasi, dan Korelasi[3].
Frequent patterns merupakan pola-pola yang muncul secara frekuen dari data.
Terdapat banyak pola yang sering muncul, termasuk itemset, subsekuen, dan
substruktur. Sebuah frequent itemset umumnya mengacu pada sekumpulan
item yang sering muncul secara bersamaan pada kumpulan data transaksional.
Subsekuen yang sering muncul misalnya pola pembelian pelanggan dimana
pembelian suatu produk kemudian diikuti oleh pembelian produk lain. Sebuah
substruktur dapat mengacu pada bentuk struktural yang berbeda, seperti graf
atau tree, yang dapat dikombinasikan dengan itemset atau subsekuen. Jika
suatu substruktur muncul secara frekuen, maka disebut (frequent) structured
pattern. Frequent pattern akan menghasilkan penemuan asosiasi dan korelasi
menarik yang ada dari suatu data.
Umumnya, aturan asosiasi tidak digunakan karena dianggap tidak menarik
jika tidak memenuhi batas minimum support dan minimum confidence.
Analisa tambahan dapat dilakukan untuk mengongkap korelasi statistik antara
hubungan atribut dan nilainya.
2. Klasifikasi dan Prediksi[3].
Klasifikasi merupakan proses menemukan suatu model (atau fungsi) yang
menjelaskan dan membedakan konsep dan kelas data. Tujuannya adalah agar
model yang dibuat dapat digunakan untuk memprediksi kelas dari objek yang
label kelasnya tidak diketahui. Model yang dihasilkan didapat berdasarkan
analisa dari data pelatihan. Model yang dihasilkan dapat disajikan dalam
berbagai bentuk, seperti aturan klasifikasi (IF THEN), decision tree, formula
matematik, atau jaringan syaraf tiruan.
Decision tree adalah diagram alur berstruktur pohon, di mana setiap simpul
melakukan pengecekan terhadap nilai atribut, setiap cabang mewakili hasil
20
dari pengecekan tersebut, dan setiap daun mewakili kelas-kelas atau distribusi
kelas. Decision tree dapat dengan mudah diubah menjadi aturan klasifikasi.
Sebuah jaringan syaraf tiruan, jika digunakan untuk klasifikasi, umumnya
merupakan sekumpulan unit pemrosesan dengan hubungan berbobot antar
unit. Terdapat banyak metode lain untuk membangun model klasifikasi,
seperti naïve Bayesian classification, support vector machines, dan k-nearest
neighbor. Model prediksi juga mencakup identifikasi distribusi tren
berdasarkan data yang ada.
3. Cluster[3].
Tidak seperti klasifikasi dan prediksi, yang menganalisa objek data dengan
kelas berlabel, clustering menganalisa objek data tanpa melihat label kelas.
Secara umum, label kelas tidak muncul pada data pelatihan karena tidak
diketahui dari awal. Clustering dapat digunakan untuk membuat label
tersebut. Objek-objek di-cluster atau dikelompokkan berdasarkan prinsip
memperbesar kemiripan intra kelas dan memperkecil kemiripan antar kelas
(maximizing the intraclass similarity and minimizing the interclass similarity).
Dengan begitu, kumpulan-kumpulan objek terbentuk sehingga objek-objek
dalam suatu cluster memiliki kemiripan yang tinggi satu sama lain, tapi
sebaliknya, sangat tidak mirip dengan objek pada cluster yang lain. Setiap
cluster yang terbentuk dapat dilihat sebagai sebuah kelas objek.
21
Download