Bab II Tinjauan Pustaka II.1 II.1.1 Corporate Information Factory Ekosistem Informasi dan Corporate Information Factory Ekosistem informasi merupakan suatu sistem dengan komponenkomponen berbeda, yang masing-masing melayani komunitas (divisi kerja) tertentu sekaligus bekerja sama dengan komponen lain untuk menghasilkan lingkungan informasi yang kohesif[6]. Selama tiga dekade terakhir, ekonomi berjalan dengan proses bisnis manual. Hal ini tentu saja tidak cukup untuk bersaing di pasar saat ini. Untuk dapat memenangkan persaingan, perusahaan harus mampu membangun kekuatan dan kemampuan dalam menyediakan solusi bisnis dan manajemen[6]. Saat ini, perusahaan mulai menerapkan teknologi informasi demi kelangsungan bisnisnya. Divisi teknologi informasi kemudian dituntut untuk dapat menerapkan arsitektur informasi, teknologi, metodologi, dan perangkat lainnya, khususnya dalam pemrosesan data dan pengolahan informasi. Namun penerapan berbagai elemen pemroses data pada saat yang bersamaan akan menimbulkan kebingungan dan mengakibatkan inefisiensi. Untuk itu dibutuhkan suatu model yang mengkombinasikan elemen-elemen tersebut menjadi suatu ekosistem yang selaras dengan kebutuhan bisnis. Ekosistem informasi dibutuhkan untuk memandu penggunaan berbagai teknologi dan konstruksi informasi, serta menggambarkan jalur komunikasi dan kerja sama dalam pertukaran data, proses, dan pengetahuan. Ekosistem informasi adalah suatu model yang mendukung semua pemrosesan informasi perusahaan. Bentuk fisik dari ekosistem informasi adalah corporate information factory (CIF). CIF merupakan 5 suatu struktur generik dan unik terhadap setiap perusahaan, serta dibentuk oleh kultur, iklim politik, ekonomi dan teknologi perusahaan tersebut[6]. Secara definitif, corporate information factory (CIF) dinyatakan sebagai suatu arsitektur logis yang bertujuan untuk menghasilkan kemampuan intelegensia bisnis dan manajemen bisnis yang berasal dari data yang dihasilkan operasional bisnis perusahaan[4]. CIF dibangun dari beberapa komponen. Komponen-komponen yang berbeda dalam CIF menciptakan dasar bagi penyampaian informasi dan aktivitas pengambilan keputusan yang dapat terjadi di komponen manapun dalam CIF. Sebagian besar aktivitas tersebut dijalankan dalam bentuk sistem pendukung pengambilan keputusan (decision-support systems, DSS) yang menyediakan aplikasi yang mudah digunakan bagi user, perangkat sederhana untuk memperoleh informasi dari data[6]. II.1.2 Komponen Corporate Information Factory Komponen kunci dari CIF dijelaskan dalam Gambar II.1. Gambar II.1 Struktur dasar CIF. 6 a. Data warehouse Data warehouse merupakan struktur arsitektural yang mendukung pengelolaan data yang subject-oriented, terintegrasi, time-variant, nonvolatile dan berisi data summary maupun detil[6]. Komponen arsitektural yang paling penting dalam CIF adalah data warehouse. Data warehouse merupakan landasan bagi semua pemrosesan pengambilan keputusan strategis. Data warehouse ada untuk mendukung keputusan manajemen, dengan kata lain mendukung proses perencanaan strategis perusahaan. Data warehouse sering kali menjadi tempat pertama di mana data terintegrasi dan tempat yang tepat bagi data historis perusahaan. Data mengalir ke data warehouse dari Operational Data Store (ODS) dan Integration and Trasformation (I&T) layer. Aliran data keluar dari data warehouse menuju data mart[6]. Setiap aliran data yang masuk dan keluar data warehouse memiiki karakteristik tertentu. Gambar II.2 menggambarkan posisi data warehouse dalam konteks CIF. Gambar II.2 Data warehouse dalam konteks CIF. 7 b. Data mart Data mart adalah sekumpulan data yang dipersiapkan untuk kebutuhan pemrosesan DSS pada departemen tertentu. Data mart merupakan subset dari DWH yang dikostumisasi untuk memenuhi kebutuhan departemen[6]. Data mart berisi sebagian kecil data detil dan sebagian besar data summary. Data tersebut tidak terlalu banyak mengandung data historis, seperti data dalam DWH. Peran Data mart dalam CIF[6]. - Kontrol. Dengan adanya data mart, departemen memegang kendali menyeluruh terhadap data dan pemrosesan yang terkait dengan departemennya. - Biaya. Suatu departemen hanya ingin menganalisa bagian data tertentu dari data warehouse. Biaya dan waktu yang dibutuhkan untuk penyimpanan dan pemrosesan akan lebih sedikit jika departemen tersebut memindahkan data yang diperlukan ke tempat pemrosesan tersendiri. - Kostumisasi. Data yang mengalir dari data warehouse ke data mart sebelumnya telah dikostumisasi untuk memenuhi kebutuhan departemen tertentu. Kunci utama dari data mart adalah fleksibilitas dan aksesibilitas[6]. Dikarenakan data pada data mart jauh lebih sedikit dari data di DWH, data mart mampu mengakomodasi query-query dalam berbagai jenis dan ukuran. c. Operational Data Store Operational data store (ODS) adalah sekumpulan data yang berisi data detil untuk tujuan memenuhi kebutuhan operasional perusahaan secara kolektif dan terintegrasi. Secara umum, karakteristik ODS dapat dijabarkan sebagai berikut[6]: - volatile, berarti ODS dapat berubah seperti pemrosesan lainnya, 8 - aktual, ODS umumnya berisi data periodik (harian, mingguan, bulanan), - detil, ODS hanya berisi data detil dan tidak mengandung data historis, - subject-oriented, dan - terintegrasi Kelas ODS Data yang mengalir ke ODS berasal dari I&T layer. ODS dapat dikategorikan menjadi tiga jenis, berdasarkan sifat data yang masuk dari I&T layer. Suatu ODS dikategorikan pada kelas I jika data yang masuk bersifat asynchronous [6]. Dengan kata lain, hanya dibutuhkan waktu yang sangat sedikit untuk merefleksikan perubahan data akibat transaksi dari aplikasi ke ODS. Pada kelas ini, tidak ada proses serius yang dilakukan di I&T layer. Kelas II besifat storeand-forward, dibutuhkan waktu satu sampai dua jam sejak transaksi dilakukan dari sisi aplikasi sampai transaksi tersebut terefleksi di ODS[6]. Ada kemungkinan dibutuhkan waktu sampai satu hari untuk melihat perubahan akibat suatu transaksi di ODS, ODS jenis ini masuk kategori kelas III. Hal ini disebabkan banyak sekali proses integrasi yang dilakukan di I&T layer[6]. Terdapat beberapa hal yang harus diperhatikan dalam menentukan jenis kelas ODS, antara lain[6]: kecepatan aliran data menuju ODS, volume data yang mengalir, volume data yang harus disimpan, serta update data dan integritas dari proses transaksi. Proses dalam ODS ODS merupakan lingkungan yang sangat riskan, karena terdapat beberapa elemen dari berbagai proses yang harus disinergikan[6]. - Loading Salah satu proses yang dilakukan oleh ODS adalah proses loading data. Secara umum, proses load ini sangat kompleks baik dalam pengembangan 9 maupun maintenance. Tantangan yang dihadapi terkait dengan seberapa canggih teknologi yang diterapkan. - Update Meskipun perubahan langsung jarang sekali terjadi, namun ODS harus mengakomodasi proses update. - Pengaksesan Terdapat pengguna ODS dengan karakteristik tertentu yang meminta pelayanan cepat. Proses pengaksesan merupakan proses dominan dalam ODS dan umumnya jenis aksesnya adalah meminta data, tidak melakukan perubahan terhadap data. - Analisa DSS Analis DSS umumnya meminta proses yang rumit yang melibatkan banyak record data. Analis DSS berbeda juga memiliki kecenderungan yang berbeda pula. Untuk itu, perancang ODS harus mengakomodasi proses ini. d. Integration and Transformation Layer Integration and Transformation layer (I&T layer) merupakan tempat dimana data yang tidak terintegrasi dari berbagai aplikasi dikombinasikan (diintegrasi) dan ditransformasi[6]. Selanjutnya data tersebut akan di alirkan menuju data warehouse dan ODS untuk pemrosesan lebih lanjut. I&T layer sangat tidak stabil, sering kali berubah. Hal ini dikarenakan aplikasi selalu berubah, sehingga dengan sendirinya I&T layer juga akan berubah setiap terjadi perubahan pada aplikasi. Selain itu, data warehouse dibangun secara inkremental dan iteratif. Hal ini memaksa I&T layer untuk menyesuaikan diri dengan data yang dibutuhkan data warehouse. Selain kompleksitas pemrosesan, hal yang menjadi perhatian pada I&T layer adalah kecepatan dan volume aliran data yang melewatinya. 10 Secara umum, dalam I&T layer data melalui proses pembacaan, transformasi (pengkodean, pemformatan dan substitusi), pemetaan ke DWH dan ODS, dan pembuatan file intermediate (untuk selanjutnya digunakan oleh program lain)[6]. Proses Transformasi dalam I&T layer[6] - Struktur Pengkodean. Logika pada antar muka integrasi dan transformasi diperlukan untuk membuat representasi standard dalam pengkodean data di DWH dan ODS. - Pemformatan. Pemformatan ulang diperlukan untuk kepentingan konsistensi data. Salah satu contoh pemformatan yang umum adalah standardisasi penulisan tanggal. - Konversi Matematis. Konversi matematis dilakukan untuk menangani perbedaan mata uang, perubahan kurs nilai, dan lain-lain. e. Aplikasi Aplikasi telah ada sejak sistem pertama kali dibangun. Siklus pengembangan aplikasi, operasional sehari-hari, dan pemeliharaan yang berjalan umumnya terdokumentasi sehingga komponen aplikasi sangat familiar di lingkungan CIF. Dalam CIF, aplikasi dianggap sebagai sekumpulan tempat pemasukan data yang bertanggung jawab terhadap pengumpulan data detil, interaksi dengan user, audit dan edit data[6]. Integrasi antar Aplikasi Selama ini aplikasi yang dibangun dan dijalankan tidak terintegrasi satu sama lain. Hal ini merupakan akibat dari pembangunan aplikasi yang dilakukan untuk pemenuhan kebutuhan kelompok pekerja tertentu, aplikasi dibuat terpisah -inhouse maupun out-source. 11 Kurangnya integrasi menyebabkan banyak masalah inkonsistensi, seperti inkonsistensi struktur data dan pengkodean. Kurangnya integrasi antar aplikasi juga mempengaruhi kredibilitas dan agilitas sistem, untuk itu banyak perusahaan yang kemudian bermigrasi mengintegrasikan sistemnya. Berikut adalah beberapa langkah kunci yang umum dilakukan dalam merekayasa ulang aplikasi[6]: - definisikan visi bisnis strategis, - definisikan arsitektur informasi yang dibutuhkan untuk mendukung visi bisnis strategis, - lakukan assessment terhadap aplikasi saat ini dan apakah aplikasi yang ada sejalan dengan visi bisnis strategis, - kembangkan rencana migrasi yang mendefinisikan dan menyusun prioritas dalam tiga sampai empat bulan pertama, dan - eksekusi rencana migrasi. Aliran Data Aliran data masuk dan keluar aplikasi sangat sederhana. Data masuk ke aplikasi langsung dari end-user dan data dari aplikasi mengalir ke I&T layer untuk kemudian ditransformasikan untuk pemrosesan selanjutnya. f. Metadata - Metadata didefinisikan sebagai semua informasi yang dibutuhkan data dalam pengelolaan dan penggunaannya. Dengan kata lain, metadata adalah data tentang data. Metadata sangat penting dalam CIF, metadata adalah perekat yang mengikat keseluruhan arsitektur. Tanpa metadata, komponen berbeda dalam CIF akan berdiri sendiri-sendiri tanpa relasi satu sama lain. Dengan metadata, suatu komponen dapat berkomunikasi dengan komponen lain[6]. Data tentang data yang tersimpan dalam metadata, antara lain [6] : tampilan data, konten, indeks, penjadwalan refreshment, penggunaan, Referential Integrity, dan dokumentasi umum. 12 II.2 Arsitektur Informasi Perusahaan Arsitektur Informasi Perusahaan Architecture) merupakan representasi deskriptif (Enterprise sekumpulan (dokumen) Information rancangan yang relevan artefak, untuk menggambarkan perusahaan saat ini dan yang akan datang, untuk digunakan dalam mencapai tujuan perusahaan dan dipelihara selama diperlukan[2]. Artifak atau dokumen dalam Arsitektur Informasi Perusahaan dapat berupa statemen visi dan misi, proses bisnis, proses kerja, organisasi (peran & tanggung jawab), kebijakan (aturan bisnis), informasi (entitas data), aplikasi (logika bisnis), teknologi (komponen teknologi), jaringan (komponen teknologi jaringan), dan keamanan (komponen keamanan). Arsitektur Informasi Perusahaan dapat merupakan suatu representasi roadmap untuk mencapai misi organisasi melalui kinerja optimal proses bisnisnya dalam suatu lingkungan teknologi informasi yang efisien. Dengan demikian Arsitektur Informasi Perusahaan pada dasarnya adalah suatu cetak biru (blueprint) yang secara sistematis dan lengkap mendefinisikan teknologi informasi yang sedang berjalan dan lingkungan teknologi informasi yang diinginkan. Faktor utama pendorong pengembangan dan penggunaan sebuah Arsitektur Informasi Perusahaan pada suatu organisasi adalah[2]: 1. alignment (keselarasan) --memastikan realisasi atau pelaksanaan perusahaan sesuai dengan keinginan manajemen, 2. integration (integrasi) --memastikan konsistensi pelaksanaan aturan bisnis dan kebijakan di seluruh unit organisasi di mana data dan penggunaannya aman, antar muka dan arus informasi sesuai standard, dan konektivitas dan interoperabilitas dikelola di semua unit organisasi, 13 3. change (perubahan) --menyediakan fasilitas dan pengelolaan perubahan untuk semua aspek perusahaan, 4. time-to-market --melakukan pengurangan pengembangan sistem, pembuatan program, pembaharuan ’timeframe’ dan kebutuhan sumber daya, 5. convergence (konvergensi), menuju standardisasi produk teknologi infomasi. Manfaat dari arsitektur informasi adalah sebagai berikut [2]: 1. keselarasan --menciptakan keselarasan antara lingkungan TI dengan kebutuhan bisnis perusahaan, 2. integrasi --standard antar muka dan aliran informasi. 3. time-to-market --mengurangi siklus pengembangan aplikasi dan sistem, 4. konvergensi --mengusahakan portfolio produk-produk TI standard, 5. meningkatkan kompatibilitas antar berbagai solusi yang dikembangkan masingmasing departemen/unit, 6. memungkinkan penggunaan ulang solusi yang telah dibuat, sehingga mengurangi biaya investasi TI, 7. memberikan metode dan proses bersama, 8. meningkatkan produktivitas dan mengurangi learning curve dari developer dan user, 9. meningkatkan komunikasi antar pengguna TI dengan developer, dan 10. membantu mengidentifikasi keahlian yang dibutuhkan. Keluaran yang dihasilkan akan bermanfaat bagi: 1. eksekutif perusahaan, dalam mendeskripsikan proses bisnis, 2. manager, dalam memahami proses bisnis dengan menggunakan diagram yang standard, 3. manajer TI, dalam mendeskripsikan aplikasi TI dan merencanakan infrastruktur software dan hardware yang sesuai dengan visi, misi dan strategi bisnis perusahaan, 14 4. software developer, dalam mengembangkan dan merancang perangkat lunak dengan menggunakan diagram defacto standard, 5. software implementator, dalam mengimplementasikan perangkat lunak yang dirancang oleh software developer, 6. Hardware planner, dalam merencanakan infrastruktur perangkat keras TI, dan 7. Vendor, dalam mengajukan solusi software dan hardware. II.3 Kerangka Kerja Zachman Arsitektur Informasi Perusahaan mengandung banyak informasi dan memahami seluruh informasi yang banyak bukanlah pekerjaan yang mudah. Oleh karenanya dibutuhkan apa yang disebut dengan kerangka kerja Arsitektur Informasi Perusahaan. Dengan menggunakan kerangka kerja (framework), kita akan lebih mudah mengerti berbagai informasi dalam Arsitektur Informasi Perusahaan sehingga kita dapat memutuskan seberapa banyak informasi yang diperlukan dan bagaimana menggunakannya. Kerangka kerja Zachman populer digunakan dalam pembangunan Arsitektur Informasi Perusahaan karena memberikan gambaran yang lengkap dan menetapkan nama yang unik untuk setiap sel dalam kerangka kerja. Kerangka kerja Zachman merupakan logika terstruktur untuk pengklasifikasian dan pengorganisasian tipe-tipe dokumen, rancangan atau model yang merepresentasikan sebuah perusahaan[17]. Kerangka kerja Zachman memiliki aturan sebagai berikut[5]: 1. kolom yang ada tidak tersusun dalam suatu urutan tertentu, 2. masing-masing kolom merupakan model dasar sederhana, 3. model dasar dari tiap kolom harus unik, 4. setiap baris menggambarkan sebuah pandangan jelas dan lengkap, 5. setiap sel dalam suatu baris dan kolom harus unik, dan 6. gabungan sel dalam suatu baris merupakan deskripsi lengkap dari perspektif pada baris tersebut. 15 Gambar II.3 Kerangka kerja Zachman untuk arsitektur perusahaan. Keenam baris pada Gambar II.3 menyajikan enam pandangan (perspektif), sebagaimana yang dipandang oleh perencana, pemilik, perancang, pembangun, dan functioning enterprise. Penjelasannya adalah sebagai berikut[5]: 1. perencana --yang menetapkan obyek dalam pembahasan; latar belakang, lingkup, dan tujuan enterprise, 2. pemilik --penerima atau pemakai produk/jasa akhir dari enterprise, 3. perancang --perantara antara apa yang diinginkan (pemilik) dan apa yang dapat dicapai secara teknis dan fisik, 4. pembangun --pengawas/pengatur dalam menghasilkan produk/jasa akhir, 5. subkontraktor --bertanggung jawab membangun dan merakit bagianbagian dari produk/jasa akhir, dan 6. functioning enterprise --wujud nyata dari produk/jasa akhir. 16 Keenam kolom pada Gambar II.3 menyajikan fokus (abstraksi atau topik) dari arsitektur enterprise, yaitu: data, fungsi, jaringan, manusia, waktu, dan motivasi. Enam fokus ini masing-masing berkaitan dengan pertanyaan dasar: apa, bagaimana, di mana, siapa, kapan, dan mengapa. Pertemuan antara baris dan kolom pada Gambar II.3 disebut sebagai sel. Isi dari setiap sel dapat berupa satu atau beberapa artefak (obyek atau deskripsi penyajian arsitektural) yang berhubungan dengan baris dan kolom yang terkait [5]. Kerangka kerja Zachman adalah pendekatan klasifikasi artefak arsitektur perusahaan yang diterima sebagai standard de-facto. Kerangka kerja ini disanjung karena keunikannya dalam klasifikasi arsitektur dalam perspektif perusahaan. Walaupun kerangka kerja Zachman merupakan standar de-facto untuk klasifikasi artefak arsitektur perusahaan dan mudah dipahami, harus disadari bahwa kerangka kerja ini tidak mengandung metodologi dan tidak ada cara standard untuk mempopulasikannya. Kerangka kerja Zachman sendiri bukanlah metodologi untuk mengembangkan arsitektur perusahaan (meskipun banyak yang cenderung memandangnya sebagai metodologi). Kerangka kerja Zachman hanyalah kerangka kerja untuk mengkategorikan artefak arsitektur perusahaan. Kerangka kerja Zachman dapat dimanfaatkan untuk menentukan apakah suatu metodologi meliputi semua aspek dalam arsitektur perusahaan atau aspek apa saja yang dicakup oleh suatu metodologi. II.4 Data Mining II.4.1 Definisi Secara sederhana, data mining mengacu pada ekstraksi atau ’menambang’ pengetahuan dari data dalam jumlah banyak[3]. 17 Data mining telah menarik perhatian kalangan industri informasi dalam beberapa tahun ini, seiring dengan ketersediaan data dalam jumlah yang sangat besar dan kebutuhan menjadikan data tersebut menjadi informasi dan pengetahuan yang bermanfaat. Informasi dan pengetahuan yang dihasilkan dapat digunakan untuk aplikasi analisa pasar, deteksi fraud, untuk kendali produksi dan eksplorasi ilmu pengetahuan[3]. Data mining dapat dipandang sebagai hasil evolusi alamiah dari teknologi informasi. Industri sistem basis data telah mengalami evolusi perkembangan fungsionalitas: pengumpulan data dan pembuatan basis data, pengelolaan data, dan analisa data lanjut. Secara singkat, perkembangan awal mekanisme dari pengumpulan data dan pembuatan basis data bertindak sebagai syarat pengembangan lebih lanjut dari mekanisme penyimpanan dan pengambilan data, dan pemrosesan query dan transaksi. Dengan banyaknya sistem basis data menawarkan pemrosesan query dan transaksi sebagai fungsi umum, analisa data secara natural menjadi target selanjutnya[3]. Banyak orang menamakan data mining dengan istilah Knowledge Discovery from Data (KDD). Ada juga yang memandang data mining sebagai tahap penting dari proses penemuan pengetahuan. Penemuan pengetahuan sebagai proses terdiri dari serangkaian tahapan[3]: 1. data cleaning (untuk menghilangkan noise dan data yang tidak konsisten), 2. data integration (di mana data dari berbagai sumber dikombinasikan), 3. data selection (data yang relevan untuk aktivitas analisa diambil dari basis data), 4. data transformation (dimana data ditransformasikan atau dikonsolidasikan menjadi bentuk yang sesuai), 5. data mining (proses penting di mana metode intelijen diterapkan untuk mengekstrak pola data), 6. data evaluation (untuk mengidentifikasi pola yang menyajikan pengetahuan), dan 7. knowledge presentation (di mana teknologi visualisasi digunakan untuk menampilkan pengetahuan kepada pengguna). 18 Gambar II.4 Data mining dalam proses penemuan pengetahuan[3]. II.4.2 Fungsionalitas Data Mining Fungsionalitas data mining digunakan untuk menspesifikasi jenis pola yang akan ditemukan. Secara umum, data mining dapat diklasifikasikan menjadi dua kategori: deskriptif dan prediktif. Data mining deskriptif menjelaskan properti umum dari data di basis data. Data mining prediktif melakukan kajian pada data yang ada untuk menghasilkan prediksi.[3]. 19 1. Frequent Patterns, Asosiasi, dan Korelasi[3]. Frequent patterns merupakan pola-pola yang muncul secara frekuen dari data. Terdapat banyak pola yang sering muncul, termasuk itemset, subsekuen, dan substruktur. Sebuah frequent itemset umumnya mengacu pada sekumpulan item yang sering muncul secara bersamaan pada kumpulan data transaksional. Subsekuen yang sering muncul misalnya pola pembelian pelanggan dimana pembelian suatu produk kemudian diikuti oleh pembelian produk lain. Sebuah substruktur dapat mengacu pada bentuk struktural yang berbeda, seperti graf atau tree, yang dapat dikombinasikan dengan itemset atau subsekuen. Jika suatu substruktur muncul secara frekuen, maka disebut (frequent) structured pattern. Frequent pattern akan menghasilkan penemuan asosiasi dan korelasi menarik yang ada dari suatu data. Umumnya, aturan asosiasi tidak digunakan karena dianggap tidak menarik jika tidak memenuhi batas minimum support dan minimum confidence. Analisa tambahan dapat dilakukan untuk mengongkap korelasi statistik antara hubungan atribut dan nilainya. 2. Klasifikasi dan Prediksi[3]. Klasifikasi merupakan proses menemukan suatu model (atau fungsi) yang menjelaskan dan membedakan konsep dan kelas data. Tujuannya adalah agar model yang dibuat dapat digunakan untuk memprediksi kelas dari objek yang label kelasnya tidak diketahui. Model yang dihasilkan didapat berdasarkan analisa dari data pelatihan. Model yang dihasilkan dapat disajikan dalam berbagai bentuk, seperti aturan klasifikasi (IF THEN), decision tree, formula matematik, atau jaringan syaraf tiruan. Decision tree adalah diagram alur berstruktur pohon, di mana setiap simpul melakukan pengecekan terhadap nilai atribut, setiap cabang mewakili hasil 20 dari pengecekan tersebut, dan setiap daun mewakili kelas-kelas atau distribusi kelas. Decision tree dapat dengan mudah diubah menjadi aturan klasifikasi. Sebuah jaringan syaraf tiruan, jika digunakan untuk klasifikasi, umumnya merupakan sekumpulan unit pemrosesan dengan hubungan berbobot antar unit. Terdapat banyak metode lain untuk membangun model klasifikasi, seperti naïve Bayesian classification, support vector machines, dan k-nearest neighbor. Model prediksi juga mencakup identifikasi distribusi tren berdasarkan data yang ada. 3. Cluster[3]. Tidak seperti klasifikasi dan prediksi, yang menganalisa objek data dengan kelas berlabel, clustering menganalisa objek data tanpa melihat label kelas. Secara umum, label kelas tidak muncul pada data pelatihan karena tidak diketahui dari awal. Clustering dapat digunakan untuk membuat label tersebut. Objek-objek di-cluster atau dikelompokkan berdasarkan prinsip memperbesar kemiripan intra kelas dan memperkecil kemiripan antar kelas (maximizing the intraclass similarity and minimizing the interclass similarity). Dengan begitu, kumpulan-kumpulan objek terbentuk sehingga objek-objek dalam suatu cluster memiliki kemiripan yang tinggi satu sama lain, tapi sebaliknya, sangat tidak mirip dengan objek pada cluster yang lain. Setiap cluster yang terbentuk dapat dilihat sebagai sebuah kelas objek. 21