BAB 2 LANDASAN TEORI 2.1 Sistem dan Teknologi Informasi Sistem Informasi mengumpulkan, memproses, menyimpan, dan menganalisa informasi untuk tujuan tertentu. Seperti halnya sistem lain, Sistem Informasi mencakup input (data, instruksi) dan output (laporan, kalkulasi). Sistem Informasi memproses input dan menghasilkan output yang dikirim untuk digunakan oleh user atau sistem lain. Proses ini dapat mencakup mekanisme untuk melakukan kontrol terhadap proses tersebut (Turban, Rainer, dan Potter, 2001, hal. 17). Beberapa kemampuan dari Sistem Informasi, di antaranya (Turban, Rainer, dan Potter, 2001, hal. 19-20): • Menyediakan proses transaksi yang cepat dan akurat. • Menyediakan penyimpanan yang besar dan dapat diakses dengan cepat. • Menyediakan komunikasi yang cepat. • Mengurangi kelebihan informasi. • Menghilangkan batasan-batasan lama. • Menyediakan dukungan untuk membuat keputusan. • Menyediakan alat yang sangat kompetitif. Teknologi Informasi merupakan aplikasi yang digunakan dalam menunjang Sistem Informasi yang digunakan dalam perusahaan, yang banyak berhubungan dengan aplikasi berbasis komputer. 7 2.2 Basis Data (Database) 2.2.1 Pengertian Basis Data Basis Data merupakan suatu koleksi bersama atas data yang terhubung secara logikal dan penjabaran atas data, yang dibentuk untuk menjawab kebutuhan informasi sebuah organisasi. Basis data juga merupakan tempat penyimpanan yang besar yang dapat digunakan secara simultan oleh banyak departemen dan pengguna. Basis data adalah suatu koleksi data komputer yang terintegrasi, diorganisasikan dan disimpan dalam suatu cara yang memudahkan pengambilan kembali (McLeod, 2001, hal. 258). 2.2.2 Siklus Hidup Aplikasi Basis Data Siklus hidup dalam perancangan basis data terdiri dari beberapa tahapan antara lain (Connolly, 2002, hal. 271-294): 1. Perencanaan Basis Data (Database Planning) Perencanaan Basis Data yaitu merencanakan bagaimana suatu tingkatan dalam siklus hidup dapat dicapai dengan sangat efisien dan efektif. 2. Pendefinisian Sistem (System Definition) Melakukan spesifikasi ruang lingkup dan batasan-batasan dari aplikasi basis data, para pengguna, dan area aplikasinya. 3. Pengumpulan Kebutuhan dan Perancangan (Requirements Collection and Design) 8 Melakukan pengumpulan atau pengkoleksian dan menganalisa kebutuhan pengguna dan area aplikasinya. 4. Rancangan Basis Data (Database Design) Melakukan perancangan basis data konseptual, logikal, dan fisikal. 5. Pemilihan DBMS (DBMS Selection) Melakukan pemilihan DBMS yang sesuai untuk pengaplikasian basis data. 6. Perancangan Aplikasi (Application Design) Merancang user interface dan aplikasi untuk digunakan dan diproses dalam basis data. 7. Prototyping Membangun model kerja dari aplikasi basis data yang memperbolehkan perancang dan pengguna untuk memvisualisasikan dan mengevaluasi bagaimana sistem akhir akan terlihat dan berfungsi. 8. Implementasi (Implementation) Membuat definisi basis data eksternal, konseptual dan internal serta program-program aplikasi. 9. Konversi Data dan Loading (Data Convertion and Loading) Melakukan pentransferan data yang sudah ada ke dalam basis data yang baru dan mengubah aplikasi yang ada untuk dijalankan pada basis data yang baru. Loading data dari sistem yang lama ke sistem yang baru. 10. Percobaan (Testing) 9 Melakukan percobaan aplikasi basis data untuk dilakukan pencarian kesalahan validasi dan error. 11. Pemeliharaan Operasional (Operational Maintenance) Suatu proses pemeliharaan dan pengawasan terhadap sistem diikuti dengan penginstalasian 2.2.3 Metodologi Perancangan Basis Data Metodologi perancangan merupakan suatu struktur yang menggunakan prosedur, teknik, alat-alat, dan bantuan dokumentasi untuk mendukung dan menyediakan proses perancangan. Dalam metodologi basis data ini, proses metodologi dibagi menjadi 3 bagian utama, yaitu basis data konseptual, logikal, fisikal. Metodologi ini digunakan untuk Basis Data operasional. 1. Perancangan basis data konseptual Adalah sebuah proses membangun sebuah model informasi yang digunakan oleh perusahaan. Perancangan konseptual dimulai dengan membentuk sebuah model konseptual data perusahaan, di mana dalam pengimplementasiannya bersifat independen, seperti target DBMS, program aplikasi, bahasa pemrograman, platform hardware, dan lain sebagainya. 2. Perancangan basis data logikal Adalah sebuah proses membangun model informasi yang didasarkan pada model data spesifik, tetapi independen dari DBMS khusus dan perhatian fisik lainnya. Bentuk logis basis data memetakan model 10 konseptual menjadi model logikal, yang dipengaruhi oleh model data untuk tujuan basis data (sebagai contoh, model relasional). 3. Perancangan basis data fisik Adalah proses pembentukan sebuah deskripsi implementasi atas basis data pada penyimpanan data sekunder, yang menjelaskan file organisasi dan indeks yang digunakan untuk memperoleh data dengan akses yang efisien. Langkah-langkah dalam metodolgi perancangan basis data, antara lain: 1. Perancangan basis data konseptual Langkah 1: Membangun model data konseptual untuk setiap tampilan. 2. Perancangan basis data logikal untuk model relasional Langkah 2: Membangun dan memvalidasikan model data logikal lokal untuk setiap tampilan. Langkah 3: Membangun dan memvalidasikan model data logikal global. 3. Perancangan basis data fisik untuk basis data relational Langkah 4: Menerjemahkan model data logikal global untuk target DBMS. Langkah 5: Merancang bentuk representasi fisik. Langkah 6: Merancang bentuk tampilan pengguna. Langkah 7: Merancang bentuk mekanisme keamanan. Langkah 8: Pertimbangkan pengenalan dari redundancy control. Langkah 9: Memonitor sistem operasional. 11 2.3 Data Warehouse 2.3.1 Pengertian Data Warehouse Data Warehouse merupakan istilah yang sangat akrab didengar dalam lingkungan yang berhubungan dengan basis data. Hal ini bisa terjadi karena Data Warehouse itu sendiri merupakan suatu bentuk dari basis data yang memiliki perbedaan volume dan karakteristik yang lebih spesifik. Data Warehouse adalah kumpulan atau koleksi penyimpanan data yang menampung koleksi data perusahaan yang sudah lama dan tidak diperbaharui, dan data tersebut disimpan dalam jangka waktu yang lama (Connolly, 2002, hal 1047). Data Warehouse digunakan sebagai dasar dari sistem penunjang keputusan yang diciptakan untuk menyelesaikan beberapa masalah yang muncul pada sebuah organisasi dengan menggunakan basis data yang sama di mana dijalankan melalui OLTP. Menurut W. H. Inmon, pengertian umum dari Data Warehouse adalah sebuah subject-oriented, terintegrasi, tidak mudah berubah atau konsisten, pengumpulan variasi waktu dari data yang mendukung keputusan manajemen (Connolly, 2002, hal. 1047). Sedangkan menurut IBM, sebuah Data Warehouse adalah sebuah gudang informasi yang menjadi suatu solusi untuk mengakses data yang terdapat atau tersimpan dalam sistem non-relasi. Pengaksesan data dalam Data Warehouse dilakukan untuk melakukan analisa kompleks, penemuan pengetahuan dan pembuat keputusan. 12 Juga dapat dijelaskan Data Warehouse lebih umum sebagai “kumpulan teknologi penunjang keputusan, ditujukan pada pengadaan tenaga kerja berpengetahuan seperti eksekutif, manajer, analis, untuk membuat keputusan yang lebih baik dan lebih cepat.” (Elmasri dan Navathe , 2000). 2.3.2 Keuntungan Data Warehouse Sistem OLTP yang umum memiliki karakteristik seperti jumlah pengguna yang sangat besar dan secara serentak menambah dan mengubah data. Tetapi sejumlah besar data yang dipelihara pada banyak sistem OLTP bisa membebani suatu organisasi. Saat basis data berkembang semakin besar dengan data yang kompleks, waktu respon bisa menjadi semakin berkurang karena adanya perebutan sumber-sumber daya yang tersedia. Data Warehouse merupakan pendekatan untuk menyimpan data di mana sumber-sumber data yang heterogen (yang biasa tersebar pada beberapa basis data OLTP) dimigrasikan untuk penyimpanan data yang homogen dan terpisah. Data Warehouse menyediakan keuntungan di bawah ini untuk para pengguna melakukan analisa (Jose Ramalho, 2001, hal. 203-206): 1. Data diorganisir dengan baik untuk query analysis dan bukan untuk pemrosesan transaksi. 2. Perbedaan di antara struktur data pada beberapa basis data yang heterogen bisa diatasi. 13 3. Aturan untuk transformasi data diterapkan untuk memvalidasi dan mengkonsolidasi data apabila data dipindahkan dari basis data OLTP ke Data Warehouse. 4. Masalah keamanan dan kinerja bisa dipecahkan tanpa perlu mengubah sistem produksi. 2.3.3 Karakteristik Data Warehouse Data Warehouse menggunakan model multidimensional data yang dapat dianalisa dengan OLAP sebagai teknologi penunjang keputusan. Sebuah Data Warehouse memiliki karakteristik yang membedakannya dengan basis data biasa. Beberapa karakterisitik itu adalah: 1. Konsolidasi dan konsistensi data Di dalam Data Warehouse, data dikoleksi dari beberapa sumber dan dikonsolidasi serta dibuat secara konsisten dalam berbagai cara, termasuk dalam kaidah pemberian nama, ukuran, atribut-atribut fisik, dan semantik. 2. Data yang subject-oriented Data Warehouse mengorganisir informasi bisnis yang penting dari sumber OLTP, sehingga sangat berguna untuk analisa bisnis. Di dalam proses hal tersebut mengeluarkan atau membuang data yang menyimpang atau tidak berguna yang ada di dalam tempat penyimpanan data. 3. Data yang bersifat historis 14 Tidak seperti sistem OLTP, Data Warehouse menyajikan data yang sudah lama. Dengan kata lain, ketika meng-query Data Warehouse, digunakan data lama yang sudah lama dikumpulkan dengan sistem OLTP di masa lalu. Data lama tersebut sangat berguna dalam waktu yang sangat lama dibanding dengan sistem OLTP, di mana terdiri dari data sekarang yang menunjukkan situasi sekarang secara tepat dan akurat. 4. Data read-only Setelah data dipindahkan ke Data Warehouse, data tersebut tidak dapat diganti. Data di dalam Data Warehouse tidak dapat diremajakan karena menyajikan data lama yang mana tidak lagi dapat diganti. Menghapus, memasukkan, meng-update tidak diperbolehkan dalam Data Warehouse. 2.3.4 Perancangan Basis Data Data Warehouse Menurut Connolly (2002, hal. 1078-1082), dalam merancang basis data sebuah Data Warehouse sangatlah kompleks. Untuk memulai proyek Data Warehouse, pertama-tama harus mengidentifikasi dan mengumpulkan kebutuhan pengguna. Pengidentifikasian tersebut dilakukan dengan wawancara para pengguna, mempelajari kebutuhan para pengguna dan menemukan informasi apa yang diperlukan untuk mendukung kesuksesan bisnis. Setelah itu menentukan sumber data mana yang akan dipakai dalam Data Warehouse. Kemudian dilakukan perancangan terhadap data-data tersebut untuk menghasilkan informasi 15 yang dapat mendukung dalam pengambilan keputusan bisnis. Dengan identifikasi kebutuhan pengguna dan sumber data yang akan digunakan barulah proses perancangan basis data Data Warehouse dimulai. Komponen basis data dalam sebuah Data Warehouse digambarkan dengan menggunakan sebuah teknik yang disebut model dimensional. 2.3.4.1 Model Dimensional Model dimensional ini merupakan suatu teknik perancangan logikal yang bertujuan untuk menyajikan data dalam sebuah standar yang memungkinkan untuk penyajian akses secara cepat. Model dimensional ini menggunakan konsep model ER (Entity Relationship) dengan beberapa batasan penting. Setiap model dimensional disusun oleh satu tabel dengan gabungan primary key, yang dinamakan tabel fakta, dan sekelompok tabel kecil yang dinamakan tabel dimensi. 1. Skema bintang (star schema) Skema bintang merupakan struktur logikal yang mempunyai satu tabel fakta yang berisikan data faktual di pusat yang dikelilingi oleh tabel dimensi yang berisikan data referensi (yang dapat didenormalisasikan). 2. Skema snowflake Skema snowflake merupakan variasi dari skema bintang di mana tabel-tabel dimensi tidak berisi data denormalisasi. 16 Suatu skema disebut snowflake jika satu atau lebih tabel dimensi tidak berhubungan langsung dengan tabel fakta, tetapi harus berhubungan dengan tabel dimensi lain. 2.3.4.2 Denormalisasi Denormalisasi adalah suatu prosedur yang mengelompokkan kembali normalisasi data untuk suatu susunan yang lebih spesifik dari suatu proses dengan tujuan membuat proses ini lebih efisien (Adelman, Sid dan Moss, 2000, hal. 244) : 1. Untuk mengurangi jumlah hubungan yang terjadi antar tabeltabel yang harus mengalami proses pada waktu dilakukan pencarian. Dengan inilah penampilan basis data dapat ditingkatkan. 2. Untuk membuat struktur fisik dari basis data yang semakin mendekati model dimensi dari pemakai. Membuat struktur tabel sesuai dengan yang ingin ditanyakan oleh pemakai, memungkinkan terjadinya akses langsung, yang sekali lagi akan meningkatkan penampilan. 2.3.5 Meta Data Meta data yaitu data tentang data yang menggambarkan Data Warehouse. Meta data digunakan untuk membangun, memelihara, mengatur dan digunakan untuk Data Warehouse. 17 2.3.5.1 Penjelasan Penggunaan Meta Data Data Warehouse -> Data Mart -> Meta data -> OLAP cube -> Data Mining model. Meta data didapat setelah data mart telah dipilih dan diambil dalam Data Warehouse, dan data mart tersebut dipecahpecah, maksudnya adalah data mart tersebut dibuat masingmasing tabel sesuai dengan kebutuhan yang akan digunakan dalam pembuatan Data Mining. Jadi meta data adalah pecahan dari data mart di mana tabel-tabel tersebut yang selanjutnya akan dinamakan sebagai tabel dimensi digunakan dalam pembuatan kubus, dan akhirnya digunakan untuk pembuatan model Data Mining. Dalam meta data terdapat penjelasan mengenai record mana yang ditunjuk sebagai primary key dan record mana yang ditunjuk sebagai foreign key. Hal ini dilakukan jika nanti dalam proses pembuatan star schema dan snowflake schema terjadi proses penghubungan antar tabel dimensi, maka proses penghubungan tabel tersebut memperhatikan record mana yang bisa saling dihubungkan terutama pada record yang berperan sebagai primary key ataupun foreign key. Meta data tersebut digunakan untuk pembuatan kubus, karena fungsinya sebagai tabel dimensi yang menjelaskan tabel fakta. Meta data baru bisa dilihat hasilnya dalam bentuk OLAP kubus di mana tabel-tabel tersebut disajikan dalam bentuk 18 kesimpulan dan penjumlahan data dari kubus yang dibentuk dari tabel-tabel dimensi dan tabel fakta yang saling terhubung. 2.3.6 Data Mart Di beberapa implementasi Data Warehouse, data mart merupakan miniatur dari Data Warehouse. Data mart merupakan suatu subset dari Data Warehouse yang dapat mendukung keperluan departemen atau fungsi bisnis (Connolly, 2002, hal. 1067). Data mart biasanya digunakan untuk menyediakan informasi dalam suatu segmen organisasi. Beberapa karakteristik yang membedakan data mart dengan Data Warehouse antara lain: 1. Data mart hanya difokuskan pada keperluan pengguna yang berhubungan dengan satu departemen atau satu fungsi bisnis. 2. Data mart biasanya tidak berisi detail operasional data, berbeda dengan Data Warehouse. 3. Data mart berisi data yang lebih sedikit dibanding dengan Data Warehouse sehingga data mart lebih mudah dimengerti dan dijalankan. 2.3.7 Pengertian OLAP OLAP (Online Analytical Processing) merupakan suatu alat dalam sistem basis data yang membantu dalam proses query agar dapat lebih cepat dan lebih efisien dalam prosesnya. OLAP merupakan suatu istilah yang menggambarkan suatu teknologi yang menggunakan 19 gambaran multidimensi dari sejumlah data untuk menyediakan atau memberikan akses yang lebih cepat untuk strategi informasi dengan tujuan mempercepat analisis (Connolly, 2002, hal. 1101). Tujuan dari OLAP yaitu mengorganisir sejumlah data yang besar agar bisa dianalisa dan dievaluasi dengan cepat. OLAP memungkinkan pengguna untuk memperoleh pengertian yang lebih dalam dan pengetahuan tentang berbagai aspek yang berhubungan dengan data perusahaan secara cepat, konsistensi yang tinggi, dan akses yang interaktif untuk variasi gambaran dari data. OLAP memungkinkan untuk digunakan sebagai penunjang keputusan tentang tindakan apa yang akan diambil selanjutnya dan sistem OLAP juga banyak dipergunakan dalam bidang bisnis untuk menghasilkan suatu keputusan yang efektif. Di dalam model data OLAP, informasi digambarkan secara konseptual seperti kubus (cube), yang terdiri dari kategori deskriptif (dimension) dan nilai kuantitif (measures). Dimensi menggambarkan atribut dari setiap ukuran, biasanya berupa teks dan merupakan ciri-ciri tersendiri. Sedangkan measure merupakan suatu data, biasanya numerik yang menjadi tolak ukuran suatu kejadian bisnis. Model data dimensional membuat OLAP menjadi mudah bagi pengguna untuk merumuskan query yang kompleks, menyusun data untuk laporan, beralih dari ringkasan menjadi detail data, dan menyaring atau memotong data ke dalam subset-subset yang lebih berarti. 20 2.4 Data Mining 2.4.1 Pengertian Data Mining Ada banyak sekali pengertian dari Data Mining. Data Mining merupakan suatu aplikasi basis data yang digunakan untuk melihat pola – pola yang tersembunyi dari sebuah kumpulan data yang bisa digunakan untuk memprediksi kegiatan di masa yang akan datang. Sebagai contoh, untuk membantu perusahaan retail untuk menemukan konsumenkonsumen dengan ketertarikan yang sama. Software Data Mining tidak hanya merubah presentasi, tetapi sebenarnya menemukan relasi-relasi antar data. Data Mining adalah proses ekstraksi secara otomatis informasi dari basis data yang tersembunyi untuk memprediksi masa depan (Kurt Thearling). Data Mining memperbolehkan pengguna untuk menganalisa basis data yang besar untuk memecahkan masalah pengambilan keputusan bisnis. Data Mining adalah ekstensi dari statistik dengan beberapa intelejensia buatan. Data Mining menggunakan basis data yang memiliki jumlah data yang sangat besar, menemukan pola-pola yang sulit untuk dimengerti, menggunakan pengetahuan yang dapat meningkatkan proses-proses pencarian informasi dari data-data yang tersedia. Teknologi Data Mining dapat digunakan untuk eksplorasi data, menganalisa data, memvisualisasikan data dari basis data dengan jumlah data yang sangat banyak pada tingkat abstrak yang tinggi, tanpa hipotesis yang spesifik dalam pemikiran (ACSys, 1998). 21 Data Mining merupakan suatu proses untuk menemukan polapola (pattern) yang bernilai dan hubungan (relationship) yang tersembunyi dalam basis data yang sangat besar. Karena pencarian dengan menggunakan tabel dan record yang sangat jarang ditemukan pola yang berguna, data biasanya dianalisa dengan proses secara otomatisasi (Seidman, Claude, 2001, hal 3). Menurut Simoudis (1996), Data Mining adalah suatu proses ekstraksi atau penggalian data yang valid, yang sebelumnya tidak diketahui, namun dapat dipahami, dan informasi yang terus bergerak dari basis data yang besar dan digunakan untuk membuat suatu keputusan bisnis yang kritis (Connolly, 2002, hal. 1115). Gambar 2.1 Asal Data Mining (Williams, Hegland, dan Roberts) Pada Gambar 2.1, terlihat bahwa Data Mining berasal dari Database sebagai sumber data, Machine Learning, High Performance Computer, Parallel Algorithms, Pattern Recognition, Applied Statistics, dan Visualization sebagai teknologi pendukungnya. 22 Data Mining dapat memberikan keuntungan yang besar bagi perusahaan. Banyak organisasi atau perusahaan menggunakan Data Mining untuk melakukan hal-hal sebagai berikut: 1. Penemuan Pengetahuan Tujuan dari penemuan pengetahuan adalah untuk menemukan dengan jelas hubungan, pola, atau korelasi yang tersembunyi dari tempat penyimpanan data di dalam basis data. 2. Visualisasi Data Seorang analis harus bisa merasakan sebuah informasi yang besar yang disimpan dalam basis data. Tujuan dari visualisasi data ini yaitu untuk ”mempermanusia” data yang banyak dan menemukan cara yang terbaik dalam menampilkan data. 3. Pemeriksaan Data Pemeriksaan data dalam teknik Data Mining ini digunakan untuk membantu mengidentifikasi dan memperbaiki kesalahan dengan cara yang konsisten. Karena ketika terjadi penggabungan data secara besar-besaran, banyak ditemukan data yang tidak lengkap dan selalu terdiri dari informasi yang salah dan bertentangan. Analisa Data Mining bekerja berdasarkan data, dan teknik yang menghasilkan hasil yang sangat akurat umumnya membutuhkan jumlah data yang sangat banyak untuk menghasilkan penyelesaian yang dapat dipertanggungjawabkan. Proses analisa dimulai dengan membangun optimal representastion dari struktur contoh data selama kurun waktu pengetahuan diperoleh. Kemudian pengetahuan ini diperluas ke set data 23 yang lebih besar, bekerja pada asumsi bahwa set data yang lebih besar mempunyai struktur data yang serupa dengan contoh data. Data Mining dapat menyediakan pengembalian dana secara besar bagi perusahaan, yang telah melakukan investasi yang berarti pada Data Warehouse. Meskipun Data Mining merupakan teknologi yang tergolong baru, tetapi telah digunakan pada berbagai macam industri. 2.4.2 Hubungan Antara Data Mining dan Data Warehouse Data Mining menggambarkan pengumpulan teknik-teknik dengan tujuan unutk menemukan pola-pola yang tidak diketahui pada data yang telah dikumpulkan. Tujuan dari Data Mining yaitu untuk membuat model-model untuk pengambilan keputusan yang dapat memprediksi langkah-langkah ke depan berdasarkan analisis dari aktivitas yang lalu. Data Mining membantu penemuan pengetahuan. Banyak pimpinan organisasi saat ini menyadari bahwa basis data transaksi yang besar tersebut berisikan banyak informasi, baik untuk sendiri dalam menentukan pelayanan yang bagaimana yang akan diberikan dan juga untuk klien. Untuk itu diperlukan suatu mekanisme di mana data historis dari organisasi tersebut disimpan ke dalam tempat penyimpanan Data Warehouse, dan menyediakan alat yang dapat menganalisa volume data yang besar tersebut secara cepat dan mudah. Untuk itu diperlukan suatu aplikasi Data Mining sebagai alat penganalisaan data yang besar dalam usaha untuk menghasilkan informasi dan pengetahuan. Salah satu kunci untuk mensukseskan Data 24 Mining adalah kemampuan untuk mendapatkan akses akurat, komplit, dan keutuhan data. Ini juga berlaku untuk Data Warehouse. Data Warehouse tidak hanya diperuntukkan dan menjadi poin utama dari keutuhan data, tetapi semua solusi Data Warehouse dimulai dan bergantung pada kualitas dan keefektifan dari komponen sumber data (di dalam dunia Data Warehouse dikenal sebagai Extract, Transform, dan Load atau ETL Tools). 2.4.3 Konsep Penemuan Pengetahuan Proses Data Mining terdiri dari sejumlah tahapan dan secara keseluruhan bersifat interaktif dan iteratif. Beberapa tahapan proses Data Mining antara lain: a. Pemahaman Domain (Domain Understanding) Menentukan tujuan utama dari penggunaan aplikasi Data Mining termasuk memahami pengetahuan apa yang diperlukan dan menentukan teknik yang digunakan untuk menghasilkan pengetahuan yang dikehendaki. Kesalahan dalam menentukan teknik Data Mining dan pengetahuan akan berakibat tidak bermanfaatnya pola data yang dihasilkan. b. Pemilihan Data (Data Selection) Proses untuk memilih field dan record yang diperlukan dari basis data yang ada dan pemilihan tersebut disesuaikan dengan domain yang telah dipilih. c. Cleaning and Preprocessing 25 Tahapan cleaning berusaha untuk memproses data agar sesuai untuk kepentingan Data Mining. Tahapan preprocessing melakukan upaya penyesuaian data ke dalam tabel-tabel tertentu yang akan memudahkan proses penemuan pola-pola. d. Penemuan Pola (Discovering Patterns) Tahapan ini merupakan bagian utama dari Data Mining. Tahapan ini ditentukan oleh sejumlah pendekatan dalam menghasilkan pola dan visualisasi. Setiap pendekatan tersebut dapat diimplementasikan lewat salah satu dari sejumlah metodologi yang ada seperti analisis dan statistik, jaringan neural dan pengenalan pola. e. Interpretasi (Interpretation) Tahap ini dimanfaatkan oleh pengguna untuk melakukan evaluasi terhadap kualitas pengetahuan yang dihasilkan dari proses sebelumnya. f. Pelaporan (Reporting) Merupakan tahap akhir dari proses Data Mining yaitu berupa laporan dan penggunaan pengetahuan yang didapat untuk melakukan sesuatu baik berupa aksi baru, produk, layanan, atau strategi. Dan juga tahapan ini dapat berupa presentasi grafis dari pola yang didapat dan transfer dari pengetahuan atau model aplikasi bisnis yang sesuai. 26 Gambar 2.2 Knowledge Discovery (Williams, Hegland, dan Roberts) 2.4.4 Kategori Data Mining dan Fokus Penelitian Teknik Data Mining berhubungan dengan penemuan dan pembelajaran, dan pembelajaran tersebut dapat dibagi menjadi tiga metode utama: supervised, unsupervised, dan reinforcement (Berson, Alex et al, 1999, hal 36-37). • Supervised Teknik ini melibatkan tahap pelatihan ketika data lama yang telah dilatih tersebut memiliki characteristic map yang telah diketahui terlebih dahulu untuk diberikan kepada algoritma Data Mining. Proses ini melatih algoritma untuk mengenali kunci variabel-variabel dan nilai-nilai, yang kemudian akan menjadi dasar untuk membuat peramalan ketika membaca data yang baru. 27 • Unsupervised Tidak melibatkan fase penelitian tetapi tergantung kepada penggunaan algoritma yang mendeteksi semua bentuk, seperti asosiasi dan rangkaian, di mana terjadi di atas kriteria yang spesifik dalam memasukkan data. Pendekatan ini membawa kepada generasi yang mempunyai banyak peraturan yang menggolongkan penemuan asosiasi, clusters, dan segmen. Peraturan ini kemudian akan melakukan penganalisaan untuk menentukan yang mana yang memiliki ketertarikan yang signifikan. • Reinforcement Walaupun jarang digunakan dibanding dengan metode lain, tetapi metode ini memiliki aplikasi untuk mengoptimalkan waktu dan penyesuaian kontrol. Pelatihan reinforcement ini sangat mirip dengan kenyataan hidup. Karena proses pelatihannya tidak menyediakan tindakan untuk melakukan koreksi dengan segera, tetapi dapat digunakan untuk memecahkan sebagian masalah ketergantungan waktu yang sangat sulit. Teknologi Data Mining juga dapat dikategorikan berdasarkan masalah bisnis, yaitu : • Analisis Retrospektif Analisis retrospektif difokuskan pada persoalan masa lampau dan kejadian sekarang. • Analisis Prediktif 28 Analisis prediktif lebih fokus pada perkiraan kejadian atau kelakuan berdasarkan pada informasi historis. Data Mining mengidentifikasikan fakta-fakta atau mengusulkan simpulan berdasarkan pada penyelidikan melalui data untuk menemukan pola-pola atau anomali. Data Mining mempunyai lima fungsi atau parameter utama, antara lain: 1. Klasifikasi (Classification) Mengklasifikasikan record basis data ke dalam sejumlah kelas-kelas berdasarkan kriteria tertentu. Klasifikasi dilakukan dengan cara esktrasi record yang ada berdasarkan aturan klasifikasi tertentu. Bila hasil klasifikasi telah didapat, maka fokus observasi adalah pada klasifikasi tertentu sesuai dengan pengetahuan yang diharapkan. 2. Pengelompokan (Clustering) Mengidentifikasikan kelompok-kelompok dari item yang telah dibagi berdasarkan karakteristik masing-masing. 3. Asosiasi (Association) Mengidentifikasikan hubungan antara kejadian-kejadian yang terjadi pada satu waktu. Atau mengidentifikasikan gabungan di antara pengkoleksian untuk mengetahui hubungan berbagai item yang berbeda dalam record basis data. Contoh : 60% orang yang menderita penyakit X adalah juga menderita penyakit Y. 4. Sequence Hampir sama dengan asosiasi. Parameter ini membantu mengidentifikasi pola-pola pada data runtun waktu. Contohnya : 90% 29 pelanggan yang membeli produk X juga akan membeli produk Y dalam kurun waktu 6 bulan mendatang. 5. Peramalan (Forecasting) Mengkalkulasi atau memperkirakan nilai-nilai yang akan datang berdasarkan pada pola-pola di dalam set data. 2.4.5 Metodologi Data Mining Sebagai salah satu bagian dari sistem informasi, Data Mining menyediakan perencanaan dari ide hingga implementasi akhir. Komponen-komponen dari rencana Data Mining adalah sebagai berikut : (Seidman, Claude, 2000, hal. 9-11) 7. Analisa Masalah 8. Mengekstrak dan Membersihkan Data 9. Memvalidasi Data 10. Membuat dan Melatih Model 11. Query Data 12. Pemeliharaan Model Data Mining 2.4.5.1 Analisa Masalah Data asal atau data sumber harus bisa ditaksir untuk dilihat apakah data tersebut memenuhi kriteria untuk Data Mining. Kualitas dan kuantitas data adalah faktor utama untuk memutuskan apakah data tersebut cocok dan tersedia sebagai 30 tambahan. Hasil yang diharapkan dari Data Mining harus dengan hati-hati dimengerti dan dipastikan bahwa data yang dibutuhkan membawa informasi yang bisa diekstrak. 2.4.5.2 Mengekstrak dan Membersihkan Data Data pertama kali diekstrak dari data aslinya, seperti dari OLTP database, text file, microsoft access database, dan bahkan dari spreadsheets. Kemudian data tersebut diletakkan dalam Data Warehouse yang mempunyai struktur yang sesuai dengan model data. Secara khas, Data Transformation Services (DTS) dipakai untuk mengekstrak dan membersihkan data dari tidak konsistennya dan tidak kompatibelnya dengan format yang sesuai. 2.4.5.3 Memvalidasi Data Sekali data telah diekstrak dan dibersihkan, ini adalah latihan yang bagus untuk menelusuri model yang telah diciptakan untuk memastikan bahwa semua data yang ada adalah data sekarang dan lengkap. 2.4.5.4 Membuat dan Melatih Model Ketika algoritma diterapkan pada model, struktur telah dibangun. Hal ini sangatlah penting pada saat ini untuk melihat data yang telah dibangun untuk memastikan bahwa data tersebut 31 menyerupai fakta di dalam data sumber. Hal ini bisa dibuat dengan berbagai cara. 2.4.5.5 Query Data Sekali model yang cocok telah diciptakan dan dibangun, data yang telah dibuat tersedia untuk mendukung keputusan. Hal ini biasanya melibatkan penulisan front end query aplikasi dengan suatu program aplikasi atau suatu program database seperti : SQL Server melalui OLE DB provider Data Mining. 2.4.5.6 Pemeliharaan Validasi Model Data Mining Karakteristik Data Mining yang telah terisi harus terjaga validasinya, seperti persediaan jumlah ikan pada toko ikan, di mana apabila terjadi perubahan pada pesediaan ikan tersebut maka perubahan persediaan ikan tersebut harus dicatat, jadi Data Mining yang terbentuk akan menjadi lebih efektif. 2.4.6 Teknik Data Mining Dalam Data Mining terdapat dua tipe teknik antara lain (Berson, Alex, et al. 2000, hal. 123-199) 1. Teknik Klasik a. Statistik Statistik atau teknik statistikal bukanlah Data Mining. Teknik statistik telah lama digunakan sebelum Data Mining diterapkan ke 32 dalam aplikasi bisnis. Bagaimanapun, teknik statistik ini dikendalikan oleh data dan digunakan untuk menemukan polapola dan membangun model prediktif. Di bawah ini terdapat beberapa elemen statistik yang biasanya dipakai dalam suatu persoalan statistik (Santoso, Singgih, 2002, hal. 2-4): i. Populasi Secara umum populasi dapat didefinisikan sebagai kumpulan data yang dapat mengidentifikasikan suatu fenomena. ii. Sampel Sampel dapat didefinisikan sebagai sekumpulan data yang diambil atau yang diseleksi dari suatu populasi. Jadi sampel adalah bagian dari populasi, atau populasi dapat dibagi dalam berbagai jenis sampel. Pengambilan sampel dilakukan karena dalam praktek banyak kendala yang tidak memungkinkan seluruh populasi diteliti. Kendala tersebut bisa karena waktu, situasi, tenaga, biaya, dan lainnya. iii. Statistik Inferensi Seperti telah dijelaskan, statistik inferensi pada dasarnya adalah suatu keputusan, perkiraan atau generalisasi tentang suatu populasi berdasarkan informasi yang terkandung dari suatu sampel. Jadi apa yang disimpulkan dari analisis terhadap sampel, itu pula yang simpulkan secara umum pada populasi. Data dalam statistik 33 berdasarkan tingkat pengukurannya dapat dibedakan menjadi empat jenis (Santoso, Singgih, 2002, hal. 4-6): 1. Data Kualitatif Data Kualitatif secara sederhana dapat disebut data yang bukan merupakan angka. Data kualitatif mempunyai ciri tidak dapat dilakukan operasi metematika seperti penambahan, pengurangan, perkalian, dan pembagian. Data kualitatif dapat dibagi menjadi dua: • Nominal Data bertipe nominal adalah data yang paling ‘rendah’ dalam level pengukuran data. Jika suatu pengukuran data hanya menghasilkan satu dan hanya satu-satunya kategori, maka data tersebut adalah data nominal (data kategori). Contoh data nominal adalah jenis kelamin seseorang, pasti laki-laki atau perempuan. Data nominal dalam praktek statistik biasanya akan dijadikan ‘angka’ yaitu proses yang disebut kateogri, misal dalam pengisian data jenis kelamin, lelaki dikategorikan sebagai ‘1’ dan perempuan sebagai ‘2’. Kategori ini hanya sebagai tanda saja jadi tidak mungkin tanda tersebut dilakukan operasi matematika seperti penjumlahan atau pengurangan. • Ordinal Data ordinal, seperti pada data nominal, adalah juga data kualitatif namun dengan level lebih “tinggi” dari data 34 nominal. Jika pada data nominal, semua data kategori dianggap sama, maka pada data ordinal, ada tingkatan data. Jadi disini ada preferensi atau tingkatan data, di mana data yang satu berstatus lebih tinggi atau lebih rendah dari, misalkan data ordinal adalah sikap konsumen terhadap suatu produk dalam pengukuran konsumen ada kategori tidak suka, suka, dan sangat suka, dan kategori tersebut tidak bisa disamakan derajatnya. Namun data ordinal juga tidak dapat dilakukan operasi matematika, seperti jika “tidak suka” dikategorikan sebagai ‘1’, “suka” sebagai ‘2’ dan “sangat suka” sebagai ‘3’ maka tidak bisa dianggap ‘1’ + ‘2’ = ‘3’, atau “tidak suka” ditambah “suka” menjadi “sangat suka” 2. Data Kuantitatif Data kuantitatif dapat disebut sebagai data berupa angka dalam arti sebenarnya. Jadi berbagai operasi matematika dapat dilakukan pada data kuantitatif. Data kuantitatif dibagi menjadi 2 bagian: • Data Interval Data Interval menempati level pengukuran data yang lebih tinggi dari data ordinal, karena selain dapat bertingkat urutannya, juga urutan tersebut dapat dikuantitatifkan. Contoh dari data interval: i. Cukup panas bila temperatur antara 50 C – 80C 35 ii. Panas jika temperatur antara 80 C – 110C iii. Sangat panas jika temperatur antara 110 C – 140 C Dalam kasus di atas, data temperatur dapat dikatakan data interval, karena data memiliki interval (jarak) terntentu. Namun di sini data interval tidak memiliki titik nol yang absolut. • Data Rasio Data rasio adalah data dengan tingkat pengukuran “tinggi” di antara tingkat data lainnya. Data rasio adalah data yang bersifat angka dalam arti sesungguhnya (bukan kategori pada data nominal dan ordinal dapat dioperasikan secara matematika). Perbedaan dengan data interval adalah bahwa rasio mempunyai titik nol dalam arti sesungguhnya. b. Nearest Neighbour Teknik prediksi pengelompokan dan nearest neighbour merupakan teknik tertua yang digunakan dalam Data Mining. Nearest neighbour merupakan teknik prediksi yang hampir sama dengan pengelompokan, untuk memperkirakan apakah nilai prediksi ada dalam satu record, mencari kesamaan nilai prediktor di dalam satu basis data historis dan menggunakan nilai prediksi dari record yang “terdekat” dengan unclassified record (Berson, Alex et al, 2000, hal. 134-135). Contoh sederhana dari nearest neighbour prediction algorithm adalah ketika memiliki orangorang yang tinggal di sekitar lingkungan (dalam kasus ini orang36 orang tersebut secara geografis tinggal di dekat rumah). Dapat disadari bahwa pada umumnya semua mempunyai pendapatan yang hampir sama. Jadi jika tetangga mempunyai pendapatan yang lebih tinggi dari $100,000 maka semua mempuyai kesempatan yang baik untuk mendapatkan pendapatan yang tinggi pula. Tentu saja kesempatan di dalam mendapatkan pendapatan yang tinggi itu akan menjadi lebih mungkin apabila seluruh tetangga di sekitar lingkungan atau rumah memiliki pendapatan di atas $100,000 dibandingkan dengan lingkungan di mana rumah tetangga yang lain hanya mempunyai pendapatan $20,000. Cara kerja dari algoritma ini hampir sama dengan contoh yang ada di atas, tetapi dengan menggunakan teknik ini juga dapat diketahui seseorang bersekolah di mana atau gelar apa yang telah dicapai ketika memperkirakan pendapatan seseorang. (Berson, Alex et al, 2000, hal. 135) c. Pengelompokan (Clustering) Pengelompokan merupakan metode yang mengklasifikasikan data ke dalam kelompok-kelompok berdasarkan kriteria dari masingmasing data. Biasanya teknik ini dipakai untuk memberikan pengguna akhir sebuah gambaran level atas dari apa yang telah terjadi di dalam basis data. Pengelompokan terkadang digunakan untuk segmentasi. Pengelompokan bertujuan untuk mengurangi data. Teknik ini sangatlah berguna untuk menemukan bagian dari pelanggan berdasarkan 37 karakteristiknya, seperti informasi keuangan atau mengenai tingkah laku pelanggan dalam melakukan pembelian (Viera, Robert, 2000, hal. 906). Algoritma cluster tidak seperti pohon keputusan, tidak memecah data ke dalam garis-garis tapi mengelompokkan data di dalam cluster. Clustering adalah model yang lebih berguna untuk representasi visual karena data dikelompokan dalam beberapa kriteria. Teknik ini berjalan secara tidak langsung. Maksudnya adalah teknik ini tidak mempunyai variabel yang tergantung untuk menemukan hasil yang spesifik. Dengan kata lain ketika ingin merancang Data Mining, tidak bisa diketahui apa yang akan dicari dan ditemukan. Aplikasi dari teknik clustering adalah sebagai teknik penjumlahan yang mengatur/meletakkan kembali data di dalam gudang data dan membiarkannya secara ajaib mengatur data tersebut secara teratur. Oleh karena itu teknik ini jarang digunakan untuk menyediakan informasi kepada eksekutif dan hanya digunakan jika kelompok data tersebut ingin dipelajari lebih lanjut misalnya dengan decision tree (Seidman, Claude, 2001, hal. 137). 2. Teknik Generasi Selanjutnya a. Pohon Keputusan (Decision Tree) Pohon keputusan merupakan model prediktif yang dapat digambarkan seperti pohon, di mana setiap node di dalam struktur pohon tersebut mewakili sebuah pertanyaan yang digunakan untuk menggolongkan data. Struktur ini dapat digunakan untuk membantu memperkirakan kemungkinan nilai dari setiap atribut 38 data. Decision tree telah lama digunakan untuk mencari tahu urutan dari karakteristik atau peraturan-peraturan dan akibat dari peraturan yang digunakan untuk mencapai bermacam-macam tujuan (Viera, Robert, 2000, hal. 905). Algoritma pohon keputusan menganalisa data dan menciptakan seri-seri pengulangan dari cabang sampai tidak ada cabang relevan yang bisa dibuat. Hasil akhirnya adalah sebuah susunan binary tree di mana pemisahan cabang-cabangnya dapat diikuti bersama dengan kriteria untuk mencari keinginan yang diketahui (Viera, Robert, 2000, hal. 905). b. Jaringan Neural (Neural Network) Jaringan Neural merupakan teknik model prediktif yang paling kuat. Teknik ini dapat membuat model yang sangat kompleks yang hampir tidak mungkin untuk mengerti secara benar, meskipun seorang ahli. Model ini disajikan dalam nilai numerik dengan perhitungan yang kompleks dan hasil akhir dari teknik ini juga berupa numerik dan perlu untuk diterjemahkan jika nilai prediksi aktual berupa kategori. c. Aturan Induksi (Rule Induction) Aturan induksi merupakan bentuk umum dari Data Mining dan merupakan bentuk yang sama untuk penemuan pengetahuan di dalam sistem pembelajaran unsupervised. Teknik ini dalam basis data dapat menjadi sebuah usaha besar-besaran di mana semua kemungkinan pola-pola secara sistematis keluar dari data, dan 39 kemudian akurasi dan arti ditambahkan ke dalam aturan tersebut untuk memberitahukan pengguna betapa kuat pola dan bagaimana dapat terjadi lagi. 2.4.7 Data Mining Tools Terdapat peningkatan dalam jumlah Data Mining Tools secara komersil. Karakteristik yang penting dari Data Mining Tools adalah: 2.4.8 • Fasilitas Persiapan Data • Seleksi Algoritma • Performa Produt dan Scalability • Fasilitas untuk Memvisualkan Data OLAP dan Data Mining OLAP merupakan suatu teknologi yang menggunakan penyajian data multidimensi, atau yang disebut juga sebagai kubus (cube), untuk memberikan laju akses yang cepat untuk data dalam Data Warehouse. Data Mining menggunakan suatu algoritma untuk menganalisa data dan membangun model data yang dapat menyajikan informasi mengenai data tersebut. Model Data Mining dapat digunakan untuk memperkirakan karakteristik dari data baru atau untuk mengidentifikasikan kelompok dari kesatuan data yang mempunyai kesamaan karakteristik. Dalam Microsoft SQL Server 2000 Analysis Service menyediakan server yang kuat dan alat-alat yang administratif 40 untuk menciptakan dan mengelola data OLAP dan menyajikan aplikasi client online. Analysis service juga menggabungkan algoritma Data Mining yang dapat menganalisa relasional data dalam basis data Data Warehouse dan multidimensi data dalam kubus. Kubus dan model Data Mining harus didesain, dikonfigurasikan, dan diproses sebelum dapat digunakan oleh aplikasi klien, dan biasanya memerlukan pembaharuan ketika Data Warehouse di-update. Terdapat enam atau lebih proses pencarian pengetahuan dalam basis data: 2.4.9 • Data Warehouse • Seleksi data • Data Preprocessing • Transformasi Data • Data Mining • Interpretasi/Evaluasi Data Transformation Services Perusahaan perlu untuk memusatkan data guna mendukung pengambilan keputusan. Data tersebut dapat disimpan dalam jumlah yang besar dalam bentuk angka-angka dari sumber yang berbeda. Barisan data yang ada di dalam sumber ini harus di-reconciled dan diubah ke dalam beberapa kasus sebelum dapat disimpan ke dalam Data Warehouse. Data Transformation Services memindahkan data dari Database OLTP ke Data Warehouse sesuai dengan tujuannya. Hal ini dilakukan ketika 41 validasi, cleaning-up, konsolidasi, dan merubah data yang diperlukan (Viera, Robert, 2000, hal. 901). 2.5 Pemasaran Pemasaran bukanlah permainan dan bukan pula seni dekoratif atau magis. Pemasaran adalah bisnis, murni bisnis. Pemasaran adalah tentang mengungkapkan rencana-rencana secara sistematis dan matang dan mengambil yang membuat lebih banyak orang lebih sering membeli lebih banyak produk sehingga perusahaan memperoleh banyak uang (Zyman, Sergio, 2000, hal. 6). Konsep pemasaran menyatakan bahwa kunci untuk meraih tujuan organisasi adalah menjadi lebih efektif daripada para pesaing dalam memadukan kegiatan pemasaran guna menetapkan dan memuaskan kebutuhan dan keinginan pasar sasaran. 2.5.1 Konsep-konsep Inti Pemasaran Untuk menjelaskan definisi, harus diperhatikan dengan seksama istilah-istilah penting berikut sebagai konsep-konsep inti pemasaran (Kotler, dan Armstrong, 1996, hal. 7-12): 1. Kebutuhan, Keinginan, dan Permintaan Kebutuhan manusia adalah pernyataan dari rasa kehilangan. Keinginan adalah bentuk kebutuhan manusia yang dihasilkan oleh budaya dan kepribadian individual. Sedangkan permintaan adalah keinginan yang didukung dengan daya beli. 2. Produk 42 Produk adalah segala sesuatu yang dapat ditawarkan kepada pasar untuk memuaskan kebutuhan atau keinginan. 3. Nilai, Kepuasan, dan Mutu Nilai bagi pelanggan merupakan perbedaan antara nilai yang dinikmati pelanggan karena memiliki serta menggunakan suatu produk dan biaya untuk memiliki produk tersebut. Dan kepuasan bergantung kepada anggapan kinerja produk dalam menyerahkan nilai relatif terhadap harapan pembeli. Untuk menjaga hal itu, perusahaan mengadakan Total Quality Management sebagai usaha perbaikan mutu dan proses pemasaran secara terus-menerus. 4. Pertukaran, Transaksi, dan Hubungan Pertukaran merupakan tindakan untuk memperoleh obyek yang didambakan dari seseorang dengan menawarkan sesuatu sebagai penggantinya. Transaksi adalah perdagangan antara dua pihak, yang paling sedikit melibatkan dua macam nilai, persetujuan mengenai kondisi, persetujuan mengenai waktu, dan persetujuan mengenai tempat. Sedangkan hubungan pemasaran adalah proses menciptakan, memelihara dan meningkatkan hubungan erat yang semakin lama semakin bernilai dengan pelanggan dan pihak-pihak berkepentingan yang lain. 5. Pasar Pasar adalah perangkat dari semua pembeli aktual dan potensial suatu produk atau jasa. 43