pendahuluan - SInTA UKDW - Universitas Kristen Duta Wacana

advertisement
BAB 1
PENDAHULUAN
1.1. Pendahuluan
Mesin hitung bernama Komputer sejak satu dekade ini telah tumbuh dan
berkembang dengan pesat. Perkembangan ini meliputi sisi teknologi, kapasitas
media penyimpanan, dan sebagainya, dan juga fungsinya. Selain itu harganya
semakin lama semakin terjangkau, sehingga komputer tidak lagi hanya digunakan
oleh perusahaan-perusahaan besar. Banyak perusahaan kecil atau kantor kecil
telah dilengkapi dengan komputer. Begitu juga dengan penggunaan perseorangan.
Adapun fungsi komputer telah bergeser dari sekedar mesin hitung berskala besar
menjadi mesin serba bisa, mulai dari pengolahan kata, gambar, film, suara,
jaringan, internet, dan games. Salah satu fungsi yang cukup sering digunakan
dalam perusahaan adalah pengolahan data perusahaan untuk dijadikan suatu
informasi yang berguna dan bernilai. Sistem ini disebut Sistem Informasi.
SI biasanya digunakan untuk menghasilkan informasi-informasi yang
bersifat manajerial dan terstruktur yang biasanya dimanfaatkan oleh sekelompok
orang pada tingkatan tertentu dalam menjalankan perusahaan.
Dengan berkembangnya kapasitas dan kompleksitas suatu perusahaan,
maka memungkinkan terjadinya berbagai masalah yang sifatnya semi terstruktur.
Sehubungan dengan masalah tersebut maka dari SI yang ada dikembangkanlah
suatu konsep basis data baru yang disebut dengan Data Warehouse (gudang data),
yang menyediakan data pendukung keputusan bagi end user untuk mengambil
keputusan atas permasalahan yang dihadapi oleh perusahaan.1
Dewasa ini, sejalan dengan perkembangan teknologi informasi, maka
semakin banyak perusahaan yang mempercayakan pengambilan keputusan dengan
sistem yang berbasis komputer, yaitu Data Mining Modeling.
2
Dengan
mempercayakan keakuratan dari Data Mining Modeling untuk mengolah Data
1
Poe Vidette, Klauer Patricia dan Brobst Stephen, Building A Data WareHouse for Decision
Support Second Edition. New Jersey : Prentice Hall Publishers, 2000, Hal : 18
2
Mehmed Kantardzic, Data Mining : Concepts, Models, Methods, and Algorithms. New Jersey :
John Wiley & Sons, 2003, Hal : 1
1
Warehouse, maka dapat membantu perusahaan menghindari resiko-resiko yang
merugikan.
Diharapkan dengan diterapkannya pengolahan data yang berukuran relatif
besar (Data Warehouse) menggunakan model mining pada kasus-kasus tertentu,
mampu menjadi standar yang tepat dalam menganalisis kelompok-kelompok data
yang berhubungan berdasarkan keadaan alami datanya, sehingga dapat menjadi
representasi yang tepat secara metodologi di kemudian hari.
1.2. Latar Belakang Masalah
Analisis suatu kelompok data yang berjumlah banyak atau berukuran besar
bila dilakukan secara manual (dalam arti tidak ada program bantu) hal ini sangat
sulit dilakukan, juga ketepatan dan keakuratan hasil analisis masih diragukan.
Selain itu, proses secara manual tentunya akan menggunakan tenaga yang banyak
dan waktu yang cukup lama, sehingga bagi perusahaan tentunya ini akan menjadi
beban tersendiri.
Instansi pendidikan adalah salah satu instansi yang memungkinkan
memiliki data yang besar untuk dilakukan analisis. Salah satu analisis yang
mungkin dilakukan adalah hubungan nilai tes masuk terhadap nilai akademik
mahasiswa. Hal tersebut berkaitan erat dengan kualitas pendidikan yang
dipergunakan oleh instansi tersebut, yang secara tidak langsung akan
mempengaruhi sumber daya manusia yang dihasilkan olehnya. Sehingga juga
akan mempengaruhi nilai akademik seorang mahasiswa.
Universitas Kristen Duta Wacana, selaku salah satu instansi pendidikan di
Jogjakarta, selama ini dalam mengadakan analisis masih menggunakan metode
yang berlainan untuk tiap tahunnya. Hal ini akan mengakibatkan hasil analisis
yang ada menjadi kurang tepat dalam memprediksi perkiraan yang ada. Untuk
melakukan analisis yang lebih tepat, harus dipilih metode yang benar-benar teruji.
Untuk itu, metode data mining diharapkan mampu menyelesaikan masalah
tersebut.
Metode data mining pada dasarnya merupakan metode pencarian pola data
tersembunyi dari sebuah basis data yang besar. Pada metode clustering, proses
2
analisis dilihat dari pengelompokan spontan yang terjadi berdasarkan keadaan
masing-masing data tanpa terlebih dahulu diberikan kelas-kelasnya. Metode
clustering sendiri sebenarnya ada beberapa, diantaranya metode K-Medoid
Clustering, metode K-Means Partitional Clustering dan metode Fuzzy C-Means
Clustering. Permasalahannya adalah metode mana yang lebih sesuai digunakan
pada kasus hubungan nilai tes penerimaan mahasiswa dengan nilai akademik
mahasiswa, sehingga nantinya mampu menjadi standar yang tepat dalam
menganalisis kelompok data yang berhubungan berdasarkan keadaan alami
datanya, sehingga dapat menjadi representasi yang tepat secara metodologi di
kemudian hari.
1.3. Rumusan Masalah
Berdasarkan permasalahan di atas, maka diperlukan suatu sistem
pendukung (program bantu) untuk mempermudah dalam menganalisis dan
membandingkan metode mana yang lebih baik, sehingga program dengan metode
yang lebih baik dapat digunakan untuk membuat keputusan yang diambil menjadi
lebih mudah. Dalam hal ini, metode yang digunakan dalam pembuatan program
bantu tersebut adalah metode K-Means Partitional Clustering dan metode Fuzzy
C-Means Clustering, yang kemudian hasil yang diperoleh dari kedua metode
tersebut akan diperbandingkan.
Secara garis besar, sistem ini memiliki rumusan masalah sebagai berikut :
1. Penerapan metode Fuzzy C-Means Clustering dan metode K-Means
Clustering sebagai metode cluster data mining.
2. Membuktikan bahwa algoritma Fuzzy C-Means Clustering dan K-Means
Clustering mampu memperlihatkan pengelompokan data yang terjadi
berdasarkan keadaan alami data tanpa pendefinisian kelas data terlebih
dahulu.
3. Membandingkan algoritma Fuzzy C-Means Clustering dengan algoritma
K-Means Clustering untuk melihat hasil yang mana lebih baik,
perbandingan dilihat dari kecepatan, jumlah iterasi, dan batas error.
3
1.4. Batasan Masalah
Pada permasalahan ini, pembuatan sistem mempunyai batasan-batasan
sebagai berikut :
1. Sistem menggunakan metode Fuzzy C-Means Clustering dan metode KMeans Clustering untuk menangani data nilai tes potensial penerimaan
mahasiswa teknik informatika UKDW angkatan 1998 hingga angkatan
2000 ( masing-masing 4 semester awal), dan dilihat korelasi/hubungannya
terhadap hasil nilai akademik.
2. Sistem menggunakan tampilan secara grafik (visual) sebagai gambaran
proses clustering, dan teks dari hasil clustering tersebut sesuai dengan
parameter inputan user, dimana parameter pembanding antara dua metode
tersebut antara lain kecepatan, jumlah iterasi, dan batas error.
1.5. Gambaran Kerja Sistem (Input, Proses, Output )
Clustering dengan metode
Fuzzy C-Means
Proses
Pembandingan
Clustering dengan metode K-Means
Data Mart Hasil Tes
PMB dan Nilai IPA/IPS
Data Mart Nilai
Akademik Mahasiswa
D
a
t
a
C
l
e
a
n
i
n
g
Interface
ANALISIS DATA
MINING
Visualisasi Hasil Clustering dan
Perbandingan
Input :
y
Parameter X;
y
Parameter Y;
y
B a nya k
kelompok (k)
Gambar 1.1 Gambaran Kerja Sistem
Pada Gambar 1.1, proses yang dilakukan adalah data mentah yang
diperoleh, yaitu data hasil tes penerimaan mahasiswa teknik informatika angkatan
1998-2000 dan data nilai akademik mahasiswa, akan dianalisis dengan terlebih
4
dahulu melalui tahap preprocessing, dalam hal ini adalah data cleaning.
Kemudian dengan inputan dari pengguna, maka data yang telah dibersihkan akan
dianalisis dengan menggunakan metode K-Means dan Fuzzy C-Means. Hasil yang
didapat kemudian divisualisasikan dan dibandingkan. Keluaran dari program
selain visualisasi adalah resume hasil perbandingan, dan beberapa laporan lainnya.
1.6. Tujuan Penelitian
Penelitian dan pembuatan sistem ini dilakukan dengan tujuan :
1. Sebagai syarat kelulusan pada program studi Teknik Informatika UKDW.
2. Menerapkan metode penggalian data (data mining) dari sebuah gudang
data (data warehouse) untuk memperoleh pengetahuan yang tersembunyi
di dalamnya dengan menggunakan kasus nyata.
3. Membantu pihak instansi pendidikan, dalam hal ini program studi teknik
informatika, untuk melakukan suatu analisis pengelompokan data nilai
akademik mahasiswa yang dihubungkan dengan data nilai tes penerimaan
mahasiswa baru.
1.7. Spesifikasi Sistem
Sistem yang dibuat diharapkan mampu melakukan proses perhitungan
yang iteratif dan mampu menampilkan output secara visual dari hasil analisis.
Dari output yang ada, hasilnya diperbandingkan.
Pada permasalahan ini kasus yang dipakai adalah data nilai tes masuk
mahasiswa angkatan 1998 - 2000 dan data nilai akademik mahasiswa Teknik
Informatika dari mahasiswa 1998 – 2000 ( diambil nilai 4 (empat) semester awal).
Adapun pembuatan sistem mempunyai spesifikasi sebagai berikut:
a. Sistem menggunakan metode k-Means Partitional Clustering dan metode
Fuzzy C-Means Clustering untuk menangani clustering data.
b. Sistem mempunyai 3 buah variabel input (untuk masing-masing metode),
yaitu : bahan analisis yang terdiri atas persentase kemampuan nilai
akademik mahasiswa sebagai komponen sumbu X grafik clustering, nilai
5
tes potensi akademik mahasiswa sebagai komponen sumbu Y grafik
clustering dan banyak cluster yang diinginkan.
c. Sistem mampu menampilkan tampilan visualisasi berupa grafik dan teks
dari hasil clustering tersebut yang sesuai dengan parameter inputan
pengguna.
d. Sistem mampu menampilkan detail data nilai tes potensial akademik dan
data nilai akademik mahasiswa untuk setiap anggota cluster.
Sistem yang dibuat menggunakan spesifikasi software dan hardware
sebagai berikut:
1. Penggunaan Hardware :
a. 1 (satu) unit PC IBM dengan prosesor AMD® Athlon® XP 1700+;
b. DDR RAM PC2700 256 MB;
c. Monitor SVGA 14 inci;
d. Hard Disk Quantum® 5400 rpm 30 GB.
2. Penggunaan Software :
a. Microsoft® Windows® XP Profesional Edition;
b. Microsoft® Excel 2003;
c. Microsoft® Visual Basic® 6.0 Enterprise Edition;
d. Microsoft® SQL Server® 2000 Profesional Edition
e. Microsoft® Visual FoxPro® 6.0
f. Dan beberapa software pendukung lainnya.
Sementara itu kebutuhan Brainware dalam sistem ini adalah :
1. Pengguna yang mampu untuk melakukan analisis data terutama analisis
data mining dengan metode clustering (dosen, praktisi),
2. Programmer untuk membuat, memperbaiki, dan mengembangkan sistem
yang dibuat dan menguasai programming dengan Microsoft® Visual
Basic® 6 dan Microsoft® SQLServer® 2000, dan
6
3. Pengguna yang membutuhkan aplikasi ini, mengerti menggunakan
komputer,
memahami
penyebaran
data,
dan
mengerti/memahami
mengenai data warehousing, data mining, dan clustering.
Sistem ini tidak dianjurkan untuk digunakan oleh pengguna komputer
biasa, karena kekomplekan sistem akan membuat bingung pengguna yang tidak
memahami tentang penyebaran data, data warehousing, data mining, dan
clustering.
1.8. Metodologi Penelitian
Metode yang digunakan dalam Tugas Akhir ini antara lain :
1. Penelitian pustaka
-
Dilakukan dengan studi pustaka/literatur dengan menggunakan
buku-buku yang mendukung proses pelaksanaan Tugas Akhir.
-
Mencari informasi melalui internet untuk membantu membangun
sistem.
2. Penelitian lapangan
-
Melakukan pengumpulan data melalui wawancara dengan pihak
universitas untuk memperoleh keterangan dan data yang
dibutuhkan untuk mendukung penyelesaian Tugas Akhir.
-
Pengamatan dan studi tentang kebutuhan-kebutuhan yang
mendasar untuk pembangunan sistem.
1.9. Sistematika Penulisan
Sistematika penulisan yang dipergunakan pada tugas akhir ini disesuaikan
dengan ketentuan yang telah diatur pada tata cara penulisan tugas akhir program
studi teknik informatika Universitas Kristen Duta Wacana.
Pada bab kesatu, yakni pendahuluan berisikan latar belakang permasalahan,
rumusan masalah, tujuan penulisan, spesifikasi program dan sistematika penulisan.
7
Mengenai teori-teori yang mendasari program secara teoritis dapat dilihat
pada bab kedua yang berjudul landasan teori.
Sedangkan pada bab ketiga yang berjudul analisis dan perancangan sistem,
akan dijelaskan mengenai rancangan sistem yang dibuat baik desain basis data
secara dimensional maupun kerangka tampilan program didalam pola sistem
masukan dan keluaran.
Hasil akhir dari analisis dan perancangan sistem akhirnya akan
diimplementasikan dalam bentuk program. Sistem yang sudah jadi berikut
penjelasan form-form yang digunakan didalamnya dapat dilihat pada bab keempat,
yang berjudul implementasi sistem.
Bab kelima yang berjudul kesimpulan dan saran, berisikan kesimpulan
dari proses pembuatan sistem berikut hasil yang dicapai yang nantinya akan
berguna sebagai saran pengembangan selanjutnya dari program ini.
1.10. Jadwal Kegiatan Tugas Akhir
Jadwal penyelesaian Tugas Akhir ini akan dipaparkan seperti tabel di
bawah ini. Tugas Akhir dimulai pada minggu pertama bulan Februari 2004
sampai akhir bulan Februari 2005. Gambar 1.2 di bawah ini menunjukkan jadwal
kegiatan mulai dari penyerahan proposal hingga presentasi akhir.
Gambar 1.2. Jadwal Kegiatan
8
Download