1 METODE CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK REKOMENDASI PEMILIHAN BIDANG KEAHLIAN PADA PROGRAM STUDI TEKNIK INFORMATIKA Muhammad Faisal Mirza A11.2009.04930 Program Studi Teknik Informatika –S1 Fakultas Ilmu Komputer Universitas Dian Nuswantoro, Jl. Nakula 1 No. 5-11. Semarang [email protected] ABSTRAK Fakultas ilmu komputer merupakan salah satu fakultas favorite di Universitas Dian Nuswantoro terutama pada jurusan Teknik Informatika. Jurusan Teknik Informatika sendiri rencananya akan dibagi menjadi 3 bidang keahlian yaitu Keahlian Informatic, Software develop and enginer, dan Networking. Dalam pembagian bidang keahlian tersebut banyak mahasiswa akan mengalami kesulitan untuk menentukan keahlian mana yang akan diambilnya. Maka dari itu butuh rekomendasi untuk mereka.Fuzzy C-means adalah suatu teknik pengklasteran data yang mana keberadaan pada setiap titik data dalam suatu klaster ditentukan oleh derajat keanggotaan. Beberapa penelitian telah menghasilkan kesimpulan bahwa algoritma Fuzzy C-Means dapat dipergunakan untuk mengelompokkan data berdasarkan atribut-atribut tertentu. Pada penelitian ini akan digunakan algoritma Fuzzy C-Means untuk mengelompokkan mahasiswa berdasarkan transkip nilai mata kuliah prasayarat untuk rekomendasi penjurusan. tujuan dari penelitian ini adalah menerapkan metode clustering dengan Algoritma Fuzzy C-Means dalam kasus pengelompokkan mahasiswa berdasarkan transkip nilai mata kuliah prasyarat untuk rekomendasi pemilihan bidang keahlian. Kata kunci : clustering, rekomendasi penjurusan mahasiswa untuk BAB I mereka, Untuk merekomendasikan mahasiswa yang begitu banyak tentu tidak PENDAHULUAN mudah karena kita harus mengelola data yang 1.1. Latar Belakang begitu besar yang memiliki jumlah field dan Fakultas ilmu komputer merupakan salah satu jumlah record yang begitu banyak. Teknologi fakultas data mining merupakan salah satu alat bantu favorite di Universitas Dian Nuswantoro terutama pada jurusan Teknik untuk Informatika. Jurusan Teknik Informatika sendiri berukuran besar dan dengan spesifikasi tingkat rencananya akan dibagi menjadi 3 bidang kerumitan yang telah banyak digunakan pada keahlian yaitu Keahlian Informatic, Software banyak domain aplikasi seperti perbankan develop and enginer, dan Networking. Dalam maupun bidang telekomunikasi [1]. oleh karena pembagian bidang keahlian tersebut banyak itu teknologi data mining dapat dimanfaatkan mahasiswa akan mengalami kesulitan untuk untuk melakukan pengelompokkan mahasiswa menentukan akan berdasarkan nilai mata kuliah yang terkait diambilnya. Maka dari itu butuh rekomendasi dengan bidang keahlian yang ada sehingga keahlian mana yang penggalian data pada basis data 2 dapat memberikan gambaran kepada mahasiswa atau tingkat keanggotaan yang berbeda untuk memilih program keahlian yang sesuai antara 0 hingga 1 [5]. dengan kemampuan mereka. Clustering merupakan salah 1.2. Rumusan Masalah satu metode data mining. Clustering Berdasarkan uraian yang kami berguna untuk mengelompokkan data kemukakan di (objek) yang didasarkan pada informasi penelitian ini dapat diambil rumusan yang ditemukan data yang masalah sebagai berikut “bagaimana tersebut dan menerapkan metode Clustering dengan hubungan diantaranya [2].pada penelitian alogritam Fuzzy C-means dalam kasus yang dilakukan oleh jimmy, Sherwin [4] pengelompokkan mahasiswa berdasarkan tentang segmentasi citra spot dengan transkip nilai mata kuliah prasyarat menggunakan pendekatan Fuzzy C- sebagai rekomendasi untuk mengambil means menyimpulkan bahwa metode bidang keahlian yang sesuai dengan logika kemampuan mahasiswa. menggambarkan samar dalam atas maka dalam objek (Fuzzy C-Means Clustering) memiliki tingkat kestabilan ouput / hasil yang lebih baik daripada 1.3. Batasan Masalah pendekatan metode konvensional (K- Batasan masalah untuk penelitian ini Means meliputi : Clustering). sedangkan pada penelitian yang dilakukan oleh Budi, a. Penelitian ini diberlakukan untuk Rizal [7] tentang pembagian kelas kuliah program studi Teknik Informatika S1 mahasiswa algoritma Fakultas Ilmu Komputer Universitas C-Means Dian Nuswantoro. menggunakan pengklasteran Fuzzy menyimpulkan bahwa Fuzzy C-means b. cocok untuk alokasi mahasiswa menjadi ini akan c. menggunakan menggunakan data Penelitian ini menggunakan transkip nilai mata kuliah prasyarat. algoritma Fuzzy C-means. Fuzzy Cmeans Clustering ini mahasiswa angkatan 2009. beberapa kelas. Oleh karena itu dalam penelitian Penelitian d. adalah salah satu Penelitian ini diaplikasikan menggunakan matlab 7.10. algoritma clustering yang merupakan bagian dari metode Hard K-Means. Fuzzy C-means menggunakan model 1.4. Tujuan Penelitian Berdasarkan rumusan masalah diatas pengelompokan Fuzzy sehingga data maka dapat menjadi anggota dari semua kelas menerapkan metode clustering dengan atau cluster terbentuk dengan derajat Algoritma Fuzzy C-Means tujuan penelitian ini adalah dalam kasus pengelompokkan mahasiswa berdasarkan 3 1.5. transkip nilai mata kuliah prasyarat untuk memberikan gambaran untuk penjurusan rekomendasi pemilihan bidang keahlian. berdasarkan nilai siswa semester lalu. jimmy, Sherwin [4] dengan judul Manfaat Penelitian Manfaat dari penelitian ini adalah : “Segmentasi a. Bagi Penulis, penelitian ini berguna Menggunakan Pendekatan Fuzzy C-means”. untuk wawasan Sistem tersebut memberikan perbandingan metode segmentasi citra spot antara Fuzzy C-means menambah mengenai data mining Clustering dengan algoritma Fuzzy Bagi Program Studi Informatika, c. Budi, Teknik penelitian rizal “Pembagian ini Fuzzy” membantu membuat dalam [7] Kelas Menggunakan merupakan salah satu upaya untuk mahasiswanya Spot dengan dengan K-means. C-means beserta penerapannya. b. Citra dengan Kuliah Algoritma judul Mahasiswa Pengklasteran sistem tersebut bertujuan untuk pembagian kelas mahasiswa memilih bidang keahlian. berdasarkan nilai prestasi pada mata kuliah Hasil penelitian ini juga dapat yang menjadi prasyarat untuk menempuh dimanfaatkan mata kuliah yang baru. sebagai referensi untuk penelitian selanjutnya. 2.2 Landasan teori 2.2.1 BAB II LANDASAN TEORI DAN TINJAUAN Data mining Secara sederhana data mining adalah penambangan atau penemuan informasi PUSTAKA baru dengan mencari pola atau aturan 2.1 tertentu dari sejumlah data yang sangat Tinjauan Pustaka Penelitian mengenai pengelompokkan data untuk mendapatkan informasi tentang rekomendasi penjurusan bukanlah baru pertama kali ini dilakukan , sudah ada penelitian metode terdahulu clustering tentang penerapan tersebut. Penelitian terdahulu yang relevan dengan penelitian ini wijaya [3] dengan judul “Analisis K-means sebagai knowledge discovery in database (KDD). KDD adalah kegiatan yang meliputi pengumpulan, pemakaian data, historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar [10]. Data mining adalah kegiatan menemukan pola yang menarik adalah sebagai berikut. Algoritma besar[9]. Data mining, sering juga disebut untuk Sistem Pendukung Keputusan Penjurusan Siswa di MAN Binong Subang”. Sistem tersebut dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse, atau penyimpanan informasi lainnya. Data mining berkaitan dengan bidang ilmu – ilmu lain, seperti database system, data 4 warehousing, statistik, machine learning, gunungan data. Kata mining sendiri information berarti usaha untuk mendapatkan retrieval, dan komputasi tingkat tinggi. Selain itu, data mining sedikit didukung oleh ilmu lain seperti neural sejumlah besar material dasar. network, pengenalan pola, spatial data analysis, image berharga dari Karena data mining adalah signal suatu rangkaian proses, data mining processing [10]. Data mining didefinisikan dapat dibagi menjadi beberapa sebagai pola-pola tahap. Tahap-tahap tersebut bersifat dalam data. Proses ini otomatis atau interaktif di mana pemakai terlibat seringnya yang langsung atau dengan perantaraan ditemukan harus penuh arti dan pola knowledge base. Tahap-tahap ini tersebut memberikan keuntungan, biasanya diilustrasikan di Gambar 2.1: proses database, barang menemukan semiotomatis. Pola keuntungan secara ekonomi. Data yang dibutuhkan dalam jumlah besar[12]. Karakteristik data mining sebagai berikut : a. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya. b. Data mining menggunakan biasa data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih Data mining berguna untuk membuat keputusan yang kritis, terutama dalam Berdasarkan beberapa pengertian yang telah disebutkan maka Pembersihan data (data cleaning) Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan. Pada umumnya data strategi [9]. diatas, Tahap-tahap data mining ada 6 yaitu : a. dipercaya. c. Gambar 2.1 tahap-tahap data mining dapat ditarik kesimpulan bahwa data mining adalah suatu teknik untuk menggali informasi yang tersembunyi pada yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah 5 ketik. Selain itu, ada juga atribut- antar produk yang sebenarnya tidak atribut data yang tidak relevan ada. dengan hipotesa data mining yang c. dimiliki. Data-data yang Seleksi Data (Data Selection) tidak Data yang ada pada relevan itu juga lebih baik dibuang. database sering kali tidak Pembersihan semuanya data mempengaruhi juga akan oleh dari karena itu hanya data yang teknik data mining karena data sesuai untuk dianalisis yang yang ditangani akan berkurang akan diambil dari database. jumlah dan kompleksitasnya. Sebagai contoh, sebuah kasus b. performasi dipakai, Integrasi data (data yang integration) Integrasi meneliti faktor kecenderungan data orang merupakan membeli dalam kasus market penggabungan data dari berbagai basket analysis, tidak perlu database ke dalam satu database mengambil nama pelanggan, baru. Tidak jarang data yang cukup dengan id pelanggan diperlukan untuk data mining tidak saja. hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi d. Transformasi data (Data diubah atau Transformation) Data data dilakukan pada atribut-aribut digabung ke dalam format yang mengidentifikasikan entitas- yang sesuai untuk diproses entitas yang unik seperti atribut dalam data mining. Beberapa nama, metode jenis produk, nomor data mining pelanggan dan lainnya. Integrasi membutuhkan data perlu dilakukan secara cermat yang khusus sebelum bisa karena kesalahan pada integrasi diaplikasikan. Sebagai contoh data bisa menghasilkan hasil yang beberapa menyimpang seperti analisis asosiasi dan menyesatkan nantinya. dan bahkan pengambilan Sebagai contoh format metode data standar aksi clustering hanya bisa bila menerima input data integrasi data berdasarkan jenis kategorikal. Karenanya data produk ternyata menggabungkan berupa angka numerik yang produk dari kategori yang berbeda berlanjut perlu dibagi-bagi maka akan didapatkan korelasi menjadi beberapa interval. 6 Proses e. ini sering disebut mengenai yang transformasi data. digunakan untuk memperoleh Proses mining pengetahuan yang diperoleh Merupakan suatu pengguna. Tahap terakhir dari proses utama saat metode proses data mining adalah diterapkan untuk menemukan bagaimana memformulasikan pengetahuan keputusan atau aksi dari hasil berharga dan tersembunyi dari data. f. metode Evaluasi pola analisis yang didapat. Ada (pattern kalanya evaluation) hal ini harus melibatkan orang-orang yang Untuk tidak memahami data mining. mengidentifikasi pola-pola Karenanya presentasi hasil menarik kedalam knowledge data mining dalam bentuk based yang ditemukan. Dalam pengetahuan tahap ini hasil dari teknik data dipahami semua orang adalah mining berupa pola-pola yang satu tahapan yang diperlukan khas maupun model prediksi dalam proses data mining. dievaluasi Dalam untuk menilai yang presentasi apakah hipotesa yang ada visualisasi memang membantu bisa ini, juga bisa ternyata hasil yang diperoleh mengkomunikasikan hasil tidak sesuai hipotesa ada data mining [11]. tercapai. Bila beberapa alternatif yang dapat diambil seperti 2.2.2 Clustering menjadikannya umpan balik untuk g. memperbaiki proses Clustering adalah pekerjaan mengelompokkan yang data mining lain yang lebih informasi yang ditemukan dalam sesuai, atau menerima hasil data yang menggambarkan objek ini sebagai suatu hasil yang di tersebut dan hubungan diantaranya luar dugaan yang mungkin [11]. Tujuannya adalah agar objek- bermanfaat. objek pengetahuan (knowledge presentation) sebuah yang bergabung kelompok objek-objek hanya (objek) data mining, mencoba metode Presentasi didasarkan data yang pada dalam merupakan mirip (atau Merupakan visualisasi berhubungan) satu sama lain dan dan penyajian pengetahuan berbeda (atau tdak berhubungan) 7 dengan objek dalam kelompok maka dapat dilihat bahwa pusat klaster akan yang lain. Lebih besar kemiripanya bergerak menuju lokasi yang tepat. Perulangan ini (homogenitas) kelompok didasarkan pada minimisasi fungsi objektif yang perbedaanya menggambarkan jarak dari titik data yang dianara kelompok yang lain [13]. diberikan ke pusat klaster yang terbobot oleh Menurut dalam derajat keanggotaan titik data tersebut. Keluaran kelompok, pengelompokkan dapat dari Fuzzy C-means bukan merupakan sistem dibagi menjadi dua, yaitu eksklusif inferensi kabur, namun merupakan deretan pusat dan Dalam klaster dan beberapa derajat keanggotaan untuk kategori eksklusif sebuah data bisa tiap tiap titik data. Algoritma Fuzzy C-means dipastikan hanya menjadi anggota sebagai berikut. dan lebih dalam besar keanggotaan tumpang tindih. satu kelompok dan tidak menjadi a) anggota kelompok lain. Metode berupa matriks berukuran n×m ( n = jumlah pengelompokkan masuk sampel data, m = atribut setiap data). ik U = dalam kategori ini adalah K-means data sampel ke-i (i =1,2,...,n), atribut ke- k( k dan DBSCAN, sedangkan yang =1,2,...,m). yang Masukan data yang akan diklaster U , masuk kategori tumpang tindih b) Menetapkan nilai pangkat w adalah metode yang membolehkan >1 (misal: w =2), Eps (galat sebuah data menjadi anggota di terkecil) (misal: 10-5), MaxIter lebih dari satu kelompok yaitu (misal:100), jumlah klaster c > Fuzzy C-means, pengelompokkan 1, dan t = 0 ; Menetapkan hierarki [13]. fungsi objektif awal: P (c) t secara acak; 2.2.3 c) Fuzzy C-means Fuzzy C-means adalah suatu f µ awal sembarang, sebagai teknik pengklasteran data yang mana keberadaan berikut. pada setiap titik data dalam suatu klaster ( ) ditentukan oleh derajat keanggotaan. Konsep dasar Fuzzy C-means, yang pertama adalah menentukan pusat klaster, yang berfungsi untuk menandai lokasi rata-rata untuk tiap-tiap klaster. Pada kondisi awal, pusat klaster ini masih belum akurat. Tiap-tiap titik data memiliki derajat Menetapkan matriks partisi (c) = . . . . . . (1) keanggotaan untuk tiap-tiap klaster. Dengan cara memperbaiki pusat klaster dan derajat keanggotaan tiap-tiap titik data secara berulang . . . . . . . . . . . . . . . d) Menaikkan nomor iterasi: t = t +1. 8 e) Menghitung pusat vektor tiaptiap klaster untuk matrik partisi No Judul Pengarang jenis tersebut sebagai berikut. 1 Data Mining Eko Buku Konsep Prasetyo = (2) ∑ ∑ Memodifikasi !( !( ) ) tiap-tiap Menggunakan Matlab 2 nilai |" − = $% & " − | * ! • !/( -!) -! |) + * |) Siswa Di Man Binong Subang 3 Pembagian Helmy Kelas Kuliah Yulianto (0 ) = 1, jika i = g ; Mahasiswa Hadi, (0 ) = 0, jika i ≠ g ; Menggunakan Rizal Algoritma Isnanto, Pengklasteran Budi Fuzzy Setiyono ( ) Menghitung fungsi objektif: . = % %(5 ) |" − (5) 6 wijaya Penjurusan / Jika 0 = 1 , 23(4) Algortima K- Pendukung (4) f) jurnal Keputusan . (3) Arim Sistem Jika k fi y ≠ v , " (# ) Analisis Means Untuk keanggotaan sebagai berikut. • dan Aplikasi ! |) g) Memodifikasi matriks partisi sebagai berikut: . . . = . . . . . . (6) h) Mengecek kondisi Jurnal R. . . . . . . . . . untuk berhenti, yaitu: (|78 ( ) − 78- ( )| < :;< )>?> (? > A>BC?DE) Jika ya berhenti, dan jika tidak ulangi kembali ke langkah-5 [7]. . . . 9 BAB III METODE PENELITIAN 3.1 No Pertanyaan 1 Jurusan Jenis Penelitian Penelitian yang dilaksanakan adalah jenis penelitian eksperimen, 2 -software teknik develop and informatika enginer Fakultas ilmu -Network pengelompokkan diterapkan berdasarkan transkrip nilai mata disemester pengumpulan 3 algoritma beberapa data disemester 5 tersebut..? membuat C-means, diterapkan penjurusan Metode Pengumpulan Data Fuzzy Akan berapa dengan bidang keahlian. Untuk di Akan kuliah prasyarat yang berhubungan 3.2 -Informatik ada di Jurusan udinus..? implementasi algoritma Fuzzy Cdalam saja yang akan komputer yaitu Mencoba untuk melakukan Means Jawaban apa dan teknik Bagaimana Saat konsep masih penjurusan peminatan.., tersebut..? belum variable penjurusan. 4 Studi kepustakaan dan literatur, Kenapa belum di digunakan untuk mendapatkan data Contoh penjurusan dan saat ini yang rekomendasi kepustakaan Untuk terapkan awal tentang dasar Fuzzy C-means. studi ada rekomendasi digunakan, diantaranya adalah : a. ini konsepnya belum siap. literature yang saya gunakan adalah : 3.3 Tabel 3.1 Literatur Sumber Data a. b. Jenis data yang digunakan yaitu dalam penelitian ini berupa data memperoleh primer dan data sekunder: Data data tentang pembagian bidang Primer: berupa data tentang keahlian di program studi Teknik mekanisme Informatika Wawancara dilakukan mendalam, untuk Komputer Nuswantoro. dilakukan Teknik pelaksanaan Fakultas Ilmu pemilihan bidang keahlian yang Universitas Dian diperoleh dengan wawancara ini kepada kepala program studi Wawancara dengan Informatika. kaprogdi Data wawancara tersebut dapat dilihat Teknik Ilmu Informatika Komputer Fakultas Universitas Dian Nuswantoro. dibawah ini : Tabel 3.3 Mekanisme Tabel 3.2 Wawancara Pemlihan Bidang 10 N Pertanya o an 1 Akan dilakukan pada bulan Maret 2013. 3.5 Tahap-Tahap Penelitian Tahap-tahap penelitian ini meliputi diterapka 1. n Akan disemest ambil r5 an kompetensi untuk Mata kuliah yang wajib di disemeste penjurus Tahap pemilihan peminatan diterapkan er berapa 2 Dian Nuswantoro. Waktu penelitian Jawaban sebelum peminatan adalah sebagai berikut : tersebut.. a. Kalkulus ? b. Fisika c. Matematika diskrit Bagaima Saat ini na masih d. Dasar pemrograman konsep peminatan e. Rekayasa penjurus .., an ada tersebut.. rekomend ? asi g. Sistem digital penjurusa h. Sistem operasi n. i. Organisasi perangkat lunak belum f. Algoritma pemrograman dan arsitektur komputer b. Data Sekunder: berupa data Dan berikut adalah bidang mahasiswa mata keahlian yang akan menjadi dan nilai kuliah prasayarat yang pilihan mahasiswa: diperoleh dari data a. Informatik b. Software Developt and ruang (database akademik). 3.4 Enginer Tempat dan Waktu Penelitian Dalam c. melaksanakan penelitian ini, tempat yang dijadikan bahan penelitian yaitu Program Studi 2. Network Tahap Praprocessing Data Tahap praprocessing Teknik Informatik Fakultas Ilmu data adalah tahap dimana kita Komputer Dian mencari nilai dari masing- Nuswantoro tepatnya di ruang data masing mata kuliah bidang dan di ruang dosen di meja kepala keahlian. program Informati kuliah bidang keahlian didapat Fakultas Ilmu Komputer Universitas dari mencari nilai rata-rata dari Universitas studi Teknik Nilai dari mata 11 b. Bidang Software Developt setiap mata kuliah prasyarat dari masing-masing and Enginer bidang keahlian. Untuk mengetahui SDE mata kuliah prasyarat dari PFIFN QLKNRSNFKFT J FGSRN 8KF QLKNRSNFKFT J UVW masing-masing bidang Network = X I8LK RQLNFI J I I8LK M S 8FG J RNSFT IFI MFT FNI 8L 8HN R korelasi antara mata kuliah dengan O c. Bidang Network keahlian kita dapat melihat prasyarat = O bidang keahlian sebagai berikut : 3. Tahap Pengolahan Data Kalkulus Tahap pengolahan data adalah tahap dimana data Fisika Informati yang telah di dapat nilai Matematika Diskrit rata-ratanya tadi diproses sesuai Dasar Pemrogram algoritma Fuzzy C-means untuk di cari Rekayasa Perangkat SDE dengan nilai derajat keanggotaannya. Nilai derajat keanggotan ini yang akan Algoritma Pemrogram digunakan sebagai acuan untuk menentukan mahasiswa Sistem masuk ke kelompok apa. Sistem Network BAB V KESIMPULAN DAN SARAN Organisai & arsitektur Komputer 5.1 Kesimpulan 1. Algoritma Fuzzy C-means untuk Gambar 3.1 : korelasi antara bidang keahlian dengan matakuliah prasyarat. Berikut cara perhitungan nilai rata-rata mata kuliah prasyarat berdasarkan bidang keahlian. a. Bidang keahlian Informatik Informatik FG HGHI J = I F J KF8LKF8 F M I N 8 O rekomendasi penjurusan dapat di terapkan dengan memanfaatkan keluaran Ui sebagai penentu setiap mahasiswa masuk ke kelompok mana dan memanfaatkan hasil keluaran Vi untuk menentukan setiap kelompok diidentifikasikan sebagai jurusan apa. 2. Dari hasil pengelompokkan kita juga dapat mengetahui rata-rata nilai 12 mahasiswa di setiap jurusan dengan memanfaatkan hasil keluaran Vi. 3. Algoritma Fuzzy C-means menggunakan iterasi yang berulangulang untuk menentukan pengelompokkan. Iterasi tersebut diulang hingga mendekati fungsi objektif yang paling optimal. 5.2 Saran 1. Penilitian ini hanya sebagai penerapan dari algoritma Fuzzy Cmeans. Agar disarankan lebih di bermanfaat bangun sistem informasinya. 2. Agar mendapatkan hasil clustering yang lebih optimal disarankan melakukan penelitian lebih lanjut untuk memodifikasi algoritma Fuzzy C-means atau menggabungkan algoritma Fuzzy C-means dengan algoritma lain.