Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Vol. 2, No. 5, Mei 2018, hlm. 1986-1990 e-ISSN: 2548-964X http://j-ptiik.ub.ac.id Penentuan Pemenang Tender Menggunakan Kombinasi KNearest Neighbor dan Cosine Similarity (Studi Kasus PT. Unichem Candi Indonesia) Surya Dermawan1, Edy Santoso2, Lailil Muflikhah3 Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: [email protected], [email protected], 3 [email protected] Abstrak Dalam pengambilan keputusan penentuan pemenang tender pada PT. Unichem Candi Indonesia masih bersifat manual. Hal ini disebabkan kurangnya pengetahuan dalam pengambilan keputusan. Data mining juga disebut sebagai serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data. Salah satu teknologi yang dapat digunakan untuk sistem informasi penentuan pemenang tender yaitu K-NN dan cosine similarity dimana teknologi ini menjadi yang efisien dan efektif bila diterapkan pada masalah di PT.Unichem Candi Indonesia. Algoritme K-NN adalah metode yang menggunakan algoritme supervised, dimana hasil. Nilai K merupakan jumlah data latih terdekat terhadap data uji. Dari Hasil pengujian pengaruh parameter nilai k diperoleh akurasi sebesar 73% dimana nilai yang tertinggi, yaitu k =2. Pengujian dengan jumlah data latih dan data uji yang seimbang akan mempengaruhi besarnya nilai akurasi yang akan didapatkan. Berdasarkan hasil pengujian dengan jumlah data latih dan data uji didapatkan nilai akurasi sebesar 83% dimana nilai yang tertinggi, yaitu k = 4. Kata kunci: Data Mining , k-nn Algorithm, Cosine Similarity Abstract In decision of determination of auction in PT. Unichem Candi Indonesia is still manual. Due to this lack of knowledge in decision making. Data mining is also referred to as a series of processes to explore the added value of knowledge that has so far not been known manually from a data set. One of the technology that can be used for information system of tender winner determination is K-NN and cosine similarity which this technology become efficient and effective when applied to problem in PT. Unichem Candi Indonesia. The KNN algorithm is a method that uses a supervised algorithm, where. The K value is the amount of nearest training data to the test data. From the test results the effect of the value of k obtained accuracy of 73% where the highest value, ie k = 2. Testing with the amount of trainee data and test data are balanced will affect the amount of accuracy that will be obtained. Based on the test results with the amount of training data and test data obtained an accuracy value of 83% where the highest value, ie k = 4. Keywords: Data Mining , k-nn Algorithm, Cosine Similarity. cepat dan mudah, sehingga informasi yang diharapkan cepat didapatkan. PT. Unichem Candi Indonesia merupakan perusahaan swasta yang bergerak di bidang industri kimia dan garam konsumsi. Sebagai Perusahaan yang terkait dengan konsumsi publik, PT. Unichem Candi Indonesia dapat berusaha menjaga kualitas pelayanan dengan selalu menjaga kinerja produksi perusahaan. Kinerja perusahaan tidak terlepas dari kebutuhan 1. PENDAHULUAN Sistem atau aplikasi telah menjadi bagian didalam kehidupan manusia modern saat ini. Berbagai macam sistem baik untuk keperluan permainan, pekerjaan, dan pendidikan telah menjadi sarana untuk mendapatkan informasi bagi penggunanya. Khususnya di bidang bisnis, penggunaan sistem komputer dapat menunjang proses bisnis. Pekerjaan dapat dilakukan lebih Fakultas Ilmu Komputer Universitas Brawijaya 1986 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer pembelian barang seperti pembelihan bahan baku, bahan penunjang, peralatan kantor, dan jenis barang lainnya. Pasti bagaimana keputusan seharusnya dibuat. Saat ini proses pembelian bahan baku dilakukan melalui proses tender pengadaan barang. Proses tender terdiri dari beberapa tahapan kerja, yaitu tahap pendaftaraan tender, penawaran tender, pengumuman pemenang tender dan proses pekerjaan. Selama ini, proses tender dilakukan dengan menggunakan cara manual, yaitu pengumpulan berkas peserta tender dilakukan di kantor PT. Unichem Candi Indonesia. Proses pelaksanaan tender di PT. Unichem Candi Indonesia berdasarkan Peraturan Presiden nomer 4 Tahun 2015, panitia tender mencatat berkas yang diterima dan memberikan bukti tanda peserta tender kepada pihak peserta. Proses selanjutnya, peserta tender memberikan amplop bersegel yang berisikan harga penawaran tender. Panitia tender menerima dan melakukan arsip penawaran tender. Pada hari yang telah ditentukan, panitia tender membuka seluruh amplop penawaran peserta tender. Penawaran peserta tender yang termurah ditentukan menjadi pemenang tender. Dalam merancang bangun sistem penentuan pemenang di PT. Unichem Candi Indonesia, penulis menerapkan kombinasi algoritme K-NN dan cosine simmiliarity sebagai dasar perancangan. Penerapan kombinasi algoritme KNN dan cosine simmiliarity memberikan kelebihan identifikasi kebutuhan sistem yang memberikan nilai ekonomis dan efesien bagi PT. Unichem Candi Indonesia dan proses perancangan sistem lebih tertuju kepada kebutuhan dan target yang ingin dicapai. Nilai efesien yang dapat diberikan PT. Unichem Candi Indonesia dalam penerapan sistem pengadaan pemenang adalah mendapatkan vendor yang berkualitas dengan harga yang terbaik. Selain itu memberikan penghematan dalam penggunaan kertas dan tempat penyimpanan berkas. 2. TINJAUAN PUSTAKA Pada bab ini akan dijelaskan teori-teori yang berhubungan dan berfungsi sebagai acuan agar penelitian tidak menyimpang dari tujuan awal yang telah ditetapkan. Fakultas Ilmu Komputer, Universitas Brawijaya 1987 2.1 Data Mining Data mining merupakan suatu proses untuk mendapatkan informasi yang berguna dari gudang basis data yang benar. Data mining juga disebut sebagai serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data (Pramudiono, 2007). Data mining, sering juga disebut sebagai knowledge discovery in database (KDD). KDD merupakan kegiatan yang meliputi pengumpulan, pemakaian data, historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar (Santoso, 2007). Data masukan dapat disimpan dalam berbagai format sepert flat file, spreadsheet, atau tabeltabel relasional, dan dapat menempati tempat penyimpanan data terpusat atau terdistribusi pada banyak tempat. Tujuan dari preprocessing adalah untuk mentransformasikan data input mentah ke dalam format yang sesuai untuk analisis selanjutnya. Langkah-langkah yang terlibat dalam preprocessing data meliputi mengabungkan data dari berbagai sumber, membersihkan (cleaning) data untuk membuang noise dan observasi duplikat, dan menyeleksi record dan fitur yang relevan untuk pekerjaan data mining. Karena terdapat banyak cara mengumpulkan dan menyimpan data, tahapan preprocessing data merupakan langkah yang banyak menghabiskan waktu dalam KDD. Hasil dari data mining sering kali diintegrasikan dengan decision support system (DSS). Sebagai contoh, dalam aplikasi bisnis informasi yang dihasilkan oleh data mining dapat diintegrasikan dengan tool manajemen kampanye produk sehingga promosi pemasaran yang efektif yang dilaksanakan dan dapat diuji. Integrasi demikian memerlukan langkah postprocessing yang menjamin bahwa hanya hasil yang valid dan berguna yang akan digabungkan dengan DSS. Salah satu pekerjaan dan postprocessing adalah visualisasi yang memungkinkan analis untuk mengeksplor data dan hasil data mining dari berbagai sudut pandang. 2.2 Klasifikasi Klasifikasi merupakan proses yang dilakukan untuk memprediksi class dari setiap instance data. Model itu sendiri bisa berupa aturan “jikamaka”, berupa decision tree, formula matematis atau neural network. Metode-metode klasifikasi Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer antara lain C4.5, Rain Forest, Naïve Bayesian, neural network, genetic algorithm, fuzzy, casebased reasoning, dan K-Nearest Neighbor. Klasifikasi data terdiri dari 2 langkah proses. Pertama adalah learning (fase training), dimana algoritme klasifikasi dibuat untuk menganalisa data training lalu direpresentasikan dalam bentuk aturan (rule) klasifikasi. Proses kedua adalah klasifikasi, dimana data tes digunakan untuk memperkirakan akurasi dari rule klasifikasi. 2.3 Nearest Neighbor Retrieval K-Nearest Neighbor merupakan sebuah metode dengan menggunakkan algoritme dimana hasil dari query instance yang baru diklasifikasikan berdasarkan mayoritas dari kategori pada K-NN. K-NN akan mengklasifikasikan objek baru berdasarkan atribut dan data sampel. Klasifikasi menggunakkan voting terbanyak diantara klasifikasi dari k objek. Algoritme K-NN menggunakkan klasifikasi ketetanggaan sebagai nilai prediksi dari sampel uji yang terbaru. K-Nearest Neighbor menghitung tingkat kemiripan suatu objek terhadap objek yang lain berdasarkan berapa atribut yang didefinisikan dan pembobotan tertentu kemudian tingkat kemiripan dari kesuluruhan atribut akan dijumlahkan. Nearest Neigbor didefinisikan berdasarkan persamaan berikut : πππππππππ‘π¦ (π, π) = ∑ππ=1 π(π1,π 1 )ππ 1988 Cosine similarity didefinisikan berdasarkan persamaan berikut : πΆππ πππ ( π·π , ππ ) = ∑π‘π=1(πππ .πππ ) √∑π‘π=1(πππ )2 .√∑π‘π=1(πππ )2 . (2) Keterangan, = bobot istilah pada dokumen i=π‘πππ.ππππ πππ = bobot istilah j pada dokumen i=π‘πππ.ππππ Permasalahan akurasi yang menjadi kelemahan dari metode k-Nearest Neighbor dapat diatasi dengan melakukan analisa dari hasil percobaan dengan berbagai variasi k-values (cross validation) sehingga ditemukan k-values yang sesuai untuk digunakan dalam proses klasifikasi (Andriana, 2012). 3. METODOLOGI PENELITIAN Secara umum sistem ini akan melakukan klasifikasi kelas bredasarkan jarak antar data dengan menggunakan metode cosine similarity 4. PERANCANGAN (1) Keterangan, T : Kasus baru S : Kasus lama / pembanding n : Jumlah atribut dalam setiap kasus i : Atribut individu dari 1 sampai n f : Fungsi kemiripan untuk atribut 1 dalam kasus T dan S w : Bobot atribut i . 2.4. Cosine Similarity Metode cosine similarity merupakan metode yang digunakan untuk menghitung tingakat kemiripan antara dua buah objek . Penghitungan metode ini berdasarkan vektor space similarity measure. Cosine Similarity menghitung kemiripan antara dua buah objek yang dinyatakan dalam dua buah vektor dengan menggunakkan keywords dari sebuah dokumen. Fakultas Ilmu Komputer, Universitas Brawijaya Gambar 1 Diagram Alir Proses Klasifikasi Pada Gambar 1 menunjukkan diagram alir proses klasifikasi, dimana algoritme KNearest Neighbor terdiri dari perhitungan jarak, penentuan kelas, dan perhitungan cosine Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer similarity. 5.1 Pengujian pengaruh terhadap akurasi parameter k Pada pengujian yang dilakukan terlihat bahwa nilai k mempunyai pengaruh terhadap akurasi yang dihasilkan seperti Gambar 2. Semakin besar nilai k maka semakin banyak tetangga yang digunakan untuk proses klasifikasi dan kemungkinan untuk terjadinya noise juga semakin besar ditambah lagi dengan adanya dominasi atau frekuensi kelas data latih yang tidak seimbang dari suatu kelas tertentu sehingga hasilnya data cenderung diklasifikasikan pada data kelas yang mendominasi. Pada pengujian yang dilakukan nilai akurasi maksimum cenderung terjadi saat nilai k = 2 dan k = 4 . Pada pengujian ini menggunakan 50 dataset. 80 60 40 20 Akurasi 0 1 6 1116212631 Nilai K Gambar 2 Grafik Pengaruh Nilai K Terhadap Akurasi 5.2 Pengaruh Jumlah Data Uji Dengan Jumlah Data Latih Seimbang Pengujian selanjutnya dilakukan dengan mengunakan jumlah data antara training dengan testing yang seimbang seperti Gambar 3. Pengujian ini dilakukan dengan 25 data training dan 25 data testing. Berdasarkan hasil uji coba dengan menggunakan data latih dan data uji yang seimbang yang dilakukan nilai akurasi maksimum dengan nilai 80 % cenderung terjadi saat nilai k = 2 dan k = 4. Pada pengujian ini menggunakan 50 dataset Fakultas Ilmu Komputer, Universitas Brawijaya Akurasi 100 5. PENGUJIAN Akurasi 1989 80 60 40 akurasi 20 0 1 5 9 13 17 21 25 Nilai K Gambar 3 Grafik Pengaruh Nilai K Terhadap Jumlah Data Latih Seimbang 6. KESIMPULAN Berdasarkan pengujian pada bab sebelumnya penerapan sistem prediksi pemenang tender dengan algorithma k-NN dan cosine simmilarity yang diimplementasikan berupa, didapatkan kesimpulan Sebagai berikut: 1. Metode kombinasi K-Nearest Neighbor dan cosine similarity tidak dapat diterapkan untuk penentuan pemenang tender, dikarenakan nilai akurasi yang kurang dari 60%. 2. Berdasarkan hasil pengujian pengaruh parameter k diperoleh nilai akurasi tertinggi sebesar 73 % pada saat nilai k awal=2 dan k=4 sedangkan nilai akurasi terendah sebesar 47% saat nilai k awal=1, sehingga dapat disimpulkan bahwa nilai k berpengaruh terhadap akurasi sistem klasifikasi yaitu semakin besar nilai k maka semakin tinggi peluang data uji terklasifikasi dengan benar. 3. Berdasarkan hasil pengujian pengaruh jumlah data latih dan data uji seimbang diperoleh nilai akurasi tinggi sebesar 83% dengan k=4 sehingga dapat disimpulkan bahwa variasi jumlah data latih berpengaruh terhadap performa sistem klasifikasi. DAFTAR PUSTAKA Andriana, Ria. 2012. Pengklasifikasian SPAM Email Menggunakan Metode Improved k-Nearest Neighbor. S1. Universitas Brawijaya. Diana, Widia Nur. 2011. Penerapan Algoritme Improved k-Nearest Neighbor Untuk Pengkategorian Dokumen Teks Berita Berbahasa Indonesia. S1. Universitas Brawijaya. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Han, J.,&Kamber, M., .Data Mining Concept and Tehniques.San Fransisco: J Kusrini, & Emha Taufik Luthfi. (2009). Algoritme Data mining. Yogyakarta: Andi. Larose, D. T. , DiscoverData. New Jersey Sons, Inc. , 2005. Morgan Kauffman. , 2006.Witten, I. H., Frank, E., & Hall, M. A, .Data Mining: Practical Mach Learning and Tools. Burlington Morgan Kaufmann Publisher. , 2011. Pramudiono, I. (2007). Pengantar Data Mining: Menambang Permata Pengetahuan di Gunung Data. Diakses tanggal 10 Juni 2017, dari http://www.ilmukomputer.org/wpconte nt/uploads/2006/08/ikodatamining.zip. Rainer, R. K. , Turban, E. & Porter, R. E. 2007. Introduction to Information Systems: Supporting and Transforming Business. Hoboken: Wiley. Sumathi, & S., Sivanandam, S.N. , Introduction to Data Mining and its Applications. Berlin Heidelberg NewYork: Springer, 2006. Fakultas Ilmu Komputer, Universitas Brawijaya 1990