Penentuan Pemenang Tender Menggunakan Kombinasi K

advertisement
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Vol. 2, No. 5, Mei 2018, hlm. 1986-1990
e-ISSN: 2548-964X
http://j-ptiik.ub.ac.id
Penentuan Pemenang Tender Menggunakan Kombinasi KNearest Neighbor dan Cosine Similarity
(Studi Kasus PT. Unichem Candi Indonesia)
Surya Dermawan1, Edy Santoso2, Lailil Muflikhah3
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya
Email: [email protected], [email protected], 3 [email protected]
Abstrak
Dalam pengambilan keputusan penentuan pemenang tender pada PT. Unichem Candi Indonesia masih
bersifat manual. Hal ini disebabkan kurangnya pengetahuan dalam pengambilan keputusan. Data
mining juga disebut sebagai serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang
selama ini tidak diketahui secara manual dari suatu kumpulan data. Salah satu teknologi yang dapat
digunakan untuk sistem informasi penentuan pemenang tender yaitu K-NN dan cosine similarity
dimana teknologi ini menjadi yang efisien dan efektif bila diterapkan pada masalah di PT.Unichem
Candi Indonesia. Algoritme K-NN adalah metode yang menggunakan algoritme supervised, dimana
hasil. Nilai K merupakan jumlah data latih terdekat terhadap data uji. Dari Hasil pengujian pengaruh
parameter nilai k diperoleh akurasi sebesar 73% dimana nilai yang tertinggi, yaitu k =2. Pengujian
dengan jumlah data latih dan data uji yang seimbang akan mempengaruhi besarnya nilai akurasi yang
akan didapatkan. Berdasarkan hasil pengujian dengan jumlah data latih dan data uji didapatkan nilai
akurasi sebesar 83% dimana nilai yang tertinggi, yaitu k = 4.
Kata kunci: Data Mining , k-nn Algorithm, Cosine Similarity
Abstract
In decision of determination of auction in PT. Unichem Candi Indonesia is still manual. Due to this lack of
knowledge in decision making. Data mining is also referred to as a series of processes to explore the added
value of knowledge that has so far not been known manually from a data set. One of the technology that can
be used for information system of tender winner determination is K-NN and cosine similarity which this
technology become efficient and effective when applied to problem in PT. Unichem Candi Indonesia. The KNN algorithm is a method that uses a supervised algorithm, where. The K value is the amount of nearest
training data to the test data. From the test results the effect of the value of k obtained accuracy of 73% where
the highest value, ie k = 2. Testing with the amount of trainee data and test data are balanced will affect the
amount of accuracy that will be obtained. Based on the test results with the amount of training data and test
data obtained an accuracy value of 83% where the highest value, ie k = 4.
Keywords: Data Mining , k-nn Algorithm, Cosine Similarity.
cepat dan mudah, sehingga informasi yang
diharapkan cepat didapatkan.
PT. Unichem Candi Indonesia merupakan
perusahaan swasta yang bergerak di bidang
industri kimia dan garam konsumsi. Sebagai
Perusahaan yang terkait dengan konsumsi
publik, PT. Unichem Candi Indonesia dapat
berusaha menjaga kualitas pelayanan dengan
selalu menjaga kinerja produksi perusahaan.
Kinerja perusahaan tidak terlepas dari kebutuhan
1. PENDAHULUAN
Sistem atau aplikasi telah menjadi bagian
didalam kehidupan manusia modern saat ini.
Berbagai macam sistem baik untuk keperluan
permainan, pekerjaan, dan pendidikan telah
menjadi sarana untuk mendapatkan informasi
bagi penggunanya. Khususnya di bidang bisnis,
penggunaan sistem komputer dapat menunjang
proses bisnis. Pekerjaan dapat dilakukan lebih
Fakultas Ilmu Komputer
Universitas Brawijaya
1986
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
pembelian barang seperti pembelihan bahan
baku, bahan penunjang, peralatan kantor, dan
jenis barang lainnya.
Pasti bagaimana keputusan seharusnya
dibuat. Saat ini proses pembelian bahan baku
dilakukan melalui proses tender pengadaan
barang. Proses tender terdiri dari beberapa
tahapan kerja, yaitu tahap pendaftaraan tender,
penawaran tender, pengumuman pemenang
tender dan proses pekerjaan.
Selama ini, proses tender dilakukan dengan
menggunakan cara manual, yaitu pengumpulan
berkas peserta tender dilakukan di kantor PT.
Unichem Candi Indonesia. Proses pelaksanaan
tender di PT. Unichem Candi Indonesia
berdasarkan Peraturan Presiden nomer 4 Tahun
2015, panitia tender mencatat berkas yang
diterima dan memberikan bukti tanda peserta
tender kepada pihak peserta. Proses selanjutnya,
peserta tender memberikan amplop bersegel
yang berisikan harga penawaran tender. Panitia
tender menerima dan melakukan arsip
penawaran tender. Pada hari yang telah
ditentukan, panitia tender membuka seluruh
amplop penawaran peserta tender. Penawaran
peserta tender yang termurah ditentukan menjadi
pemenang tender.
Dalam merancang bangun sistem penentuan
pemenang di PT. Unichem Candi Indonesia,
penulis menerapkan kombinasi algoritme K-NN
dan cosine simmiliarity
sebagai dasar
perancangan. Penerapan kombinasi algoritme KNN dan cosine simmiliarity memberikan
kelebihan identifikasi kebutuhan sistem yang
memberikan nilai ekonomis dan efesien bagi PT.
Unichem Candi Indonesia dan proses
perancangan sistem lebih tertuju kepada
kebutuhan dan target yang ingin dicapai. Nilai
efesien yang dapat diberikan PT. Unichem Candi
Indonesia dalam penerapan sistem pengadaan
pemenang adalah mendapatkan vendor yang
berkualitas dengan harga yang terbaik. Selain itu
memberikan penghematan dalam penggunaan
kertas dan tempat penyimpanan berkas.
2. TINJAUAN PUSTAKA
Pada bab ini akan dijelaskan teori-teori yang
berhubungan dan berfungsi sebagai acuan agar
penelitian tidak menyimpang dari tujuan awal
yang telah ditetapkan.
Fakultas Ilmu Komputer, Universitas Brawijaya
1987
2.1 Data Mining
Data mining merupakan suatu proses untuk
mendapatkan informasi yang berguna dari
gudang basis data yang benar. Data mining juga
disebut sebagai serangkaian proses untuk
menggali nilai tambah berupa pengetahuan yang
selama ini tidak diketahui secara manual dari
suatu kumpulan data (Pramudiono, 2007).
Data mining, sering juga disebut sebagai
knowledge discovery in database (KDD). KDD
merupakan
kegiatan
yang
meliputi
pengumpulan, pemakaian data, historis untuk
menemukan keteraturan, pola atau hubungan
dalam set data berukuran besar (Santoso, 2007).
Data masukan dapat disimpan dalam berbagai
format sepert flat file, spreadsheet, atau tabeltabel relasional, dan dapat menempati tempat
penyimpanan data terpusat atau terdistribusi
pada banyak tempat. Tujuan dari preprocessing
adalah untuk mentransformasikan data input
mentah ke dalam format yang sesuai untuk
analisis selanjutnya.
Langkah-langkah yang terlibat dalam
preprocessing data meliputi mengabungkan data
dari berbagai sumber, membersihkan (cleaning)
data untuk membuang noise dan observasi
duplikat, dan menyeleksi record dan fitur yang
relevan untuk pekerjaan data mining. Karena
terdapat banyak cara mengumpulkan dan
menyimpan data, tahapan preprocessing data
merupakan langkah yang banyak menghabiskan
waktu dalam KDD.
Hasil dari data mining
sering kali
diintegrasikan dengan decision support system
(DSS). Sebagai contoh, dalam aplikasi bisnis
informasi yang dihasilkan oleh data mining
dapat diintegrasikan dengan tool manajemen
kampanye produk sehingga promosi pemasaran
yang efektif yang dilaksanakan dan dapat diuji.
Integrasi demikian memerlukan langkah
postprocessing yang menjamin bahwa hanya
hasil yang valid dan berguna yang akan
digabungkan dengan DSS. Salah satu pekerjaan
dan postprocessing adalah visualisasi yang
memungkinkan analis untuk mengeksplor data
dan hasil data mining dari berbagai sudut
pandang.
2.2 Klasifikasi
Klasifikasi merupakan proses yang dilakukan
untuk memprediksi class dari setiap instance
data. Model itu sendiri bisa berupa aturan “jikamaka”, berupa decision tree, formula matematis
atau neural network. Metode-metode klasifikasi
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
antara lain C4.5, Rain Forest, Naïve Bayesian,
neural network, genetic algorithm, fuzzy, casebased reasoning, dan K-Nearest Neighbor.
Klasifikasi data terdiri dari 2 langkah proses.
Pertama adalah learning (fase training), dimana
algoritme klasifikasi dibuat untuk menganalisa
data training lalu direpresentasikan dalam
bentuk aturan (rule) klasifikasi. Proses kedua
adalah klasifikasi, dimana data tes digunakan
untuk memperkirakan akurasi dari rule
klasifikasi.
2.3 Nearest Neighbor Retrieval
K-Nearest Neighbor merupakan sebuah
metode dengan menggunakkan algoritme
dimana hasil dari query instance yang baru
diklasifikasikan berdasarkan mayoritas dari
kategori
pada
K-NN.
K-NN
akan
mengklasifikasikan objek baru berdasarkan
atribut
dan
data
sampel.
Klasifikasi
menggunakkan voting terbanyak diantara
klasifikasi dari k objek. Algoritme K-NN
menggunakkan klasifikasi ketetanggaan sebagai
nilai prediksi dari sampel uji yang terbaru.
K-Nearest Neighbor menghitung tingkat
kemiripan suatu objek terhadap objek yang lain
berdasarkan berapa atribut yang didefinisikan
dan pembobotan tertentu kemudian tingkat
kemiripan dari kesuluruhan atribut akan
dijumlahkan. Nearest Neigbor didefinisikan
berdasarkan persamaan berikut :
π‘†π‘–π‘šπ‘–π‘™π‘Žπ‘Ÿπ‘–π‘‘π‘¦ (𝑇, 𝑆) = ∑𝑛𝑖=1 𝑓(𝑇1,𝑠1 )π‘Šπ‘–
1988
Cosine similarity didefinisikan berdasarkan
persamaan berikut :
πΆπ‘œπ‘ π‘†π‘–π‘š ( 𝐷𝑖 , 𝑄𝑖 ) =
∑𝑑𝑗=1(π‘žπ‘–π‘— .𝑑𝑖𝑗 )
√∑𝑑𝑗=1(π‘žπ‘–π‘— )2 .√∑𝑑𝑗=1(𝑑𝑖𝑗 )2 .
(2)
Keterangan,
= bobot istilah pada dokumen i=𝑑𝑓𝑖𝑗.𝑖𝑑𝑓𝑗
𝑑𝑖𝑗 = bobot istilah j pada dokumen i=𝑑𝑓𝑖𝑗.𝑖𝑑𝑓𝑗
Permasalahan akurasi yang menjadi kelemahan
dari metode k-Nearest Neighbor dapat diatasi
dengan melakukan analisa dari hasil percobaan
dengan berbagai variasi k-values (cross
validation) sehingga ditemukan k-values yang
sesuai untuk digunakan dalam proses klasifikasi
(Andriana, 2012).
3. METODOLOGI PENELITIAN
Secara umum sistem ini akan melakukan
klasifikasi kelas bredasarkan jarak antar data
dengan menggunakan metode cosine similarity
4. PERANCANGAN
(1)
Keterangan,
T : Kasus baru
S : Kasus lama / pembanding
n : Jumlah atribut dalam setiap kasus
i : Atribut individu dari 1 sampai n
f : Fungsi kemiripan untuk atribut 1 dalam kasus
T dan S
w : Bobot atribut i
. 2.4. Cosine Similarity
Metode cosine similarity merupakan
metode yang digunakan untuk menghitung
tingakat kemiripan antara dua buah objek .
Penghitungan metode ini berdasarkan vektor
space similarity measure. Cosine Similarity
menghitung kemiripan antara dua buah objek
yang dinyatakan dalam dua buah vektor dengan
menggunakkan keywords dari sebuah dokumen.
Fakultas Ilmu Komputer, Universitas Brawijaya
Gambar 1 Diagram Alir Proses Klasifikasi
Pada Gambar 1 menunjukkan diagram
alir proses klasifikasi, dimana algoritme KNearest Neighbor terdiri dari perhitungan jarak,
penentuan kelas, dan perhitungan cosine
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
similarity.
5.1 Pengujian pengaruh
terhadap akurasi
parameter
k
Pada pengujian yang dilakukan terlihat
bahwa nilai k mempunyai pengaruh terhadap
akurasi yang dihasilkan seperti Gambar 2.
Semakin besar nilai k maka semakin banyak
tetangga yang digunakan untuk proses
klasifikasi dan kemungkinan untuk terjadinya
noise juga semakin besar ditambah lagi dengan
adanya dominasi atau frekuensi kelas data latih
yang tidak seimbang dari suatu kelas tertentu
sehingga
hasilnya
data
cenderung
diklasifikasikan pada data kelas yang
mendominasi. Pada pengujian yang dilakukan
nilai akurasi maksimum cenderung terjadi saat
nilai k = 2 dan k = 4 . Pada pengujian ini
menggunakan 50 dataset.
80
60
40
20
Akurasi
0
1 6 1116212631
Nilai K
Gambar 2 Grafik Pengaruh Nilai K Terhadap
Akurasi
5.2 Pengaruh Jumlah Data Uji Dengan
Jumlah Data Latih Seimbang
Pengujian selanjutnya dilakukan dengan
mengunakan jumlah data antara training dengan
testing yang seimbang seperti Gambar 3.
Pengujian ini dilakukan dengan 25 data training
dan 25 data testing. Berdasarkan hasil uji coba
dengan menggunakan data latih dan data uji
yang seimbang yang dilakukan nilai akurasi
maksimum dengan nilai 80 % cenderung terjadi
saat nilai k = 2 dan k = 4. Pada pengujian ini
menggunakan 50 dataset
Fakultas Ilmu Komputer, Universitas Brawijaya
Akurasi
100
5. PENGUJIAN
Akurasi
1989
80
60
40
akurasi
20
0
1 5 9 13 17 21 25
Nilai K
Gambar 3 Grafik Pengaruh Nilai K Terhadap
Jumlah Data Latih Seimbang
6. KESIMPULAN
Berdasarkan pengujian pada bab sebelumnya
penerapan sistem prediksi pemenang tender
dengan algorithma k-NN dan cosine simmilarity
yang diimplementasikan berupa, didapatkan
kesimpulan Sebagai berikut:
1. Metode kombinasi K-Nearest Neighbor
dan cosine similarity tidak dapat diterapkan
untuk penentuan pemenang tender, dikarenakan
nilai akurasi yang kurang dari 60%.
2. Berdasarkan hasil pengujian pengaruh
parameter k diperoleh nilai akurasi tertinggi
sebesar 73 % pada saat nilai k awal=2 dan k=4
sedangkan nilai akurasi terendah sebesar 47%
saat nilai k awal=1, sehingga dapat disimpulkan
bahwa nilai k berpengaruh terhadap akurasi
sistem klasifikasi yaitu semakin besar nilai k
maka semakin tinggi peluang data uji
terklasifikasi dengan benar.
3. Berdasarkan hasil pengujian pengaruh
jumlah data latih dan data uji seimbang diperoleh
nilai akurasi tinggi sebesar 83% dengan k=4
sehingga dapat disimpulkan bahwa variasi
jumlah data latih berpengaruh terhadap performa
sistem klasifikasi.
DAFTAR PUSTAKA
Andriana, Ria. 2012. Pengklasifikasian SPAM
Email Menggunakan Metode Improved
k-Nearest Neighbor. S1. Universitas
Brawijaya.
Diana, Widia Nur. 2011. Penerapan Algoritme
Improved k-Nearest Neighbor Untuk
Pengkategorian Dokumen Teks Berita
Berbahasa Indonesia. S1. Universitas
Brawijaya.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Han, J.,&Kamber, M., .Data Mining Concept
and Tehniques.San Fransisco:
J Kusrini, & Emha Taufik Luthfi. (2009).
Algoritme Data mining. Yogyakarta:
Andi.
Larose, D. T. , DiscoverData. New Jersey Sons,
Inc. , 2005.
Morgan Kauffman. , 2006.Witten, I. H., Frank,
E., & Hall, M. A, .Data Mining:
Practical Mach Learning and Tools.
Burlington
Morgan
Kaufmann
Publisher. , 2011.
Pramudiono, I. (2007). Pengantar Data Mining:
Menambang Permata Pengetahuan di
Gunung Data. Diakses tanggal 10 Juni
2017,
dari
http://www.ilmukomputer.org/wpconte
nt/uploads/2006/08/ikodatamining.zip.
Rainer, R. K. , Turban, E. & Porter, R. E.
2007.
Introduction to Information
Systems: Supporting and Transforming
Business. Hoboken: Wiley.
Sumathi, & S., Sivanandam, S.N. , Introduction
to Data Mining and its Applications.
Berlin Heidelberg NewYork: Springer,
2006.
Fakultas Ilmu Komputer, Universitas Brawijaya
1990
Download