ANALISA POLA KEYWORD PENCARIAN PADA GOOGLE

advertisement
ANALISA POLA KEYWORD PENCARIAN PADA GOOGLE
MENGGUNAKAN MARKET BASKET ANALYSIS.
(STUDI KASUS : STIKOM Wireless Connection)
Bayu Hendra Krisdhianto 1)
S1 / Jurusan Sistem Informasi, STIKOM Surabaya, email : [email protected]
Abstract: Market Basket Analysis with the Association Rules is one way to search for
patterns of associations based on spending patterns by consumers, which will then be
known to those items purchased any item simultaneously. And later can be used as an
ingredient in the decision analysis, to increase profits or to determine marketing
strategies.
In this research, apriori methods used to obtain the association rules that describe the
relationship between the keywords searched by users in the Google search engine on
the network STIKOM Wireless Connection.
From the results of empirical testing can be concluded that the computing time for
generating association rules is influenced by the number of transactions, and the
number of association rules is influenced by the value of minimum support and
minimum confident.
Keyword: Google, Apriori, Market Basket Analysis, Client – Server, Networking.
Kata “informasi” telah menjadi suatu topik yang cukup menarik untuk
dibicarakan dan seolah tak ada habisnya untuk dikaji karena
pertumbuhannya dan kebutuhannya yang sangat cepat dan mendesak.
Teknologi Informasi memacu dalam suatu lingkungan di mana informasi
menjadi sangat penting dalam segala sisi kehidupan kita baik di dunia
nyata ataupun di dunia maya atau biasa disebut internet. Internet telah
secara dramatis mengubah cara orang dalam mencari suatu informasi.
Berbagai web mesin pencari (search engine) banyak bermunculan dan
saling bersaing untuk menjadi yang teratas dalam menyediakan informasi.
Salah satu metode yang dapat digunakan search engine untuk
mengumpulkan semua data yang ada di internet dan menyajikannya
kembali sebagai sebuah informasi bagi user adalah web mining.
“Web mining adalah sebuah penemuan dan analisis informasi yang berguna
dari World Wide Web. Ini menggambarkan pencarian otomatis sumber
informasi on-line yang tersedia, yaitu, konten Web mining, dan penemuan
pola-pola akses pengguna dari layanan web, yaitu penggunaan Web
mining”. (Cooley, Mobasher, & Srivastava (1997).
Sekolah Tinggi Manajemen Informatika dan Teknik Komputer (STIKOM)
Surabaya memberikan banyak fasilitas tambahan untuk mendukung
proses kegiatan pembelajaran di area kampus STIKOM Surabaya.
Salah satunya adalah STIKOM Wireless Connection (SWC). Dengan
tersambung pada SWC, civitas akademik STIKOM Surabaya dapat
mengakses internet secara gratis untuk mendapatkan informasi
penunjang pembelajaran kuliah ataupun informasi lainnya.
Usaha yang dilakukan oleh search engine untuk mengumpulkan
informasi juga berbanding lurus bila dilihat dari sudut pandang
pihak manajemen STIKOM Surabaya. Pihak manajemen
menginginkan semua fasilitas yang ada di kampus dapat
dimaksimalkan fungsinya bagi kepentingan civitas akademik STIKOM
Surabaya. Banyaknya audience yang menghadiri pelatihan atau
seminar yang diadakan pihak kampus, padatnya kerumunan
mahasiswa di perpustakaan karena selalu tersedia koleksi baru yang
sekarang ini sedang trend, dan masih banyak lagi tujuan yang lain.
Internet seakan-akan telah menjadi tempat rujukan kedua bila ada
sesuatu hal yang tidak bisa didapatkan langsung di dunia nyata
karena adanya beberapa keterbatasan seperti letak geografis
ataupun waktu. Google adalah salah satu websearch terkenal yang
sering dipakai oleh civitas STIKOM Surabaya untuk mencari
informasi yang tidak bisa didapatkan langsung di kampus STIKOM
Surabaya. Tidak diadakannya seminar atau pelatihan pada topik
tertentu, minimnya jumlah koleksi pustaka yang dimiliki
perpustakaan di topik tertentu, mendorong mereka harus mencari
informasi dimana dan bagaimana hal tersebut bisa mereka
dapatkan. Diantaranya dengan mencari informasi di Google. Hal ini
menjadi peluang bagi pihak manajemen agar event yang diadakan
di kampus ataupun fasilitas yang disediakan selalu dipadati oleh
civitas akademik STIKOM Surabaya. Diantaranya adalah dengan
mengetahui trend apa yang sekarang ini sedang diminati di
kalangan civitas akademik STIKOM Surabaya.
Untuk mengetahui trend apa yang sekarang ini sedang diminati oleh
civitas STIKOM Surabaya, pihak manajemen STIKOM Surabaya
merasa perlu memantau hasil pencarian yang dilakukan oleh user
internet di STIKOM Surabaya pada websearch Google. Dari
kumpulan keyword yang dicari oleh user internet di STIKOM
Surabaya, baik yang terkoneksi lewat wired local area network
ataupun STIKOM wireless Connection, dapat dijadikan sumber data
untuk kemudian dianalisa sehingga dapat diketahui kata-kata yang
berkaitan dengan topik tertentu dengan kadar relasi interest yang
tinggi sedang menjadi trend di kampus STIKOM sekarang ini. Dari
hasil pencarian user internet di Google, dirasa ada beberapa
hubungan yang unik antara kata ataupun topik yang dimasukkan
sebagai keyword pencarian di Google.
Penelitian ini membahas tentang analisa keyword pencarian di Google
berdasarkan aktivitas Google search dari jaringan STIKOM
Wireless Connection (SWC) dengan metode Market Basket
Analysis (MBA). Dari hasil analisa akan didapatkan suatu pola
assosiasi dari keyword tertentu beserta nilai confidence yang
dimiliki. Hasil analisa tersebut yang kemudian dapat menjadi
masukan bagi pihak manajemen STIKOM Surabaya selaku pembuat
keputusan untuk memaksimalkan fungsi fasilitas yang ada berkaitan
dengan hasil analisa sistem ini. Misalnya bagi pihak PSDM dapat
mengadakan pelatihan atau seminar yang berkaitan dengan topik
yang sedang menjadi trend dikalangan civitas akademik STIKOM,
bagi pihak Perpustakaan dapat menyediakan koleksi pustaka yang
baru berkaitan dengan topik yang sama. Dan masih banyak lagi
manfaat tidak langsung dari diketahuinya topik yang sekarang ini
sedang menjadi trend interest di kampus STIKOM sebagaimana
didapat dari hasil analisa sistem yang akan dibuat ini.
Tujuan
– Menghasilkan perangkat lunak (Client Side) yang dapat
mengumpulkan data history keyword pencarian pada
Google.
– Mengetahui bahwa Market Basket Analysis dapat
digunakan untuk menganalisa pola keyword pencarian
pada Google.
– Menghasilkan perangkat lunak (Server Side) yang dapat
menganalisa data history keyword pencarian pada Google
yang dikirimkan oleh sistem (Client Side) menggunakan
metode Apriori.
– Menghasilkan perangkat lunak yang dapat menyusun
daftar hubungan assosiasi antar keyword beserta tingkat
confidence yang dimiliki berdasarkan parameter minimum
frequent, minimum support dan minimum confidence.
DATA MINING
•
•
•
•
•
Secara sederhana data mining adalah suatu proses untuk menemukan interesting knowledge dari
sejumlah data yang disimpan dalam basis data atau media penyimpanan data lainnya. Dengan
melakukan data mining terhadap sekumpulan data, akan didapatkan suatu interesting pattern yang
dapat disimpan sebagai knowledge baru. Pattern yang didapat akan digunakan untuk melakukan
evaluasi terhadap data-data tersebut untuk selanjutnya akan didapatkan informasi.
Tehnik dalam data mining datang dari Basis Data, Machine Learning, dan Statistik. Elemen-elemen
kunci untuk data mining ini telah dibuat dalam beberapa tahun terakhir. Secara umum tugas dari
data mining dapat dibagi ke dalam dua tipe, yaitu Predictive Data Mining dan Knowledge Discovery
/ Description Data Mining.
Predictive Data Mining adalah tipe data mining untuk memprediksi nilai suatu variabel di masa
yang akan datang atau nilai variabel lain berdasarkan beberapa variabel yang saat ini telah diketahui
nilainya. Yang termasuk dalam tipe ini antara lain: klasifikasi, re gresi, dan deteksi deviasi.
Knowledge Discovery / Description Data Mining yang juga sering disebut sebagai pencarian pola
(pattern discovery) adalah tipe data mining yang digunakan untuk mendapatkan pola yang
tersembunyi dalam data dan bisa dipahami oleh manusia, biasanya ditampilkan dalam bentuk
kalimat yang mudah dimengerti, misalnya “Jika seseorang membeli produk A maka juga membeli
produk B”. Meskipun pola ini bisa ditemukan oleh manusia tanpa bantuan komputer – khususnya
jika jumlah variabel dan datanya kecil – namun jika jumlah variabel puluhan bahkan ratusan dan
jumlah data ribuan bahkan jutaan maka diperlukan waktu bertahun-tahun untuk mendapatkan
pola-pola tersebut. Disinilah peran teknologi informasi dengan dukungan sistem data mining
membantu dalam penyelesaian permasalahan ini. Yang termasuk tipe ini adalah: klusterisasi, aturan
asosiasi, dan penemuan pola sekuensial.
Dengan data mining pemilik toko bisa mendapatkan informasi penting dan profitable tentang
konsumen yang pada akhirnya bisa meningkatkan keuntungan toko dan angka penjualan. Kegunaan
informasi pada data mining seperti diatas sering disebut sebagai Market Basket Analysis. Dalam
jangka panjang, data mining dapat membuat sebuah toko menjadi lebih kompetitif.
MARKET BASKET ANALYSIS (MBA)
Market Basket Analysis merupakan sebuah analisis
terhadap kebiasaan customer berbelanja pada
supermarket dengan cara menemukan asosiasi
dan korelasi di antara berbagai macam item yang
dimasukkan customer di dalam shopping basket
mereka. Secara lebih spesifik Market Basket
Analysis bertujuan untuk mengetahui item apa
saja yang sering dibeli bersamaan oleh customer.
Item di sini diartikan sebagai berbagai macam
produk atau barang pada supermarket (Han,
Yongjian Fu, 1999).
MBA (2)
Pada umumnya Market Basket Analysis dapat diaplikasikan pada :
1. Transaksi kartu kredit : barang-barang yang dibeli menggunakan kartu kredit dapat
menjadi analisa atas produk sejenis lainnya yang juga dibeli secara bersamaan.
2. Transaksi Supermarket : kombinasi dari barang-barang yang telah dibeli oleh
pelanggan dapat digunakan untuk menentukan peletakan posisi barang di rak.
3. Transaksi produk telekomunikasi : fasilitas yang saling berhubungan (Seperti nada
sela, tampilan nama pemanggil, fungsi multimedia, kamera, koneksi dan lain-lain)
membantu menentukan paket dan fungsi dari suatu produk.
4. Transaksi perbankan : pola dari pelayanan yang digunakan oleh nasabah digunakan
oleh pihak bank untuk menawarkan pelayanan yang juga banyak digunakan oleh
nasabah lainnya.
5. Transaksi asuransi : kombinasi yang tidak lazim dari sebuah klaim asuransi
menunjukkan terjadinya kecurangan sebuah klaim (klaim fiktif/ rekayasa).
6. Prosedur absensi mesin : kombinasi yang tidak lazim dari jam kedatangan
seseorang menunjukkan terjadinya kecurangan dalam proses absensi.
7. Catatan medis pasien : kombinasi tertentu dari suatu kondisi dapat
menggambarkan bertambahnya resiko dari sebuah komplikasi dari suatu penyakit.
MBA (3)
Untuk beberapa kasus, pola dari item-item yang dibeli secara
bersamaan oleh konsumen mudah untuk ditebak, misalnya susu
dibeli bersamaan dengan roti. Namun, mungkin saja terdapat suatu
pola pembelian item yang tidak pernah terpikirkan sebelumnya.
Misalnya, pembelian minyak goreng dengan deterjen. Mungkin saja
pola seperti ini tidak pernah terpikirkan sebelumnya karena minyak
goreng dan deterjen tidak mempunyai hubungan sama sekali, baik
sebagai barang pelengkap maupun barang pengganti. Hal ini
mungkin tidak pernah terpikirkan sebelumnya sehingga tidak dapat
diantisipasi jika terjadi sesuatu, seperti kekurangan stok deterjen
misalnya. Inilah salah satu manfaat yang dapat diperoleh dari
melakukan market basket analysis. Dengan melakukan proses ini
secara otomatis, seorang manajer tidak perlu mengalami kesulitan
untuk menemukan pola item apa saja yang mungkin dibeli secara
bersamaan.
ASSOCIATION RULES
Association rules digunakan untuk menemukan hubungan
di antara data atau bagaimana suatu kelompok data
mempengaruhi suatu keberadaan data yang lain (M.
Kantardzic, 2003). Metode ini dapat membantu
mengenali pola-pola tertentu di dalam kumpulan data
yang besar. Association rule meliputi dua tahap (Ulmer,
David, 2002) :
1. Pencarian frequent itemset, dengan cara mencari
kombinasi yang paling sering terjadi dari suatu itemset.
2. Penyusunan rules, dengan cara mendefinisikan
Condition dan Result (conditional association rule).
ASSOCIATION RULES (2)
Dalam menentukan suatu association rule, terdapat suatu interestingness measure (ukuran
kepercayaan) yang didapatkan dari hasil pengolahan data dengan perhitungan tertentu. Umumnya
ada tiga ukuran, yaitu:
- Support : suatu ukuran yang menunjukkan seberapa besar tingkat dominasi suatu item/itemset dari
keseluruhan transaksi. Ukuran ini akan menentukan apakah suatu item/itemset layak untuk dicari
confidence-nya (misal, dari seluruh transaksi yang ada, seberapa besar tingkat dominasi yang
menunjukkan bahwa item A dan B dibeli bersamaan) dapat juga digunakan untuk mencari tingkat
dominasi item tunggal.
- Confidence : suatu ukuran yang menunjukkan hubungan antar 2 item secara conditional (misal,
seberapa sering item B dibeli jika orang membeli item A).
- Improvement : suatu ukuran yang menunjukkan besarnya kemungkinan 2 item dapat dibeli secara
bersamaan.
Ketiga ukuran ini nantinya akan berguna dalam menentukan interesting association rules, yaitu untuk
dibandingkan dengan threshold (batasan) yang ditentukan.
Batasan tersebut umumnya terdiri dari minimum support, minimum cofidence, dan minimum
improvement. Sebuah association rule dengan confidence sama atau lebih besar dari minimum
confidence γ dapat dikatakan sebagai valid association rule (Agrawal R, Srikant, R.,1994).
ALGORITMA APRIORI
Algoritma ini dicetuskan oleh Agrawal (1994). Ide dasarnya adalah menghitung pola
kemunculan item yang muncul dalam data transaksi dengan beberapa iterasi.
Iterasi ke i berarti mendapatkan semua frequent i-itemset (suatu itemset yang
jumlah item anggotanya sejumlah i). Langkah umum tiap iterasi adalah
menghasilkan candidate itemset kemudian dihitung nilai support dari tiap
candidate. Untuk menghasilkan candidate, pada dasarnya dapat dilakukan dengan
menyusun kombinasi item-item yang sudah ditemukan sebelumnya. Algoritma ini
didasari oleh hukum apriori, jika sebuah itemset ternyata infrequent, maka
seharusnya superset-nya juga infrequent sehingga tidak perlu diperiksa lagi.
Pada iterasi pertama, setiap jenis item yang ditemukan dalam data dijadikan candidate
untuk frequent 1-itemsets. Sedangkan candidate di iterasi berikutnya didapatkan
dari frequent itemset yang ditemukan di iterasi sebelumnya. Proses akan berhenti
jika tidak ada lagi kombinasi candidate yang bisa dibuat.
Selain algoritma Apriori yang diimplementasikan sendiri, dalam data mining
workbench yang dibangun juga diintegrasikan implementasi algoritma Apriori oleh
Christian Borgelt (2003) yang sering diacu dan digunakan oleh peneliti di bidang
algoritma data mining.
GOOGLE
Google adalah plesetan dari kata 'googol', yang dipakai oleh Milton Sirotta, keponakan
dari ahli matematika Amerika Edward Kasner, untuk menyebutkan angka 1 dan
mempunyai 100 angka nol dibelakangnya. Google memakai kata ini dalam
menjelaskan misi perusahaan untuk mengorganisasi sedemikian banyaknya
informasi yang tersedia di Internet dan didunia ini.
Google adalah sebuah raksasa pencarian yang banyak diminati sebagai search engine
favorit. Google seolah telah menembus ruang waktu di berbagai belahan dunia.
Google merupakan mesin pencari yang mempunyai nama yang cukup populer di
mata para pengguna internet sedunia. Tampilan Google sangat sederhana, tetapi
mengandung kekuatan dan multifungsi. Selain itu, web Google sangat lengkap dan
hampir menampung semua perbendaharaan kata dalam berbagai bahasa di
seluruh dunia.
Mesin pencari (search engine) merupakan cara yang efektif untuk mencari informasi
secara online berdasarkan kata kunci (keyword) yang dimasukkan. Dalam sistem
database, hal itu disebut sebagai query, merupakan sistematika bahasa operasi
untuk melakukan pencarian data berdasarkan kedekatan dengan keyword yang
dimasukkan.
ANALISA SISTEM
Blok Diagram Aplikasi Go ‘N Run
• Go ’n Run nantinya akan terbagi menjadi 2 (dua) bagian, yaitu
aplikasi yang berada di sisi server sebagai penganalisis data, dan
aplikasi yang berada di setiap client baik yang terhubung secara
wired ataupun wireless local area network sebagai pengumpul data.
Server dan Client akan berada dalam satu jaringan yang sama
meskipun tersambung dari hub wired network dan wireless access
point yang berbeda.
• Aplikasi client hanya akan memonitor aktivitas dari browser Internet
Explorer. Setiap url yang diketikkan pada addressbar Internet
Explorer akan dicatat dan kemudian dikirimkan ke aplikasi server.
Sebagaimana umumnya aplikasi yang berjalan secara client-server,
maka terlebih dahulu harus ditentukan IP address dari server dan
juga port yang digunakan sebagai jalur komunikasi antara client dan
server.
System Flow Aplikasi Client
•
•
•
•
Agar Go ’N Run client dapat digunakan dengan sempurna, terlebih dahulu harus
ditentukan alamat IP server yang terpasang aplikasi Go ’N Run Server beserta port
yang sedang aktif digunakan menerima kiriman paket keyword Google. Begitu
konfigurasi jaringan sudah dilakukan dan client sudah dapat terkoneksi dengan
server, pada startup aplikasi Go ’N Run client berikutnya setiap aktifitas keluar
masuknya client ke sistem server akan selalu dicatat di log server. Pencatatan ini
berguna untuk membantu identifikasi client, sehingga dapat diketahui client mana
saja (siapa saja) yang sedang online dan terhubung dengan aplikasi Go ’N Run
server.
Fitur password dapat diaktifkan untuk mencegah pengubahan konfigurasi jaringan
komunikasi dengan aplikasi server oleh pihak lain.
Aplikasi client akan mencatat semua url yang diketikkan di addressbar Internet
Explorer. Url akan disaring sehingga hanya akan didapatkan url yang berasal dari
domain Google. Data url Google akan disaring ulang, hingga akhirnya akan
didapatkan kumpulan kata kunci yang dicari oleh user.
Secara periodik kata kunci akan dikirimkan ke aplikasi server untuk kemudian
disimpan. Sehingga data dapat dianalisa di kemudian hari sesuai dengan
kebutuhan analisis
System Flow Aplikasi Server
• Agar Go ’N Run server dapat digunakan dengan sempurna, terlebih dahulu
harus ditentukan port manakah yang digunakan untuk melayani kiriman
paket keyword dari client.
• Kumpulan pola keyword pencarian yang telah terkumpul di server
kemudian dilakukan analisa dengan memberikan batasan nilai Minimal
Support dan Minimal Confident. Daftar yang dihasilkan adalah data yang
memenuhi persyaratan nilai Minimal Support dan Minimal Confident.
• User diberikan pilihan apakah daftar tersebut akan dicetak menjadi
sebuah dokumen. Modul PDF Generator akan memproses daftar tersebut
hingga dihasilkan sebuah file PDF yang memuat deskripsi singkat dari hasil
analisis Market Basket Analysis, grafik frekuensi data, dan daftar
kesimpulan analisis data.
• Di akhir proses user kembali diberikan pilihan, apakah file PDF tersebut
akan didistribusikan atau tidak. Media email dipilih sebagai media
distribusi berkas kepada pihak-pihak terkait. Untuk mempermudah
identifikasi user penerima email, terlebih dahulu bisa diisikan data user
pada buku alamat email Go ’N Run Server.
Algoritma Market Basket Analysis
• Proses terpenting pada aplikasi ini adalah penerapan metode
Market Basket Analysis. Proses dimulai dengan pencatatan url dari
browser Internet Explorer. Dari url yang berhasil dicatat, hanya
akan diambil url yang berasal dari domain Google. Dari daftar baru
yang hanya berisi url dari Google, akan dipecah-pecah sehingga
didapatkan pola keyword yang dicari oleh user.
• Pola-pola keyword kemudian akan dipecah menjadi daftar keyword
tunggal. Kemudian dibuat tabel tabulasinkeyword untuk
mengetahui jumlah keyword yang ditemukan per pola keyword
yang ada. Dari tabel tabulasi dapat diketahui nilai support dan nilai
confident dari tiap pola. Dengan membandingkan dengan batasan
nilai Minimal Support dan Minimal Confident didapatkan daftar
akhir pola keyword yang ber-asosiasi dan memenuhi batasan nilai
Minimal Support dan Minimal Confident.
Flow Chart MBA
Context Diagram Sistem Go ’n Run
Hostname
0
Raw URL
Serverport
Client User
Internet
Explorer
Password
Usedport
AttachedReport
Departemen
Analisis Pola Keyword
Pencarian pada Google
Menggunakan Market Basket
Analysis
Min_Support
Min_Confident
mailAddress
Original PDF Report
+
PPTI
HASIL DAN PEMBAHASAN
Bahasa pemrograman yang digunakan untuk
melakukan implementasi adalah Microsoft
Visual Basic.NET.
Aplikasi Client
Aplikasi Server
UJI COBA DATA
Perangkat keras yang dipergunakan pada uji coba ini
adalah komputer dengan prosesor Intel Pentium IV
Core2Duo 2.0GHz dengan memori sebesar 2048 MB.
Sedangkan sistem operasi yang dipergunakan adalah
Windows XP Profesional Edition Service Pack 2. Pada
uji coba yang akan dilakukan, digunakan 3 sumber data
transaksional yang berbeda.
Data 1
Data 2
Data 3
∑ Item
15
15
15
∑ Transaksi
26
58
108
Pada uji coba ini, yang akan dilakukan adalah
menjalankan perangkat lunak dengan
parameter yang sama pada tabel yang
berbeda. Sumber data yang akan digunakan
ada 3 (tiga), yaitu: Data 1, Data 2, dan Data 3.
Sedangkan parameter yang digunakan adalah
minsup dan minconf. Nilai minsup yang akan
dimasukkan adalah 0%, 25%, 50%. Sedangkan
nilai minconf yang dimasukkan adalah 20%.
Hasil Uji Coba 1 menggunakan Data1
Min. Support (%)
Waktu Proses
∑ Kaidah Asosiasi
0
25
50
00:00:24
00:00:08
00:00:09
30
10
10
Hasil Uji Coba 1 menggunakan Data2
Min. Support (%)
Waktu Proses
∑ Kaidah Asosiasi
0
25
50
00:01:51
00:01:42
00:01:55
208
44
44
Hasil Uji Coba 1 menggunakan Data3
Min. Support (%)
Waktu Proses
∑ Kaidah Asosiasi
0
25
50
00:07:34
00:07:05
00:07:13
260
80
80
Berdasarkan hasil pengujian yang telah dilakukan pada
tabel uji coba maka dapat ditarik kesimpulan
sementara hasil pengujian sebagai berikut :
1. Semakin banyak jumlah transaksi maka akan semakin
banyak waktu yang diperlukan untuk proses analisa
Market Basket Analysis.
2. Semakin tinggi nilai Minimum Support maka akan
semakin memperpendek waktu yang diperlukan untuk
proses analisa Market Basket Analysis.
3. Semakin tinggi nilai Minimum Support maka akan
semakin sedikit jumlah kaidah asosiasi yang dihasilkan.
UJI DATA LAPANGAN
• Perangkat keras yang dipergunakan pada uji lapangan ini adalah
komputer dengan prosesor Intel Pentium IV Core2Duo 2.0 GHz
dengan memori sebesar 2048 MB. Sedangkan sistem operasi yang
dipergunakan adalah Windows XP Profesional Edition Service Pack
2. Uji lapangan ini dilakukan selama 2 minggu yaitu mulai tanggal 1
Agustus 2011 sampai dengan tanggal 16 Agustus 2011.
• Dari hasil uji lapangan diketahui bahwa selama periode uji lapangan
telah terjadi 897 kali pola pencarian di websearch Google. Untuk
mengetahui semua aturan asosiasi yang dihasilkan, proses analisa
Market Basket Analysis dilakukan dengan memberikan batasan
minimum support sebesar 0% dan minimum confidence sebesar 0%.
• Dari proses analisa dihasilkan 796 aturan asosiasi User pencari kata
(buku) juga mencari kata (blog) dengan nilai confidence tertinggi
sebesar 97% dan nilai confidence terendah sebesar 1%. Untuk
melakukan proses analisa ini diperlukan waktu selama hampir 3,5
jam (03:24:44)
KESIMPULAN
– Metode Market Basket Analysis dapat digunakan untuk menganalisa
pola keyword pencarian pada Google.
– Arsitektur aplikasi Keyword Patern Searching Analyzer pada dasarnya
terbagi menjadi 2 (dua) bagian utama, yaitu client side (aplikasi yang
di-install di client) dan server side (aplikasi yang di-install di server).
– Client side dapat mencatat url yang diketikkan user pada Internet
Explorer pada masing-masing client PC. Pada saat user melakukan
pencarian di Google, dapat diketahu pola keyword yang pernah dicari
oleh user. Keyword dikirimkan ke server untuk kemudian dilakukan
analisa lebih lanjut oleh aplikasi pada server side.
– Server side dapat menangkap semua kiriman pola keyword dari client
yang terkoneksi di jaringan. Berdasarkan pola keyword yang telah
terkumpul, aplikasi server side dapat menemukan association rule dari
keyword yang dicari oleh user client di Google sesuai kebutuhan
dengan parameter pembatas berupa minimum support dan minimum
confident.
KESIMPULAN (2)
– Output dari aplikasi Keyword Patern Searching Analyzer yang berupa
informasi mengenai keyword apa saja yang dicari secara bersamaan
oleh pengguna search engine Google, masih berupa laporan umum.
Daftar ini dapat didistribusikan ke pihak-pihak terkait sebagai bahan
masukan pembuatan keputusan.
– Contoh menerapkan informasi yang dihasilkan oleh aplikasi Keyword
Patern Searching Analyzer ini adalah dapat disimpulkan bahwa
semakin tinggi nilai confident dari suatu pattern, semakin banyak pula
peminat pattern tersebut. Dan bila pattern tersebut diterapkan
sebagai topik diskusi dalam sebuah seminar/workshop, maka
diharapkan semakin tinggi pula jumlah peserta yang mengikutinya.
Baik peserta dari kalangan umum maupun dari kalangan civitas
akademik STIKOM Surabaya. Dengan demikian semakin baik pula
image kampus STIKOM Surabaya di pandangan masyarakat sekitar.
– Pada analisa terhadap sejumlah data ditemukan bahwa semakin
banyak data yang dianalisa, waktu proses akan lebih lama karena
semakin banyak pula frequent items dan rules yang dihasilkan.
KESIMPULAN (3)
– Pada analisa terhadap sejumlah data ditemukan bahwa semakin tinggi
nilai minimum support dan minimum confident yang ditentukan,
semakin sedikit jumlah kaidah asosiasi yang dihasilkan yang dihasilkan.
DAFTAR RUJUKAN
•
•
•
•
•
•
•
•
•
•
•
Agrawal R, Srikant, R.(1994). Fast Algorithms for Mining Association Rules, Proceedings of the 20th International
Conference on Very Large Data Bases (VLDB), Santiago, Chile, pp. 487-499.
Amanda Spink, Dietmar Wolfram, Bernard J. Jansen, and Tefko Saracevic. Searching the Web: the public and their
queries. Journal of the American Society for Information Science and Technology, 52(3), 226-234, 2001.
Borgelt C. (2003). Efficient Implementations of Apriori and Eclat. Proceeding of the 1st IEEE ICDM Workshop on
Frequent Item Set Mining Implementations (FIMI 2003, Melbourne, FL). CEUR Workshop Proceedings 90, Aachen,
Germany.
Cooley, R., Mobasher, B., & Srivastava, J. “Web mining: Information and pattern discovery on the world wide web”,
1997
Google.com. “Official Supported Domains”, http://www.google.com/supported_domains (diakses pada tanggal
9 Februari 2010)
Han, Jiawei, Micheline Kamber, “Data Mining: Concepts and Techniques”, Morgan Kaufmann, 2001
Han, Jiawei, Yongjian Fu, “Discovery Of Multiple-Level Association Rules From Large Databases”, IEEE Transactions
On Knowledge And Data Engineering, Vol. 11, No. 5, September/October 1999
Jansen, B. J., & Spink, A., “An Analysis of Document Viewing Patterns of Web Search Engine Users”, 2003
Kantardzic, M. (2003). Data Mining Concepts Models, Methods, and Algorithms. New Jersey: IEEE.
Ulmer, David; “Mining an Online Auctions Data Warehouse.” The Mid-Atlantic Student Workshop on Programming
Languages and Systems. 19 April 2002. Pace University. http://csis.pace.edu/csis/masplas/p8.pdf (diakses pada
tanggal 9 Februari 2010)
Wicaksono, Soetam Risky, 2005, Kuliah Interaksi Manusia dan Komputer, STIKOMP, Surabaya
Download