WEB MINING Disusun Oleh

advertisement
World Wide Web atau WWW merupakan salah satu
fenomena teknologi yang berkembang sangat pesat
saat ini. WWW menyediakan berbagai layanan
informasi mengenai berita, iklan, pendidikan, ecommerce dan sebagainya. Informasi yang tersedia
dalam WWW tersebut memiliki ukuran yang sangat
besar dan terdistribusi secara global di seluruh
dunia.Web juga mengandung kekayaan informasi
dilihat dari struktur dan penggunaannya (web usage).
Web merupakan kumpulan data dan informasi yang
sangat berpotensi untuk dilakukan penggalian (mining)
agar menghasilkan pengetahuan (knowledge) yang
dapat berguna bagi masyarakat maupun pihak-pihak
tertentu.




Data dan informasi yang tersimpan di dalam web memiliki
karakteristik yang berbeda dengan data yang tersimpan dalam
penyimpanan konvensional seperti DBMS. Dalam (Han, et al., 2006)
disebutkan beberapa karakteristik web sebagai berikut:
Web memiliki ukuran yang terlalu besar sehingga tidak terlalu efektif
jika diterapkan dengan menggunakan data warehouse dan data
mining biasa. Ukuran data dalam web mencapai ribuan terabyte
dan akan terus berkembang. Saat ini begitu banyak perusahaan
dan organisasi yang
mempublikasikan berbagai informasi
perusahaan di sebuah website. Dengan ukuran yang begitu besar,
akan sangat sulit jika harus membangun sebuah data warehouse
yang akan menyimpan data dan informasi tersebut.
Tingkat komplektivitas dari halaman-halaman web jauh lebih tinggi
dibanding dokumen dalam format teks biasa..Halaman web
memiliki struktur yang sangat beragam. Apalagi jika dilihat dari isi
atau content yang disajikan di halaman web, memiliki bahasa,
gaya penulisan, struktur penulisan dan tampilan yang beragam.
Informasi yang disajikan diweb bersifat dinamis. Informasi seperti
berita, stock market, saham, dan sebagainya dapat berkembang
dan berubah setiap saat.
Web memiliki ragam pengguna yang tersebar di seluruh
dunia. Berdasarkan survey dari Netcraft, internet hingga
bulan November 2009 memiliki lebih dari 240 juta alamat
situs, dan masih terus berkembang. Pengguna dari situs-situs
tersebut memiliki latar belakang, demografi, minat, dan
tujuan yang berbeda dalam mengakses web.
 Hanya sedikit dari informasi yang disajikan diweb benarbenar bermanfaat (sesuai) dengan pengguna. Fakta
tersebut merupakan tantangan untuk menemukan suatu
metode atau teknik menyajikan informasi yang tepat bagi
user yang tepat.
 Untuk menggali informasi yang terdapat di dalam web,
dapat digunakan mesin pencari (search- engine) seperti
Google, Yahoo dan MSN. Namun penggunaan mesin
pencari belum cukup efektif untuk mendapatkan informasi
yang tepat di halaman web karena mesin pencari pada
umumnya menampilkan hasil pencariannya berdasarkan
keyword yang diberikan.

Sebagai contoh pencarian dengan menggunakan keyword
‘data mining’, selain menampilkan informasi tentang data
mining dalam konteks ilmu komputer, informasi mengenai
istilah mining dalam disiplin ilmu lain juga ditampilkan.
 Karena keterbatasan kemampuan dari mesin pencari
tersebut, muncul konsep baru mengenai web mining yang
pertama kali dikenalkan oleh Etzioni Oren dalam (Oren,
1996). Menurut Etzioni Oren, web mining diartikan sebagai
suatu usaha mengaplikasikan teknik data mining untuk
menggali dan mengekstrak informasi yang berguna dari
dokumen-dokumen yang tersimpan dalam halaman web
secara otomatis. Meskipun memiliki akar terminologi yang
sama dengan data mining, namun web mining memiliki
perbedaan dari data mining, diantaranya berhubungan
dengan sifat datanya yang tidak terstruktur dan sumber
datanya yang tidak disimpan di sebuah data warehouse
namun tersebar di berbagai sumber.

Berdasarkan target analisisnya, web mining dibagi menjadi 3 (tiga) bagian, yaitu:

Web structure mining
Web structure mining merupakan proses yang menggunakan teori graph untuk menganalisis simpul
(node) dan keterhubungan struktur dari situs. Menurut tipe dari struktur web, web structure mining
terbagi menjadi 2 (dua). Jenis pertama adalah mengekstrak dari pola hyperlink di web. Sebuah
hyperlink atau lebih dikenal sebagai link merupakan suatu komponen dari web yang memungkinkan
suatu halaman terhubung dengan halaman yang lainnya. Jenis kedua dari web structure mining
adalah mining terhadap struktur dokumen. Yang dimaksud sebagai struktur dokumen adalah
menganalisa struktur dari bahasa yang digunakan dalam web, yaitu bahasa HTML (Hyper Text
Markup Language), atau XML (eXtensibel Markup Language) di dalam halaman.

Web content mining
Web content mining adalah proses untuk mendapatkan informasi yang berguna dari isi (content) di web.
Isi (content) dapat berupatext, image, audio, dan video. Web content mining terkadang disebut
sebagai web text mining, karena teks merupakan bagian dari web yang paling banyak tersedia.
Teknologi yang umumnya digunakan dalam web content mining adalah NLP (Natural Language
Processing), dan IR (Informational Retrieval). Secara umum web content mining akan berusaha
mengubah kumpulan data diweb yang begitu besar menjadi pengetahuan (knowledge) yang
berguna bagi banyak orang.

Web usage mining
Menurut Srivastava, web usage mining merupakan teknik data mining yang berusaha mengungkap pola
penggunaan dari halaman web, dalam rangka coba untuk memahami dan meningkatkan
pelayanan kebutuhan dari aplikasi berbasis web . Jadi web usage mining sedikit berbeda dengan
kedua jenis sebelumnya. Pada jenis struktur dan content mining, yang dianalisa atau digali adalah
data didalam web itu sendiri, namun pada web usage mining yang dianalisa adalah pengguna
atau pengunjung dari halaman web. Sehingga karena yang coba dianalisa adalah tingkah laku dari
pengunjung (pengguna) dari web maka hasil dari web usage mining banyak digunakan dalam emarketing dan e-commerce. Hasil analisa dapat digunakan untuk meningkatkan layanan dari
aplikasi web.

Hasil web usage mining antara lain informasi mengenai
segmentasi pengunjung dari situs (aplikasi web). Segmentasi
dapat dilihat berdasarkan lokasi (negara, kota atau wilayah),
waktu akses (pagi, siang, sore atau malam), penggunaan browser
dan sebagainya. Dalam situs e-commerce misalnya dapat
digunakan untuk melihat pola pengunjung dalam pembelian
produk seperti produk apa saja yang paling banyak dibeli
(diakses), pengunjung dari mana saja yang banyak melakukan
pembelian, dan sebagainya.
Berdasarkan tabel di atas, sumber data utama dari web
usage mining adalah server logs dan browser logs. Server
logs merupakan informasi yang dicatat di dalam server
web setiap kali pengunjung mengakses suatu halaman
web. Dari log server, didapat informasi aksesweb oleh
pengunjung yang terdiri dari informasi antara lain:
• Informasi nama domain dari aplikasi situs yang diakses, bisa
juga berupa alamat IP
• Waktu akses situs.
• HTTP Request Field yang berisi jenis akses, halaman yang
diakses dan jenis browser yang digunakan.
• Status akses berisi informasi status akses, misalnya 404 jika
akses halaman tidak ditemukan.
• Ukuran (byte) dari halaman yang diakses.
Proses Web Usage Mining
Secara garis besar, proses web usage mining terbagi menjadi 3
(tiga) fase, yaitu preprocessing, pattern discovery dan
pattern analysis. Dapat digambarkan mengenai proses web
usage mining seperti terlihat pada gambar berikut ini.

1. Tahap Preprocessing
Tahapan ini merupakan proses yang pertama kali dilakukan dari keseluruhan
proses web usage mining. Tahapan ini penting dilakukan untuk melakukan
standarisasi data dan juga menghilangkan bagian-bagian data tertentu
yang tidak diperlukan dalam proses mining. Tahapan preprocessing dapat
dibagi menjadi 3 (tiga) bagian yaitu content preprocessing, structure
preprocessing dan usage preprocessing. Pembagian tersebut berdasarkan
bentuk data yang akan diolah. Proses preprocessing dapat dibagi menjadi
5 tahap:
- Data Cleaning. Tahap untuk membersihkan file log dari data yang tidak
relevan dengan proses mining, seperti data multimedia dan script CSS
maupun javascript.
- User Identification. Karena beberapauser mungkin menggunakan komputer
(host) yang sama, maka perlu dilakukan proses identifikasi user.
-Session identification. Setelah user diidentifikasi, halaman yang diakses pun
harus dibagi ke dalam sesi tertentu, umumnya berdasarkan waktu tertentu
agar didapatkan sesi yang tunggal untuk setiap user.
- Path Completion. Tahapan melengkapipath yang mungkin belum lengkap
karena tidak tersimpan dalam file log.
- Transaction Identification. Mengidentifikasi sejumlah sesi tertentu yang
menghasilkan satu proses transaksi yang dilakukan oleh user.
2. Pattern Discovery
Fase yang kedua dari web usage mining adalah pencarian pola akses
yang dilakukan oleh user. Fase ini merupakan fase yang sangat
penting dan sangat menentukan keluaran dari proses usage mining.
Pada fase ini dikenal beberapa algoritma dan teknik, antara lain :
- Statistical analysis
Teknik analisa statistik merupakan teknik yang paling banyak digunakan
dalam mendapatkan knowledge dari pola akses user. Analisis statistik
dapat disajikan dalam berbagai bentuk analisis dengan beragam
variabel yang menjadi parameter analisis. Contoh analisis yang dapat
dihasilkan adalah pola aksesuser yang dilihat dari waktu akses untuk
setiap harinya.
- Association rules
Algoritma association rules dalam data mining pertama kali diusulkan oleh
Agrawal, Imielinski dan Swami. Association rule juga dapat diterapkan
dalam web usage mining. Contoh keluaran yang dapat dihasilkan
yaitu mengenai pola akses terhadap halaman-halaman dalam web,
dimana dapat diketahui halaman mana saja yang selalu diakses
secara bersamaan oleh user. Hal tersebut dapat digunakan sebagai
dasar untuk merancang atau menyusun kembali halaman web agar
lebih efektif.
- Clustering
Clustering merupakan proses mengelompokkan sekumpulan object fisik
maupun abstrak ke dalam kelas tertentu berdasarkan kesamaannya.
Dalam kaitannya dengan web usage mining, teknik clustering sering
digunakan untuk menentukan segmentasi pasar pengunjung suatu
situs e-commerce berdasarkan kesamaan pola akses maupun
demografinya.
- Classification
Classification merupakan proses pengelompokan berdasarkan kelas yang
sudah didefinisikan sebelumnya. Proses classification terbagi menjadi
dua, yaitu proses membangun model sesuai dengan kelas yang sudah
ditentukan dan proses menerapkan model untuk mengklasifikasikan
sekumpulan data.
- Sequential Pattern
Sequential Pattern digunakan untuk menganalisa pola urutan akses
halaman web oleh user. Tren urutan pola akses user dapat digunakan
untuk memprediksikan tren di masa mendatang atau untuk mengatur
penempatan iklan.
- Dependency Modeling
Dependency modeling berusaha mencari ketergantungan antara satu
variabel dengan variabel yang lainnya dalamweb. Hal ini berguna
untuk memprediksikan pola di masa mendatang.
3. Pattern Analysis
Pattern analysis merupakan fase terakhir dalam web usage
mining. Pada fase ini, dilakukan proses visualisasi hasil
analisis pola yang telah dilakukan pada langkah
sebelumnya. Penyajiandata menjadi hal yang penting
dalam langkah ini, dimana penyajian data tentunya
tergantung pada kebutuhanuser dan bisnis. Dari hasil
visualisasi
tersebut,
dapat
dilakukan
suatu
keputusan(action) misalnya keputusan untuk mengubah
tampilan suatuwebsite, melakukan optimasi navigasi
website, meningkatkan kemampuan website dengan
melakukan caching halaman-halaman tertentu yang
sering dikunjungi.
Dalam kaitannya dengan Web Usage Mining, saat ini
banyak tool dan aplikasi yang tersedia mulai dari yang
berbayar hingga yang gratis. Berdasarkan survey yang
dilakukan oleh Srivastava, tool dan aplikasi web usage
mining dapat dibagi menjadi beberapa kelompok
penggunaan yang digambarkan dalam gambar 2.
Kelompok yang pertama merupakan aplikasi yang
bersifat umum dalam web usage mining. Contoh dari
aplikasi dalam kelompok ini adalah WebSIFT, WUM
atau Web Utilization Miner, SpeedTracer, Web Log
Miner dan Shahabi. Sedangkan kelompok aplikasi
yang kedua adalah aplikasi yang secara khusus
ditujukan untuk menangani proses tertentu sesuai
dengan manfaat penerapan web usage mining.
Aplikasi WEB Usage Mining
Adapun manfaat penerapan / penggunaan web usage mining tersebut,
antara lain:
1. Personalization
Personalisasi merupakan suatu usaha untuk menyajikan layanan web
sesuai dengan preferensi atau kenyamanan tiap user atau
pengunjung. Personalisasi yang dilakukan dalam situs e-commerce
secara langsung akan meningkatkan penjualan maupun tingkat
kepuasan pelanggan (user). Personalisasi dalam e-commerce antara
lain dengan penerapan strategi cross-selling dan up-selling. Contoh
aplikasi yang bertujuan melakukan personalisasi, adalah WebWatcher,
SiteHelper, PWUM, Koinotites dan Letizia.
2. System Improvement
Performa dari suatu website dan layanan di dalamnya merupakan hal
yang utama untuk menjamin kenyamanan user (pengunjung).
Berdasarkan pola akses user yang dihasilkan dari proses web usage
mining, dapat diambil suatu keputusan terkait dengan peningkatan
performa layanan web.
Misalnya jika ternyata ditemukan pola bahwa layanan tertentu cukup
sering diakses, maka dapat dilakukan mekanisme caching baik di web
server maupun diproxy. Langkah peningkatan performa sistem lainnya
seperti load balancing, network transmission, data distribution, fraud
detection, intrussion detection juga dapat diambil berdasarkan hasil
dari web usage mining.
3. Site Modification
Website yang adaptif sesuai dengan pola perilaku user tentu akan memberi kenyamanan
lebih bagi user. Hasil analisis terhadap pola perilaku user dalam mengakses suatu
halaman dapat digunakan untuk menentukan apakah halaman yang bersangkutan
sudah disajikan dengan baik atau belum.
4. Bussiness Intelligence
Berdasarkan hasil yang dikeluarkan oleh web usage mining beserta web mining yang
lainnya selanjutnya dapat disusun sebuah business intelligence (BI). BI berbasis web
mining dapat mempermudah pihak eksekutif dalam memonitor performa website
bisnisnya. BI akan berisi rangkuman dari beberapa sumber laporan. Pemanfaatan
web usage mining untuk membentuk suatu BI memang masih terus dikembangkan,
salah satunya adalahframework yang diusulkan oleh Ajith Abraha. Contoh aplikasi
web usage mining yang masuk kategori BI adalah SurfAid dan Buchner.
5. Usage Characterization
Karakter user dalam menggunakanweb berbeda satu dengan yang lainnya. Berdasarkan
hasil dari proses web usage mining, karakteruser dapat diidentifikasi. Informasi
karakteruser dalam mengakses web dapat dijadikan dasar untuk meningkatkan
performa dari website maupun aplikasi terkait lainnya seperti browser dan web server.
Download