The History of Information Retrieval Research

advertisement
TEMU BALIK INFORMASI
ANGGOTA KELOMPOK

BAYU ANDRIANTO
21

SYAIFUL HIDAYAT
25

M. FAIZ NOERIS
27

RIFDHOTUL ALFIANSYAH
33

MASKUR ALASAD
35

YOGI HENDRA GUNAWAN 32

YOUSUA SANDI GARSA
34
The History of
Information
Retrieval Research
MARK SANDERSON: SCHOOL OF COMPUTER SCIENCE AND INFORMATION TECHNOLOGY, RMIT UNIVERSITY,
GPO BOX 2476, MELBOURNE 3001 VICTORIA, AUSTRALIA. [email protected]; +61 3 992 59675
W. BRUCE CROFT: DEPARTMENT OF COMPUTER SCIENCE, 140 GOVERNORS DRIVE, BOX 9264, UNIVERSITY OF
MASSACHUSETTS, AMHERST, MA 01003-9264, USA. [email protected]; +1 413 545-0463

Makalah ini menjelaskan sejarah singkat dari penelitian dan
pengembangan sistem pencarian informasi dimulai dengan
penciptaan perangkat pencarian elektro-mekanis, melalui adopsi
awal komputer untuk mencari item yang relevan dengan
permintaan pengguna. Kemajuan yang dicapai oleh para peneliti
pengambilan informasi dari tahun 1950 sampai hari ini yang rinci
berikutnya, dengan fokus pada proses menemukan informasi yang
relevan
Pra-sejarah - alat mekanik dan
elektro-mekanik
pendekatan konvensional untuk mengelola koleksi besar informasi
berasal dari disiplin kepustakawanan. Umumnya, barang-barang
seperti buku atau kertas yang diindeks menggunakan skema
katalogisasi.
Eliot dan Rose mengklaim pendekatan ini menjadi ribuan tua:
menyatakan Callimachus, 3 rd abad SM penyair Yunani sebagai orang
pertama dikenal untuk membuat katalog perpustakaan.
mengajukan paten untuk perangkat pada tahun 1918 [3], di mana
kartu katalog dengan lubang, terkait dengan kategori, yang selaras di
depan satu sama lain untuk menentukan apakah ada entri dalam
koleksi dengan kombinasi kategori tertentu. Jika lampu bisa dilihat
melalui pengaturan kartu, pertandingan ditemukan.
penggunaan awal komputer untuk
IR

Holmstrom menggambarkan sebuah “ Mesin disebut Univac
”Mampu diselenggarakan oleh Inggris Royal Society pada tahun
1948. Holmstrom menggambarkan sebuah “ Mesin disebut
Univac”Mampu mencari referensi teks yang terkait dengan kode
subjek.

Kode dan teks yang disimpan pada pita baja magnetik [12].
Holmstrom menyatakan bahwa mesin dapat memproses “ pada
tingkat 120 kata per menit ”. Tampaknya bahwa ini adalah referensi
pertama ke komputer yang digunakan untuk mencari konten.

Kemudian Indexing - bergerak menuju kata
1960

perangkat tambahan IR lainnya diperiksa di periode ini termasuk
pengelompokan dokumen dengan isi yang serupa; asosiasi statistik
istilah dengan makna semantik yang sama, meningkatkan jumlah
dokumen yang cocok dengan query dengan memperluas query
dengan variasi leksikal (disebut batang) atau dengan kata-kata
semantik terkait. Untuk cakupan penelitian terakhir ini melihat buku
Salton [24], proses dari 1964 konferensi tentang Metode Association
statistik untuk Dokumentasi Mekanik [26], dan buku Van Rijsbergen
ini [27].
1970

Alternatif sarana sistem IR pemodelan yang terlibat memperluas
Maron, Kuhns dan gagasan Ray menggunakan teori probabilitas.
Robertson didefinisikan prinsip peringkat probabilitas [34], yang
ditentukan bagaimana optimal peringkat dokumen berdasarkan
langkah-langkah probabilistik sehubungan dengan langkahlangkah evaluasi didefinisikan. Sebuah kertas jauh dari Robertson
dan Spärck Jones [35] bersama dengan derivasi dari model
probabilistik dalam buku Van Rijsbergen ini [27] dirangsang banyak
penelitian tentang bentuk modeling. Van Rijsbergen menunjukkan
bahwa model probabilistik dasar diasumsikan bahwa kata-kata
dalam sebuah dokumen terjadi secara independen satu sama lain,
yang merupakan asumsi yang agak tidak realistis.
1980 - pertengahan tahun 1990
TREC
Donna Harman dan rekan membentuk TREC (Text Retrieval Conference),
latihan tahunan di mana sejumlah besar kelompok riset internasional
berkolaborasi untuk membangun koleksi pengujian beberapa kali lipat
lebih besar dari tahun sebelum [39]. Realisasi ini adalah untuk lebih lanjut
dikukuhkan sebagai mesin pencari web mulai dikembangkan di akhir
1990-an.
RANK
Sampai saat ini, fungsi peringkat yang digunakan dalam mesin pencari
secara manual dirancang dan disetel dengan tangan melalui
eksperimen. Fuhr [40] menggambarkan pekerjaan di mana fungsi
pengambilan dipelajari berdasarkan dokumen yang relevan diidentifikasi
untuk set ada pertanyaan. Sedangkan umpan balik relevansi Rocchio
disetel query untuk pencarian tertentu, ide Fuhr adalah untuk
menyempurnakan fungsi peringkat untuk semua permintaan untuk koleksi
dokumen tertentu.
Pertengahan tahun 1990 sekarang

Pencarian Web

perkembangan penting untuk mencapai tujuan ini adalah analisa
link dan pencarian teks jangkar - yaitu mencari baik isi dari halaman
web dan teks link yang menunjuk (penahan) ke halaman tersebut.
Kedua perkembangan yang berhubungan dengan pekerjaan
sebelumnya pada penggunaan data kutipan untuk analisis
bibliometrik dan pencarian, dan menggunakan “menyebarkan
aktivasi” pencarian dalam jaringan hypertext.

Menggunakan jangkar teks itu fitur kunci dari mesin pencari Google
dari pengembangan awal [44], bersama dengan penggunaan
lebih terkenal dari metode analisis link: PageRank dikembangkan
oleh pencipta Google dan HITS yang dikembangkan pada waktu
yang sama oleh Kleinberg [ 45].

Karena sistem yang dapat diakses saat ini sangat mudah
digunakan, sangat menggoda untuk berpikir teknologi di belakang
mereka juga sama mudah untuk membangun. Ulasan ini telah
menunjukkan bahwa rute ke menciptakan sistem IR sukses banyak
inovasi diperlukan dan berpikir selama jangka waktu yang panjang.
Download