Evaluasi IR

advertisement
4/16/13 Text dan Web Mining - Budi Susanto
1
Text dan Web Mining - Budi Susanto
2
EVALUASI IR
Budi Susanto
Tujuan
•  mahasiswa memahami tentang bagaimana mengukur dan
mengartikan precision dan recall terhadap sistem temu
kembali.
1 4/16/13 Text dan Web Mining - Budi Susanto
3
Evaluasi dalam IR
•  “Seberapa baik sistem IR Anda bekerja?”
•  Ada beberapa level pengukuran:
•  Pemrosesan
•  diukur efisiensi waktu dan ruang penyimpanan yang digunakan.
•  Pencarian
•  efektifitas hasil pencarian terhadap query yang diberikan.
•  Kepuasan pemakai
•  Kita akan fokus pada level pengukuran evaluasi terhadap
hasil pencarian.
Text dan Web Mining - Budi Susanto
4
Efektifitas Retrieval
•  Terkait dengan response terhadap sebuah query, sebuah
sistem IR mencari dari kumpulan dokumennya dan
mengembalikan sebuah daftar terurut sesuai dengan
query.
•  disebut sebagai himpunan yang terambil (retrieved set) atau daftar
rangking.
•  sistem tersebut menerapkan sebuah strategi pencarian
•  Mengukur kualitas dari retrieved set.
•  sebuah sistem IR dikatakan lebih baik tentunya akan memicu
sebuah retrieved set yang lebih baik pula.
•  retrieved set yang lebih baik akan membantu pemakai menemukan
informasi yang dibutuhkan.
2 4/16/13 Text dan Web Mining - Budi Susanto
5
Contoh Perangkingan
Rank
DocID
Relevansi
1
5
2
3
3
10
4
35
5
4
6
270
7
14
YA
8
15
YA
9
11
YA
10
1
YA
•  seberapa baik hasil
pencarian tersebut?
YA
Text dan Web Mining - Budi Susanto
6
Relevansi dan Retrieved Set
•  Setiap Dokumen dalam kumpulan yang dicari, dapat
dikelompokkan ke dalam 4 himpunan:
•  relevan atau tidak, terambil atau tidak
•  Relevansi sangat tergantung pada penilaian pemakai
•  apakah dokumen yang terambil relevan dengan informasi yang
dibutuhkan atau tidak, berdasar query yang diberikan.
•  Terkait dengan retrieved set, asumsi yang dikenakan
adalah sistem IR mengatakan semua dokumen dalam
retrieved set adalah “relevan”.
3 4/16/13 Text dan Web Mining - Budi Susanto
7
Precision dan Recall
•  Precision adalah kemampuan untuk mengambil top-
ranked dokumen terambil yang relevan.
•  Recall adalah sebagian dari dokumen relevan yang
terambil.
Relevant
Irrelevant
Terambil
A
B
Tidak
Terambil
C
D
Hsin-Hsi Chen
A
(A ∪ B)
A
recall =
(A ∪C)
precision =
Text dan Web Mining - Budi Susanto
8
Precision Recall
Relevant Docs
in Answer Set
|Ra|
Relevant Docs
|R|
collection
Answer Set
|A|
4 4/16/13 Text dan Web Mining - Budi Susanto
9
Precision dan Recall
•  Precision dan Recall adalah ukuran himpunan.
•  Dalam sebuah himpunan rangked list, kita dapat
menghitung precision di setiap recall point.
•  recall meningkat ketika sebuah dokumen relevan terambil.
•  menghitung precision di tiap dokumen relevan terambil, dari
seluruh bagian dari retrieved set.
•  terdapat sebuah pertukaran pengaruh antara precision
dan recall
•  semakin banyak dokumen terambil, akan meningkatkan recall
•  namun hal tersebut akan mengurangi precision.
Text dan Web Mining - Budi Susanto
10
Grafik Precision Recall
•  memperlihatkan kinerja retrieval di tiap titik rangking.
•  Grafik menggambarkan precision pada titik-titik recall
standar
•  10%, 20%, …, 100%
•  interpolate antar titik.
•  Precision(Recall=r) = max(Precision(Recall >= r))
pint erp (r) = max p(r ')
r '≥r
5 4/16/13 Text dan Web Mining - Budi Susanto
11
Grafik Precision Recall
Text dan Web Mining - Budi Susanto
12
Grafik Precision Recall
Returns relevant documents but
misses many useful ones too
The ideal
Precision
1
0
Recall
1
Returns most relevant
documents but includes
lots of junk
6 4/16/13 Text dan Web Mining - Budi Susanto
13
Precision Recall
Rank
DocID
1
5
2
3
3
10
4
35
5
4
6
270
7
14
8
15
9
11
10
1
Relevansi
Precision
Recall
0/1
0/5
1/2
1/5
1/3
1/5
2/4
2/5
2/5
2/5
2/6
2/5
YA
3/7
3/5
YA
4/8
4/5
YA
5/9
5/5
5/10
5/5
YA
YA
Text dan Web Mining - Budi Susanto
14
MAP
•  MAP (Mean Average Precision) adalah nilai ukuran
kualitas tunggal dari setiap level recall.
•  Nilai ukuran tunggal ini adalah rata-rata nilai precision
yang diperoleh untuk himpunan
1
MAP(Q) =
Q
Q
m
1 j
∑ m ∑ Pr ecision(R jk )
j k=1
j=1
7 4/16/13 Text dan Web Mining - Budi Susanto
15
TERIMA KASIH
budi susanto
8 
Download