Professional Documents
Culture Documents
Bai9-MDB Text Doc Indexing Namhh (Compatibility Mode)
Bai9-MDB Text Doc Indexing Namhh (Compatibility Mode)
Bai9-MDB Text Doc Indexing Namhh (Compatibility Mode)
• Dùng cấu trúc tệp tin nào cho CSDL tài liệu
• Các cấu trúc tệp tin được sử dụng trong IR bao
gồm:
– Flat files
– Signature files
– Inverted files
– And more…
• Flat files:
– Một hoặc vài tài liệu được lưu ở 1 file
– Các tài liệu không được đánh chỉ mục
– Cơ chế tìm kiếm dựa trên mẫu
– Không hiệu quả
• Signature files:
– Mỗi tài liệu được nhận dạng bởi mội chuỗi bit
(signature) chứa trong file
– Các câu truy vấn cũng được biểu diễn bằng signature
• Mỗi thuật ngữ được gán một chỉ mục chứa các
định danh tài liệu của các tài liệu có chứa thuật
ngữ
• Mỗi điểm vào của inverted file chứa một từ khóa
và các định danh tài liệu được tổ chức thành
một hàng
Term 1: RecordID 1, RecordID 3
Term 2: RecordID 1, RecordID 2
Term 3: RecordID 2, RecordID 3, RecordID 4
Term 4: RecordID 1, RecordID 2, RecordID 3
Term1: R1, 0.3; R3, 0.5; R6, 0.8; R7, 0.2; R11, 1
Term2: R2, 0.7; R3, 0.6; R7, 0.5; R9, 0.5
Term3: R1, 0.8; R2, 0.4; R9, 0.7
• Hoạt động OR: Trọng số cao hơn được dùng để
đo độ tương tự giữa câu truy vấn và tài liệu,
danh sách tài liệu trả về được sắp xếp theo thứ
tự giảm dần
VD: câu truy vấn: (Term 2 OR Term 3)
Danh sách tài liệu đầu ra?
Term1: R1, 0.3; R3, 0.5; R6, 0.8; R7, 0.2; R11, 1
Term2: R2, 0.7; R3, 0.6; R7, 0.5; R9, 0.5
Term3: R1, 0.8; R2, 0.4; R9, 0.7
• Hoạt động AND: Trọng số thấp hơn giữa các tài
liệu chung thỏa mãn câu truy vấn được dùng để
đo độ tương tự giữa câu truy vấn và tài liệu,
danh sách tài liệu trả về được sắp xếp theo thứ
tự giảm dần về độ giống nhau
VD: câu truy vấn: (Term 2 AND Term 3)
Danh sách tài liệu đầu ra?
DOC 2.
Weights is useful for ranking the returned list. Ranked return is very important because if
the first few items are most similar or relevant to the query, they are normally the most
useful to the user.
DOC 3.
The aim of indexing is to find the best terms to represent each document so that
documents can be retrieved accurately during the retrieval process. The automatic
indexing process consists of the following steps
Mô hình truy vấn không gian vector(1)
• Danh sách xếp hạng các tài liệu trả về được sắp
xếp theo độ tương quan giảm dần