Bai9-MDB Text Doc Indexing Namhh (Compatibility Mode)

Chương VIII: Các kỹ thuật đánh chỉ mục và
truy vấn tài liệu văn bản
Mục tiêu của chương:

 Hiểu sự khác biệt giữa hệ thống IR and DBMS
 Đánh chỉ mục tài liệu văn bản
 Mô hình truy vấn không gian vector
 Mô hình truy vấn xác xuất
 Mô hình truy vấn dựa trên phân cụm
 Các phép đo hiệu xuất
 Các máy tìm kiếm WWW
Cơ sở dữ liệu đa phương tiện 5/9/2011 1

Giới thiệu
• IR rất quan trọng:

– Tồn tại khối lượng lớn các tài liệu văn bản trong các
tổ chức và là nguồn thông tin quan trọng
– Text có thể được dụng để chú giải các thông tin
phương tiện khác
• Vấn đề cơ bản trong thiết kế hệ thống IR
– Biểu diễn tài liệu và các câu truy vấn
– So sánh độ tương quan giữa các tài liệu và các câu
truy vấn
• Một mô hình truy vấn phải thể hiện được hai
khía cạnh trên

Sự khác nhau giữa các hệ thống IR và DBMS(1)
• Một DBMS chứa các • Trong IR, các bản

bản ghi được cấu ghi không có cấu
trúc đồng nhất trúc, không có thuộc
– Mỗi bản ghi được đặc tính cố định
trưng bởi các thuộc – Để đánh chỉ mục:
tính keywords, index
– Giá trị của thuộc tính terms, doc descriptor
miêu tả rõ ràng và – Tạo từ khóa và chỉ
đầy đủ các bản ghi mục đóng vai trò
quan trọng

Sự khác nhau giữa các hệ thống IR và DBMS(2)
• Trong DBMS, việc • Trong IR, không đòi

truy vấn thông tin hỏi trùng lặp tuyệt
dựa trên sự trùng lặp đối
tuyệt đối giữa câu • Sự truy vấn dựa trên
truy vấn và giá trị các độ trùng khớp giữa
thuộc tính của bản tập các thuật ngữ
ghi • Sử dụng các phương
pháp trùng lặp xấp xỉ
hoặc từng phần
• Cùng một term có
thể có nghĩa khác
Quá trình truy vấn thông tin trong IR

Mô hình truy vấn boolean cơ bản(1)
• Mục đích của hệ thống IR là lấy các mục liên

quan từ DB theo yêu cầu người dùng
• Hầu hết các hệ thống IR ngày nay có thể được
xem là hệ thống Boolean IR (tìm kiếm mẫu văn
bản)
• Các câu truy vấn tìm kiếm mẫu văn bản thường
là các chuỗi hoặc là các regular expression
(grep in Unix)
• Trong quá trình truy vấn, tất cả các tài liệu có
chứa chuỗi truy vấn được sẽ được lấy ra.
• Thích hợp cho tìm kiếm trong CSDL tài liệu nhỏ
Mô hình truy vấn boolean cơ bản(2)
• Trong boolean IR các tài liệu được đánh chỉ mục

bởi một tập các từ khóa
• Các câu truy vấn được biểu diễn bởi một tập
các từ khóa và các toán tử kết nối logic giữa các
thuật ngữ
– OR: term1 OR term 2
– AND: term1 AND term 2
– NOT- dùng kết hợp với AND: term1 AND NOT term2

Cấu trúc tệp tin(1)
• Dùng cấu trúc tệp tin nào cho CSDL tài liệu
• Các cấu trúc tệp tin được sử dụng trong IR bao
gồm:
– Flat files
– Signature files
– Inverted files
– And more…

Cấu trúc tệp tin(2)
• Flat files:
– Một hoặc vài tài liệu được lưu ở 1 file
– Các tài liệu không được đánh chỉ mục
– Cơ chế tìm kiếm dựa trên mẫu
– Không hiệu quả
• Signature files:
– Mỗi tài liệu được nhận dạng bởi mội chuỗi bit
(signature) chứa trong file
– Các câu truy vấn cũng được biểu diễn bằng signature

Inverted file
• Mỗi thuật ngữ được gán một chỉ mục chứa các
định danh tài liệu của các tài liệu có chứa thuật
ngữ
• Mỗi điểm vào của inverted file chứa một từ khóa
và các định danh tài liệu được tổ chức thành
một hàng
Term 1: RecordID 1, RecordID 3
Term 3: RecordID 2, RecordID 3, RecordID 4

Inverted file-Luật truy vấn với mô hình boolean(1)
• Logic AND: Term i AND Term j

– Một danh sách ghép(merged) được sinh ra cho các
hàng i và j
– Các tài liệu (bản ghi) có chứa cả Term i và Term j sẽ
được lấy ra
• Ví dụ: (Term 1 AND Term 3) ; Ouput?

• Logic OR: Term i OR Term j

– Một danh sách ghép(merged) được sinh ra cho các
hành i và j
– Các tài liệu (bản ghi) có chứa Term i hoặc Term j sẽ
được lấy ra
• Ví dụ: (Term 1 OR Term 2) ; Ouput?

• Logic NOT: Term i AND NOT Term j

– Các tài liệu (bản ghi) có chứa Term i và không chứa
Term j sẽ được lấy ra
• Ví dụ: (Term 4 AND NOT Term 1) ; Ouput?

Hoạt động mở rộng của inverted file(1)
• Hai yêu tố quan trọng không được xem xét
– Vị trí của thuật ngữ (position)
– Sự quan trọng của thuật ngữ (significance)
• Cần thêm các tham số về độ gần trong đặc tả
truy vấn
– Term i within sentence Term j
– Term i adjacent Term j
• Để hỗ trợ các loại truy vấn trên, thông tin về vị trí
của từ khóa phải được lưu trong inverted file
Term i: Record no., Paragraph no., Sentence no., Word
no.

Hoạt động mở rộng của inverted file(2)
Term i: Record no., Paragraph no., Sentence no., Word no.

VD:
information: R99, 10, 8, 3; R155, 15, 3, 6; R166, 2,
3, 1
retrieval: R77, 9, 7, 2; R99, 10, 8, 4; R166, 10, 2, 5
(information within sentence retrieval)
Output?

Các hoạt động của từ khóa và đánh chỉ mục tự động
• Một tài liệu có thể chứa nhiều thuật ngữ, từ

nhưng không phải các từ đều hữu ích trong việc
biểu diễn nội dung của tài liệu -> stop words
• Trong quá trình đánh chỉ mục các stop words bị
bỏ qua
• Danh sách các từ còn lại được xử lý tiếp
• Các hoạt động xử lý thường gặp:
– Stemming (retrieved, retrieving, retrieval)
– Theaurus (study, schoolwork, reading, learning)
– Weighting (tf.idf)

Inverted file với trọng số
Term1: R1, 0.3; R3, 0.5; R6, 0.8; R7, 0.2; R11, 1
Term2: R2, 0.7; R3, 0.6; R7, 0.5; R9, 0.5
Term3: R1, 0.8; R2, 0.4; R9, 0.7
• Hoạt động OR: Trọng số cao hơn được dùng để
đo độ tương tự giữa câu truy vấn và tài liệu,
danh sách tài liệu trả về được sắp xếp theo thứ
tự giảm dần
VD: câu truy vấn: (Term 2 OR Term 3)
Danh sách tài liệu đầu ra?

Inverted file với trọng số
Term1: R1, 0.3; R3, 0.5; R6, 0.8; R7, 0.2; R11, 1
Term2: R2, 0.7; R3, 0.6; R7, 0.5; R9, 0.5
Term3: R1, 0.8; R2, 0.4; R9, 0.7
• Hoạt động AND: Trọng số thấp hơn giữa các tài
liệu chung thỏa mãn câu truy vấn được dùng để
đo độ tương tự giữa câu truy vấn và tài liệu,
danh sách tài liệu trả về được sắp xếp theo thứ
tự giảm dần về độ giống nhau
VD: câu truy vấn: (Term 2 AND Term 3)
Danh sách tài liệu đầu ra?

Các bước của quá trình đánh chỉ mục tự động
• Mục đích của đánh chỉ mục là tìm ra các thuật

ngữ biểu diễn mỗi tài liệu một cách tốt nhất
• Quá trình đánh chỉ mục tự động bao gồm các
bước:
1. Xác định các từ trong tiêu đề, tóm tắt và/hoặc tài liệu
2. Loại bỏ stop words
3. Nhận dạng từ đồng nghĩa nhử từ điển
4. Stemming để có gốc từ
5. Đếm tần số của gốc từ trong mỗi tài liệu
6. Tính toán trọng số cho gốc từ
7. Tạo file chỉ số dựa trên các từ và trọng số

Test 2
Áp dụng các bước quá trình đánh chỉ mục vào các tài liệu ở dưới
Biểu diễn kiểu trọng số trong inverted file 3 từ có tần số xuất hiện
nhiều nhất. Tính danh sách tài liệu đầu ra của của truy vấn:
( term 1 OR term 5)
DOC 1.
We discussed how the use of term weights can help rank the returned list
they are normally the most useful to the user. The user can just look at the first few items
without going through a long list of items
DOC 2.
Weights is useful for ranking the returned list. Ranked return is very important because if
the first few items are most similar or relevant to the query, they are normally the most
useful to the user.
DOC 3.
The aim of indexing is to find the best terms to represent each document so that
documents can be retrieved accurately during the retrieval process. The automatic
indexing process consists of the following steps
Mô hình truy vấn không gian vector(1)
• Các vấn đề với mô hình truy vấn boolean:

– Khó xây dựng các câu truy vấn, các kết quả tìm kiếm
nhạy cảm với dạng truy vấn
– Các trọng số của từ khóa thường không được sử
dụng trong các câu truy vấn
• Mô hình không gian vector
– Giả định có một tập cố định các từ chỉ mục biểu diễn
các tài liệu và các câu truy vấn
– Một tài liệu Di và Qj được biểu diễn:
– Các trọng số Tik và Qjk ở dạng nhị phân hoặc tf.idf

• Truy vấn trong mô hình không gian vector được

dựa trên sự tương quan giữa câu truy vấn và tài
liệu
• Công thức chuẩn hóa:

• Danh sách xếp hạng các tài liệu trả về được sắp
xếp theo độ tương quan giảm dần
D1 = [0.2, 0.1, 0.4, 0.5]

D2 = [0.5, 0.6, 0.3, 0]
D3 = [0.4, 0.5, 0.8, 0.3]
D4 = [0.1, 0, 0.7, 0.8]
Q = [0.5, 0.5, 0, 0]

Mô hình truy vấn dựa trên phân cụm
• Tạo phân cụm

• Truy vấn tài liệu dựa trên phân cụm

Các hướng mới trong truy vấn thông tin
• Các vấn đề chính của IR:

– Biểu diễn tài liệu và các câu truy vấn một cách chính
xác
– So sánh câu truy vấn với tài liệu một cách chính xác
• Mô hình IR truyền thống dựa vào sự xuất hiện
thống kê của các từ:
– Các từ đơn không chứa hết được thông tin mã hóa
trong ngôn ngữ
– Trình tự của các từ cung cấp nhiều thông tin
– Các cụm từ mang nghĩa khác nhiều từng từ riêng biệt
• Để cải tiến: NPL, tri thức miền

Đo hiệu suất
• Tốc độ truy vấn

• Độ triệu hồi: Đo khả năng truy vấn thông tin liên
quan từ DB (số mục từ liên quan/tổng số mục từ
liên quan trong CSDL)
• Độ chính xác: Đo tính chính của truy vấn (số
mục từ liên quan/tổng số mục từ trong kết quả)
VD: Trong DB có 10 mục liên quan đến một truy
vấn. Danh sách trả về tương ưng với truy vấn
là: R, R, I, I, R, R, I, I, R, I, R, R, I, I, R
Tính độ triệu hồi và độ chính xác tương ứng với
việc lấy ra 6 mục từ kết quả truy vấn.

Bai9-MDB Text Doc Indexing Namhh (Compatibility Mode)

Uploaded by

Copyright:

Available Formats

You might also like

Bai9-MDB Text Doc Indexing Namhh (Compatibility Mode)

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bai9-MDB Text Doc Indexing Namhh (Compatibility Mode)

Uploaded by

Copyright:

Available Formats

Chương VIII: Các kỹ thuật đánh chỉ mục và

truy vấn tài liệu văn bản

Mục tiêu của chương:

Cơ sở dữ liệu đa phương tiện 5/9/2011 1

• IR rất quan trọng:

Cơ sở dữ liệu đa phương tiện 5/9/2011 2

• Một DBMS chứa các • Trong IR, các bản

Cơ sở dữ liệu đa phương tiện 5/9/2011 3

• Trong DBMS, việc • Trong IR, không đòi

Cơ sở dữ liệu đa phương tiện 5/9/2011 5

• Mục đích của hệ thống IR là lấy các mục liên

• Trong boolean IR các tài liệu được đánh chỉ mục

Cơ sở dữ liệu đa phương tiện 5/9/2011 7

Cơ sở dữ liệu đa phương tiện 5/9/2011 8

Cơ sở dữ liệu đa phương tiện 5/9/2011 9

Cơ sở dữ liệu đa phương tiện 5/9/2011 10

• Logic AND: Term i AND Term j

Cơ sở dữ liệu đa phương tiện 5/9/2011 11

• Logic OR: Term i OR Term j

Cơ sở dữ liệu đa phương tiện 5/9/2011 12

• Logic NOT: Term i AND NOT Term j

Cơ sở dữ liệu đa phương tiện 5/9/2011 13

Cơ sở dữ liệu đa phương tiện 5/9/2011 14

Term i: Record no., Paragraph no., Sentence no., Word no.

Cơ sở dữ liệu đa phương tiện 5/9/2011 15

• Một tài liệu có thể chứa nhiều thuật ngữ, từ

Cơ sở dữ liệu đa phương tiện 5/9/2011 16

Cơ sở dữ liệu đa phương tiện 5/9/2011 17

Cơ sở dữ liệu đa phương tiện 5/9/2011 18

• Mục đích của đánh chỉ mục là tìm ra các thuật

Cơ sở dữ liệu đa phương tiện 5/9/2011 19

• Các vấn đề với mô hình truy vấn boolean:

– Các trọng số Tik và Qjk ở dạng nhị phân hoặc tf.idf

• Truy vấn trong mô hình không gian vector được

• Công thức chuẩn hóa:

Cơ sở dữ liệu đa phương tiện 5/9/2011 22

D1 = [0.2, 0.1, 0.4, 0.5]

Cơ sở dữ liệu đa phương tiện 5/9/2011 23

• Tạo phân cụm

Cơ sở dữ liệu đa phương tiện 5/9/2011 24

• Các vấn đề chính của IR:

Cơ sở dữ liệu đa phương tiện 5/9/2011 25

• Tốc độ truy vấn

You might also like