Bai9-MDB Text Doc Indexing Namhh (Compatibility Mode)

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 26

Chương VIII: Các kỹ thuật đánh chỉ mục và

truy vấn tài liệu văn bản

Mục tiêu của chương:


 Hiểu sự khác biệt giữa hệ thống IR and DBMS
 Đánh chỉ mục tài liệu văn bản
 Mô hình truy vấn không gian vector
 Mô hình truy vấn xác xuất
 Mô hình truy vấn dựa trên phân cụm
 Các phép đo hiệu xuất
 Các máy tìm kiếm WWW

Cơ sở dữ liệu đa phương tiện 5/9/2011 1


Giới thiệu

• IR rất quan trọng:


– Tồn tại khối lượng lớn các tài liệu văn bản trong các
tổ chức và là nguồn thông tin quan trọng
– Text có thể được dụng để chú giải các thông tin
phương tiện khác
• Vấn đề cơ bản trong thiết kế hệ thống IR
– Biểu diễn tài liệu và các câu truy vấn
– So sánh độ tương quan giữa các tài liệu và các câu
truy vấn
• Một mô hình truy vấn phải thể hiện được hai
khía cạnh trên

Cơ sở dữ liệu đa phương tiện 5/9/2011 2


Sự khác nhau giữa các hệ thống IR và DBMS(1)

• Một DBMS chứa các • Trong IR, các bản


bản ghi được cấu ghi không có cấu
trúc đồng nhất trúc, không có thuộc
– Mỗi bản ghi được đặc tính cố định
trưng bởi các thuộc – Để đánh chỉ mục:
tính keywords, index
– Giá trị của thuộc tính terms, doc descriptor
miêu tả rõ ràng và – Tạo từ khóa và chỉ
đầy đủ các bản ghi mục đóng vai trò
quan trọng

Cơ sở dữ liệu đa phương tiện 5/9/2011 3


Sự khác nhau giữa các hệ thống IR và DBMS(2)

• Trong DBMS, việc • Trong IR, không đòi


truy vấn thông tin hỏi trùng lặp tuyệt
dựa trên sự trùng lặp đối
tuyệt đối giữa câu • Sự truy vấn dựa trên
truy vấn và giá trị các độ trùng khớp giữa
thuộc tính của bản tập các thuật ngữ
ghi • Sử dụng các phương
pháp trùng lặp xấp xỉ
hoặc từng phần
• Cùng một term có
thể có nghĩa khác
Cơ sở dữ liệu đa phương tiện 5/9/2011 4
Quá trình truy vấn thông tin trong IR

Cơ sở dữ liệu đa phương tiện 5/9/2011 5


Mô hình truy vấn boolean cơ bản(1)

• Mục đích của hệ thống IR là lấy các mục liên


quan từ DB theo yêu cầu người dùng
• Hầu hết các hệ thống IR ngày nay có thể được
xem là hệ thống Boolean IR (tìm kiếm mẫu văn
bản)
• Các câu truy vấn tìm kiếm mẫu văn bản thường
là các chuỗi hoặc là các regular expression
(grep in Unix)
• Trong quá trình truy vấn, tất cả các tài liệu có
chứa chuỗi truy vấn được sẽ được lấy ra.
• Thích hợp cho tìm kiếm trong CSDL tài liệu nhỏ
Cơ sở dữ liệu đa phương tiện 5/9/2011 6
Mô hình truy vấn boolean cơ bản(2)

• Trong boolean IR các tài liệu được đánh chỉ mục


bởi một tập các từ khóa
• Các câu truy vấn được biểu diễn bởi một tập
các từ khóa và các toán tử kết nối logic giữa các
thuật ngữ
– OR: term1 OR term 2
– AND: term1 AND term 2
– NOT- dùng kết hợp với AND: term1 AND NOT term2

Cơ sở dữ liệu đa phương tiện 5/9/2011 7


Cấu trúc tệp tin(1)

• Dùng cấu trúc tệp tin nào cho CSDL tài liệu
• Các cấu trúc tệp tin được sử dụng trong IR bao
gồm:
– Flat files
– Signature files
– Inverted files
– And more…

Cơ sở dữ liệu đa phương tiện 5/9/2011 8


Cấu trúc tệp tin(2)

• Flat files:
– Một hoặc vài tài liệu được lưu ở 1 file
– Các tài liệu không được đánh chỉ mục
– Cơ chế tìm kiếm dựa trên mẫu
– Không hiệu quả
• Signature files:
– Mỗi tài liệu được nhận dạng bởi mội chuỗi bit
(signature) chứa trong file
– Các câu truy vấn cũng được biểu diễn bằng signature

Cơ sở dữ liệu đa phương tiện 5/9/2011 9


Inverted file

• Mỗi thuật ngữ được gán một chỉ mục chứa các
định danh tài liệu của các tài liệu có chứa thuật
ngữ
• Mỗi điểm vào của inverted file chứa một từ khóa
và các định danh tài liệu được tổ chức thành
một hàng
Term 1: RecordID 1, RecordID 3
Term 2: RecordID 1, RecordID 2
Term 3: RecordID 2, RecordID 3, RecordID 4
Term 4: RecordID 1, RecordID 2, RecordID 3

Cơ sở dữ liệu đa phương tiện 5/9/2011 10


Inverted file-Luật truy vấn với mô hình boolean(1)

• Logic AND: Term i AND Term j


– Một danh sách ghép(merged) được sinh ra cho các
hàng i và j
– Các tài liệu (bản ghi) có chứa cả Term i và Term j sẽ
được lấy ra
• Ví dụ: (Term 1 AND Term 3) ; Ouput?
Term 1: RecordID 1, RecordID 3
Term 2: RecordID 1, RecordID 2
Term 3: RecordID 2, RecordID 3, RecordID 4
Term 4: RecordID 1, RecordID 2, RecordID 3

Cơ sở dữ liệu đa phương tiện 5/9/2011 11


Inverted file-Luật truy vấn với mô hình boolean(2)

• Logic OR: Term i OR Term j


– Một danh sách ghép(merged) được sinh ra cho các
hành i và j
– Các tài liệu (bản ghi) có chứa Term i hoặc Term j sẽ
được lấy ra
• Ví dụ: (Term 1 OR Term 2) ; Ouput?
Term 1: RecordID 1, RecordID 3
Term 2: RecordID 1, RecordID 2
Term 3: RecordID 2, RecordID 3, RecordID 4
Term 4: RecordID 1, RecordID 2, RecordID 3

Cơ sở dữ liệu đa phương tiện 5/9/2011 12


Inverted file-Luật truy vấn với mô hình boolean(3)

• Logic NOT: Term i AND NOT Term j


– Các tài liệu (bản ghi) có chứa Term i và không chứa
Term j sẽ được lấy ra
• Ví dụ: (Term 4 AND NOT Term 1) ; Ouput?
Term 1: RecordID 1, RecordID 3
Term 2: RecordID 1, RecordID 2
Term 3: RecordID 2, RecordID 3, RecordID 4
Term 4: RecordID 1, RecordID 2, RecordID 3

Cơ sở dữ liệu đa phương tiện 5/9/2011 13


Hoạt động mở rộng của inverted file(1)
• Hai yêu tố quan trọng không được xem xét
– Vị trí của thuật ngữ (position)
– Sự quan trọng của thuật ngữ (significance)
• Cần thêm các tham số về độ gần trong đặc tả
truy vấn
– Term i within sentence Term j
– Term i adjacent Term j
• Để hỗ trợ các loại truy vấn trên, thông tin về vị trí
của từ khóa phải được lưu trong inverted file
Term i: Record no., Paragraph no., Sentence no., Word
no.

Cơ sở dữ liệu đa phương tiện 5/9/2011 14


Hoạt động mở rộng của inverted file(2)

Term i: Record no., Paragraph no., Sentence no., Word no.


VD:
information: R99, 10, 8, 3; R155, 15, 3, 6; R166, 2,
3, 1
retrieval: R77, 9, 7, 2; R99, 10, 8, 4; R166, 10, 2, 5
(information within sentence retrieval)
Output?

Cơ sở dữ liệu đa phương tiện 5/9/2011 15


Các hoạt động của từ khóa và đánh chỉ mục tự động

• Một tài liệu có thể chứa nhiều thuật ngữ, từ


nhưng không phải các từ đều hữu ích trong việc
biểu diễn nội dung của tài liệu -> stop words
• Trong quá trình đánh chỉ mục các stop words bị
bỏ qua
• Danh sách các từ còn lại được xử lý tiếp
• Các hoạt động xử lý thường gặp:
– Stemming (retrieved, retrieving, retrieval)
– Theaurus (study, schoolwork, reading, learning)
– Weighting (tf.idf)

Cơ sở dữ liệu đa phương tiện 5/9/2011 16


Inverted file với trọng số

Term1: R1, 0.3; R3, 0.5; R6, 0.8; R7, 0.2; R11, 1
Term2: R2, 0.7; R3, 0.6; R7, 0.5; R9, 0.5
Term3: R1, 0.8; R2, 0.4; R9, 0.7
• Hoạt động OR: Trọng số cao hơn được dùng để
đo độ tương tự giữa câu truy vấn và tài liệu,
danh sách tài liệu trả về được sắp xếp theo thứ
tự giảm dần
VD: câu truy vấn: (Term 2 OR Term 3)
Danh sách tài liệu đầu ra?

Cơ sở dữ liệu đa phương tiện 5/9/2011 17


Inverted file với trọng số

Term1: R1, 0.3; R3, 0.5; R6, 0.8; R7, 0.2; R11, 1
Term2: R2, 0.7; R3, 0.6; R7, 0.5; R9, 0.5
Term3: R1, 0.8; R2, 0.4; R9, 0.7
• Hoạt động AND: Trọng số thấp hơn giữa các tài
liệu chung thỏa mãn câu truy vấn được dùng để
đo độ tương tự giữa câu truy vấn và tài liệu,
danh sách tài liệu trả về được sắp xếp theo thứ
tự giảm dần về độ giống nhau
VD: câu truy vấn: (Term 2 AND Term 3)
Danh sách tài liệu đầu ra?

Cơ sở dữ liệu đa phương tiện 5/9/2011 18


Các bước của quá trình đánh chỉ mục tự động

• Mục đích của đánh chỉ mục là tìm ra các thuật


ngữ biểu diễn mỗi tài liệu một cách tốt nhất
• Quá trình đánh chỉ mục tự động bao gồm các
bước:
1. Xác định các từ trong tiêu đề, tóm tắt và/hoặc tài liệu
2. Loại bỏ stop words
3. Nhận dạng từ đồng nghĩa nhử từ điển
4. Stemming để có gốc từ
5. Đếm tần số của gốc từ trong mỗi tài liệu
6. Tính toán trọng số cho gốc từ
7. Tạo file chỉ số dựa trên các từ và trọng số

Cơ sở dữ liệu đa phương tiện 5/9/2011 19


Test 2
Áp dụng các bước quá trình đánh chỉ mục vào các tài liệu ở dưới
Biểu diễn kiểu trọng số trong inverted file 3 từ có tần số xuất hiện
nhiều nhất. Tính danh sách tài liệu đầu ra của của truy vấn:
( term 1 OR term 5)
DOC 1.
We discussed how the use of term weights can help rank the returned list
they are normally the most useful to the user. The user can just look at the first few items
without going through a long list of items

DOC 2.
Weights is useful for ranking the returned list. Ranked return is very important because if
the first few items are most similar or relevant to the query, they are normally the most
useful to the user.
DOC 3.
The aim of indexing is to find the best terms to represent each document so that
documents can be retrieved accurately during the retrieval process. The automatic
indexing process consists of the following steps
Mô hình truy vấn không gian vector(1)

• Các vấn đề với mô hình truy vấn boolean:


– Khó xây dựng các câu truy vấn, các kết quả tìm kiếm
nhạy cảm với dạng truy vấn
– Các trọng số của từ khóa thường không được sử
dụng trong các câu truy vấn
• Mô hình không gian vector
– Giả định có một tập cố định các từ chỉ mục biểu diễn
các tài liệu và các câu truy vấn
– Một tài liệu Di và Qj được biểu diễn:

– Các trọng số Tik và Qjk ở dạng nhị phân hoặc tf.idf


Cơ sở dữ liệu đa phương tiện 5/9/2011 21
Mô hình truy vấn không gian vector(2)

• Truy vấn trong mô hình không gian vector được


dựa trên sự tương quan giữa câu truy vấn và tài
liệu

• Công thức chuẩn hóa:

Cơ sở dữ liệu đa phương tiện 5/9/2011 22


Mô hình truy vấn không gian vector(3)

• Danh sách xếp hạng các tài liệu trả về được sắp
xếp theo độ tương quan giảm dần

D1 = [0.2, 0.1, 0.4, 0.5]


D2 = [0.5, 0.6, 0.3, 0]
D3 = [0.4, 0.5, 0.8, 0.3]
D4 = [0.1, 0, 0.7, 0.8]
Q = [0.5, 0.5, 0, 0]

Cơ sở dữ liệu đa phương tiện 5/9/2011 23


Mô hình truy vấn dựa trên phân cụm

• Tạo phân cụm


• Truy vấn tài liệu dựa trên phân cụm

Cơ sở dữ liệu đa phương tiện 5/9/2011 24


Các hướng mới trong truy vấn thông tin

• Các vấn đề chính của IR:


– Biểu diễn tài liệu và các câu truy vấn một cách chính
xác
– So sánh câu truy vấn với tài liệu một cách chính xác
• Mô hình IR truyền thống dựa vào sự xuất hiện
thống kê của các từ:
– Các từ đơn không chứa hết được thông tin mã hóa
trong ngôn ngữ
– Trình tự của các từ cung cấp nhiều thông tin
– Các cụm từ mang nghĩa khác nhiều từng từ riêng biệt
• Để cải tiến: NPL, tri thức miền

Cơ sở dữ liệu đa phương tiện 5/9/2011 25


Đo hiệu suất

• Tốc độ truy vấn


• Độ triệu hồi: Đo khả năng truy vấn thông tin liên
quan từ DB (số mục từ liên quan/tổng số mục từ
liên quan trong CSDL)
• Độ chính xác: Đo tính chính của truy vấn (số
mục từ liên quan/tổng số mục từ trong kết quả)
VD: Trong DB có 10 mục liên quan đến một truy
vấn. Danh sách trả về tương ưng với truy vấn
là: R, R, I, I, R, R, I, I, R, I, R, R, I, I, R
Tính độ triệu hồi và độ chính xác tương ứng với
việc lấy ra 6 mục từ kết quả truy vấn.
Cơ sở dữ liệu đa phương tiện 5/9/2011 26

You might also like