Download as pdf or txt
Download as pdf or txt
You are on page 1of 57

BỘ CÔNG THƯƠNG

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI


KHOA CÔNG NGHỆ THÔNG TIN
======***======

BÁO CÁO TIỂU LUẬN


CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
Đề tài: Searching the Multimedia Warehouse

GVHD: GS.TS Đỗ Mạnh Hùng

Thành viên: Nguyễn Quý Long - 2023700154


Đỗ Thị Ngọc Huyền - 2023700184
Nguyễn Ngọc Hoa – 2023700192

Lớp: CH HTTT K13.2

Hà Nội, năm 2024


MỤC LỤC

MỤC LỤC .............................................................................................. 1

PHẦN 1. DỮ LIỆU ĐA NGÔN NGỮ ................................................... 4

Lưu trữ ................................................................................................ 5

Dấu thanh ............................................................................................ 5

Dịch Thuật........................................................................................... 6

PHẦN 2. BẢO MẬT.............................................................................. 8

PHẦN 3. TÌM KIẾM ........................................................................... 15

Hiệu năng của chỉ mục ...................................................................... 17

Dựa trên siêu dữ liệu ......................................................................... 18

Cấu trúc hình ảnh .............................................................................. 18

Thương mại điện tử ........................................................................... 19

Dương tính giả .................................................................................. 19

Tìm kiếm sống .................................................................................. 21

Khai thác dữ liệu ............................................................................... 23

Ký hiệu Big O ............................................................................... 24

Biểu diễn kết quả............................................................................... 25

Giao diện ....................................................................................... 25

Trực quan hóa kết quả................................................................... 26

Đám mây từ khóa .......................................................................... 26

Thu phóng vô hạn ......................................................................... 28

1
Mạng xã hội phức tạp ................................................................... 29

Hộp nhẹ ......................................................................................... 32

VRML và SVG ............................................................................. 33

Synchronized Multimedia Integration Language (SMIL) ............ 34

HTML 5 ........................................................................................ 34

Adobe Flash .................................................................................. 35

Voice XML ................................................................................... 36

Các thiết bị khác............................................................................ 36

Thiết bị Braille .............................................................................. 36

Âm thanh ....................................................................................... 36

Các tính năng tìm kiếm ..................................................................... 37

Nhóm tổng hợp ............................................................................. 37

Khu vực làm việc .......................................................................... 38

Tìm kiếm không phân biệt ............................................................ 38

Thông báo kết quả ......................................................................... 39

Hạn chế kết quả ............................................................................. 39

Điều khiển đầu ra .......................................................................... 39

Kiểm tra tìm kiếm ......................................................................... 39

Thiết kế ngôn ngữ tìm kiếm .............................................................. 40

Ngữ cảnh tìm kiếm........................................................................ 40

Lý thuyết tập hợp .......................................................................... 41

Ưu tiện trong tập hợp .................................................................... 42

Các thuật ngữ truy vấn chuyên biệt .............................................. 45

Lỗi chính tả ................................................................................... 45

2
Nghe giống nhau ........................................................................... 46

Tìm kiếm gốc ................................................................................ 46

Xếp hạng ....................................................................................... 47

Các từ bắt buộc và các thuật ngữ khác.......................................... 49

Tần suất từ..................................................................................... 49

Tự động gợi ý ................................................................................ 50

Khả năng mở rộng của công cụ tìm kiếm ..................................... 50

Tìm kiếm liên minh ........................................................................... 52

Tìm kiếm mờ ..................................................................................... 54

Tìm kiếm hợp tác .............................................................................. 54

Tổng kết ............................................................................................ 55

3
PHẦN 1. DỮ LIỆU ĐA NGÔN NGỮ

Không phải tất cả các quốc gia trên thế giới hoặc các tổ chức đều sử dụng
một ngôn ngữ duy nhất. Một số là song ngữ, những cái khác hỗ trợ nhiều ngôn
ngữ. Dữ liệu đến từ các trang web khác có thể ở trong một ngôn ngữ khác nhau.
Các bảo tàng trên khắp thế giới thường xuyên chia sẻ các mục, và thông tin số
hóa liên quan đến chúng có thể ở trong một ngôn ngữ khác.
Thách thức đối với tất cả các tổ chức này là cách xử lý dữ liệu này một
cách tốt nhất. Các vấn đề có thể được phân tích thành các phần sau:
• Lưu trữ
• Hiển thị
• Dịch
• Tìm kiếm
Tìm kiếm trong Kho đa phương tiện
Tất cả các ngôn ngữ nói có thể được biểu diễn trong văn bản; một số theo
cách phiên âm, những cái khác theo cấu trúc đại diện. Các ngôn ngữ khác nhau
sử dụng các ký hiệu khác nhau để biểu diễn cách phát âm. Một số ngôn ngữ sử
dụng một ký hiệu để biểu diễn một âm thanh (phiên âm), những cái khác sử
dụng một hoặc nhiều hỗn hợp để biểu diễn các âm thanh khác nhau. Các ngôn
ngữ như tiếng Anh đã giới thiệu một số lượng lớn các ngoại lệ cho điều này,
đến mức từ điển cần bao gồm một hướng dẫn về cách phát âm. Tiếng Anh cũng
có nhiều ký hiệu biểu diễn một ký hiệu cơ bản (viết hoa và viết thường). Các
ký hiệu khác nhau được sử dụng để điều khiển ngữ pháp.
Các ngôn ngữ phát triển và thay đổi theo thời gian và hầu hết có thể được
truy nguyên về một số vùng nhất định trên thế giới. Do đó, chúng có một cơ sở
chung. Hầu hết các ngôn ngữ châu Âu và Mỹ chia sẻ một tập hợp các ký tự
tương tự xoay quanh một tên gọi là Latin, dựa trên tiếng Hy Lạp. Châu Á, Trung
Đông và châu Phi có các tập hợp ký tự hoàn toàn khác nhau.
4
Trong các ngôn ngữ sử dụng các tập hợp ký tự xoay quanh Latin, các ký
tự (được gọi là một grapheme) có thể trông giống nhau nhưng có các đặc điểm
bổ sung được sử dụng để kiểm soát cách phát âm. Trong tiếng Anh, chữ A được
sử dụng, nhưng trong các ngôn ngữ khác ngoài chữ A, chúng ta cũng có thể sử
dụng Ā, Á, Â, Ä, Å, À, Æ. Trong trường hợp này, một ký tự đặc biệt được gọi
là glyph, được thêm vào ký tự. Trong một số trường hợp, nó được gọi là dấu
thanh. Khi điều này được thực hiện, kết quả là một ký tự được gọi là dấu thanh.

Lưu trữ
Bộ ký tự được sử dụng bởi XML là UTF-8. Với sự phổ biến ngày càng
tăng của XML cho việc truyền dữ liệu (dịch vụ web), các hệ thống cơ sở dữ
liệu phải tuân thủ nó hoặc một phụ bộ của UTF-8 (phần tiếp theo là UTF-16).
UTF-8 có thể lưu trữ hầu hết các bộ ký tự biểu diễn hầu hết các ngôn ngữ được
sử dụng trên thế giới. Thách thức là tải và truy xuất dữ liệu mà không mất đi
bản dịch.

Dấu thanh
Độ chính xác trong việc tìm kiếm là quan trọng, vì vậy khi người dùng
tìm kiếm từ "entree", liệu kết quả có từ "entrée" cũng được bao gồm không?
Nếu người dùng tìm kiếm theo "entrée", liệu kết quả có từ "entree" cũng nên
được bao gồm không?

Quan điểm phổ biến được chấp nhận là dấu thanh không nên được xem
xét khi tìm kiếm, mặc dù có khả năng một kết quả giả (xem phần Giả tích dương
để biết thêm chi tiết) có thể xảy ra. Dấu thanh thường được sử dụng để kiểm
soát cách phát âm của từ và không phải là ý nghĩa của nó. Điều này khác với từ
đồng âm, đó là một từ có cùng cách phát âm nhưng có ý nghĩa khác nhau. Khi

5
người dùng tìm kiếm từ "passed", liệu họ đang tìm kiếm một sự chấp thuận hay
một người đã đi qua (đi qua) hay họ đã nhầm lẫn với past, như trong trước đây?

Kết quả là việc tìm kiếm khi có các ký tự dấu thanh nên được bỏ qua, và
dấu thanh được chuyển đổi thành một ký tự cơ bản. Vì vậy, nếu ký tự là Ë khi
được tìm kiếm, nó sẽ được chuyển đổi thành E. Khi hiển thị ký tự, giá trị ban
đầu nên được hiển thị. Vì vậy, ngay cả khi tìm kiếm được thực hiện trên E, nếu
kết quả bao gồm ký tự Ë thì giá trị này nên được hiển thị.

Dịch Thuật
Với sự ra đời của cái tên babel fish, các trang web khác nhau đã trở nên
có sẵn để cung cấp dịch máy từ một ngôn ngữ sang một ngôn ngữ khác (ví dụ,
http://babelfish.yahoo.com/). Việc tin rằng bằng cách sử dụng công nghệ này,
người ta có thể dịch tự động siêu dữ liệu từ một ngôn ngữ sang ngôn ngữ khác
là rất hấp dẫn. Nhưng những người đã sử dụng babel fish sớm nhận ra rằng
ngay cả khi các từ được dịch, ngữ cảnh không được dịch kèm theo. Kết quả là
các bản dịch trở nên không có ý nghĩa. Đôi khi bản dịch có phần hoạt động một
cách mơ hồ nhưng ngữ pháp lại gượng gạo và không thân thiện với người dùng.
Kết quả là dịch tự động vẫn còn một quãng đường dài phía trước. Nó có
những ứng dụng của riêng mình và khi sử dụng với các hạn chế được tính toán,
có thể giúp đỡ những người cần một bản dịch nhanh chóng, để hiểu được ý
nghĩa cơ bản của nguyên văn. Nó không phù hợp cho các tổ chức muốn có
nhiều ngôn ngữ và muốn chuyển đổi dữ liệu của họ nhanh chóng sang ngôn
ngữ khác. Cuối cùng, bản dịch tốt nhất được thực hiện bởi con người, và đặc
biệt là bằng cách sử dụng con người đã được đào tạo về cấu trúc ý nghĩa và sắc
thái của môi trường mà tổ chức đó đang hoạt động.
Để làm phức tạp hơn trong việc dịch, các loại doanh nghiệp khác nhau
sử dụng các ngôn ngữ khác nhau có thể làm cho việc dịch trở nên khó khăn nếu

6
họ không thành thạo (còn được gọi là thuật ngữ kinh doanh). Ví dụ, các thuật
ngữ pháp lý có thể có ý nghĩa khác với các thuật ngữ được sử dụng trong cộng
đồng tình báo, thực vật học, khoa học tự nhiên và các bảo tàng.

7
PHẦN 2. BẢO MẬT
Cách hiệu quả nhất để kiểm soát người dùng nào được phép truy cập hình
ảnh là thông qua các vai trò. Vai trò là một khái niệm rất đơn giản nhưng nhiều
người chưa từng sử dụng họ thì gặp khó khăn trong việc hiểu rõ họ hoạt động
như thế nào.
Một vai trò cho phép truy cập chi tiết vào một tập hình ảnh. Nó cho phép
cấu hình bảo mật dựa trên các yêu cầu kinh doanh. Vai trò cũng cho phép thay
đổi bảo mật một cách nhanh chóng và dễ dàng.
Với bảo mật, người ta luôn phải nhớ rằng đó là một sự cân đối. Bảo mật
càng hạn chế và chặt chẽ, càng ít cơ hội có cho việc truy cập không được ủy
quyền. Bảo mật càng chặt chẽ và hạn chế, việc làm việc của người dùng càng
trở nên khó khăn, để thực hiện các truy vấn hoặc thực hiện các công việc một
cách nhanh chóng. Càng ít bảo mật, cơ hội cho một đối tượng kỹ thuật số bị
mất cắp hoặc bị hỏng càng lớn. Một mục tiêu của một kho là cho phép người
dùng thực hiện các truy vấn tự do và phức tạp mà không gặp rắc rối hoặc hạn
chế của một môi trường OLTP. Mỗi tổ chức là khác nhau và có các yêu cầu
bảo mật riêng của họ, nhưng một quản trị bảo mật quá khích, hoặc một người
quá bảo thủ có thể dễ dàng đến cực đoan và làm cho việc này gần như không
thể cho một người dùng thực hiện công việc và truy cập môi trường. Trong
những trường hợp này, quản trị viên bảo mật có thể trích dẫn các kịch bản giả
tưởng hoặc thực tế khi việc bảo mật lỏng lẻo dẫn đến mất dữ liệu. Nhưng một
lần nữa, quản trị viên bảo mật phải hiểu rõ các yêu cầu kinh doanh của người
dùng.
Một vai trò cực kỳ đơn giản. Nó là một đối tượng (nhưng để dễ hiểu hơn,
hãy xem xét nó như một định danh). Nếu một người dùng được gán một vai
trò, họ có thể truy cập bất kỳ đối tượng kỹ thuật số nào cũng có vai trò đó. Một
người dùng và một đối tượng kỹ thuật số có thể có nhiều hơn một vai trò. Một
phép tương tự trong đời thực có thể giống như có một thẻ an ninh (một thẻ an
8
ninh giống như một vai trò). Thẻ an ninh đó có thể cho bạn quyền truy cập vào
một số phòng trong một tòa nhà (mỗi phòng là một đối tượng kỹ thuật số). Nếu
phòng đó có bảo mật phù hợp với thẻ của bạn, bạn có thể vào phòng (truy cập
vào đối tượng kỹ thuật số).

Như mọi thứ đơn giản, nó có thể trở nên cực kỳ phức tạp khi được sử
dụng trong một môi trường phức tạp. Tất cả các cơ sở dữ liệu SQL đều sử dụng
các vai trò vì nó là một tiêu chuẩn ANSI. Tuy nhiên, việc triển khai các vai trò
trong cơ sở dữ liệu SQL thường bị hạn chế và tổ chức thường phải xây dựng
khái niệm tương đương của riêng mình để vượt qua những hạn chế này.
Trong trường hợp cơ bản với các vai trò, đó là một sự kết hợp đơn giản
từ một người dùng với một vai trò đến một đối tượng kỹ thuật số. Khái niệm
này có thể được mở rộng để bao gồm các điều sau:
• Các vai trò có thể được sử dụng để kiểm soát quyền truy cập vào các
phiên bản hình ảnh. Bạn có thể có một vai trò cho phép bạn truy cập vào hình
ảnh cơ bản, nhưng bạn có thể muốn kiểm soát liệu người dùng có thể truy cập
vào ảnh gốc và/hoặc một số phiên bản tạo ra từ nó hay không.

9
Bạn có thể muốn thiết lập một môi trường cho bảo mật cấp thấp. Người
dùng chỉ có thể truy cập vào một phiên bản với độ phân giải thấp, trong khi
người dùng cấp cao hơn có thể truy cập vào ảnh gốc có chất lượng cao hơn.
Một ví dụ gần đây về điều này là khi Mỹ công khai phát hành hình ảnh từ vệ
tinh. Các hình ảnh có độ phân giải thấp để khi bạn phóng to chúng sẽ trở nên
mờ. Họ giữ lại các hình ảnh có độ phân giải cao hơn cho việc sử dụng nội bộ.

• Các vai trò có thể được sử dụng để kiểm soát quyền truy cập vào dữ
liệu siêu dữ liệu. Một đối tượng kỹ thuật số có thể có hàng trăm trường siêu dữ
liệu. Một số có thể chứa thông tin nhạy cảm hoặc bí mật. Một số có thể chứa
thông tin sở hữu hoặc ghi chú quản trị mà người khác không nên xem. Các vai
trò có thể được sử dụng để truy cập vào hình ảnh và một vai trò khác có thể
được sử dụng để kiểm soát các giá trị siêu dữ liệu mà người dùng có thể truy
cập.

• Các vai trò có thể được sử dụng để giới hạn quyền truy cập vào các
danh mục. Một tương đương với các danh mục là các thư mục hệ điều hành.
Một vai trò có thể được sử dụng để kiểm soát người dùng có thể xem các danh
mục nào. Điều này cho phép tạo ra một cấu trúc với các danh mục cho dữ liệu
nhạy cảm và dành cho công chúng. Trong một cấu trúc danh mục phân cấp, câu
hỏi mà phát sinh là nếu một người dùng có quyền truy cập vào một danh mục
con nhưng không có quyền truy cập vào danh mục cha, họ có thể vẫn truy cập
vào danh mục đó không? Các hệ điều hành khác nhau khi xem xét các thư mục
xử lý điều này theo cách khác nhau. Trong hầu hết các trường hợp, câu trả lời
là không trừ khi bạn có thể chỉ định đầy đủ đường dẫn đến danh mục con. Điều
này chỉ có ý nghĩa trong một môi trường dòng lệnh (ví dụ: DOS hoặc một Unix
Shell) nhưng không hoạt động dễ dàng trong một môi trường đồ họa. Trong
trường hợp này, giải pháp là cho phép người dùng xem các danh mục cha nhưng
xem chúng một cách hạn chế. Điều này thậm chí có thể bao gồm không thể
10
nhìn thấy tên của chúng, mặc dù điều này làm cho việc thực hiện các chức năng
bổ sung như sao chép hoặc di chuyển trở nên khó khăn. Đặc biệt nếu những
công cụ này yêu cầu đầy đủ đường dẫn để truy cập đúng vào đối tượng kỹ thuật
số.

• Các vai trò có thể được sử dụng để xác định người dùng nào có thể truy
cập vào một đơn đặt hàng và xem xét hoặc chỉnh sửa nó. Điều này được thảo
luận chi tiết hơn trong Chương 5, Các Kỹ Thuật Tải Dữ Liệu. Nếu một đơn đặt
hàng yêu cầu phải được phê duyệt bởi một quản lý, thì quản lý đó cần có quyền
để xem nó. Bằng cách gán một vai trò cho đơn đặt hàng, nếu quản lý có cùng
vai trò, họ có thể xem xét hoặc chỉnh sửa nó.

• Các vai trò có thể được sử dụng để xác định tài khoản nào có thể xem
xét và chỉnh sửa các tài khoản khác. Nếu một người dùng có một tài khoản
được gắn với một vai trò (chỉ ra rằng nó thuộc mức quản lý) thì nếu một quản
lý có cùng vai trò đó thì họ có thể chỉnh sửa hoặc xem tài khoản người dùng
đó.

11
Bảo mật vai trò có thể được cải thiện hơn nữa để bao gồm các khả năng
sau đây:
• Một vai trò có thể được liên kết với một địa chỉ IP để hạn chế nơi mà
một người có thể truy cập dữ liệu. Nếu người dùng đăng nhập có địa chỉ IP nội
bộ (chỉ ra truy cập cục bộ) thì họ có thể được tự động gán một vai trò với quyền
truy cập cao hơn. Nếu họ là người bên ngoài thì họ có thể được cấp quyền truy
cập hạn chế. Điều này hữu ích cho các tổ chức cho phép đăng nhập từ xa. Việc
kiểm soát những đối tượng kỹ thuật số mà một người dùng nhìn thấy thông qua
đăng nhập từ xa sẽ khó hơn. Trong quá trình đăng nhập từ xa, người dùng có
thể cho bạn bè/gia đình xem các hình ảnh. Trong khi nếu họ đang trên một
mạng nội bộ có thể không thể làm điều đó chỉ vì các hạn chế vật lý của môi
trường.
• Một vai trò có thể được kích hoạt chỉ trong một số thời gian nhất định
trong ngày hoặc các ngày trong tuần. Điều này có thể được sử dụng để đảm bảo
rằng một người dùng chỉ có thể truy cập vào thông tin nhạy cảm trong các
khoảng thời gian được kiểm soát.
• Có thể cấp cho một vai trò quyền truy cập vào các vai trò khác (việc
cấp quyền cha-con). Đây là một hình thức của kế thừa. Nếu bạn có một vai trò
cha, thì bạn tự động có quyền truy cập vào các vai trò con. Thiết lập này hữu
ích cho các trang web sử dụng một số lượng lớn các vai trò và sau một thời
gian, quản lý chúng trở nên khó khăn. Nó làm tăng sự phức tạp trong việc kiểm
soát truy cập vì cấu trúc vai trò (cha-con) phải được hiểu rõ.
• Các vai trò có thể được kế thừa từ các hệ thống khác. Một người dùng
truy cập vào một kho đa phương tiện bằng cách sử dụng LDAP có thể kế thừa
các vai trò từ tài khoản LDAP của họ.
• Các vai trò có thể được bảo vệ bằng mật khẩu. Một người dùng, khi
đăng nhập, có thể được cấp quyền truy cập vào một số vai trò, nhưng phải cung
cấp một mật khẩu bổ sung để kích hoạt chúng. Đối với một nhà tư vấn làm việc
tại hiện trường trong một thời gian ngắn, đây có thể là một tính năng hữu ích.
12
Họ có thể có một tài khoản dài hạn vì họ thực hiện các công việc tại hiện trường
cho tổ chức định kỳ. Tuy nhiên, tài khoản cơ bản của họ có quyền truy cập tối
thiểu, nhưng bảo mật của họ được thiết lập với các vai trò được bảo vệ bằng
mật khẩu và sẵn sàng sử dụng (họ không cần yêu cầu một tài khoản mới và phê
duyệt mỗi khi họ đến tổ chức). Điều này tiết kiệm thời gian. Để truy cập vào
các đối tượng kỹ thuật số, một người quản lý cung cấp cho họ mật khẩu để kích
hoạt vai trò hoặc các vai trò. Mật khẩu được thay đổi hàng ngày. Nếu nhà tư
vấn làm việc ở các khu vực khác nhau, quyền truy cập có thể được cung cấp
theo yêu cầu và thu hồi bằng cách đơn giản là thay đổi mật khẩu.
• Các vai trò có thể được sử dụng để thêm các tình huống bảo mật mới
vào một môi trường. Nếu một người dùng tạo một hộp sáng, họ có thể thêm
vào hộp sáng mười hình ảnh mà họ có quyền truy cập hợp lệ. Nếu bảo mật vai
trò cho phép, họ có thể cung cấp quyền truy cập vào hộp sáng của họ cho một
người dùng khác. Người dùng đó sau đó có thể nhìn thấy các hình ảnh trong
hộp sáng mặc dù họ không có các vai trò để truy cập vào các đối tượng đó.
• Một vai trò cũng có thể được cấp các đặc quyền bổ sung bao gồm select,
insert, update, delete, và alter. Khái niệm như vậy được mô tả rõ ràng trong cơ
sở dữ liệu SQL, nhưng trong cơ sở dữ liệu đa phương tiện, quyền truy cập này
có thể được sử dụng để kiểm soát sự thay đổi siêu dữ liệu. Một người dùng có
thể được cấp một vai trò với quyền truy cập select, cho họ quyền chỉ đọc vào
dữ liệu siêu dữ liệu. Nếu người dùng được cấp một vai trò với quyền truy cập
select và update thì người dùng có thể đọc dữ liệu và sửa đổi nó. Nếu người
dùng cũng được cấp quyền truy cập insert, điều này có nghĩa là họ có thể gán
dữ liệu mới cho một hình ảnh, hoặc có thể tạo ra một hình ảnh mới. Nếu người
dùng có quyền truy cập delete thì họ có thể xóa một giá trị siêu dữ liệu hoặc
xóa một hình ảnh. Để thay đổi cấu trúc hoặc định nghĩa của hình ảnh, quyền
alter được sử dụng. Nếu một người dùng được cấp quyền alter, điều này có
nghĩa là họ có khả năng thao tác trên hình ảnh. Điều này có thể bao gồm thay
đổi kích thước, tạo ra một hình ảnh thu nhỏ mới, hoặc các hình thức thao tác
13
vật lý khác. Nếu đó là siêu dữ liệu, điều này có thể nghĩa là họ có thể thay đổi
các thuộc tính của thẻ meta cha, bao gồm việc thay đổi tên thẻ meta. Quyền
alter có nhiều khả năng và chỉ nên được gán cho người dùng có kỹ năng và hiểu
biết chính xác để sử dụng nó. Alter khác với update. Alter liên quan đến việc
thay đổi cấu trúc của hình ảnh, trong khi update áp dụng cho việc thay đổi siêu
dữ liệu được đính kèm vào hình ảnh.
Nếu một người dùng được cấp một vai trò mà không có quyền truy cập
select, insert, update, delete, hoặc alter, điều đó có nghĩa là người dùng có thể
tìm kiếm một hình ảnh nhưng không thể xem siêu dữ liệu cũng như không thể
xem chính đối tượng kỹ thuật số đó. Tuy nhiên, họ có thể nhìn thấy rằng một
đối tượng kỹ thuật số đã được trả về từ yêu cầu tìm kiếm của họ. Họ có thể chỉ
nhìn thấy tên của đối tượng kỹ thuật số hoặc một số thông tin công khai về đối
tượng. Trong trường hợp này, họ biết rằng tìm kiếm của họ đã trả về một kết
quả, nhưng họ không thể xem thêm bất kỳ thông tin nào về nó. Trong trường
hợp này, hệ thống có thể yêu cầu họ nhận được sự ủy quyền chính xác để xem
đối tượng.
Các vai trò cũng có thể được gán có hoặc không có quyền hành chính.
Một lần nữa, tính năng này phổ biến trong cơ sở dữ liệu SQL và nói chung có
nghĩa là nếu một vai trò được gán cho một người dùng có quyền hành chính,
điều đó có nghĩa là người dùng đó có thể gán vai trò đó cho một người dùng
khác. Điều này cho phép bảo mật phân cấp nơi quyền lực được chuyển giao
cho một người dùng đáng tin cậy khác.

14
PHẦN 3. TÌM KIẾM
Khi đến việc tìm kiếm, hầu hết mọi người có tư duy Google hoặc Bing.
Điều này có nghĩa là họ đã vô tình được huấn luyện trong hành vi tìm kiếm do
việc sử dụng rộng rãi các công cụ tìm kiếm này. Họ thường nhập một hoặc hai
từ và chờ kết quả trả về theo thứ tự xếp hạng. Loại tìm kiếm này là tìm kiếm
coarse grained. Nó hiệu quả khi bạn vô tình tiếp cận cố gắng tìm kiếm một sự
phù hợp. Người dùng sau đó xem kết quả và thu hẹp tìm kiếm của họ bằng cách
kiểm tra kết quả xem nó có phải là điều họ cần không.
Loại tìm kiếm này rất hiệu quả khi thông tin được phân tán trên một số
lượng lớn các hệ thống. Nó không hiệu quả khi yêu cầu các phương pháp tìm
kiếm tinh chỉnh hoặc fine grain hơn. Những hệ thống tìm kiếm này cũng dựa
trên khái niệm của trang HTML là loại đối tượng kỹ thuật số duy nhất được tìm
kiếm.
Một số công cụ tìm kiếm này gặp khó khăn hoặc đơn giản không thể xử
lý các truy vấn tinh tế. Nếu người dùng muốn tìm tất cả các hình ảnh có hình
dáng đứng và không được xoay đúng cách, điều đó sẽ liên quan đến việc xem
xét các thuộc tính vật lý của hình ảnh kỹ thuật số và giá trị EXIF của nó cho
việc quay.
Nếu người dùng muốn thực hiện một truy vấn mờ sử dụng kiểu dữ liệu
xấp xỉ, các công cụ tìm kiếm này thậm chí không thể bắt đầu xử lý chúng, chủ
yếu vì các loại siêu dữ liệu không được trích xuất hoặc tính toán.
Các công cụ tìm kiếm lớn sử dụng trang HTML làm đối tượng kỹ thuật
số cốt lõi. Tầm quan trọng của nó dựa trên mối quan hệ hoặc liên kết từ các
trang khác đến trang này. Văn bản bên trong nó được xem xét như là văn bản
thô và đối với một số người, họ có thể trích xuất thông tin tiêu đề HTML
<meta> và sử dụng nó để hỗ trợ tìm kiếm. Các công cụ này không tập trung
vào ý nghĩa của dữ liệu trong các trang.

15
Một hạn chế khác của những công cụ tìm kiếm coarse grain là chúng giả
định rằng tất cả dữ liệu đều là công cộng. Không có bảo mật. Không có khả
năng hạn chế cái được truy cập dựa trên một vai trò. Việc giả định rằng mọi thứ
đều công cộng đơn giản hóa việc tập trung của công cụ tìm kiếm, cho phép
công cụ tập trung vào dữ liệu và điều mà nó đã được huấn luyện để nghĩ là quan
trọng cho các truy vấn. Cơ chế bảo mật duy nhất được triển khai liên quan đến
việc bảo vệ sự riêng tư của người dùng thực hiện các truy vấn và cố gắng che
giấu lịch sử tìm kiếm của họ khỏi người khác.
Các công cụ tìm kiếm coarse grain thường trở nên nổi tiếng với việc trả
về false positives (được thảo luận sau trong chương này), thực sự trả về tài liệu
HTML sai. Hầu hết người dùng hiện nay đều nhận thức được điều này và điều
phân biệt giữa các công cụ tìm kiếm khác nhau ngày nay là các thuật toán mà
chúng sử dụng để đảm bảo độ chính xác cao hơn trong những gì được trả về.
Vì các công cụ tìm kiếm này chủ yếu làm việc với HTML sử dụng các thẻ để
đánh dấu các trang và không mô tả dữ liệu, chúng phải đối mặt với thách thức
để hiểu ý nghĩa của dữ liệu trong các trang. Để vượt qua điều này, các công cụ
tìm kiếm lớn cũng tích hợp với các hệ thống khác như Wiki, từ điển trực tuyến
và cơ sở dữ liệu phổ biến. Khi họ làm điều này, họ có thể trích xuất dữ liệu và
có được sự hiểu biết sâu hơn về ý nghĩa của nó.
Do các công cụ tìm kiếm coarse grain có bảo mật hạn chế và tập trung ở
mức độ văn bản tài liệu HTML, nó cho phép chúng mở rộng để xử lý hàng trăm
nghìn.

16
Hiệu năng của chỉ mục
Một khía cạnh thường bị bỏ qua của việc tìm kiếm coarse grain so với
fine grain là tốc độ mà các thay đổi được phản ánh trong chỉ mục. Công cụ tìm
kiếm coarse grain tìm kiếm các thay đổi trong dữ liệu và chỉ mục hoặc làm chỉ
mục lại chúng. Một tìm kiếm fine grain được cập nhật khi dữ liệu được cập
nhật. Do đó, công cụ tìm kiếm fine grain luôn được cập nhật và không có độ
trễ. Khi một giao dịch được thực hiện đối với dữ liệu trong kho dữ liệu, sự thay
đổi đó được phản ánh ngay lập tức trong chỉ mục. Khi một người dùng thực
hiện một truy vấn, họ thực hiện truy vấn đối với phiên bản mới nhất. Có một
chi phí hiệu suất liên quan đến việc làm điều này. Công cụ tìm kiếm coarse
grain sử dụng khái niệm tính nhất quán cuối cùng với độ trễ từ vài phút, giờ
hoặc ngày xảy ra từ khi các thay đổi được thực hiện cho đến khi chúng được
phản ánh trong kết quả của công cụ tìm kiếm.
Đối với các công cụ tìm kiếm coarse grain, như Google, việc triển khai
tính nhất quán thời gian thực là không khả thi, vì vậy tính nhất quán cuối cùng
là giải pháp duy nhất. Vì hầu hết các trang web là tĩnh, cộng đồng người dùng
quen thuộc với việc không thấy các thay đổi trong các trang được phản ánh
ngay lập tức trong công cụ tìm kiếm. Google cung cấp một tốc độ crawl linh
hoạt cho robot công cụ tìm kiếm. Khi robot, còn được gọi là bot, truy cập một
trang để làm chỉ mục, nó được gọi là crawl. Trong thực tế, nó truy cập vào trang
web. Như được chỉ ra trên trang web của họ:
"Google có các thuật toán tinh vi để xác định mức độ crawl mỗi trang
web. Mục tiêu của chúng tôi là crawl nhiều trang từ trang web của bạn nhất có
thể trong mỗi lần truy cập mà không làm quá tải băng thông của máy chủ của
bạn."
Kho dữ liệu thường sử dụng tính nhất quán cuối cùng vì họ đang xử lý
dữ liệu tổng hợp. Như đã đề cập khi xem xét các loại kho dữ liệu đa phương
tiện khác nhau, một kho dữ liệu đa phương tiện có thể có các chỉ thị kinh doanh

17
khác nhau dẫn đến nhu cầu về tính nhất quán thời gian thực. Trong trường hợp
đó, cách mà công cụ tìm kiếm làm chỉ mục dữ liệu phải được xem xét.
Oracle cung cấp một công cụ tìm kiếm tích hợp gọi là Oracle Text. Công
cụ này có thể làm chỉ mục các tài liệu và tạo ra các chủ đề và tóm tắt của tài
liệu đó. Tính chất tốn nhiều tài nguyên của quá trình làm chỉ mục làm cho việc
chỉ mục tài liệu ở thời gian thực trở nên không thực tế và các quy trình được
cung cấp để cho phép chỉ mục, theo lô, hàng loạt. Mặc dù công cụ tìm kiếm
Oracle Text có thể hoạt động như một công cụ tìm kiếm fine grain, khả năng
làm chỉ mục trễ của nó đặt nó ở giữa giữa các công cụ tìm kiếm coarse grain và
fine grain đã mô tả. Khi công nghệ và phần mềm thay đổi, hành vi của các công
cụ tìm kiếm cũng sẽ thay đổi dẫn đến việc xếp hạng các công cụ tìm kiếm, tại
các điểm khác nhau, giữa hai hình thức cực đoan.

Dựa trên siêu dữ liệu


Phương pháp đơn giản nhất để tìm kiếm là truy vấn siêu dữ liệu của nó.
Vì dữ liệu là dựa trên văn bản, các thuật toán tìm kiếm đã có trong thị trường
từ nhiều thập kỷ và rất phù hợp để truy vấn chúng. Sử dụng SQL ở phía sau
cho phép viết các truy vấn cực kỳ phức tạp. Để mở rộng lên để xử lý hàng trăm
nghìn yêu cầu đồng thời, các công nghệ thay thế cho SQL cần được sử dụng.
Một trong số đó là NoSQL, cho phép chạy nhiều truy vấn đồng thời hơn nhưng
thường với các hạn chế lớn (những hạn chế này sẽ được thảo luận chi tiết hơn
trong Chương 8, Tinh chỉnh).

Cấu trúc hình ảnh


Khi tìm kiếm đối với đa phương tiện, cấu trúc vật lý của nó cũng có thể
được truy vấn. Điều này bao gồm chiều rộng, chiều cao, kích thước, thời lượng

18
và tất cả các đặc điểm khác. Để đơn giản hóa quá trình, thông tin này có thể
được sao chép vào siêu dữ liệu, cho phép một tìm kiếm siêu dữ liệu tiêu chuẩn.

Thương mại điện tử


Đối với các kho dữ liệu đa phương tiện thương mại điện tử, cần có các
thuộc tính bổ sung để tìm kiếm. Điều này bao gồm tính sẵn có, giá cả, thông tin
khách hàng và chi tiết mục giá bao gồm thông tin chiều của giá (kích thước,
màu sắc và kiểu dáng). Điều này được thảo luận chi tiết hơn trong Chương 5,
Kỹ thuật Tải. Việc tìm kiếm tất cả các hình ảnh kỹ thuật số có màu đen trắng,
có sẵn để bán với giá dưới 20 đô la và có thể có một khung gỗ được đính kèm
là hợp lý.

Dương tính giả


Một trong những thách thức lớn nhất khi xử lý tìm kiếm là cố gắng xác
định xem kết quả trả về có đúng không. Nếu không, đó được gọi là false
positive. Một false negative là khi một kết quả mong đợi không trở lại. Trong
thống kê, một false positive là một lỗi loại I và một false negative là một lỗi
loại II. Một ví dụ đơn giản về false positive là nếu bạn tìm kiếm một chiếc xe
và một hình ảnh của một con thuyền trở lại. Một ví dụ về false negative là nếu
bạn tìm kiếm một chiếc xe nhưng chỉ có ba hình ảnh trở lại nhưng bạn biết có
một hình ảnh thứ tư. Một false negative có thể khó phát hiện hơn vì nó liên
quan đến việc hiểu biết tốt về dữ liệu.
Đôi khi, có thể có một khu vực màu xám giữa những gì được trả về và
truy vấn là gì. Một tìm kiếm về chiếc xe có thể trả về một chiếc thuyền, nhưng
siêu dữ liệu được đính kèm vào chiếc thuyền có thể bao gồm cụm từ "Một chiếc
xe kéo con thuyền đến bờ biển". Trong trường hợp này, kỹ thuật thì câu trả lời

19
là chính xác vì đối tượng số hóa có siêu dữ liệu chứa từ xe, nhưng ngữ nghĩa
nó không phải là những gì được dự định.
Trong những trường hợp khác, nếu một truy vấn phức tạp được yêu cầu
với một hỗn hợp các mục tìm kiếm kết hợp với biểu thức kết nối, như và / hoặc,
khi kết quả trở lại, có thể quan trọng để thực sự kiểm tra, câu hỏi ban đầu đã
được hỏi là gì. Khi sử dụng ngôn ngữ SQL, điều này là một thực hành phổ biến
mà các nhà phát triển có kinh nghiệm sử dụng. Nếu có lý do nào đó để nghi
ngờ kết quả, hãy kiểm tra trước câu hỏi đã được hỏi.
Thách thức của tất cả các công cụ tìm kiếm là trước hết đảm bảo kết quả
không chứa false positives và thứ hai là đảm bảo rằng kết quả ngữ nghĩa phù
hợp với truy vấn ban đầu. Đảm bảo không có false positives được trả về chủ
yếu là một vấn đề thuật toán kết hợp với lập trình. Đảm bảo kết quả ngữ nghĩa
phù hợp là một vấn đề ongoing và thách thức đối với tất cả các công cụ tìm
kiếm. Khả năng này chỉ ở giai đoạn phát triển sơ bộ, với mỗi công cụ tìm kiếm
cung cấp các phương pháp khác nhau để xử lý nó. Các công cụ tìm kiếm coarse
grain xử lý nó theo cách khác nhau so với các công cụ tìm kiếm fine grain. Một
nhà nghiên cứu sử dụng một công cụ tìm kiếm fine grain có thể xác định rằng
kết quả của truy vấn không phải tất cả là ngữ nghĩa đúng. Sau đó, họ có thể sử
dụng các thuộc tính tìm kiếm bổ sung để điều chỉnh truy vấn, có thể hạn chế
các trường siêu dữ liệu được tìm kiếm hoặc bắt buộc truy vấn chỉ sử dụng các
giá trị siêu dữ liệu đáng tin cậy.
Một đối tượng số hóa chứa một từ stop sẽ không được đánh chỉ mục đầy
đủ cho từ stop đó. Khi thực hiện một tìm kiếm, các từ stop sẽ được loại bỏ. Vì
vậy, một tìm kiếm với các từ khóa "car then boat", sẽ thực hiện một tìm kiếm
trên "car boat". Từ stop "then" sẽ được bỏ qua.
Quan trọng phải nhấn mạnh rằng từ stop không luôn được lọc ra. Khi
một sự khớp chính xác được yêu cầu (ví dụ "car and boat"), tìm kiếm được yêu
cầu là để tìm kiếm cụm từ chính xác đó có thể bao gồm các từ stop. Hệ thống

20
tìm kiếm cần biết phải phân biệt giữa tìm kiếm trên các từ và các cụm từ chính
xác.

Tìm kiếm sống


Khái niệm về tìm kiếm sống là một ý tưởng hữu ích cho các công cụ tìm
kiếm fine grain. Ý tưởng là khi một tìm kiếm được thực hiện, nó luôn sống.
Nếu một đối tượng mới được thêm hoặc xóa, kết quả tìm kiếm sẽ phản ánh điều
đó ngay lập tức.
Điều này khác biệt so với tìm kiếm coarse grain. Ở đây, mục tiêu là thực
hiện tìm kiếm một lần và sau đó xem lại các kết quả. Tìm kiếm sống được thiết
kế hơn cho các nhà nghiên cứu.
Đối với các công cụ tìm kiếm fine grain, khi một truy vấn được thực
hiện, kết quả được lưu trong bộ nhớ cache. Bộ nhớ cache sau đó có thể được
truy cập bởi người dùng để hiển thị kết quả và tìm kiếm trong kết quả.
Đối với một công cụ tìm kiếm coarse grain, số lượng kết quả được trả về
có thể rất lớn. Các tìm kiếm trên Google có thể cho thấy hàng triệu kết quả.
Hầu hết người dùng khi tìm kiếm không bao giờ điều hướng vượt qua hai hoặc
ba trang. Vấn đề cần được giải quyết là khi một người dùng thực hiện một truy
vấn và thu hồi hàng nghìn kết quả; hành vi nào nên được thực hiện khi người
dùng điều hướng giữa các tập kết quả ?
Trong kịch bản mà một trang hiển thị mười kết quả, khi người dùng điều
hướng đến trang tiếp theo, nó hiệu quả hơn là:
- Lưu kết quả trong bộ nhớ cache và sử dụng nó cho việc điều hướng
- Thực hiện lại truy vấn và thu hồi tập kết quả tiếp theo
Việc thực hiện lại truy vấn đơn giản hơn để triển khai nhưng không hiệu
quả nếu các truy vấn phức tạp và tiêu tốn nhiều tài nguyên. Một bộ nhớ cache
mang lại lợi ích lớn cho các tìm kiếm fine grain vì overhead hiệu suất khi điều
hướng cache nhỏ so với các vấn đề hiệu suất liên quan đến việc phải thực hiện
lại truy vấn chỉ để xử lý điều hướng trang. Một cache hữu ích cho hiệu suất vì
việc thực hiện một truy vấn fine grain phức tạp có thể tốn kém về tài nguyên
21
máy tính. Nếu một người dùng thực hiện một truy vấn, nó được lưu trong bộ
nhớ cache. Nếu người dùng thực hiện lại cùng một truy vấn thì bộ nhớ cache
có thể được truy cập thay vì truy vấn được thực hiện lại. Nếu một người dùng
khác có cùng quyền riêng tư thực hiện cùng một truy vấn, họ cũng có thể truy
cập vào bộ nhớ cache.
Khái niệm tìm kiếm sống, được thiết kế để hoạt động với bộ nhớ cache, đảm
bảo rằng kết quả truy vấn luôn chính xác ngay cả khi cơ sở dữ liệu thay đổi.
Mặc dù một số người có thể coi điều này giống như một đọc không rõ ràng
trong thuật ngữ cơ sở dữ liệu, nhưng nó khác biệt trong cách tiếp cận và triển
khai. Oracle, ví dụ, sử dụng tính nhất quán trong việc đọc, đảm bảo rằng kết
quả truy vấn là chính xác từ đầu quá trình thực thi, bất kể các thay đổi sau đó
như thêm hoặc xóa hàng cho đến khi truy vấn hoàn thành. Điều này đảm bảo
tính chính xác, quan trọng trong các lĩnh vực như ngân hàng nơi thời gian thực
thi truy vấn có thể dài.
Trái lại, tìm kiếm sống duy trì tính chính xác của kết quả bằng cách điều
chỉnh động đến các thay đổi trong cơ sở dữ liệu, cho phép người dùng truy cập
chỉ vào dữ liệu đã lưu trữ, không phải là các thay đổi chưa được cam kết. Không
giống như tính nhất quán đọc, tìm kiếm sống không cứng nhắc tuân thủ cơ chế
của Oracle. Thay vào đó, nó liên tục cập nhật tập kết quả mà không yêu cầu
người dùng khởi động truy vấn lại, thay đổi cơ bản cách trải nghiệm người dùng
bằng cách loại bỏ nhu cầu làm mới thủ công.
Tính năng này hữu ích trong các kho dữ liệu đa phương tiện, đặc biệt là
trong các kịch bản liên quan đến công tác cảnh sát hoặc phát hiện tội phạm, nơi
người dùng có thể đặt ra các truy vấn tiêu tốn tài nguyên và xem xét kết quả
trên nhiều giao diện khác nhau. Các thay đổi hoặc các mục mới được phản ánh
ngay lập tức, nâng cao khả năng điều tra.
Tuy nhiên, triển khai tìm kiếm sống một cách hiệu quả đối mặt với thách
thức. Trong khi một chương trình lô có thể định kỳ chạy lại các truy vấn và cập
nhật cache, điều này có thể không chính xác hoặc hiệu quả, đặc biệt là với một
số lượng lớn các truy vấn. Máy chủ có thể gặp khó khăn trong việc xử lý tải
trọng tính toán, ngay cả khi kết quả truy vấn không thay đổi. Do đó, việc thiết
lập sự cân đối giữa các cập nhật thời gian thực và tối ưu hóa hiệu suất là điều
quan trọng.
22
Điều cần thiết là một sự viết lại cốt lõi của công cụ tìm kiếm cơ bản để
xử lý tính năng này. Điều này đòi hỏi kiểm tra tất cả các truy vấn đối với mỗi
đối tượng kỹ thuật số được thêm, sửa đổi hoặc xóa, để xác định xem bộ nhớ
cache có cần cập nhật không. Quá trình kiểm tra này phải được thực hiện một
cách hiệu quả, xem xét thậm chí những thay đổi nhỏ về siêu dữ liệu hoặc thuộc
tính vật lý có thể làm thay đổi kết quả truy vấn.
Cache chia sẻ mang lại những lợi ích về hiệu suất đáng kể, vì chỉ có một
truy vấn cần quản lý và nhiều người dùng có thể truy cập vào cùng một kết quả.
Đối với các bộ sưu tập công cộng, nhu cầu chạy lại các truy vấn giống nhau
cho cùng một người dùng công cộng là không cần thiết. Tuy nhiên, thách thức
nảy sinh khi một người dùng muốn thay đổi thứ tự kết quả.
Các công cụ tìm kiếm cấp độ "course-grain" thường trả về kết quả theo
thứ tự xếp hạng, tận dụng sức mạnh của engine trong việc phù hợp nhất kết quả
xếp hạng với truy vấn. Các công cụ tìm kiếm "fine-grain" cung cấp nhiều lựa
chọn trình bày kết quả hơn ngoài việc xếp hạng, như sắp xếp theo tên tệp, ngày,
hoặc giá trị siêu dữ liệu, và nhóm dữ liệu dựa trên phân loại học hoặc từ điển
chủ đề.
Để hỗ trợ việc sắp xếp kết quả theo yêu cầu của người dùng, cần có thứ
tự dựa trên phiên hoặc chia sẻ, cho phép lưu trữ cache theo các thứ tự sắp xếp
khác nhau. Tìm kiếm sống động đề xuất một phần mở rộng mạnh mẽ cho các
công cụ tìm kiếm trong kho dữ liệu đa phương tiện, dịch chuyển tập trung từ
phương pháp dựa trên kết quả sang dựa trên truy vấn.
Hiện tại, Piction là nhà cung cấp duy nhất hỗ trợ tính năng tìm kiếm sống
động này.

Khai thác dữ liệu


Như chúng ta đã thảo luận trước đó, khai thác dữ liệu liên quan đến việc
nhìn vào dữ liệu và cố gắng tìm ra các mẫu hoặc mối quan hệ trong dữ liệu.
Với cơ sở dữ liệu đa phương tiện, khi tập trung chủ yếu vào các đối tượng kỹ
thuật số, một mục tiêu chính trong việc khai thác dữ liệu là cố gắng tìm ra các
mối quan hệ giữa những đối tượng đó. Điều này có thể bao gồm việc xem xét
các yếu tố siêu dữ liệu và sử dụng một số kỹ thuật phù hợp (bao gồm việc khớp

23
mờ được đề cập sau trong chương này) để xác định mức độ phù hợp giữa hai
đối tượng số.
Công cụ khai thác dữ liệu có thể cần phải xem xét tất cả các đối tượng
số và sau đó so sánh chúng với mọi đối tượng khác trong kho dữ liệu và xác
định mối quan hệ của chúng. Đối với một kho có một số lượng lớn các đối
tượng số, điều này có thể là quá trình tốn thời gian, nhưng ưu điểm là nó có thể
chạy song song trong batch.
Khai thác dữ liệu có thể được thực hiện trên tất cả các đối tượng số trong
kho dữ liệu đa phương tiện, hoặc các đối tượng cụ thể có thể được khai thác dữ
liệu.

Ký hiệu Big O

Ký hiệu Big O là một phương pháp đơn giản để mô tả số lượng thao tác
cần thiết để thực hiện một nhiệm vụ. Trong máy tính, ký hiệu này thường được
sử dụng cho việc điều chỉnh cơ sở dữ liệu và để nhấn mạnh mức độ tốn kém
của một nhiệm vụ hoặc thao tác tính toán. Sự sử dụng của nó lần đầu tiên được
nổi lên vào những năm 80 khi nó được sử dụng để nổi bật vấn đề sắp xếp tập
kết quả tìm kiếm. Thuật toán sắp xếp sử dụng thuật toán có Big O là O(n2), có
nghĩa là nếu có 10 hàng (n bằng 10), thì số lần thao tác cần thiết để thực hiện
công việc này sẽ là 102 hoặc 100. Khi số hàng tăng lên, số lượng công việc cần
thiết để thực hiện sắp xếp cũng tăng lên. Vì sắp xếp là một tính năng quan trọng
không chỉ được sử dụng trong SQL mà còn trong nhiều chức năng nội bộ khác,
mục tiêu là giảm điều đó. Cuối cùng, thuật toán đã ra đời và đã giảm O(log n),
và trong trường hợp tìm kiếm nội suy, nó đã được giảm thêm xuống O(log log
n). Ký hiệu Big O được thảo luận thêm trong Chương 9, Hiểu rõ về giới hạn
của Sản phẩm Oracle.
Đối với khai thác dữ liệu, để xác định tất cả các mối quan hệ bằng ký
hiệu Big O là O(n2). Điều này có thể giảm xuống O(n) bằng cách giới hạn cách
mà các mối quan hệ được xác định và việc sử dụng chéo lén của việc tạo chỉ
mục.

24
Biểu diễn kết quả
Một mục tiêu chính khi có một kho là có khả năng thực hiện phân tích.
Kết quả có thể chỉ là dữ liệu thô, tương tự như những gì được tìm thấy trong
một bảng tính. Các công cụ khác nhau trên thị trường cung cấp một loạt các
cách truy vấn và xử lý dữ liệu này. Vì mục tiêu là phân tích, càng nhiều dữ liệu
mà người dùng có thể xử lý, thì phân tích càng hiệu quả.
Thách thức là hầu hết mọi người không thể xử lý hoặc tiêu hóa một lượng
lớn dữ liệu thô và hiểu được nó. Bản chất của đa phương tiện trong cơ sở dữ
liệu khuyến khích việc sử dụng giao diện hiển thị cung cấp một hệ thống phong
phú và tương tác hơn, cho phép hiển thị một lượng lớn dữ liệu, được tạo ra từ
phân tích. Phần này bao gồm một số phương pháp trực quan hóa có sẵn trên thị
trường được thiết kế để tận dụng các đặc điểm độc đáo của đa phương tiện.

Giao diện

Hiện nay, hầu hết các giao diện bị giới hạn trong màn hình phẳng hai
chiều với âm thanh. Với việc giới thiệu gần đây của TV 3D và các hệ máy chơi
game, không thể tránh khỏi rằng công nghệ này sẽ tiếp tục phổ biến hóa. Các
thiết bị bổ sung như camera có thể hiểu được cử chỉ tay cũng như quần áo cảm
biến cơ thể (ban đầu được coi là găng tay), cho phép cả đầu vào và phản hồi
giác quan được đạt được, tạo thêm các chiều mới để xử lý dữ liệu. Ngoài ra,
việc giới thiệu gần đây của Siri và Iris, các ứng dụng có thể phản hồi theo giọng
nói đã một lần nữa đẩy ranh giới giữa máy tính và tương tác con người, cho
phép kiểm soát bằng giọng nói thông minh. Khi được điều chỉnh cho kho dữ
liệu đa phương tiện, mục tiêu sẽ là hỏi máy tính câu hỏi, thay vì cố gắng điều
hướng qua các màn hình giao diện đồ họa để tạo ra truy vấn. Thách thức ở giai
đoạn đầu của công nghệ này sẽ là yếu tố tự tin và tin cậy vào dữ liệu được trả
về. Có đáp ứng đúng những gì tôi đã yêu cầu bằng miệng từ hệ thống máy tính?

Cuối cùng, điều làm cho một giao diện hữu ích là khả năng của nó trong
việc xử lý hiệu quả và nhanh chóng các yêu cầu đầu vào và đầu ra.

25
Trực quan hóa kết quả

Mục tiêu là trực quan hóa và hiểu được càng nhiều dữ liệu có thể để đạt
được một mục tiêu cuối cùng. Khái niệm như vậy đơn giản không thể thực hiện
được với các kho dữ liệu có cấu trúc vì tất cả những gì có thể được trả về là văn
bản. Bằng cách kết hợp và chồng chéo hình ảnh, sử dụng các kế hoạch mã màu
với các màn hình phản hồi giác quan, cho phép lượng lớn dữ liệu được tích hợp
và hấp thụ một cách mà con người có thể hiểu và diễn giải nó.

Đám mây từ khóa

Một đám mây từ khóa cho phép thông tin thông thường hai và đôi khi
nhiều chiều được hiển thị cho người dùng. Chiều đầu tiên là một từ và tùy thuộc
vào ứng dụng có thể được tính toán từ kết quả tìm kiếm, một thống kê (dù là
tần suất hoặc tổng hợp) hoặc kích thước. Đơn giản, đó là một dạng của số liệu
mà có thể được áp dụng vào từ. Chiến lược là cho phép xem và xem thông tin
nhiều hơn một cách cho phép diễn giải thông minh của dữ liệu.
Chiều thứ hai là kích thước font được sử dụng để hiển thị từ. Kích thước
font càng lớn, ý nghĩa thống kê càng lớn. Nếu trong một kho thông tin tình báo,
một cuộc tìm kiếm được thực hiện trên tên của một cá nhân, các kết quả trả về
có thể là những người liên quan của cá nhân đó. Kích thước font lớn có thể
được sử dụng để chỉ ra sự liên kết lớn hơn. Một cái nhìn trực quan vào đám
mây từ khóa ngay lập tức cho thấy ai là các mối quan hệ chính.

Một đám mây từ khóa giúp người ta dễ dàng hấp thụ lượng thông tin lớn
và xác định các mẫu hoặc mối tương quan trong đó.

26
Các chiều khác có thể bao gồm màu sắc, trong đó mỗi từ có thể được gán
một màu cho font chữ. Sử dụng ví dụ trước đó, nếu các thành viên trong gia
đình được gán một màu, bạn bè cá nhân một màu khác, đồng nghiệp làm việc
một màu khác và những người quen biết cũng một màu khác, thì đám mây từ
khóa giờ đây có thể dễ dàng hiển thị thêm chi tiết về các mối quan hệ. Điều này
làm cho việc loại bỏ bạn bè và gia đình gần gũi một cách trực quan và cho phép
người thực hiện truy vấn tập trung dễ dàng vào những người quen biết phổ biến
nhất.
Một chiều khác có thể bao gồm vị trí của các từ so với nhau. Trong ví dụ
trước đó, vị trí có thể liên quan đến thời gian giữa lần liên hệ cuối cùng giữa cá
nhân và người liên kết. Càng gần cá nhân, thì lần liên hệ cuối cùng càng gần.
Khi một đám mây từ khóa được sử dụng, như trong ví dụ trước đó, nó có
thể cung cấp một lượng thông tin phong phú giúp người dùng hiểu và hấp thụ
thông tin nhanh chóng và đưa ra các quyết định mới dựa trên dữ liệu thu thập
được.
Khi khái niệm của đám mây từ khóa được mở rộng sang đa phương tiện,
các khái niệm cho đám mây từ khóa vẫn giữ nguyên, trừ việc thay vì tập trung
vào một từ, thay vào đó là một đối tượng số học. Một ví dụ tốt được tìm thấy
tại http://www.ted.com/. Kích thước của hình ảnh chỉ ra thông tin về một chỉ
số liên quan đến nó. Trong trường hợp của www.ted.com, kích thước cho biết
tần suất truy cập vào đối tượng số học.
Trong ví dụ gốc, nếu một tìm kiếm cá nhân được thay thế bằng một tìm
kiếm đối tượng, kết quả có thể bao gồm các đối tượng số học liên quan hoặc
các loại khác nhau của đối tượng, như ô tô hoặc các địa điểm vật lý.
Giống như một đám mây từ khóa, các chiều bổ sung có thể được hiển thị
bằng cách sử dụng màu sắc và vị trí tương đối. Bằng cách chuyển sang một
chiều thứ ba cho việc hiển thị, các chiều này có thể trở nên rõ ràng hơn. Viền
khung xung quanh một hình ảnh số học, âm thanh và hoạt hình cũng có thể
được sử dụng để hiển thị thông tin chiều bổ sung.
Một khái niệm mới với việc hiển thị sử dụng chuyển động video cũng có
thể được sử dụng để hiển thị thông tin chiều bổ sung. Bằng cách làm cho các

27
đối tượng di chuyển với các tốc độ khác nhau hoặc thậm chí hành xử không
đều là một phương pháp khác có thể được sử dụng để làm nổi bật các chiều của
những đối tượng đó.
Trong ví dụ, nếu một đối tượng số học bắt đầu rung lên, điều đó có thể
được sử dụng để chỉ ra rằng người liên kết là một tên tội phạm đã biết hoặc
rằng đối tượng đã được sử dụng trong một vụ án gần đây. Người dùng càng có
kỹ năng và khéo léo hơn trong việc hấp thụ thông tin, cơ hội nhìn thấy các mẫu
mà trước đây có thể đã bị bỏ lỡ sẽ càng lớn.
Nguy cơ với một đám mây hình ảnh là quá tải thông tin, nơi quá nhiều
thông tin trong quá nhiều chiều được hiển thị dẫn đến việc các mẫu quan trọng
bị bỏ qua. Quan trọng là người dùng có thể kiểm soát và điều chỉnh các chiều
đảm bảo họ hấp thụ dữ liệu theo tốc độ phù hợp với trình độ kỹ năng của họ.
Điều này được thảo luận chi tiết hơn trong Chương 11, tên chương, bao gồm
tương tác máy tính con người (CHI).

Thu phóng vô hạn

Khái niệm này, được làm bất tử trong bộ phim Blade Runner, giới thiệu
ý tưởng về một hình ảnh số học chứa tất cả thông tin trong đó. Trong hình ảnh,
người ta có thể phóng đến độ sâu không giới hạn. Một số nhà cung cấp đã đưa
khái niệm này đi theo các hướng khác nhau. Một trong số đó cho thấy cách một
cuốn sách toàn bộ có thể được lưu trữ trong một hình ảnh với người xem có thể
di chuyển xung quanh cuốn sách bằng cách sử dụng khái niệm chạm và phóng
to/thu nhỏ, ngay đến từng chữ cái. Cách khác là kết hợp hàng nghìn hình ảnh
vào một hình ảnh lớn, cho phép một ảnh số học có độ sâu lớn. Google Earth là
một ví dụ khác về điều này trong thực tế.
Đối với người dùng nhìn vào hình ảnh, ấn tượng là chỉ có một hình ảnh
và một liên tục đang phóng to/thu nhỏ.
Mặc dù thu phóng vô hạn không thực sự không giới hạn về sâu sắc nó
cung cấp, nhưng nó mang lại cho người dùng một giao diện đơn giản cho phép
truy cập nhanh chóng vào các phần của hình ảnh. Bằng cách đè lên dữ liệu siêu
dữ liệu, và thậm chí tích hợp các quan điểm khác, nhiều quan điểm có thể được

28
thêm vào hình ảnh số học. Điều này sau đó cung cấp một cách mạnh mẽ để kết
hợp, xem, hấp thụ và hiểu lượng lớn thông tin.

Mạng xã hội phức tạp

Đối với những người làm việc một cách cẩn thận trong một kho lưu trữ
đa phương tiện, nhu cầu nhận diện và lưu trữ mối quan hệ giữa các đối tượng
số học trở nên rõ ràng. Nó có thể được xem là một thành phần quan trọng, cho
phép phân tích vượt ra ngoài OLAP truyền thống. Mối quan hệ giữa các đối
tượng số học có thể đơn giản như liên quan đến các số truy nhập tương tự. Các
mối quan hệ có thể được xác định thủ công hoặc được tạo ra bằng cách sử dụng
siêu dữ liệu. Cách mà các mối quan hệ được hình thành có thể dựa trên một loạt
các yếu tố, một số thậm chí liên quan đến các đặc điểm độc đáo của các đối
tượng số học.
Đối với một hình ảnh số học, các mối quan hệ có thể được thiết lập dựa
trên nội dung trong hình ảnh số học hoặc thậm chí là các hình ảnh có vẻ giống
nhau. Sức mạnh của mối quan hệ có thể được xác định dựa trên loại mối quan
hệ. Hai hình ảnh số học có thể liên quan với nhau vì cả hai đều chứa các tòa
nhà trong chúng. Sức mạnh sẽ thấp. Nhưng nếu các hình ảnh số học chứa các
bức tranh của Van Gough thì mối quan hệ sẽ cao hơn.
Sức mạnh của mối quan hệ trở nên quan trọng. Nó có thể tăng lên nếu có
các thành phần chung bổ sung. Có thể hai hình ảnh số học đã được tạo bởi cùng
một người. Có thể chúng đã được tạo vào cùng một ngày. Ngoài ra, chúng có
thể được tạo bằng cách sử dụng các máy ảnh tương tự hoặc thậm chí ở cùng
một địa điểm. Các chiều dữ liệu có thể được sử dụng để tạo ra các mối quan hệ
29
có thể thay đổi một cách đáng kể. Càng nhiều mối quan hệ được phát hiện giữa
hai đối tượng số học, mối quan hệ đó càng mạnh mẽ.

Các đối tượng số học và các mối quan hệ bắt đầu tương quan chặt chẽ
với hành vi của một mạng xã hội. Lý thuyết đồ thị đã được sử dụng để ghi lại
các mạng xã hội và cách phân tích dựa trên các mẫu có thể được sử dụng để
suy luận ra các mối quan hệ mới. Nó cũng có thể được sử dụng để làm nổi bật
các mối quan hệ chính giữa các đối tượng số học.

Điểm khởi đầu đơn giản nhất cho việc hình dung điều này là bắt đầu bằng
một vòng tròn và đặt các điểm trên đường tròn cho tất cả các đối tượng số học.
Sau đó, các đường được vẽ giữa các điểm, với mỗi đường chỉ ra một mối quan
hệ. Khi có nhiều mối quan hệ được nhập vào, trở nên rõ ràng từ góc nhìn hình
ảnh số học nào có các mối quan hệ quan trọng hơn.
Việc sử dụng hình tròn có một số ưu điểm và là dễ cấu hình. Một chương
trình SVG đơn giản có thể dễ dàng tạo ra một biểu đồ. Nó chỉ cung cấp một
góc nhìn về mối quan hệ và có thể bỏ qua các mối quan hệ khác. Một biểu đồ
ba chiều sử dụng một hình cầu thay vì một vòng tròn có thể được mã màu bổ
sung để chứa nhiều thông tin hơn. Trong khi màn hình phẳng hai chiều được
sử dụng, việc biểu diễn hình cầu ba chiều là hạn chế. Việc giới thiệu gần đây
của màn hình ba chiều hy vọng sẽ khắc phục những hạn chế hiển thị này.

30
Giao diện tree map là một giao diện động cho phép các mối quan hệ nhân
quả giữa các đối tượng số học được khám phá một cách động và được hiển thị
trực quan lại cho người dùng. Người dùng bắt đầu với một đối tượng số học
(một nút) được đại diện dưới dạng một hình dạng trên màn hình. Điều này có
thể là một hình tròn, nhưng dựa trên loại đối tượng có thể là bất kỳ hình dạng
nào. Các phần nhạy cảm với ngữ cảnh của đối tượng cho phép hiển thị thông
tin bổ sung như siêu dữ liệu hoặc hình ảnh số học. Khi người dùng có đối tượng
số học cơ sở, tree map sẽ tìm kiếm các đối tượng liên quan và hiển thị chúng
dưới dạng nút xung quanh nút đầu tiên. Nó kết nối chúng với nhau bằng một
đường (hoặc nhánh), tạo ra ấn tượng của một cấu trúc cây. Thực ra, đây là một
loại công cụ khai thác dữ liệu.
Sức mạnh của mối quan hệ có thể được hiển thị bằng màu sắc hoặc độ
dày của nhánh. Người dùng sau đó có thể truy cập vào các nút liên quan và mở
rộng từ đó để tìm ra các mối quan hệ bổ sung.
Mục tiêu của tree map là cho phép người dùng tìm ra các mối quan hệ
giữa các đối tượng số học. Sử dụng khái niệm sáu bậc phân biệt(6), dự kiến
rằng hầu hết các nút sẽ nằm trong sáu nhánh (mối quan hệ) của các nút khác.
Việc có thể đạt được con số sáu thực tế hay không phụ thuộc vào một số yếu

31
tố. Lý thuyết đồ thị cho thấy làm sao một mạng lưới các mối quan hệ chỉ cần
một số kết nối ngẫu nhiên có vẻ không liên quan để đạt được mục tiêu sáu.
Khi khái niệm sáu bậc đã trở nên phổ biến, tính trực quan của tree map
dễ dàng được hiểu cho đa số người dùng, cho phép giao diện khai thác khái
niệm này.

Hộp nhẹ

Một lần nữa, một công nghệ được truyền hình trong một bộ phim (trong
trường hợp này, Minority Report) vì sự hứng thú nó tạo ra, đã tạo ra một số
thiết bị tiến về phía việc có thể đạt được một số tính năng được nhấn mạnh
trong phim. Với lightbox, hướng đi là sự tương tác giữa cảm ứng và màn hình.
Khái niệm này lấy ý tưởng của việc sử dụng cử chỉ bằng ngón tay để điều
chỉnh và điều khiển nhiều hình ảnh số học, tích hợp các khái niệm như zoom
vô tận. Lightbox như mô tả ở đây không giống như lightbox đã được xác định
trước. Chỉ là một trường hợp của cùng một thuật ngữ được đặt tên với nhiều ý
nghĩa khác nhau.
Điểm khởi đầu là một màn hình đầy hình ảnh được hiển thị ngẫu nhiên.
Người dùng sau đó có thể sắp xếp lại, thay đổi kích thước và kiểm soát/phân
loại chúng bằng cử chỉ ngón tay duy nhất. Hiện đã có trên iPad; một phiên bản
lớn hơn đã được phát triển đầu tiên bởi Microsoft sử dụng một máy tính bàn.
Các máy tính đọc ngôn ngữ ký hiệu cho phép việc loại bỏ toàn bộ khái niệm
màn hình cảm ứng và thay thế bằng một màn hình hiển thị tiên tiến hơn.

32
VRML và SVG

Có hai ngôn ngữ đánh dấu nổi tiếng được sử dụng để hiển thị dữ liệu
trong môi trường HTML. Chúng là:
- Scalable Vector Graphics (SVG): Đây là một ngôn ngữ đánh dấu để tạo
ra đồ họa vector hai chiều. Được định nghĩa vào năm 1999, nó đã được bỏ qua
phần lớn vì nó không được hỗ trợ mặc định trong trình duyệt. SVG có thể được
sử dụng để vẽ biểu đồ, hoạt hình và phông chữ. Nó hỗ trợ việc sử dụng màu
sắc và có thể tương tác. Tính đến năm 2011, hầu hết các trình duyệt phổ biến
đã đồng ý hỗ trợ nó mặc định. Firefox 9 và Chrome hỗ trợ nó. Internet Explorer
đã cho biết sẽ hỗ trợ SVG. Các cải tiến trong ngôn ngữ đánh dấu trong vài năm
tiếp theo sẽ dẫn đến tính năng bổ sung giúp biểu diễn một số công cụ hình dung
được thảo luận trong SVG(7).
- Virtual Reality Modeling Language (VRML):. Đây là một ngôn ngữ
đánh dấu được thiết kế để tạo ra đồ họa vector tương tác ba chiều. Nó được
định nghĩa trước SVG nhưng có vấn đề về hiệu suất khi hiển thị trên máy tính
vào giữa những năm 1990. Lượng dữ liệu XML lớn cần thiết để hiển thị một
đồ họa ba chiều cũng khiến việc tải xuống trên đường dây điện thoại trở nên rất
khó khăn. Điều này dẫn đến việc trình duyệt không chú trọng đến nó. Với sự
phổ biến của SVG ngày càng tăng, hướng đi của VRML vẫn cần được xác định.
Nó có thể được hấp thụ vào SVG, vẫn còn riêng biệt hoặc SVG có thể được cải
tiến để cho phép các khía cạnh ba chiều của VRML(8).
Bất kể hướng đi nào, VRML cung cấp một cách để hiển thị trực quan
trong ba chiều, với lượng dữ liệu lớn một cách đơn giản. Giống như SVG, nó
là một công cụ lý tưởng cho kho lưu trữ đa phương tiện. Với sự cải tiến lớn về
tốc độ hiển thị, băng thông mạng và khả năng nén dữ liệu động, VRML là một
công cụ lý tưởng để hiển thị dữ liệu và mối quan hệ đa phương tiện.
Ngoài VRML, còn có các tiêu chuẩn cạnh tranh khác cho việc hiển thị
các đối tượng ba chiều bao gồm X3D (http://www.web3d.org). Cho đến khi
được hỗ trợ mặc định trong trình duyệt, cả VRML và X3D đều sẽ không được
chấp nhận và sẽ bị giới hạn trong các trang web và ứng dụng chuyên gia.

33
Synchronized Multimedia Integration Language (SMIL)

Mục tiêu của SMIL là cho phép các bài thuyết trình đa phương tiện được
nhúng trong HTML. Nó sử dụng XML và có khả năng hiển thị văn bản, video
và âm thanh. Nó có thể làm điều này trong khi truy cập đa phương tiện từ các
thiết bị khác nhau. Khả năng quản lý thời gian của SMIL là điểm đặc biệt không
có trong các ngôn ngữ đánh dấu XML hiển thị khác, đa phần là tự động.
SMIL(9) được sử dụng để kích hoạt hoạt hình trong SVG. Khi SVG có
sẵn trong Chrome và Firefox, SMIL cũng được hỗ trợ. Tính đến IE9, SMIL
không được hỗ trợ. Mặc dù SMIL không thể thay thế cho Microsoft PowerPoint
hoặc Open Office presentation, chỉ là vấn đề thời gian trước khi các chương
trình này cho phép
xuất bản các bài thuyết trình SMIL để chúng có thể được xem trên trình
duyệt. Hiện tại, phương pháp sử dụng bao gồm tạo hình ảnh của mỗi slide và
sau đó sử dụng HTML và/hoặc JavaScript để xử lý thời gian và chuyển đổi
slide. Xử lý chúng một cách thông minh sẽ cải thiện tính năng và đảm bảo tính
nhất quán trên nhiều nền tảng.
Khi SMIL được tích hợp vào IE9, các nhà phát triển sẽ có thể tận dụng
các khả năng của nó và các khả năng đa phương tiện của nó sẽ bắt đầu được
thực hiện đầy đủ.
Trong ví dụ này, SMIL hiển thị ba video đồng thời:
HTML 5(10), vào thời điểm viết, là phiên bản mới nhất của ngôn ngữ
đánh dấu HTML. Điểm mạnh chính của nó là khả năng hoạt động tốt hơn với
các đối tượng đa phương tiện. HTML 5 được đề cập chi tiết hơn trong Chương
5, Kỹ thuật Tải.

HTML 5

HTML 5 thu hút sự chú ý khi Steve Jobs (cựu CEO của Apple) đảm bảo
sẽ không có sự hỗ trợ của sản phẩm Adobe Flash trên bất kỳ iPad hoặc iPhone
nào. Cho đến khi đó, người ta nghĩ rằng Adobe Flash sẽ là sản phẩm hiển thị
đa phương tiện mặc định cho các trình duyệt và thiết bị di động. Mong muốn
cung cấp một tiêu chuẩn mở, hoạt động mượt mà trong trình duyệt, không có

34
vấn đề về bảo mật được hiểu làm cho sản phẩm Adobe Flash trở nên khó xử.
Tương lai dài hạn của nó vẫn còn chưa rõ.
HTML 5 cung cấp khả năng chơi âm thanh và video mạnh mẽ hơn. Một
trong những mục tiêu quan trọng của nó là vượt qua một trong những điểm yếu
lớn nhất khi xử lý đa phương tiện, đó là khó khăn trong việc tìm và cài đặt các
plugin cho trình duyệt để nó có thể chơi âm thanh hoặc video. Sự đa dạng lớn
về mã hóa âm thanh và video làm cho việc đạt được tính nhất quán và đồng đều
khi xử lý âm thanh và video trở nên khó khăn. Khác với hình ảnh số mà có các
tiêu chuẩn hiển thị đã được đồng ý (JPEG, PNG và GIF) mà tất cả các trình
duyệt đều hỗ trợ, không có tiêu chuẩn đồng thuận nào trong việc hiển thị video.
Mặc dù vẫn chưa có tiêu chuẩn đồng thuận cho âm thanh và video, những gì
HTML 5 cung cấp là khả năng xử lý các codec khác nhau và đảm bảo có cơ hội
lớn hơn để có thể xem được đa phương tiện. Chúng cũng cho phép người thiết
kế trang HTML kiểm soát nhiều hơn về việc tùy chỉnh cách người chơi nhìn và
hoạt động như thế nào.
HTML 5 một mình không thể cung cấp hoạt hình trong các trang web.
JavaScript hoặc CSS3 là cần thiết để tạo hoạt động.

Adobe Flash

Adobe Flash là một plugin cho trình duyệt web với trọng tâm đa phương
tiện. Nó được phát hành lần đầu vào năm 1997 và nhanh chóng được chấp nhận
là công cụ hàng đầu cho việc hiển thị đa phương tiện trên Internet. Đến năm
2012, nhiều trang web yêu cầu phát video, phát âm thanh, hoạt hình và trò chơi
trên Internet đã sử dụng sản phẩm Adobe Flash.
Vào năm 2011, Apple công khai tấn công Adobe Flash, đề xuất các lo
ngại về việc nó không mở, hiệu suất, bảo mật và không hỗ trợ định dạng video
được sử dụng trên các thiết bị di động của Apple (cũng là định dạng sở hữu).
Adobe Flash vẫn được sử dụng rộng rãi trên Internet nhưng với sự ra đời
của sự hỗ trợ của trình duyệt cho HTML 5 cùng với SVG và SMIL, sự cần thiết
phát triển ứng dụng trong Flash hiện đang được thảo luận.

35
Voice XML

Voice XML(12) là một định dạng XML tích hợp trình duyệt âm thanh
sử dụng tiếng nói của con người là trọng tâm chính của nó. Thiết kế của nó là
cho phép tổng hợp giọng nói (giọng máy tính) và nhận dạng giọng nói. Hiện tại
nó được hỗ trợ dưới dạng plugin cho trình duyệt và không được hỗ trợ mặc
định. Khi tiêu chuẩn Voice XML cuối cùng trở nên ổn định và thị trường có
thể nhận thấy nhu cầu sử dụng nó cùng với các trình duyệt (như video, âm thanh
đã được tích hợp vào HTML 5), thì giao diện này đến máy tính bằng âm thanh
sẽ mở ra một chiều sâu mới và hứng thú trong cách dữ liệu đa phương tiện được
truy cập và xem.

Các thiết bị khác

Việc sử dụng màn hình phẳng hai chiều để biểu diễn dữ liệu là rất phổ
biến đến nỗi các thiết bị khác hoàn toàn bị bỏ qua.

Thiết bị Braille

Thiết bị này cho phép có được một cái nhìn cảm ứng xúc giác động. Hiện
có hai dạng tồn tại trên thị trường. Dạng đầu tiên được thiết kế cho người mù
đọc chữ Braille thông qua một thiết bị có thể mô phỏng các ký tự Braille. Dạng
khác là một găng tay khi mặc vào có thể kích thích da, mang lại cảm giác của
việc chạm vào một đối tượng. Khi kết hợp với một thiết bị hình ảnh 3D, người
dùng có thể cảm nhận và điều khiển các đối tượng số 3D. Các thiết bị chơi
game đã tiên phong trong công nghệ này, như có thể thấy với Peregrine Gaming
Glove (http://theperegrine.com).

Âm thanh

Âm thanh có thể bổ sung cho một hiển thị hình ảnh. Âm thanh có thể
được sử dụng để cung cấp thông tin bổ sung hoặc cảnh báo. Một tiếng beep đơn
giản có thể được sử dụng để chỉ ra rằng người dùng đã điều hướng đến một khu
36
vực nhạy cảm về bảo mật. Văn bản thành giọng nói có thể đọc các tóm tắt dữ
liệu chính, ngăn chặn việc hiển thị quá nhiều thông tin trực quan trên màn hình.

Các tính năng tìm kiếm


Do một số khái niệm về trực quan hóa mô tả vẫn đang ở giai đoạn non
trẻ, các kỹ thuật tìm kiếm tiêu chuẩn sử dụng dữ liệu văn bản sẽ chiếm ưu thế
trong tương lai có thể dự đoán được. Với sự tập trung vào nghiên cứu, phân
tích và khai thác dữ liệu, phần này trình bày một số tính năng tiêu chuẩn được
mong đợi từ một công cụ tìm kiếm trong một kho dữ liệu đa phương tiện. Quan
trọng nhất là phải nhớ rằng so với kho dữ liệu truyền thống, việc truy vấn trong
kho dữ liệu đa phương tiện liên quan đến một tư duy tập trung vào đối tượng
hơn kết hợp với việc truy vấn trong kho dữ liệu truyền thống.

Nhóm tổng hợp

Còn được gọi là tóm tắt chiều, nhóm tóm tắt cung cấp một liên kết chéo
trên các kết quả được trả về. Một phương pháp điển hình là phân chia tìm kiếm
thành các loại đa phương tiện cơ bản, chẳng hạn như ảnh, âm thanh, video và
tài liệu. Người dùng sau đó có thể nhanh chóng truy vấn các nhóm tóm tắt này
để xem kết quả cụ thể cho phương tiện đó.

Không có giới hạn đối với các loại nhóm tóm tắt có thể được trả về. Ví
dụ bao gồm:
• Ngày được tải lên hoặc tạo ra. Sử dụng năm và/hoặc tháng.
• Các giá trị siêu dữ liệu phân biệt. Điều này liên quan đến việc nhóm
các kết quả.
• Hình dạng của đối tượng.
• Thời lượng của âm thanh hoặc video.
• Mimetype

37
• Loại công cụ tìm kiếm. Điều này nếu một truy vấn được thực hiện đối
với nhiều công cụ tìm kiếm và các kết quả đã được kết hợp lại với nhau.

Tính toán một nhóm tóm tắt có thể là một hoạt động tốn kém để thực
hiện. Nếu liên quan đến siêu dữ liệu, điều này yêu cầu thực hiện một truy vấn
riêng để truy xuất tất cả các giá trị phân biệt. Nếu tập hợp kết quả truy vấn lớn,
hoạt động này có thể tiêu tốn tài nguyên máy tính.

Khu vực làm việc

Tương tự như một hộp sáng, một khu vực làm việc là một kết quả truy
vấn đã được lưu. Khu vực làm việc cho phép người dùng di chuyển kết quả vào
đó và thậm chí thực hiện các truy vấn bên trong nó. Khu vực làm việc có thể
được lưu, gán tên và được lưu vào danh mục. Khu vực làm việc có thể được
kết hợp hoặc một khu vực làm việc mới có thể được tạo ra dựa trên sự giao
nhau của một hoặc nhiều khu vực làm việc.
Việc hỗ trợ cho một khu vực làm việc cũng có nghĩa là người dùng nên
có khả năng thực hiện truy vấn trong truy vấn. Đó là, thực hiện một truy vấn
đối với một tập kết quả.

Tìm kiếm không phân biệt

Đối với một kho dữ liệu đa phương tiện chứa một sự kết hợp của các đối
tượng kỹ thuật số, quan trọng là một truy vấn có thể truy vấn tất cả các đối
tượng. Một số công cụ tìm kiếm sẵn có có hạn chế về những gì họ có thể tìm
kiếm. Việc phải thực hiện hai hoặc nhiều truy vấn đối với các công cụ tìm kiếm
khác nhau (mỗi công cụ tìm kiếm tìm kiếm các khả năng của đa phương tiện)
và sau đó kết hợp kết quả đó thủ công không hiệu quả và có thể dẫn đến lỗi. Nó
cũng hạn chế khả năng thực hiện các truy vấn phức tạp. Nếu phải thẩm vấn
nhiều công cụ tìm kiếm, nó nên tích hợp kết quả một cách mượt mà trong khi
vẫn cho phép thực hiện các truy vấn phức tạp.

38
Thông báo kết quả

Đối với các truy vấn tìm kiếm chạy lâu dài, người dùng nên có tùy chọn
chạy truy vấn ở chế độ nền (hoặc chế độ batch). Người dùng cũng có thể nhận
email về kết quả của các truy vấn, hoặc nếu có tùy chọn tìm kiếm sống tồn tại,
có thể nhận kết quả mới phù hợp với truy vấn của họ.

Hạn chế kết quả

Khi một người dùng thực hiện một truy vấn, họ nên có quyền kiểm soát
số lượng kết quả được trả về. Họ có thể chỉ quan tâm đến mười kết quả hàng
đầu, ngay cả khi có thể trả về mười nghìn. Tính năng này hữu ích khi một khu
vực làm việc được tạo ra dựa trên kết quả của một truy vấn.

Điều khiển đầu ra

Một tính năng hữu ích là cho phép tìm kiếm trả về dữ liệu dưới nhiều
định dạng khác nhau. Một số trong số chúng bao gồm:
• Định dạng phân tách bằng dấu phẩy (CSV): Điều này cho phép tập kết quả
được tải vào một bảng tính.
• XML: Điều này cho phép kết quả được chia sẻ giữa các hệ thống máy tính.
Một ưu điểm là nếu XML có thể tuân thủ một trong các tiêu chuẩn siêu dữ liệu
đã được đề cập.

Kiểm tra tìm kiếm

Đối với các kho dữ liệu thông minh và an toàn chứa đa phương tiện, việc
có khả năng kiểm tra tất cả các truy vấn được thực hiện là rất quan trọng. Điều
này có nghĩa là lưu trữ một lượng lớn dữ liệu kết quả. Trong trường hợp có vi
phạm bảo mật, thông tin này có thể trở nên vô cùng quý giá. Quan trọng không
chỉ là ghi lại truy vấn mà người dùng thực hiện, mà còn là dữ liệu kết quả thực
sự được gửi và hiển thị trên màn hình. Ở một số quốc gia, không đủ để có thể
chứng minh một người dùng thực hiện một truy vấn một cách bất hợp pháp.
Cần phải chứng minh rằng họ thực sự đã nhìn thấy kết quả. Khi dữ liệu thay
đổi, kết quả từ khi người dùng thực hiện truy vấn có thể thay đổi vào ngày hôm
39
sau. Một người dùng bị nghi ngờ thực hiện một truy vấn không hợp pháp có
thể nói rằng khi họ thực hiện, không có dữ liệu nào được trả về.
Đối với các hệ thống cảnh sát, việc kiểm tra này rất quan trọng, vì tiềm
năng về tham nhũng có thể được điều tra nếu một cảnh sát bắt đầu truy vấn kết
quả của một cuộc điều tra cảnh sát được thực hiện bởi một đơn vị khác. Ngay
cả khi mô hình bảo mật được thiết lập cho phép họ truy cập dữ liệu, họ không
nên truy cập nó trừ khi được chấp thuận. Cần lưu trữ các checksum an toàn
chống lại các ảnh chụp màn hình và lưu trữ riêng biệt để đảm bảo các checksum
này không bị can thiệp.

Thiết kế ngôn ngữ tìm kiếm


Một tổ chức có thể ban đầu sử dụng một công cụ tìm kiếm chung để tìm
kiếm trong kho dữ liệu đa phương tiện của họ. Cuối cùng, họ sẽ kết luận rằng
để thực hiện các truy vấn phức tạp, truy vấn nghiên cứu hoặc truy vấn duy nhất
đối với các đặc điểm cụ thể của các đối tượng kỹ thuật số, họ sẽ cần xây dựng
một công cụ tìm kiếm chi tiết riêng của họ. Điều này sẽ cho phép họ kiểm soát
và đảm bảo các câu trả lời mà họ cần được diễn đạt trong các hạn chế của công
cụ.

Ngữ cảnh tìm kiếm

Vấn đề về ngữ cảnh tìm kiếm làm nổi bật sự phức tạp trong việc diễn
giải các truy vấn của người dùng và cung cấp kết quả phù hợp. Các công cụ tìm
kiếm khác nhau sử dụng các phương pháp khác nhau để xử lý sự mơ hồ này.
Ví dụ, Google thường cố gắng phù hợp với tất cả các thuật ngữ tìm kiếm và
xếp hạng kết quả dựa trên sự liên quan và tần suất xuất hiện của các thuật ngữ
đó.
Tuy nhiên, việc xác định ý định chính xác đằng sau một truy vấn của
người dùng có thể gây khó khăn. Ví dụ, khi một người dùng tìm kiếm "xe
thuyền xe đạp", không rõ liệu họ có ý định tìm kết quả chứa tất cả ba thuật ngữ
này (Xe VÀ thuyền VÀ xe đạp), bất kỳ trong số chúng (Xe HOẶC thuyền
HOẶC xe đạp), một cụm từ cụ thể ("xe thuyền xe đạp"), hoặc một kết hợp với
các thuật ngữ tùy chọn (Xe VÀ thuyền TÙY CHỌN tìm kiếm về xe đạp).

40
Hơn nữa, vị trí của các thuật ngữ trong kết quả tìm kiếm cũng có thể ảnh
hưởng đến sự liên quan của chúng. Ví dụ, các kết quả với "xe thuyền" đứng
cạnh nhau và "xe đạp" gần đó có thể được coi là có liên quan hơn so với những
kết quả với các thuật ngữ phân tán ngẫu nhiên trong tài liệu. Tuy nhiên, sự liên
quan này có thể thay đổi tùy thuộc vào mục tiêu và sở thích cá nhân của người
dùng.
Sự phức tạp này làm nổi bật sự cần thiết của các loại công cụ tìm kiếm
khác nhau. Công cụ tìm kiếm có cấu trúc thô, như Google, nhằm mục đích suy
luận ngữ cảnh của truy vấn và xếp hạng kết quả tương ứng. Ngược lại, các công
cụ tìm kiếm cấu trúc tinh vi có thể ưu tiên các yếu tố khác hơn xếp hạng kết
quả, hoặc cho phép người dùng tùy chỉnh hành vi mặc định dựa trên sở thích
của họ.
Tóm lại, thách thức về ngữ cảnh tìm kiếm làm nổi bật sự quan trọng của
việc hiểu ý định của người dùng và cung cấp các chức năng tìm kiếm linh hoạt
phục vụ nhu cầu đa dạng của người dùng.
Một tìm kiếm đơn lẻ thường liên quan đến việc tìm kiếm một từ hoặc
một bộ từ cố định mà không có bất kỳ phép toán logic nào (như AND, OR,
NOT) giữa chúng. Ví dụ, tìm kiếm "xe hơi" hoặc "xe hơi thuyền" được coi là
tìm kiếm đơn lẻ. Kết quả của một tìm kiếm đơn lẻ là một tập hợp kết quả truy
vấn.
Tuy nhiên, khi sử dụng nhiều từ khóa tìm kiếm và có phép toán logic,
nhiều tập kết quả truy vấn cần được kết hợp bằng cách sử dụng các khái niệm
dựa trên lý thuyết tập hợp.

Lý thuyết tập hợp

Trong lý thuyết tập hợp, một số hành động cơ bản được sử dụng:
- Hợp: Tương đương với phép toán logic OR. Nếu bạn tìm kiếm "thuyền"
hoặc "xe hơi", tập hợp kết quả là sự hợp của hai tập hợp này, chứa một
tập hợp duy nhất các giá trị.
- Giao: Tương ứng với phép toán logic AND. Nếu bạn tìm kiếm "thuyền"
và "xe hơi", tập hợp kết quả là giao của hai tập hợp này.

41
- Trừ: Tương tự như phép toán logic NOT. Nếu bạn tìm kiếm "thuyền"
không "xe hơi", tập hợp kết quả là tập hợp đầu tiên trừ đi tập hợp thứ hai.
- Hợp tất cả: Đơn giản là nối hai tập kết quả mà không loại bỏ bản sao.

Khi xử lý các phép toán logic trong một truy vấn tìm kiếm, thứ tự ưu tiên
trở nên quan trọng. Ví dụ, trong truy vấn "xe hơi AND thuyền OR xe đạp", có
hai cách tiếp cận khác nhau:

- Đánh giá "xe hơi AND thuyền" trước, sau đó kết hợp tập kết quả với
"xe đạp".
- Đánh giá "thuyền OR xe đạp" trước, sau đó kết hợp tập kết quả với "xe
hơi".

Ưu tiện trong tập hợp

Lựa chọn ưu tiên có thể ảnh hưởng đến tập kết quả cuối cùng, vì vậy việc
làm rõ thứ tự thực hiện phép toán là rất quan trọng để đảm bảo kết quả tìm kiếm
chính xác.
Thứ tự ưu tiên được sử dụng trong toán học khi một biểu thức không rõ
ràng. Trong toán học, một số phép toán có ưu tiên hơn các phép toán khác.

42
Ví dụ, nếu biểu thức như sau: 5+6x 7
Kết quả sẽ như sau:
- 77 nếu phép toán cộng (+) có ưu tiên hơn phép nhân (x)
- 47 nếu phép toán nhân (x) có ưu tiên hơn phép cộng (+)

Trong toán học, phép nhân có ưu tiên hơn phép cộng. Điều tương tự cũng
đúng trong tính toán nhưng có thể khác nhau giữa các ngôn ngữ lập trình. Trong
lý thuyết tập hợp, phép toán AND thường có ưu tiên hơn phép OR. Để thực
hiện ưu tiên, người ta sử dụng dấu ngoặc tròn. Hầu hết các công cụ tìm kiếm
hỗ trợ việc sử dụng dấu ngoặc tròn để áp đặt ưu tiên. Những gì được đặt trong
ngoặc tròn được thực hiện trước.

Các ví dụ sau cho thấy cách một truy vấn có thể thay đổi chỉ bằng cách
sắp xếp lại các mệnh đề trong câu lệnh cũng như sử dụng dấu ngoặc tròn.

43
Bằng cách sắp xếp lại các câu lệnh, chúng ta có thể nhận được các kết
quả khác nhau:

Trong câu lệnh thứ tư, chúng ta sắp xếp lại các mệnh đề, vì phép AND
được thực hiện trước, nó thực hiện một truy vấn khác so với phép AND trong
câu lệnh đầu tiên. Trong câu lệnh thứ năm, các dấu ngoặc đảm bảo rằng phép
OR được thực hiện trước, với kết quả là truy vấn thực hiện giống như truy vấn
thứ ba. Bằng cách đặt dấu ngoặc tròn xung quanh phép AND, kết quả sau đó
khớp với truy vấn thứ tư, một lần nữa chỉ ra rằng phép AND được đánh giá
trước tiên.
Điều này làm nổi bật là với một công cụ tìm kiếm, vị trí và thứ tự có thể
ảnh hưởng đến những gì được trả về. Trong một số trường hợp, nó có thể thay
đổi hoàn toàn ý nghĩa của truy vấn. Vì hầu hết người dùng không quen thuộc
hoặc thoải mái khi phải biết về thứ tự ưu tiên, giả định được đưa ra là các câu
lệnh được đánh giá từ trái sang phải theo thứ tự chúng xuất hiện.
Khi nhìn vào hai công cụ tìm kiếm phổ biến Google và Bing, chúng ta
có thể suy luận rằng Google luôn đánh giá từ trái sang phải và bỏ qua dấu ngoặc
tròn. Bing cũng đánh giá từ trái sang phải nhưng buộc phải sử dụng dấu ngoặc
tròn để áp đặt ưu tiên.

44
Không có cách nào đúng hoặc sai khi đến với ưu tiên, chỉ là cách để đảm
bảo người dùng thực hiện truy vấn biết về nó. Do sự phổ biến của công cụ tìm
kiếm, cùng với công nghệ được tích hợp vào nhiều công cụ khác, phương pháp
hoàn toàn bỏ qua ưu tiên của Google có lẽ sẽ chiến thắng. Công chúng chung
sẽ không biết được rằng điều này là cách hoạt động duy nhất cho một công cụ
tìm kiếm.

Các thuật ngữ truy vấn chuyên biệt

Phần này đề cập đến các khái niệm tiên tiến khi thực hiện một truy vấn.

Lỗi chính tả

Những sai sót xảy ra khi nhập một thuật ngữ tìm kiếm. Đó có thể là một
lỗi chính tả hoặc chỉ là một phỏng đoán về việc chính tả của một từ. Một số
công cụ tìm kiếm phát hiện lỗi và đề xuất sửa chữa cho nó.
Một số ví dụ như sau:
• Với Google, nếu bạn gõ carrx, nó sẽ trả lời "Did you mean: carex" (Bạn
có ý là: carex)
• Với Bing, nếu bạn gõ carrx, nó sẽ trả lời "Including results for car. Do
you want results for carrx?" (Bao gồm kết quả cho car. Bạn có muốn kết quả
cho carrx không?)
Các công cụ tìm kiếm cấp độ tinh tế có khả năng không chỉ đề xuất sửa
chữa, mà còn có thể kiểm tra cơ sở dữ liệu của họ và xem từ nào có thể phù
hợp với lỗi tiềm ẩn, đưa ra kết quả trả lại cho người dùng sẽ tạo ra kết quả.

45
Không hiệu quả khi một công cụ tìm kiếm đề xuất carex là một lựa chọn thay
thế cho lỗi carxx, nếu không có giá trị nào chứa carex trong cơ sở dữ liệu.

Nghe giống nhau

Có những trường hợp khi cần phải tìm kiếm một giá trị có vẻ giống như
giá trị bạn muốn. Cơ sở dữ liệu cung cấp khả năng soundex cho phép người
dùng tìm từ có vẻ giống với từ bạn muốn. Vì vậy, một tìm kiếm trên từ smith
sẽ trả về các giá trị của smith cũng như smyth, smythe.
Một tìm kiếm với khả năng soundex đòi hỏi sự thông minh bổ sung để
xử lý nó.
Với tìm kiếm đa phương tiện, soundex chỉ là khởi đầu và các khả năng
tìm kiếm bổ sung có thể được yêu cầu sử dụng một ngữ cảnh tương tự:
• Hình ảnh số: Tìm hình ảnh giống với hình ảnh này
• Âm thanh: Tìm nhạc có âm thanh giống (âm thanh, không nhầm với
cách phát âm)
• Video: Tìm video tương tự với video này
• Tìm các đối tượng số liên quan đến đối tượng này
Tìm kiếm trên đa phương tiện có thể liên quan đến các thuật ngữ tìm
kiếm mới và các thuật ngữ chuyên biệt. Nó có thể bao gồm tìm kiếm danh sách,
hình dạng đối tượng, các truy vấn liên quan, truy vấn tìm kiếm dữ liệu thiếu,
đối tượng xấu, đối tượng được tải dựa trên ngày cũng như các truy vấn chuyên
biệt về số lượng truy cập và tên. Việc triển khai các khả năng tìm kiếm này có
thể đến với một chi phí về hiệu suất và ảnh hưởng đến khả năng mở rộng của
công cụ tìm kiếm (về số lượng truy vấn đồng thời nó có thể xử lý).

Tìm kiếm gốc

Tìm kiếm gốc là một tính năng hữu ích cho các công cụ tìm kiếm cấp độ
tinh tế. Nó cho biết cho công cụ tìm kiếm tìm các từ có cấu trúc tương tự với
từ đang được tìm kiếm. Vì vậy, một tìm kiếm trên từ car, cũng có thể tìm kiếm
cars.

46
Bằng cách liên kết một tìm kiếm gốc với một bộ từ đồng nghĩa, cành gốc
có thể thực hiện các truy vấn thông minh bằng cách sử dụng từ điển từ đồng
nghĩa như một cơ sở. Vì vậy, một tìm kiếm trên từ car liên kết với một bộ từ
đồng nghĩa, cũng có thể tìm kiếm trên caravan, motorbike, Ford, Holden,…

Xếp hạng

Nếu một tìm kiếm được thực hiện trên ba từ, chẳng hạn như automobile,
boat và car (được biểu diễn như A, B và C) thì các kết quả trả về có thể được
sắp xếp theo thứ tự ưu tiên dựa trên mức độ phù hợp. Thứ tự của các kết quả
trả về có thể như sau:
• "A B C": Tìm kiếm một kết quả chính xác trên tất cả 3 từ và chúng
đứng cạnh nhau.
• "A C B", "B A C", "B C A", "C A B", "C B A": Tìm kiếm một biến thể
trên cả ba từ, và tất cả ba từ đều đứng cạnh nhau.
• "*A B C*": Tìm kiếm một kết quả mà các từ có thể nằm trong các từ
khác.
• "A B" và C, "A C" và B, "B A" và C, "C B" và A: Hai từ đứng cạnh
nhau và từ thứ ba nằm gần đó. Xếp hạng có thể được cải thiện bằng cách tiếp
cận từ.
• A và B và C: Nơi mà tất cả ba từ đều tồn tại.
• "A B", "B A", "A C", "C A", "B C": Hai trong số ba từ tồn tại và đứng
cạnh nhau. Không có kết quả cho từ thứ ba.
• A và B, A và C, B và C: Hai trong số ba từ tồn tại nhưng không có kết
quả cho từ thứ ba.
• A hoặc B hoặc C: Nơi một trong số các từ khớp.
Việc xếp hạng có thể được điều chỉnh tinh tế với sự thêm vào của stem
và soundex trong các kết quả. Một xếp hạng thông minh, như đã nêu trên, sẽ
trả lại các kết quả mà trong hầu hết các trường hợp sẽ phản ánh chính xác yêu
cầu của người dùng.
Khi số từ được sử dụng trong tìm kiếm tăng lên, số lượng các biến thể
cần được tìm kiếm cũng tăng lên. Điều này sẽ tăng đáng kể số lượng các truy

47
vấn con cần được thực hiện. Một công cụ tìm kiếm được thiết kế tốt có thể, khi
lập chỉ mục, tính đến yếu tố này giảm thời gian tìm kiếm.
Trong tìm kiếm Google, khái niệm về xếp hạng là khác biệt và sử dụng
một khái niệm tương tự với xếp hạng được chỉ định. Với Google, thách thức
chủ yếu là về việc xử lý những kết quả có cùng xếp hạng. Làm thế nào để phân
biệt chúng? Do lượng dữ liệu lớn trên Google, một tìm kiếm có thể trả về hơn
100.000 kết quả. Có thể rằng trong một tìm kiếm như vậy, 1000 kết quả đầu
tiên đều phù hợp với yêu cầu đầu tiên trong đó tất cả 3 từ đều xuất hiện theo
thứ tự kế tiếp nhau.
Để xếp hạng những trang có kết quả giống nhau, Google sử dụng một
thuật toán xếp hạng rất phù hợp với Internet. Nó xếp hạng dựa trên sự phổ biến
của trang web. Trang web càng phổ biến (tức là có bao nhiêu trang khác liên
kết đến nó), thì kết quả xếp hạng càng cao. Google đưa việc này một bước xa
hơn bằng cách cho phép nó đứng trước các xếp hạng khác. Vì vậy, một tài liệu
rất phổ biến chỉ chứa ba từ A, B, C ở bất kỳ thứ tự nào có thể được xếp hạng
cao hơn so với một tài liệu phù hợp với "A B C", nhưng không phổ biến bằng.
Google cũng sử dụng các kỹ thuật khác như xếp hạng một số trang tự động cao
hơn các trang khác. Điều này bao gồm Wiki và You Tube. Thuật toán xếp hạng
chính xác mà Google sử dụng là riêng tư của công ty và phức tạp hơn nhiều so
với mô tả đã được đưa ra. Để biết thêm thông tin, xem
http://en.wikipedia.org/wiki/PageRank.
Một khái niệm tương tự như phương pháp này có thể được sử dụng để
cho phép thực hiện các tìm kiếm thông minh. Trong một kho lưu trữ đa phương
tiện thông minh, một truy vấn về một người, một chiếc xe hơi hoặc bất kỳ đối
tượng nào khác có thể tạo ra một số lượng lớn kết quả. Bằng cách tính toán số
liên kết hoặc tham chiếu đến đối tượng, nó có thể cho phép công cụ tìm kiếm
điều chỉnh xếp hạng của mình, thu hút sự chú ý của người thực hiện truy vấn
đến các đối tượng số học có thể có một tầm quan trọng lớn hơn. Mặc dù phương
pháp này sẽ sử dụng một khái niệm tương tự như Google sử dụng, nhưng cách
thực hiện thực tế trong một kho lưu trữ đa phương tiện sẽ hoàn toàn khác nhau.

48
Các từ bắt buộc và các thuật ngữ khác

Các tùy chọn tìm kiếm bổ sung có thể được sử dụng để thêm thông tin
vào kết quả. Ký hiệu cộng "+" truyền thống đề cập đến bắt buộc, có nghĩa là từ
phải tồn tại trong kết quả tìm kiếm. Ví dụ, +car và boat, tìm kiếm car và tùy
chọn là boat.
Ký hiệu trừ "-" chỉ ra từ không được bao gồm trong kết quả. Điều này có
thể hữu ích để giảm số lượng kết quả sai. Ví dụ, +car -boat, có nghĩa là tìm bất
kỳ thứ gì chứa car nhưng không thể chứa boat.
Dấu chấm phẩy ";" có nghĩa là tìm các từ gần nhau. Vì vậy, car ;boat sẽ
tìm kiếm các đối tượng số học có cả hai từ này trong đó, và cách nhau một số
từ nhỏ.

Tần suất từ

Một tìm kiếm thường xem xét xem một đối tượng số học có chứa từ tìm
kiếm không. Nếu đối tượng số học chứa từ tìm kiếm nhưng được lặp lại nhiều
lần, thì sự lặp lại này có thể được sử dụng để tăng xếp hạng của kết quả. Lý do
là từ càng được lặp lại nhiều lần trong một tài liệu thì càng quan trọng. Công
cụ tìm kiếm cần phải xem xét điều này và ngoài việc chỉ mục từ, lưu trữ tần
suất xuất hiện của từ, để có thể sử dụng giá trị này để điều chỉnh xếp hạng.
Cho tài liệu, ý tưởng của việc tìm kiếm từ mù mờ mất đi sự hấp dẫn khi
tìm kiếm với một số thuật ngữ ít. Khi sử dụng một tìm kiếm phức tạp với một
số thuật ngữ, khả năng nhận kết quả sai tích cực giảm. Nhưng đối với một tìm
kiếm đơn giản, khả năng này tăng lên với số lượng tài liệu và kích thước của
chúng. Giải pháp mà Oracle tích hợp vào cơ sở dữ liệu trong Oracle 8, và sau
đó là liên kết một cách mạch lạc trong Oracle 10, là tích hợp công nghệ có thể
xác định tài liệu đang nói về điều gì. Điều này bao gồm việc xem xét ngữ pháp,
các mẫu từ và cách sử dụng từ để suy luận ra tài liệu đang nói về điều gì. Nó
tạo ra một tập hợp các chủ đề có thể được tìm kiếm. Nếu một người dùng tìm
kiếm theo chủ đề, họ có khả năng nhận được một kết quả gần giống với những
gì họ đang tìm kiếm. Kết hợp kết quả chủ đề với một tìm kiếm tài liệu tiêu
chuẩn và đưa ra xếp hạng cao hơn cho các kết quả chủ đề, cho phép người dùng

49
thực hiện cả tìm kiếm đơn giản và phức tạp và lấy lại kết quả gần như những
gì họ yêu cầu trong tìm kiếm của họ.

Tự động gợi ý

Một sự bổ sung mới gần đây cho hầu hết các công cụ tìm kiếm thô và
cũng là một trong những cái đang phổ biến cho các tìm kiếm tinh tế, là khả
năng gợi ý tìm kiếm khi người dùng đang nhập. Điều này được gọi là một gợi
ý tự động và bao gồm việc truy vấn cơ sở dữ liệu để tìm các kết quả phổ biến
khi người dùng đang nhập các thuật ngữ tìm kiếm. Với tốc độ của hầu hết các
mạng và máy chủ hiện nay, khả năng truy vấn từ xa, trả kết quả và hiển thị
chúng khi người dùng đang nhập, hiện đã trở nên khả thi. Điều này không phải
là một lựa chọn thực tế mười năm trước.
Khi người dùng đang nhập, họ có thể nhìn trước và thấy các giá trị tìm
kiếm tiềm năng mà họ có thể muốn. Sau đó, họ có thể chọn giá trị đó và tăng
tốc tìm kiếm.
Thách thức là thực hiện điều này nhanh chóng và trả lại một tập hợp kết
quả thông minh. Đối với các công cụ tìm kiếm theo dõi các tìm kiếm trước đó
và sở thích của người dùng, họ thậm chí có thể tính này vào tìm kiếm.

Khả năng mở rộng của công cụ tìm kiếm

Khả năng mở rộng được sử dụng để chỉ ra xem công cụ tìm kiếm có thể
mở rộng để xử lý việc tăng lên của các tìm kiếm đồng thời và phức tạp, cũng
như việc lưu trữ tất cả dữ liệu liên quan đến tìm kiếm.
Như đã thảo luận trước đó, các công cụ tìm kiếm thô đạt được tính mở
rộng của họ bằng cách hy sinh tính linh hoạt trong cách họ tìm kiếm, để đạt
được thời gian phản hồi rất ngắn. Kiến trúc cho phép công cụ được phân phối
trên một số lượng lớn máy chủ, cung cấp khả năng xử lý thêm các truy vấn và
trả kết quả một cách nhất quán, trong vòng dưới một giây.

50
Một công cụ tìm kiếm tinh tế được thiết kế để cung cấp khả năng tìm
kiếm mạnh mẽ hơn, với khả năng điều chỉnh các thành phần của truy vấn. Như
chúng ta đã thảo luận, điều này bao gồm khả năng tìm kiếm trên các giá trị siêu
dữ liệu được xác định rõ ràng, thực hiện các tìm kiếm linh hoạt trên các số tiếp
cận, ngày tháng, số, và tìm kiếm các mối quan hệ giữa các đối tượng số. Một
công cụ tìm kiếm tinh tế sẽ không có yêu cầu phải mở rộng để xử lý số lượng
người dùng đồng thời như một công cụ tìm kiếm Google phải đối mặt. Nếu
công cụ tìm kiếm được chạy trong một tổ chức, cơ sở người dùng được xác
định rõ ràng và có thể được kiểm soát.
Nếu tổ chức mở cửa kho đa phương tiện của mình cho công chúng chung
để truy vấn thì vấn đề về khả năng mở rộng trở nên quan trọng. Khi số lượng
người dùng đồng thời tăng lên, khả năng của máy chủ có thể vượt quá. Một
công cụ tìm kiếm tinh tế không thể mở rộng một cách minh bạch chỉ bằng cách
cắm các máy chủ mới vào. Oracle có sản phẩm đại diện Exadata, được thiết kế
để mở rộng và xử lý việc tăng số lượng người dùng và truy vấn. Sản phẩm này
có thể không hiệu quả về chi phí nếu tổ chức có ngân sách hạn chế. Ngoài ra,
mặc dù máy chủ Exadata có thể mở rộng để lý thuyết có thể xử lý hơn một ngàn
nút, nhưng nó không thể mở rộng để xử lý hàng chục ngàn nút như công cụ tìm
kiếm Google.
Vì vậy, để mở rộng kho đa phương tiện của họ, một tổ chức sẽ phải đưa
ra quyết định khi sự phổ biến tăng lên để giới hạn sự phát triển hoặc chuyển
sang một công cụ tìm kiếm thô và hy sinh chức năng. Cần nhớ rằng không phải
lúc nào cũng là sự lựa chọn giữa tìm kiếm thô và tìm kiếm tinh tế. Thực tế là
có khả năng cung cấp cả hai dịch vụ đồng thời. Dân số người dùng chung thực
hiện các truy vấn cơ bản có thể sử dụng công cụ tìm kiếm thô, và những người
cần các truy vấn tinh tế có thể thực hiện chúng, nhưng phải đặt chúng trong một
yêu cầu (hàng đợi batch) và có kết quả trả lại cho họ, hoặc sẵn lòng chờ một
thời gian lâu hơn để có kết quả trả về.
Thách thức là tích hợp hai công cụ tìm kiếm này, nhưng nếu giao diện
người dùng dựa trên HTML thì điều này thường chỉ là một vấn đề lập trình và
cấu hình nhỏ. Cuối cùng, hợp lý khi có thể mở rộng công cụ tìm kiếm trong
một kho đa phương tiện và đạt được kết quả tốt cho một số lượng lớn các truy
vấn đồng thời.
51
Tìm kiếm liên minh
Federated search là một phương pháp được sử dụng để thu thập kết quả
tìm kiếm từ nhiều cơ sở dữ liệu và nguồn thông tin khác nhau vào một kết quả
tổng hợp duy nhất. Mục tiêu là cho phép tìm kiếm trên toàn bộ môi trường, bao
gồm các đối tượng kỹ thuật số khác nhau. Mặc dù tìm kiếm liên bang hoạt động
ở mức độ coarse-grain, nhưng khả năng và quản lý kết quả của nó gần giống
với các truy vấn fine-grained. Đơn giản là, nó mở rộng phạm vi tìm kiếm của
một truy vấn fine-grained để bao gồm các cơ sở dữ liệu và môi trường khác.
Tuy nhiên, tìm kiếm liên bang có những hạn chế do lo ngại về bảo mật,
có thể hạn chế các loại kết quả mà nó có thể thu thập. Mặc dù tính toán coarse-
grain, các truy vấn mà nó thực hiện và cách quản lý kết quả gần như giống với
các truy vấn fine-grained.

Tìm kiếm mờ giải quyết thách thức về việc xác định một kết quả phù
hợp, đặc biệt trong các trường hợp mà các kết quả chính xác khó khăn hoặc
tương đối. Thay vì tìm kiếm các đối tượng giống nhau, tìm kiếm mờ nhằm đánh
giá mức độ tương đồng giữa các đối tượng kỹ thuật số dựa trên các đặc điểm
khác nhau. Phương pháp này tạo ra một thang đo phân loại về sự tương tự, dẫn
đến các kết quả tìm kiếm mờ.

52
Trong tìm kiếm mờ, khái niệm truyền thống về việc tìm kiếm các đối
tượng giống nhau được bỏ qua. Thay vào đó, sự tập trung chuyển sang việc tìm
kiếm các hình ảnh có độ tương tự cao nhất với hình ảnh truy vấn. Tuy nhiên,
các kết quả tìm kiếm mờ có thể bị ảnh hưởng bởi sự thiên vị của người quan
sát, nơi mà các cá nhân khác nhau trong việc giải thích các kết quả có thể đạt
đến các kết luận khác nhau.
Điều này được làm nổi bật bằng việc sử dụng âm nhạc làm ví dụ. Hãy
chọn một bài hát nổi tiếng và cố gắng tìm một bài hát khác mà phù hợp nhất
với nó. Mỗi người sẽ sử dụng các đặc điểm khác nhau để phù hợp. Một số người
có thể tập trung vào phần hòa tấu, một số người tập trung vào người hát, và một
số có thể tập trung vào lời bài hát. Sự thiên vị của người quan sát cho thấy kết
quả có thể bị tranh cãi bởi các người khác nhau. Trong trường hợp đó, các đặc
điểm được sử dụng để xác định sự phù hợp phải được tính vào kết quả.
Vấn đề là: "Đây là câu trả lời, bây giờ câu hỏi là gì?"
Trong trường hợp của một video, câu hỏi có thể là: tìm cảnh có ghế trong
đó. Đối với một quan sát viên con người, câu hỏi là rõ ràng, nhưng đối với một
máy tính, việc định nghĩa một chiếc ghế trở nên vô cùng khó khăn. Một chiếc
ghế có phải là một đối tượng có bốn chân, có thể cũng là ba chân? Một chiếc
ghế có phải là một chiếc ghế nếu không có ai ngồi trên đó? Một tấm gỗ đặt trên
hai khối gạch có phải là một chiếc ghế không? Chúng ta bắt đầu di chuyển vào
các khu vực mờ hoặc màu xám khi thậm chí cố gắng phân loại một chiếc ghế.
Thuật toán máy tính truyền thống gặp rất nhiều khó khăn khi cố gắng xác định
một chiếc ghế là gì, huống chi nhận diện một trong video nơi góc nhìn của đối
tượng có thể thay đổi. Nó có thể bị che khuất bởi các đối tượng khác hoặc thậm
chí được che khuất bởi các đối tượng như một tấm chăn. Hệ thống máy tính sử
dụng logic có thể thông qua cường độ lực (tận dụng công suất tính toán rất lớn),
tìm kiếm các đặc điểm chính, và đoán một cách ngẫu nhiên xem một chiếc ghế
là gì. Máy tính sử dụng mạng neural (mô phỏng trên cấu trúc neural của não
người) có thể thực hiện các kết hợp mẫu một cách hiệu quả hơn, nhưng yêu cầu
rất nhiều công sức để huấn luyện chúng nhận ra một chiếc ghế. Ngay cả khi
chiếc ghế bị che khuất, mạng lưới vẫn gặp khó khăn trong việc nhận ra nó là
một chiếc ghế.

53
Tìm kiếm mờ
Tìm kiếm mờ không chỉ giới hạn trong các đối tượng kỹ thuật số, mà còn
có thể được áp dụng vào siêu dữ liệu. Như đã được bàn trước đó, các loại dữ
liệu tên và địa chỉ có thể yêu cầu kết hợp mờ. Liệu một đối tượng kỹ thuật số
với tên John J Smith có giống hệt với một đối tượng có tên John James Smith
không? Câu trả lời có thể là có, có thể là không. Việc kết hợp mờ có thể gán
một mức độ mờ để chỉ ra sự gần gũi của kết quả, tính toán các giá trị khác trong
tên như ngày sinh, địa chỉ, hoặc thông tin liên hệ.
Mặc dù các khái niệm tìm kiếm mờ đã xuất hiện từ những năm 1990,
nhưng chúng không thu hút nhiều sự ủng hộ vì toán học đằng sau chúng không
được mô tả rõ ràng. Trong mười năm qua, với sự thúc đẩy mạnh mẽ từ Nhật
Bản và các cài đặt được chứng minh sử dụng các thuật toán logic mờ, cùng với
việc xuất bản nhiều bài báo bao quát về mờ mịt; liệu logic mờ đã bắt đầu được
chấp nhận chưa? Vấn đề là sự hiểu biết về nó không được nắm vững và không
được khuyến khích, với kết quả là hầu hết các lập trình viên không xem xét
việc sử dụng các nguyên lý đằng sau nó khi lập trình.

Tìm kiếm hợp tác


Tìm kiếm hợp tác là một dạng tìm kiếm cho phép nhiều công cụ tìm kiếm
riêng biệt, có thể được quản lý bởi các tổ chức khác nhau, thực hiện tìm kiếm
và kết hợp kết quả. Một ví dụ đã được đề cập trước đó đã liên quan đến một
công cụ tìm kiếm truy cập vào cơ sở dữ liệu cục bộ và sau đó truy vấn Google
để thêm kết quả bổ sung.
Đối với các tổ chức cung cấp một hệ thống công cộng, họ có thể xem xét
việc tạo ra một giao diện dịch vụ web cho cơ sở dữ liệu của họ, cho phép các
tổ chức khác truy vấn cơ sở dữ liệu của họ và thực hiện tìm kiếm hợp tác.
Ưu điểm của tìm kiếm hợp tác là nó có thể cung cấp nhiều kết quả hơn,
điều này có thể rất hữu ích cho phân tích. Điều đó có nghĩa, đối với một tổ chức
cho phép các trang web khác truy cập để thực hiện tìm kiếm hợp tác của riêng
họ, tổ chức đó sẽ mất quyền kiểm soát về dữ liệu. Nếu tổ chức khác không phản
ánh nguồn gốc ban đầu, điều này có thể dẫn đến vấn đề bản quyền. Đối với các
hình ảnh kỹ thuật số được trả về, điều này có thể dẫn đến vấn đề về cấp phép.

54
Ngoài ra, các tổ chức cần tin tưởng vào dữ liệu mà họ đang truy vấn. Vì họ
không có quyền kiểm soát nó, có yếu tố đáng tin cậy phải liên kết với các kết
quả được trả về.

Tổng kết
Tóm lại, việc tìm kiếm trong một kho dữ liệu đa phương tiện đòi hỏi sự
hiểu biết về các khái niệm mờ và khả năng hình dung kết quả một cách hiệu
quả. Một công cụ tìm kiếm hiệu quả để truy vấn đa phương tiện cần tính đến
nhu cầu của tìm kiếm coarse grain và fine grain. Vì hầu hết các đối tượng kỹ
thuật số được mô tả bằng siêu dữ liệu, công cụ tìm kiếm cần có khả năng truy
vấn chống lại nó. Ngoài ra, công cụ tìm kiếm cần có các tính năng để thực hiện
các truy vấn cụ thể cho các thuộc tính của loại đối tượng kỹ thuật số. Hầu hết
các công cụ tìm kiếm tập trung vào dữ liệu quan hệ thiếu các khả năng để kích
hoạt các tính năng truy vấn tiên tiến này. Công cụ tìm kiếm cũng cần có khả
năng điều chỉnh hành vi tìm kiếm dựa trên các loại dữ liệu của siêu dữ liệu.
Điều này bao gồm khả năng thực hiện tìm kiếm mờ đối với dữ liệu xấp xỉ và
truy vấn thông minh đối với các số tiếp cận và số đối tượng.

55
TÀI LIỆU THAM KHẢO
[1]. Kratochvil M. - Managing Multimedia and Unstructured Data in the Oracle
Database - 2013

56

You might also like