Nội dung

1. IR là gì ?
PHƯƠNG TIỆN 2. Tại sao cần IR ?

4. Bên trong một hệ thống tìm kiếm và truy vấn.

5. Một số lĩnh vực trong tìm kiếm và truy vấn.


Information Retrieval – IR là gì? Tại sao cần information retrieval ?

Bùng nổ dữ liệu
• “It refers to the difficulty a person can have understanding an issue and
making decisions that can be caused by the presence of too much
information.” - wiki

CS@UVa 3 CS@UVa 4


Tại sao cần Information Retrieval ?

• Bùng nổ dữ liệu – Big Data

Figure 2: Growth of WWW

Hình 1: Sự phát triển của Internet
5 6

Trong chương trình cái gì quan trọng nhất ?

7 8


Data vs information ?
Data is money ?

9 10

Data vs information ? Có những loại data nào ?

11 12


13 14

Tại sao cần information retrieval Tại sao cần information retrieval

• Quản lý dữ liệu không cấu trúc unstructured data An essential tool to deal with information overload
• Dữ liệu có cáu trúc - Structured data: hệ quản trị CSDL là lựa chọn tốt
• Unstructured data ngày càng bùng nổ
• Text in Web documents or emails, image, audio, video…
• “85 percent of all business information exists as unstructured data” - Merrill Lynch
• Chỉ là dữ liệu không mang tri thức, ngữ nghĩa (semantic meaning)

Table 1: People in CS Department

ID Name Job

1 Jack Professor

3 David Stuff

5 Tony IT support You are

Total Enterprise Data Growth 2005-2015, IDC 2012

CS@UVa 15 CS@UVa 16


Lịch sử information retrieval Lịch sử information retrieval

• Early days (late 1950s to 1960s): foundation of the field
• Luhn’s work on automatic indexing
• Idea popularized in the pioneer article “As We May Think” by • Cleverdon’s Cranfield evaluation methodology and index experiments
Vannevar Bush, 1945 • Salton’s early work on SMART system and experiments
• “Wholly new forms of encyclopedias will appear, ready- • 1970s-1980s: a large number of retrieval models
made with a mesh of associative trails running through • Vector space model
them, ready to be dropped into the memex and there • Probabilistic models
amplified.” -> WWW • 1990s: further development of retrieval models and new tasks
• “A memex is a device in which an individual stores all his • Language models
• TREC evaluation
books, records, and communications, and which is
• Web search
mechanized so that it may be consulted with exceeding
speed and flexibility.” -> Search engine • 2000s-present: more applications, especially Web search and interactions
with other fields
• Learning to rank
• Scalability (e.g., MapReduce)
• Real-time search
CS@UVa 17 CS@UVa 18

Lịch sử information retrieval Lịch sử information retrieval

• Academia: Text Retrieval Conference (TREC) in 1992 • Industry: web search engines
• “Its purpose was to support research within the • WWW unleashed explosion of published information
information retrieval community by providing the and drove the innovation of IR techniques
infrastructure necessary for large-scale evaluation of • First web search engine: “Oscar Nierstrasz at the
text retrieval methodologies.” University of Geneva wrote a series of Perl scripts
that periodically mirrored these pages and rewrote
• “… about one-third of the improvement in web them into a standard format.” Sept 2, 1993
search engines from 1999 to 2009 is attributable to • Lycos (started at CMU) was launched and became a
TREC. Those enhancements likely saved up to 3 major commercial endeavor in 1994
billion hours of time using web search engines.” • Booming of search engine industry: Magellan, Excite,
Infoseek, Inktomi, Northern Light, AltaVista, Yahoo!,
• Till today, it is still a major test-bed for academic Google, and Bing
research in IR
CS@UVa 19 CS@UVa 20


Thị phần trong lĩnh vực IR Thị phần trong lĩnh vực IR

• Global search engine market - desktop • Global search engine market - mobile
• By • By

CS@UVa 21 CS@UVa 22

Kiến trúc hệ thống IR và Search Kiến trúc hệ thống IR và Search

Crawler and indexer

Thế giới thực khi chưa có IR & Search

Query parser

Ranking model

CS@UVa 23 CS@UVa
Document Analyzer 24


Kiến trúc hệ thống IR và Search Một số điểm quan trọng trong IR

PARSING & INDEXING • Biểu diễn câu truy vấn -Query representation
Doc Query query • Lexical gap: say v.s. said
Rep Rep
• Semantic gap: ranking model v.s. retrieval method
SEARCH • Biểu diễn dữ liệu - Document representation
Ranking results
APPLICATIONS • Specific data structure for efficient access
LEARNING • Lexical gap and semantic gap
Evaluation judgments • Mô hình truy vấn - Retrieval model
Nội dung trong môn học: • Algorithms that find the most relevant documents for the
1) Search engine architecture; 2)Retrieval models;
3) Retrieval evaluation; 4) Relevance feedback; given information need
5) Link analysis; 6) Search applications.
CS@UVa 25 CS@UVa 26

Một số search engine Một số search engine

Yet Another Hierarchical Officious/Obstreperous/ Demand of understanding
Odiferous/Organized Oracle

Demand of efficiency Demand of convenience

Demand of accuracy
Demand of diversity

CS@UVa 27 CS@UVa 28


Lĩnh vực của IR Lĩnh vực của IR

• Web search là một trong những mảng quan trong của information • Web search là một trong những mảng quan trong của information
retrieval, tuy nhiên Information retrieval còn bao gồm: retrieval, tuy nhiên Information retrieval còn bao gồm:
• Hệ thống khuyến nghị -Recommendation • Hệ thống hỏi đáp - Question answering

CS@UVa 29 CS@UVa 30

Lĩnh vực của IR Lĩnh vực của IR

• Web search là một trong những mảng quan trong của information • Web search là một trong những mảng quan trong của information
retrieval, tuy nhiên Information retrieval còn bao gồm: retrieval, tuy nhiên Information retrieval còn bao gồm:
• Khai mỏ dữ liệu - Text mining • Quảng cáo trực tuyến- Online advertising

CS@UVa 31 CS@UVa 32


Lĩnh vực IR
Lĩnh vực của IR
• Web search là một trong những mảng quan trong của information
retrieval, tuy nhiên Information retrieval còn bao gồm: Web Applications,
• Hệ thống tìm kiếm - Enterprise search: web search + desktop search Bioinformatics…
Machine Learning
Pattern Recognition Library & Info
Information Science
Statistics Retrieval
Language Databases
Data Mining Software engineering
Computer systems

CS@UVa CS4501: Information Retrieval 33 CS@UVa 34

IR v.s. DBs IR and DBs are getting closer

• DBs => IR
• Information Retrieval: • Database Systems: • IR => DBs • Use information extraction to convert
• Unstructured data • Structured data • Approximate search is available in unstructured data to structured data
• Semantics of objects are • Semantics of each object are well DBs • Semi-structured representation: XML
subjective defined • Eg. in mySQL data; queries with structured
• Simple keyword queries • Structured query languages (e.g., information
• Relevance-drive retrieval SQL)
• Effectiveness is primary issue, • Exact retrieval
though efficiency is also • Emphasis on efficiency mysql> SELECT * FROM articles
important -> WHERE MATCH (title,body)
AGAINST ('database');

CS@UVa 35 CS@UVa 36


IR v.s. NLP IR and NLP are getting closer

• NLP => IR
• Information retrieval • Natural language processing • IR => NLP • Deep analysis of text documents and
• Computational approaches • Cognitive, symbolic and • Larger data collections queries
• Statistical (shallow) understanding computational approaches • Scalable/robust NLP techniques, • Information extraction for structured
of language • Semantic (deep) understanding of e.g., translation models IR tasks
• Handle large scale problems language
• (often times) small scale problems

CS@UVa 37 CS@UVa 38

• Introduction to Information Retrieval. Christopher D.

Manning, Prabhakar Raghavan, and Hinrich Schuetze, • Modern Information Retrieval. Ricardo Baeza-Yates and
Cambridge University Press, 2007. Berthier Ribeiro-Neto, Addison-Wesley, 2011.

• Search Engines: Information Retrieval in Practice. Bruce • Information Retrieval: Implementing and Evaluating
Croft, Donald Metzler, and Trevor Strohman, Pearson Search Engines. Stefan Buttcher, Charlie Clarke, Gordon
Education, 2009. Cormack, MIT Press, 2010.

CS@UVa 39 CS@UVa 40


What to read?
IR in future
Mathematics • Mobile search
• Desktop search + location? Not exactly!!
Web Applications, • Interactive retrieval
Bioinformatics… • Machine collaborates with human for information access
Machine Learning
Pattern Recognition Library & Info • Personal assistant
ICML, NIPS, UAI • Proactive information retrieval
Information Retrieval • Knowledge navigator
Databases • And many more
OptimizationACL, EMNLP, COLING SIGMOD, VLDB, ICDE • You name it!
Data Mining Software engineering
KDD, ICDM, SDM Computer systems
• Find more on course website for resource
CS@UVa 41 CS@UVa 42

Tài liệu tham khảo Một số chủ đề Seminar

• Tìm hiểu lucene và minh họa.

Slide được tham khảo từ:
• Tìm hiểu Elasticsearch và minh họa

• • Tìm hiểu Apache SOLR và minh họa.

• Tìm hiểu IRF framework và minh họa.

• Tìm hiểu Faiss và minh họa.
• • Tìm hiểu Apache Cassandravà minh họa.

• Tìm hiểu apche Hadoop và minh họa trong tìm kiếm, truy vấn.

• Tìm hiểu về Scrapy Framework và ví dụ minh họa cho một số loại dữ liệu khác nhau : Ảnh, Video,

• Mô hình BOW và minh họa

• Mô hình BOF và minh họa




