Download as pdf or txt
Download as pdf or txt
You are on page 1of 12

9/12/2019

Nội dung

1. IR là gì ?
TRUY VẤN THÔNG TIN ĐA
PHƯƠNG TIỆN 2. Tại sao cần IR ?
INFORMATION RETRIEVAL 3. Lịch sử IR

4. Bên trong một hệ thống tìm kiếm và truy vấn.

5. Một số lĩnh vực trong tìm kiếm và truy vấn.

GIỚI THIỆU INFORMATION RETRIEVAL 1

Information Retrieval – IR là gì? Tại sao cần information retrieval ?

Bùng nổ dữ liệu
• “It refers to the difficulty a person can have understanding an issue and
making decisions that can be caused by the presence of too much
information.” - wiki

CS@UVa 3 CS@UVa 4

1
9/12/2019

Tại sao cần Information Retrieval ?

• Bùng nổ dữ liệu – Big Data

Figure 2: Growth of WWW


Hình 1: Sự phát triển của Internet
5 6

Trong chương trình cái gì quan trọng nhất ?

7 8

2
9/12/2019

Data vs information ?
Data is money ?

9 10

Data vs information ? Có những loại data nào ?

11 12

3
9/12/2019

13 14

Tại sao cần information retrieval Tại sao cần information retrieval

• Quản lý dữ liệu không cấu trúc unstructured data An essential tool to deal with information overload
• Dữ liệu có cáu trúc - Structured data: hệ quản trị CSDL là lựa chọn tốt
• Unstructured data ngày càng bùng nổ
• Text in Web documents or emails, image, audio, video…
• “85 percent of all business information exists as unstructured data” - Merrill Lynch
• Chỉ là dữ liệu không mang tri thức, ngữ nghĩa (semantic meaning)

Table 1: People in CS Department


ID Name Job

1 Jack Professor

3 David Stuff

5 Tony IT support You are


here!
Total Enterprise Data Growth 2005-2015, IDC 2012

CS@UVa 15 CS@UVa 16

4
9/12/2019

Lịch sử information retrieval Lịch sử information retrieval


• Early days (late 1950s to 1960s): foundation of the field
• Luhn’s work on automatic indexing
• Idea popularized in the pioneer article “As We May Think” by • Cleverdon’s Cranfield evaluation methodology and index experiments
Vannevar Bush, 1945 • Salton’s early work on SMART system and experiments
• “Wholly new forms of encyclopedias will appear, ready- • 1970s-1980s: a large number of retrieval models
made with a mesh of associative trails running through • Vector space model
them, ready to be dropped into the memex and there • Probabilistic models
amplified.” -> WWW • 1990s: further development of retrieval models and new tasks
• “A memex is a device in which an individual stores all his • Language models
• TREC evaluation
books, records, and communications, and which is
• Web search
mechanized so that it may be consulted with exceeding
speed and flexibility.” -> Search engine • 2000s-present: more applications, especially Web search and interactions
with other fields
• Learning to rank
• Scalability (e.g., MapReduce)
• Real-time search
CS@UVa 17 CS@UVa 18

Lịch sử information retrieval Lịch sử information retrieval


• Academia: Text Retrieval Conference (TREC) in 1992 • Industry: web search engines
• “Its purpose was to support research within the • WWW unleashed explosion of published information
information retrieval community by providing the and drove the innovation of IR techniques
infrastructure necessary for large-scale evaluation of • First web search engine: “Oscar Nierstrasz at the
text retrieval methodologies.” University of Geneva wrote a series of Perl scripts
that periodically mirrored these pages and rewrote
• “… about one-third of the improvement in web them into a standard format.” Sept 2, 1993
search engines from 1999 to 2009 is attributable to • Lycos (started at CMU) was launched and became a
TREC. Those enhancements likely saved up to 3 major commercial endeavor in 1994
billion hours of time using web search engines.” • Booming of search engine industry: Magellan, Excite,
Infoseek, Inktomi, Northern Light, AltaVista, Yahoo!,
• Till today, it is still a major test-bed for academic Google, and Bing
research in IR
CS@UVa 19 CS@UVa 20

5
9/12/2019

Thị phần trong lĩnh vực IR Thị phần trong lĩnh vực IR

• Global search engine market - desktop • Global search engine market - mobile
• By http://marketshare.hitslink.com/search-engine-market-share.aspx • By http://marketshare.hitslink.com/search-engine-market-share.aspx

CS@UVa 21 CS@UVa 22

Kiến trúc hệ thống IR và Search Kiến trúc hệ thống IR và Search


Crawler and indexer

Thế giới thực khi chưa có IR & Search

Query parser

Ranking model

CS@UVa 23 CS@UVa
Document Analyzer 24

6
9/12/2019

Kiến trúc hệ thống IR và Search Một số điểm quan trọng trong IR


PARSING & INDEXING • Biểu diễn câu truy vấn -Query representation
Doc Query query • Lexical gap: say v.s. said
Rep Rep
• Semantic gap: ranking model v.s. retrieval method
Repository
User
SEARCH • Biểu diễn dữ liệu - Document representation
Ranking results
APPLICATIONS • Specific data structure for efficient access
LEARNING • Lexical gap and semantic gap
Evaluation judgments • Mô hình truy vấn - Retrieval model
FEEDBACK
Nội dung trong môn học: • Algorithms that find the most relevant documents for the
1) Search engine architecture; 2)Retrieval models;
3) Retrieval evaluation; 4) Relevance feedback; given information need
5) Link analysis; 6) Search applications.
CS@UVa 25 CS@UVa 26

Một số search engine Một số search engine


Yet Another Hierarchical Officious/Obstreperous/ Demand of understanding
Odiferous/Organized Oracle

Demand of efficiency Demand of convenience


Demand of accuracy
Demand of diversity

CS@UVa 27 CS@UVa 28

7
9/12/2019

Lĩnh vực của IR Lĩnh vực của IR

• Web search là một trong những mảng quan trong của information • Web search là một trong những mảng quan trong của information
retrieval, tuy nhiên Information retrieval còn bao gồm: retrieval, tuy nhiên Information retrieval còn bao gồm:
• Hệ thống khuyến nghị -Recommendation • Hệ thống hỏi đáp - Question answering

CS@UVa 29 CS@UVa 30

Lĩnh vực của IR Lĩnh vực của IR

• Web search là một trong những mảng quan trong của information • Web search là một trong những mảng quan trong của information
retrieval, tuy nhiên Information retrieval còn bao gồm: retrieval, tuy nhiên Information retrieval còn bao gồm:
• Khai mỏ dữ liệu - Text mining • Quảng cáo trực tuyến- Online advertising

CS@UVa 31 CS@UVa 32

8
9/12/2019

Lĩnh vực IR
Lĩnh vực của IR
Applications
Mathematics
• Web search là một trong những mảng quan trong của information
retrieval, tuy nhiên Information retrieval còn bao gồm: Web Applications,
• Hệ thống tìm kiếm - Enterprise search: web search + desktop search Bioinformatics…
Machine Learning
Pattern Recognition Library & Info
Information Science
Natural
Statistics Retrieval
Language Databases
Optimization
Processing
Data Mining Software engineering
Computer systems
Algorithms
Systems

CS@UVa CS4501: Information Retrieval 33 CS@UVa 34

IR v.s. DBs IR and DBs are getting closer


• DBs => IR
• Information Retrieval: • Database Systems: • IR => DBs • Use information extraction to convert
• Unstructured data • Structured data • Approximate search is available in unstructured data to structured data
• Semantics of objects are • Semantics of each object are well DBs • Semi-structured representation: XML
subjective defined • Eg. in mySQL data; queries with structured
• Simple keyword queries • Structured query languages (e.g., information
• Relevance-drive retrieval SQL)
• Effectiveness is primary issue, • Exact retrieval
though efficiency is also • Emphasis on efficiency mysql> SELECT * FROM articles
important -> WHERE MATCH (title,body)
AGAINST ('database');

CS@UVa 35 CS@UVa 36

9
9/12/2019

IR v.s. NLP IR and NLP are getting closer


• NLP => IR
• Information retrieval • Natural language processing • IR => NLP • Deep analysis of text documents and
• Computational approaches • Cognitive, symbolic and • Larger data collections queries
• Statistical (shallow) understanding computational approaches • Scalable/robust NLP techniques, • Information extraction for structured
of language • Semantic (deep) understanding of e.g., translation models IR tasks
• Handle large scale problems language
• (often times) small scale problems

CS@UVa 37 CS@UVa 38

• Introduction to Information Retrieval. Christopher D.


Manning, Prabhakar Raghavan, and Hinrich Schuetze, • Modern Information Retrieval. Ricardo Baeza-Yates and
Cambridge University Press, 2007. Berthier Ribeiro-Neto, Addison-Wesley, 2011.

• Search Engines: Information Retrieval in Practice. Bruce • Information Retrieval: Implementing and Evaluating
Croft, Donald Metzler, and Trevor Strohman, Pearson Search Engines. Stefan Buttcher, Charlie Clarke, Gordon
Education, 2009. Cormack, MIT Press, 2010.

CS@UVa 39 CS@UVa 40

10
9/12/2019

What to read?
IR in future
Applications
Mathematics • Mobile search
• Desktop search + location? Not exactly!!
Web Applications, • Interactive retrieval
Bioinformatics… • Machine collaborates with human for information access
Machine Learning
Pattern Recognition Library & Info • Personal assistant
ICML, NIPS, UAI • Proactive information retrieval
Science
Information Retrieval • Knowledge navigator
Statistics NLP SIGIR, WWW, WSDM, CIKM
Databases • And many more
OptimizationACL, EMNLP, COLING SIGMOD, VLDB, ICDE • You name it!
Data Mining Software engineering
KDD, ICDM, SDM Computer systems
Algorithms
Systems
• Find more on course website for resource
CS@UVa 41 CS@UVa 42

Tài liệu tham khảo Một số chủ đề Seminar

• Tìm hiểu lucene và minh họa.


Slide được tham khảo từ:
• Tìm hiểu Elasticsearch và minh họa

• http://www.cs.virginia.edu/~hw5x/Course/IR2015/_site/lectures/ • Tìm hiểu Apache SOLR và minh họa.

• Tìm hiểu IRF framework và minh họa.


• https://nlp.stanford.edu/IR-book/newslides.html
• Tìm hiểu Faiss và minh họa.
• https://course.ccs.neu.edu/cs6200s14/slides.html • Tìm hiểu Apache Cassandravà minh họa.

• Tìm hiểu apche Hadoop và minh họa trong tìm kiếm, truy vấn.

• Tìm hiểu về Scrapy Framework và ví dụ minh họa cho một số loại dữ liệu khác nhau : Ảnh, Video,
Text….

• Mô hình BOW và minh họa

• Mô hình BOF và minh họa

11
9/12/2019

45

12

You might also like