Professional Documents
Culture Documents
Tong Quan Ve IR
Tong Quan Ve IR
Nội dung
1. IR là gì ?
TRUY VẤN THÔNG TIN ĐA
PHƯƠNG TIỆN 2. Tại sao cần IR ?
INFORMATION RETRIEVAL 3. Lịch sử IR
Bùng nổ dữ liệu
• “It refers to the difficulty a person can have understanding an issue and
making decisions that can be caused by the presence of too much
information.” - wiki
CS@UVa 3 CS@UVa 4
1
9/12/2019
7 8
2
9/12/2019
Data vs information ?
Data is money ?
9 10
11 12
3
9/12/2019
13 14
Tại sao cần information retrieval Tại sao cần information retrieval
• Quản lý dữ liệu không cấu trúc unstructured data An essential tool to deal with information overload
• Dữ liệu có cáu trúc - Structured data: hệ quản trị CSDL là lựa chọn tốt
• Unstructured data ngày càng bùng nổ
• Text in Web documents or emails, image, audio, video…
• “85 percent of all business information exists as unstructured data” - Merrill Lynch
• Chỉ là dữ liệu không mang tri thức, ngữ nghĩa (semantic meaning)
1 Jack Professor
3 David Stuff
CS@UVa 15 CS@UVa 16
4
9/12/2019
5
9/12/2019
Thị phần trong lĩnh vực IR Thị phần trong lĩnh vực IR
• Global search engine market - desktop • Global search engine market - mobile
• By http://marketshare.hitslink.com/search-engine-market-share.aspx • By http://marketshare.hitslink.com/search-engine-market-share.aspx
CS@UVa 21 CS@UVa 22
Query parser
Ranking model
CS@UVa 23 CS@UVa
Document Analyzer 24
6
9/12/2019
CS@UVa 27 CS@UVa 28
7
9/12/2019
• Web search là một trong những mảng quan trong của information • Web search là một trong những mảng quan trong của information
retrieval, tuy nhiên Information retrieval còn bao gồm: retrieval, tuy nhiên Information retrieval còn bao gồm:
• Hệ thống khuyến nghị -Recommendation • Hệ thống hỏi đáp - Question answering
CS@UVa 29 CS@UVa 30
• Web search là một trong những mảng quan trong của information • Web search là một trong những mảng quan trong của information
retrieval, tuy nhiên Information retrieval còn bao gồm: retrieval, tuy nhiên Information retrieval còn bao gồm:
• Khai mỏ dữ liệu - Text mining • Quảng cáo trực tuyến- Online advertising
CS@UVa 31 CS@UVa 32
8
9/12/2019
Lĩnh vực IR
Lĩnh vực của IR
Applications
Mathematics
• Web search là một trong những mảng quan trong của information
retrieval, tuy nhiên Information retrieval còn bao gồm: Web Applications,
• Hệ thống tìm kiếm - Enterprise search: web search + desktop search Bioinformatics…
Machine Learning
Pattern Recognition Library & Info
Information Science
Natural
Statistics Retrieval
Language Databases
Optimization
Processing
Data Mining Software engineering
Computer systems
Algorithms
Systems
CS@UVa 35 CS@UVa 36
9
9/12/2019
CS@UVa 37 CS@UVa 38
• Search Engines: Information Retrieval in Practice. Bruce • Information Retrieval: Implementing and Evaluating
Croft, Donald Metzler, and Trevor Strohman, Pearson Search Engines. Stefan Buttcher, Charlie Clarke, Gordon
Education, 2009. Cormack, MIT Press, 2010.
CS@UVa 39 CS@UVa 40
10
9/12/2019
What to read?
IR in future
Applications
Mathematics • Mobile search
• Desktop search + location? Not exactly!!
Web Applications, • Interactive retrieval
Bioinformatics… • Machine collaborates with human for information access
Machine Learning
Pattern Recognition Library & Info • Personal assistant
ICML, NIPS, UAI • Proactive information retrieval
Science
Information Retrieval • Knowledge navigator
Statistics NLP SIGIR, WWW, WSDM, CIKM
Databases • And many more
OptimizationACL, EMNLP, COLING SIGMOD, VLDB, ICDE • You name it!
Data Mining Software engineering
KDD, ICDM, SDM Computer systems
Algorithms
Systems
• Find more on course website for resource
CS@UVa 41 CS@UVa 42
• Tìm hiểu apche Hadoop và minh họa trong tìm kiếm, truy vấn.
• Tìm hiểu về Scrapy Framework và ví dụ minh họa cho một số loại dữ liệu khác nhau : Ảnh, Video,
Text….
11
9/12/2019
45
12