Professional Documents
Culture Documents
Bai 1 - Tong Quan - 2014
Bai 1 - Tong Quan - 2014
BÀI 1
TỔNG QUAN
1
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu (KTDL) là gì ?
3. Qui trình Khám phá tri thức (KDD)
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các thách thức của KTDL
–
SỰ CẦN THIẾT CỦA KTDL
Khía cạnh thương mại
Khối lượng lớn dữ liệu
được thu thập và lưu trữ
o Web data, e-commerce
o Hóa đơn mua hàng tại siêu thị
/ trung tâm mua sắm
o Giao dịch ngân hàng /
thẻ tin dụng
Máy tính mạnh hơn, rẻ hơn
Áp lực cạnh tranh rất mạnh
o Cung cấp các dịch vụ đa dạng, chất lượng tốt ( CRM –
Customer Relationship Management)
4
2
SỰ CẦN THIẾT CỦA KTDL –
Khía cạnh Khoa học
Dữ liệu được thu thập
và lưu trữ với tốc độ cao (GB/h)
o Thiết bị remote sensor trên vệ tinh
o Kính thiên văn quan sát bầu trời
o Microarray tạo dữ liệu biểu diễn gien
o Thử nghiệm khoa học tạo hàng TeraByte
Các kỹ thuật truyền thống không đủ
khả năng làm việc với dữ liệu thô
KTDL có thể giúp các nhà khoa học
o Phân loại và phân đoạn dữ liệu
o Xây dựng giả thuyết
5
3
SỰ CẦN THIẾT CỦA KTDL
DL chứa rất nhiều thông tin giá
trị, có lợi cho qui trình ra quyết
định
Không thể phân tích DL = tay 106-1012 bytes:
Khoâng bao giôø coù
• Con người cần hàng tuần lễ để theå nhìn thaáy moät
khám phá ra thông tin có ích caùch ñaày ñuû taäp
döõ lieäu hoaëc ñöa
• Phần lớn dữ liệu chưa bao giờ vaøo boä nhôù cuûa
được phân tích cả maùy tính
• “Hố sâu giữa khả năng sinh ra DL
và khả năng sử dụng DL” – 7
Usama Fayyad
Evolution of Sciences:
New Data Science Era
Before 1600: Empirical science
1600-1950s: Theoretical science
Each discipline has grown a theoretical component. Theoretical models often
motivate experiments and generalize our understanding.
1950s-1990s: Computational science
Over the last 50 years, most disciplines have grown a third, computational branch
(e.g. empirical, theoretical, and computational ecology, or physics, or linguistics.)
Computational Science traditionally meant simulation. It grew out of our inability to
find closed-form solutions for complex mathematical models.
1990-now: Data science
The flood of data from new scientific instruments and simulations
The ability to economically store and manage petabytes of data online
The Internet and computing Grid that makes all these archives universally accessible
Scientific info. management, acquisition, organization, query, and visualization tasks
scale almost linearly with data volumes
Data mining is a major new challenge!
Jim Gray and Alex Szalay, The World Wide Telescope: An Archetype for Online Science,
8
Comm. ACM, 45(11): 50-54, Nov. 2002
4
SỰ CẦN THIẾT CỦA KTDL
4,000,000
3,500,000
3,000,000
2,500,000
Hố sâu dữ
2,000,000
liệu
1,500,000
Số DL thu thập (TeraB) từ năm
1,000,000
1995
500,000 Số DL được
phân tích
0
1995 1996 1997 1998 1999
9
10
5
LĨNH VỰC ỨNG DỤNG KTDL
Thoâng tin thöông maïi Thoâng tin saûn xuaát
6
Customer Relationship
Management (CRM)
Để xây dựng mối quan hệ với khách hàng, các công
ty cần phải biết :
1. Notice – what its customers are doing
2. Remember – what it and its customers have
done over time
3. Learn – from what it has remembered
4. Act On – what it has learned to make customers
more profitable
7
Dựa trên các dữ liệu giao dịch
(“Transaction” Data)
8
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các thách thức của KTDL
17
Ña xöû lyù
Quaù trình khoâng taàm thöôøng
Chöùng minh tính ñuùng
Hôïp leä Cuûa maãu / Moâ hình
Môùi laï Khoâng bieát tröôùc
Coù ích Coù theå söû duïng ñöôïc
Coù theå hieåu ñöôïc
Bôûi con ngöôøi vaø maùy
18
9
KHAI THÁC DL …
Thế nào là mẫu tiềm ẩn ?
Là mối quan hệ trong dữ liệu ví dụ như :
Những người mua quần tây thường hay mua
thêm áo sơ mi.
Những người có mức tín dụng tốt thì thường
ít bị tai nạn.
Đàn ông, 37+, thu nhập : 50K-75K, -> chi
khoảng 25$-50$ cho đặt mua hàng qua
catalog. 19
10
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình Khám phá tri thức
(KDD)
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các thách thức của KTDL
21
Task-relevant Data
2
Data Warehouse Selection
Data Cleaning
1 Data Integration
22
Databases
11
Döõ lieäu ñöôïc toå chöùc theo chöùc QUI TRÌNH KDD
naêng
Taïo ra/choïn loïc
CSDL ñích
Data warehousing
1
Choïn llöïa kyõ thuaät
ñieån hình vaø döõ lieäu maãu
Chuaån hoaù Bieán ñoåi Taïo caùc thuoäc Tìm thuoäc tính quan
giaù trò giaù trò Tính daãn xuaát troïng &Mieàn giaù trò
3 4
Löïa choïn Löïa choïn Trích xuaát Kieåm tra Tính cheá
nhieäm vuï DM phöông phaùp DM Tri thöùc tri thöùc Tri thöùc
12
KIẾN TRÚC HỆ THỐNG KTDL
TIÊU BIỂU
Pattern evaluation
Data
Databases Warehouse
25
Increasing potential
to support
business decisions End User
Decision
Making
Data Exploration
Statistical Summary, Querying, and Reporting
13
KDD Process: A Typical View from ML
and Statistics
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình khám phá tri thức (KDD)
28
14
Các Nhiệm vụ/chức năng
CHÍNH CỦA KTDL
29
15
Nhiệm vụ/Chức năng Chính
Phát hiện ra mô tả của một
Tìm ra một tập xác định
vài lớp đã được xác định
Các nhóm hay các cụm
và phân loại dữ liệu vào
để mô tả dữ liệu
một trong các lớp đó.
16
Structure and Network Analysis
Graph mining
Finding frequent subgraphs (e.g., chemical compounds), trees
(XML), substructures (web fragments)
Information network analysis
Social networks: actors (objects, nodes) and relationships (edges)
Web mining
Web is a big information network: from PageRank to Google
Evaluation of Knowledge
Are all mined knowledge interesting?
One can mine tremendous amount of “patterns” and knowledge
Some may fit only certain dimension space (time, location, …)
Some may not be representative, may be transient, …
Evaluation of mined knowledge → directly mine only
interesting knowledge?
Descriptive vs. predictive
Coverage
Typicality vs. novelty
Accuracy
Timeliness
… 34
17
VÍ DỤ PHÂN LỚP
Công ty Verizon Wireless:
Công ty cung cấp thiết bị, dịch vụ không dây lớn
nhất ở Mỹ. www.verizonwireless.com
Số lượng khách hàng: 65.7 triệu (cuối năm 2007)
Thu nhập hằng năm: 43.9 tỷ $
Vấn đề:
Tỷ lệ khách hàng bị mất cao: 2%/tháng (1,300,000
khách hàng rời bỏ/tháng)
Chi phí thay thế: hàng trăm triệu $/năm
Chi phí trung bình cho mỗi khách hàng mới: 320$
35
VÍ DỤ PHÂN LỚP
Giải pháp thông thường :
Chào mời, khuyến mãi tất cả khách hàng trước khi hết hợp đồng
Chí phí quá tốn kém, lãng phí.
18
VÍ DỤ PHÂN LỚP
Model/Pattern
Training Data:
Customer characteristics &
cell phone usage behavior
Model
Probability
customer
would
terminate
Consumer i contract
37
19
PHÂN LỚP: ỨNG DỤNG 2
Quảng cáo:
Mục đích: Giảm chí phí thư tín bằng cách tập trung vào
nhóm khách hàng có nhiều khả năng mua sản phẩm điện
thoại di động mới.
Hướng giải quyết:
Sử dụng dữ liệu cho sản phẩm tương tự trước đây.
Dùng quyết định {mua, không mua} làm thuộc tính lớp.
Thu thập thông tin cá nhân, cách sống và quan hệ của tất
cả các khách hàng.
Dùng các thông tin trên như là dữ liệu đầu vào để xây
dựng mô hình phân lớp. 39
GOM Nhóm DL
Gom cụm/ Gom nhóm dựa trên khoảng cách Euclide
trong không gian 3-D
Intracluster distances Intercluster distances
are minimized are maximized
40
20
GOM nhóm: ỨNG DỤNG 1
Gom nhóm khách hàng:
Mục đích: Chia khách hàng thành các nhóm/cụm riêng biệt
để có thể áp dụng các biện pháp quảng cáo khác nhau.
Hướng giải quyết:
Thu thập thông tin cá nhân, cách sống của tất cả các
khách hàng.
Xác định các cụm/nhóm khách hàng giống nhau.
Kiểm tra chất lượng của các cụm thông qua việc quan
sát đặc trưng mua hàng của khách hàng trong cùng
một cụm so với khách hàng khác cụm. 41
21
Gom nhóm DL cổ phiếu S&P 500
Quan sát sự biến động của giá cổ phiếu hàng ngày
Dữ liệu : Cổ phiếu – {UP/DOWN}
Độ đo tương tự: các sự kiện thường giống nhau trong
cùng một ngày
Discovered Clusters Industry Group
Applied-Matl-DOW N,Bay-Net work-Down,3-COM-DOWN,
1 Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN,
DSC-Co mm-DOW N,INTEL-DOWN,LSI-Logic-DOWN,
Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down,
Technology1-DOWN
Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOW N,
Sun-DOW N
Apple-Co mp-DOW N,Autodesk-DOWN,DEC-DOWN,
2 ADV-M icro-Device-DOWN,Andrew-Corp-DOWN,
Co mputer-Assoc-DOWN,Circuit-City-DOWN,
Co mpaq-DOWN, EM C-Corp-DOWN, Gen-Inst-DOWN,
Technology2-DOWN
Motorola-DOW N,Microsoft-DOWN,Scientific-Atl-DOWN
Fannie-Mae-DOWN,Fed-Ho me-Loan-DOW N,
4 Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP,
Schlu mberger-UP
Oil-UP 43
Customer
buys beer
44
22
Khai thác LKH: ỨNG DỤNG 1
Quản lý quầy hàng siêu thị:
Mục đích: Xác định những mặt hàng được nhiều
khách hàng mua chung
Hướng giải quyết:
Xử lý dữ liệu bán hàng để tìm mối liên hệ
giữa các mặt hàng
Luật cổ điển: Nếu khách hàng mua tã giấy và
sữa thì có khả năng mua bia.
45
23
HỒI QUI
Dự đoán giá trị của bíến dựa trên giá trị của
các biến khác
Ví dụ:
47
24
Applications of Data Mining
Web page analysis: from web page classification, clustering
to PageRank & HITS algorithms
Collaborative analysis & recommender systems
Basket data analysis to targeted marketing
Biological and medical data analysis: classification, cluster
analysis (microarray data analysis), biological sequence
analysis, biological network analysis
Data mining and software engineering (e.g., IEEE Computer,
Aug. 2009 issue)
From major dedicated data mining systems/tools (e.g., SAS,
MS SQL-Server Analysis Manager, Oracle Data Mining
49
Tools) to invisible data mining
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình Khám phá tri thức (KDD)
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các thách thức của KTDL
50
25
CÁC KỸ THUẬT KTDL
KTDL lấy ý tưởng từ các lĩnh vực như
máy học, thống kê, nhận dạng, hệ thống
DL…
Các kỹ thuật truyền thống có thể không
phù hợp do:
Kích thước lớn của DL
Số chiều DL lớn
Bản chất DL không đồng nhất
51
52
26
NỘI DUNG
1. Tại sao cần khai thác dữ liệu (DM) ?
2. DM là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
53
27
CÁC THÁCH THỨC CỦA KTDL
Theo J. Han (2013):
Mining social and information networks
Mining spatiotemporal data, moving object data & cyber-
physical systems
Mining multimedia, social media, text and Web
Data software engineering and computer system data
Multidimensional online analytical analysis
Pattern mining, pattern usage, and pattern understanding
Biological data mining
Stream data mining
55
56
28
TÓM TẮT
Khám phá mẫu có ích, chưa biết từ khối
lượng lớn DL
Qui trình khám phá tri thức (KDD)
Thu thập và tiền xử lý DL -> KTDL -> Đánh
giá mẫu -> Biểu diễn tri thức
Khai thác trên nhiều loại DL, thông tin
Các loại mẫu cần khai thác
Luật kết hợp, mẫu tuần tự, phân lớp, gom
nhóm, mẫu hiếm, mẫu cá biệt, sai lệch 57
29
Conferences and Journals on Data Mining
30
Bài tập theo nhóm số 1
Thời gian thảo luận: 15’
Thảo luận tình huống KTDL trong nhóm và 01 người đại diện cho
nhóm trình bày.
Thời gian trình bày: tối đa 3’ .
Trình bày tình huống
Hướng giải quyết và lợi ích
31
CÁC CÔNG VIỆC CẦN LÀM
Upload nội dung kết quả bài tập nhóm 1
của nhóm lên diễn đàn của trang
Moodle trước 23g00 ngày 16/09/2014.
Nội dung trình bày:
Mục tiêu, yêu cầu cụ thể (sản phẩm cụ thể)
Dữ liệu cần thiết: VD: DL sản phẩm, Khách hàng, đối
thủ, các kết quả trước đó liên quan đến yêu cầu của bài
toán.
Sử dụng chức năng nào của KTDL: mô tả, dự đoán, hay
kết hợp, …
Dự kiến kết quả đạt được.
63
32
BÀI TẬP
1. Thế nào là khai thác dữ liệu ? Cho ví dụ minh
họa.
2. Các kiểu dữ liệu, thông tin nào có khả năng được
sử dụng trong qui trình KDD?
3. Cho ví dụ thực tế về việc áp dụng KTDL đem đến
thành công trong kinh doanh (ngoài các ví dụ có
trong bài giảng).
Gợi ý: Bài toán tăng doanh thu của thị trường bán lẻ.
Bài toán xây dựng kế hoạch quảng cáo và khuyến mãi
Loại DL nào được thu thập ? Loại nhiệm vụ nào của
KTDL được sử dụng ? Có thể thay bằng phương pháp
truy vấn DL hay phân tích thống kê đơn giản không ?65
66
33