Professional Documents
Culture Documents
1. Tong quan phan tich du lieu
1. Tong quan phan tich du lieu
1. Tong quan phan tich du lieu
E-mail: vinh.th@ieee.org
Dữ liệu
Phân tích dữ liệu
Thời cơ và thách thức của chuyên ngành phân
tích dữ liệu
Các lĩnh vực liên quan (AI, ML, Big Data)
Quy trình phân tích dữ liệu
Dữ liệu lưu dưới dạng CSDL bảng
Dữ liệu từ các nguồn khác nhau: hình
ảnh, âm thanh, văn bản, tín hiệu…..
Sự bùng nổ của dữ liệu từ terabytes tới petabytes, exabytes, zettabytes,
yottabytes.
▪ Ví dụ: máy bay Boeing thế hệ mới (84TB cho 12h bay), dữ liệu upload của
Youtube hàng ngày (24 PB/ngày)
Một số nguồn dữ liệu đa dạng
▪ Các nguồn thu thập dữ liệu, CSDL, Web Kinh doanh: Web, thương mại
điện tử, giao dịch, chứng khoán, tài chính…
▪ Khoa học: thông tin viễn thám, tin sinh học, giả lập khoa học, …
▪ Mạng xã hội và con người: tin tức, cameras, YouTube, IG, TikTok,
Facebook…
Chúng ta bị tràn ngập trong dữ liệu nhưng thiếu thông tin cung cấp từ nó
Cần thiết ra đời công cụ/giải pháp để hiểu về dữ liệu: Data Mining
7
Trước 1600 : khoa học theo chủ nghĩa kinh nghiệm
1600-1950s, khoa học lý thuyết
▪ Mỗi chuyên ngành phát triển một lý thuyết riêng. Các mô hình lý thuyết dẫn đến thực
nghiệm để hiểu rõ vấn đề
1950s-1990s, khoa học tính toán
▪ Hơn 50 năm phát triển, các chuyên ngành đều phát triển hướng tính toán (môi trường, vật lý,
hóa học, ngôn ngữ..)
▪ Đòi hỏi môi trường giả lập và các công cụ toán học phức
1990-nay, khoa học dữ liệu
▪ Tràn ngập về dữ liệu từ các công cụ khoa học mới được phát minh (cảm biến sensors và các
bộ giả lập
▪ Khả năng lưu trữ dữ liệu lớn
▪ Internet và mạng lưới tính toán đã giúp tiếp cận nguồn dữ liệu này một cách dễ dàng
▪ Thông tin khoa học, quản lý, thu thập, truy vấn, biểu diễn và quan sát nguồn dữ liệu lớn này
là một thách thức đối với chuyên ngành Khai phá dữ liệu
Công nghiệp 4.0
10
1960s: thu thập và tạo dữ liệu
1970s: mô hình dữ liệu quan hệ DBMS
1980s: mô hình dữ liệu tiên tiến RDBMS và các ứng dụng
1990s: khai phá dữ liệu, nhà kho dữ liệu, dữ liệu đa phương
tiện
2000s
▪ Quản lý và streaming dữ liệu
▪ Khai phá dữ liệu và ứng dụng
▪ Công nghệ Web (XML, data integration), GIS
11
Khai phá dữ liệu: tìm kiếm thông tin và kiến thức từ nguồn
dữ liệu
▪ Truy xuất mẫu hoặc kiến thức quan trọng (non-trivial, implicit,
previously unknown and potentially useful) từ nguồn dữ liệu lớn
Tên gọi khác
▪ Knowledge discovery (mining) in databases (KDD), knowledge
extraction, data/pattern analysis, data archeology, data dredging,
information harvesting, business intelligence, etc.
12
Knowledge
Data Mining
Task-relevant Data
Data Cleaning
Data Integration
Databases
13
Có thể gồm các bước sau
▪ Data cleaning
▪ Data integration from multiple sources
▪ Warehousing the data
▪ Data selection for data mining
▪ Data mining
▪ Presentation of the mining results
▪ Patterns and knowledge to be used or stored into
knowledge-base
15
Semi-supervised
Input Feature Data Dimensionality Reduced number Data
Decision
data generation features reduction of data features label
Cluster 1
Cluster 2
Cluster 1
Cluster 2
Cluster 3
Poodle
Corgi
Husky
Dachshund
Class 1
?
Class 2
? Ảnh truy vấn
Class 3 ?
?
Class 4
?
Class 5 ? Cần thiết xác định một
Descriptor đủ mạnh để
Phân biệt các lớp vỏ cây
Class 6 Khác nhau
Cơ sở dữ liệu
Quá trình học
Dữ liệu huấn
luyện Trích xuất Rút gọn dữ Xây dựng bộ
(phân lớp đã đặc trưng liệu phân lớp
biết)
Dữ liệu tra
cứu/truy vấn
Trích xuất
(phân lớp cần Quyết định
đặc trưng
xác định)
Không gian đặc trưng
rút gọn
25
Machine Pattern Statistics
Learning Recognition
26
Lượng dữ liệu lớn: thuật toán để xử lý lượng dữ liệu
hàng TB
Kích thước lớn: dữ liệu DNA, tài chính, kinh doanh
Độ phức tạp
▪ Dữ liệu từ các sensors
▪ Dữ liệu chuỗi thời gian: thời tiết, ECG
▪ Dữ liệu có cấu trúc, liên kết: mạng xã hội, đồ thị
▪ Multimedia data: ảnh, video, text,…
▪ Phần mềm, mô phỏng khoa hoc
Các ứng dụng mới liên tục được phát triển
28
Phân tích Web: phân loại, gom cụm, xếp hạng
Hệ thống gợi ý
Phân tích dữ liệu tài chính, marketing
Phân tích dữ liệu y sinh: phân loại protein, phân tích
gene, phylogeny…
Thị giác máy tính, Nhận dạng mẫu, nhận dạng sinh
trắc học
29
Xử lý dữ liệu : trích xuất và rút gọn đặc
trưng
Classification hoặc/và clustering
Xử lý để biểu diễn
◼ Other related conferences
KDD Conferences
▪ ACM SIGKDD Int. Conf. on ◼ DB conferences: ACM SIGMOD,
Knowledge Discovery in Databases VLDB, ICDE, EDBT, ICDT, …
and Data Mining (KDD) ◼ Web and IR conferences: WWW,
▪ SIAM Data Mining Conf. (SDM) SIGIR, WSDM
▪ (IEEE) Int. Conf. on Data Mining ◼ ML conferences: ICML, NIPS
(ICDM) ◼ PR conferences: CVPR, ACCV, ECCV
▪ European Conf. on Machine Learning
◼ Journals
and Principles and practices of
Knowledge Discovery and Data ◼ Data Mining and Knowledge
Mining (ECML-PKDD) Discovery (DAMI or DMKD)
▪ Pacific-Asia Conf. on Knowledge ◼ IEEE Trans. On Knowledge and Data
Discovery and Data Mining Eng. (TKDE)
(PAKDD) ◼ KDD Explorations
▪ Int. Conf. on Web Search and Data
◼ ACM Trans. on KDD
Mining (WSDM)
31
Data mining: phát hiện thông tin hữu ích từ dữ liệu
Đáp ứng nhu cầu phát triển thông tin với nhiều ứng dụng
Quy trình DM bao gồm nhiều bước: data cleaning, data
integration, data selection, transformation, data mining, pattern
evaluation & knowledge presentation
Có thể áp dụng trên nhiều loại dữ liệu đa dạng
Chức năng của DM: characterization, discrimination,
classification, clustering, trend analysis, imputation,…
Kỹ thuật và ứng dụng của data mining
32