1. Tong quan phan tich du lieu

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 32

Trương Hoàng Vinh

E-mail: vinh.th@ieee.org
 Dữ liệu
 Phân tích dữ liệu
 Thời cơ và thách thức của chuyên ngành phân
tích dữ liệu
 Các lĩnh vực liên quan (AI, ML, Big Data)
 Quy trình phân tích dữ liệu
 Dữ liệu lưu dưới dạng CSDL bảng
 Dữ liệu từ các nguồn khác nhau: hình
ảnh, âm thanh, văn bản, tín hiệu…..
 Sự bùng nổ của dữ liệu từ terabytes tới petabytes, exabytes, zettabytes,
yottabytes.
▪ Ví dụ: máy bay Boeing thế hệ mới (84TB cho 12h bay), dữ liệu upload của
Youtube hàng ngày (24 PB/ngày)
 Một số nguồn dữ liệu đa dạng
▪ Các nguồn thu thập dữ liệu, CSDL, Web Kinh doanh: Web, thương mại
điện tử, giao dịch, chứng khoán, tài chính…
▪ Khoa học: thông tin viễn thám, tin sinh học, giả lập khoa học, …
▪ Mạng xã hội và con người: tin tức, cameras, YouTube, IG, TikTok,
Facebook…
 Chúng ta bị tràn ngập trong dữ liệu nhưng thiếu thông tin cung cấp từ nó
 Cần thiết ra đời công cụ/giải pháp để hiểu về dữ liệu: Data Mining
7
 Trước 1600 : khoa học theo chủ nghĩa kinh nghiệm
 1600-1950s, khoa học lý thuyết
▪ Mỗi chuyên ngành phát triển một lý thuyết riêng. Các mô hình lý thuyết dẫn đến thực
nghiệm để hiểu rõ vấn đề
 1950s-1990s, khoa học tính toán
▪ Hơn 50 năm phát triển, các chuyên ngành đều phát triển hướng tính toán (môi trường, vật lý,
hóa học, ngôn ngữ..)
▪ Đòi hỏi môi trường giả lập và các công cụ toán học phức
 1990-nay, khoa học dữ liệu
▪ Tràn ngập về dữ liệu từ các công cụ khoa học mới được phát minh (cảm biến sensors và các
bộ giả lập
▪ Khả năng lưu trữ dữ liệu lớn
▪ Internet và mạng lưới tính toán đã giúp tiếp cận nguồn dữ liệu này một cách dễ dàng
▪ Thông tin khoa học, quản lý, thu thập, truy vấn, biểu diễn và quan sát nguồn dữ liệu lớn này
là một thách thức đối với chuyên ngành Khai phá dữ liệu
 Công nghiệp 4.0

10
 1960s: thu thập và tạo dữ liệu
 1970s: mô hình dữ liệu quan hệ DBMS
 1980s: mô hình dữ liệu tiên tiến RDBMS và các ứng dụng
 1990s: khai phá dữ liệu, nhà kho dữ liệu, dữ liệu đa phương
tiện
 2000s
▪ Quản lý và streaming dữ liệu
▪ Khai phá dữ liệu và ứng dụng
▪ Công nghệ Web (XML, data integration), GIS

11
 Khai phá dữ liệu: tìm kiếm thông tin và kiến thức từ nguồn
dữ liệu
▪ Truy xuất mẫu hoặc kiến thức quan trọng (non-trivial, implicit,
previously unknown and potentially useful) từ nguồn dữ liệu lớn
 Tên gọi khác
▪ Knowledge discovery (mining) in databases (KDD), knowledge
extraction, data/pattern analysis, data archeology, data dredging,
information harvesting, business intelligence, etc.

12
Knowledge

 Data mining đóng vai trò quan trọng Pattern Evaluation


trong việc khám phá kiến thức
(thông tin) từ nguồn dữ liệu

Data Mining

Task-relevant Data

Data Warehouse Selection

Data Cleaning

Data Integration

Databases
13
 Có thể gồm các bước sau
▪ Data cleaning
▪ Data integration from multiple sources
▪ Warehousing the data
▪ Data selection for data mining
▪ Data mining
▪ Presentation of the mining results
▪ Patterns and knowledge to be used or stored into
knowledge-base

15
Semi-supervised
Input Feature Data Dimensionality Reduced number Data
Decision
data generation features reduction of data features label
Cluster 1

Cluster 2
Cluster 1

Cluster 2

Cluster 3
Poodle

Corgi

Husky

Dachshund
Class 1

?
Class 2
? Ảnh truy vấn
Class 3 ?
?
Class 4
?
Class 5 ? Cần thiết xác định một
Descriptor đủ mạnh để
Phân biệt các lớp vỏ cây
Class 6 Khác nhau

Cơ sở dữ liệu
Quá trình học

Dữ liệu huấn
luyện Trích xuất Rút gọn dữ Xây dựng bộ
(phân lớp đã đặc trưng liệu phân lớp
biết)

Dữ liệu tra
cứu/truy vấn
Trích xuất
(phân lớp cần Quyết định
đặc trưng
xác định)
Không gian đặc trưng
rút gọn

Quá trình Phân loại/Nhận dạng


 Nhãn dữ liệu (label)
 Tập huấn luyện (training)
 Phân lớp (clustering, classification)
 Ngữ cảnh học (context of learning)
Pattern
Input Data Data Pre- Data Post-
Information
Processing Mining Processing
Knowledge

Data integration Pattern discovery Pattern evaluation


Normalization Association & correlation Pattern selection
Feature selection Classification Pattern interpretation
Clustering
Dimension reduction Pattern visualization
Outlier analysis
…………

25
Machine Pattern Statistics
Learning Recognition

Applications Data Mining Visualization

Algorithm Database High-Performance


Technology Computing

26
 Lượng dữ liệu lớn: thuật toán để xử lý lượng dữ liệu
hàng TB
 Kích thước lớn: dữ liệu DNA, tài chính, kinh doanh
 Độ phức tạp
▪ Dữ liệu từ các sensors
▪ Dữ liệu chuỗi thời gian: thời tiết, ECG
▪ Dữ liệu có cấu trúc, liên kết: mạng xã hội, đồ thị
▪ Multimedia data: ảnh, video, text,…
▪ Phần mềm, mô phỏng khoa hoc
 Các ứng dụng mới liên tục được phát triển

28
 Phân tích Web: phân loại, gom cụm, xếp hạng
 Hệ thống gợi ý
 Phân tích dữ liệu tài chính, marketing
 Phân tích dữ liệu y sinh: phân loại protein, phân tích
gene, phylogeny…
 Thị giác máy tính, Nhận dạng mẫu, nhận dạng sinh
trắc học

29
 Xử lý dữ liệu : trích xuất và rút gọn đặc
trưng
 Classification hoặc/và clustering
 Xử lý để biểu diễn
◼ Other related conferences
 KDD Conferences
▪ ACM SIGKDD Int. Conf. on ◼ DB conferences: ACM SIGMOD,
Knowledge Discovery in Databases VLDB, ICDE, EDBT, ICDT, …
and Data Mining (KDD) ◼ Web and IR conferences: WWW,
▪ SIAM Data Mining Conf. (SDM) SIGIR, WSDM
▪ (IEEE) Int. Conf. on Data Mining ◼ ML conferences: ICML, NIPS
(ICDM) ◼ PR conferences: CVPR, ACCV, ECCV
▪ European Conf. on Machine Learning
◼ Journals
and Principles and practices of
Knowledge Discovery and Data ◼ Data Mining and Knowledge
Mining (ECML-PKDD) Discovery (DAMI or DMKD)
▪ Pacific-Asia Conf. on Knowledge ◼ IEEE Trans. On Knowledge and Data
Discovery and Data Mining Eng. (TKDE)
(PAKDD) ◼ KDD Explorations
▪ Int. Conf. on Web Search and Data
◼ ACM Trans. on KDD
Mining (WSDM)
31
 Data mining: phát hiện thông tin hữu ích từ dữ liệu
 Đáp ứng nhu cầu phát triển thông tin với nhiều ứng dụng
 Quy trình DM bao gồm nhiều bước: data cleaning, data
integration, data selection, transformation, data mining, pattern
evaluation & knowledge presentation
 Có thể áp dụng trên nhiều loại dữ liệu đa dạng
 Chức năng của DM: characterization, discrimination,
classification, clustering, trend analysis, imputation,…
 Kỹ thuật và ứng dụng của data mining

32

You might also like