Mod 2022

Khoa học dữ liệu
cần Toán thế nào?

Hồ Tú Bảo
Viện Nghiên cứu cao cấp về Toán
Nội dung
§ Tại sao khoa học dữ liệu?

§ Toán học trong khoa học dữ liệu
§ Một vài ví dụ
Trình bày; 50’, Q&A: 25’
© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 2

Data science – Khoa học dữ liệu
“In God we
trust. All
DOMAIN others bring
EXPERTISE data”.
STATISTICAL DATA W.E. Deming
RESEARCH PROCESSING
DATA
SCIENCE
STATISTICS COMPUTER “We cannot solve problems
& MATHS SCIENCE
Source:
Palmer, Shelly, MACHINE LEARNING
by using the same kind of
Data Science thinking we used when we
for the C-Suite
New York: created them”
Digital Living
Press, 2015 Albert Einstein

Khoa học dữ liệu và AI
Trí tuệ nhân tạo
Học máy
Khoa học
Học sâu Dữ liệu
Là khoa học về phân tích

dữ liệu để có sự thấu hiểu

AI tổng quát và AI chuyên dụng
DATA-DRIVEN AI – AI DỰA VÀO DỮ LIỆU
Narrow AI or Weak AI
General AI or Strong AI (AI chuyên dụng hoặc AI hẹp)
(AI tổng quát hoặc AI mạnh) Hỗ trợ con người giải quyết các vấn đề cụ thể
Nhằm làm cho máy biết “lập luận” và “suy nhờ sử dụng dữ liệu với các phương pháp
nghĩ” ở mức cao của trí tuệ con người. của toán học và khoa học máy tính.

German AI strategy: ‘weak AI’
https://www.ki-strategie-deutschland.de/home.html

Suy diễn và Quy nạp
Duy nhất
Tri thức
chuyên gia
Suy diễn (deduction) Cá thể

Quy luật
và tri thức và dữ liệu
Quy nạp (induction)
Rất nhiều
Bệnh án Số hoá
điện tử bệnh án

Machine learning
§ Mục đích của học máy là xây dựng hệ thống máy tính có thể học
như con người.
§ Given
o { 𝒙! , 𝑦! }, 𝒙! là mô tả (dữ liệu ) của các đối tượng trong một
không gian nào đấy, và 𝑦! ∈ {C",C#,…,C$} or 𝑦! ∈ ℝ là nhãn của
𝒙! , 𝑖 = 1, … , 𝑛.
o Examples: Tập hợp các bệnh án điện tử.
• Find
o Hàm 𝑝 𝑦 𝒙) đoán nhãn 𝑦 cho đối tượng mới 𝒙 khi dữ liệu {𝒙! } có
nhãn và 𝑝 𝒙 để biết tính chất {𝒙! }, khi dữ liệu {𝒙! } không nhãn. (Source: Eric Xing lecture)
o Tri thức chẩn đoán bệnh hoặc phác đồ điều trị cho bệnh nhân.
Machine learning = Máy học hay Học máy?
Structured vs. unstructured & labeled vs unlabeled data
H1 H2
H3 H4
C1 C2
C3 C4
Structured data
Unstructured data
Machine learning: Phân loại theo dữ liệu
Labelled vs. Unlabelled data
Given: 𝒙! , 𝑦! , 𝒙" , 𝑦" , … , (𝒙# , 𝑦# )
• 𝒙$ là biểu diễn của một đối tượng.
• 𝑦$ tính chất nào đấy của 𝒙$ , nếu không biết 𝑦$ dữ liệu
Các tế bào này có tính chất gì ?
là không có nhãn (unlabelled), nếu biết 𝑦$ dữ liệu là
có nhãn (labelled).
Find: Hàm 𝒇 H H C
• đặc trưng {𝒙$ } (unsupervised learning)
H C C
• dự đoán 𝒇 𝒙$ = 𝑦$ (supervised learning)
(𝑦$ rời rạc: classification, 𝑦$ liên tuục: regression)
Tế bào này là C hay H?
[reinforcement learning, generative models, others]
Machine learning: Phân loại theo bản chất
27 March 2019:Turing award 2019

Model selection: Vấn đề cơ bản của học máy
Model: Abstract description or
representation of a reality. Mô tả hay Một mô hình trong học máy được
biểu diễn trừu tượng của một thực tế xác định như một tập hợp của các
phân bố xác suất với tham số.
𝑴 = 𝒇 𝒚 𝜽 𝜽 ∈ Ω}
0
0
" =
=
𝒃! 𝒃#
𝒂 #,
+ 𝒃
𝑥+ 𝜽 =
𝒂 !
𝒂" 𝑥
12
Một số loss function trong học máy
§ L1 loss function = ∑#$%! 𝑦&'() − 𝑦*')+$,&)+

"
§ L2 loss function = ∑#$%! 𝑦&'() − 𝑦4*')+$,&)+
§ Hinge loss function = max 0, 1 − 𝑡. 𝑦 𝑡 = ±1
§ Kullback Leibler divergence loss (KL loss)
0 / 1 /
− ∑/ 𝑃 𝑥 log = ∑/ 𝑃 𝑥 𝑙𝑜𝑔
1 / 0 /
§ 𝐷-. (P||Q) = = 0 / 1 /
−∫𝑃 𝑥 log 𝑑𝑥 = −∫𝑃 𝑥 log 𝑑𝑥
1 / 0 /

Nền tảng và bốn trụ cột của học máy
Các phương pháp tối

ưu để tìm cực trị của
Về khái niệm gradient
các hàm số trong
được dùng rộng rãi trong
thuật toán học máy.
các phương pháp tối ưu
của học máy
Công cụ cơ bản để
Tính toán cơ bản cho các biến đổi biểu diễn
đối tượng biểu diễn được của các đổi tượng có
dưới dạng dữ liệu cấu trúc dữ liệu cấu trúc.
(vectors và ma trận)
Định lượng độ không chắc chắn của dữ

liệu là lĩnh vực của lý thuyết xác suất Trọng tâm là việc xây dựng các cách đo
sự tương tự giữa các đối tượng.
© Bao Ho. Khoa học dữ liệu cần Toán thế nào? Book ‘mathematics for machine learning’ 14
Đại số tuyến tính
1. Hệ phương trình tuyến tính
2. Ma trận
Vector
3. Giải hệ phương trình tuyến calculus
tính
4. Không gian vector
5. Độc lập tuyến tính
6. Cơ sở và hạng
7. Ánh xạ tuyến tính Dimensionality
Analytic geometry Classification
8. Không gian reduction

Phân tích ma trận
1. Định thức và vết Probability and

Distribution
2. Giá trị riêng và vec-tơ riêng
3. Phân tích Cholesky
4. Phân tích và chéo hoá dựa vào
vectơ riêng
5. Singular Value Decomposition
6. Xấp xỉ ma trận
7. Matrix Phylogeny Dimensionality
Reduction
Also called Matrix Factorizations

Xác suất và Phân bố
1. Xây dựng một không gian xác suất

2. Xác suất rời rạc và liên tục
3. Quy tắc tổng, nhân và định lý Bayes Regression
4. Thống kê cơ bản và tính độc lập

5. Phân phối Gaussian Dimensionality
reduction
6. Sự kết hợp (conjugacy) và họ hàm
mũ
7. Thay đổi biến / Biến đổi ngược Density
estimation

Essence of statistics
Tổng thể Tổng thể
Suy diễn thống kê
sample • Ước lượng parameters

data • Kiểm định giả thuyết
Suy diễn thống kê là việc rút ra kết luận về các tham số của
tổng thể từ việc phân tích dữ liệu mẫu.
18
Hình học giải tích
1. Chuẩn
Classification
2. Nội tích
3. Độ dài và Khoảng cách
4. Góc và Trực giao
5. Cơ sơ trực giao
6. Phần bù trực giao
7. Nội tích của các Hàm Regression Matrix Dimensionality
8. Phép chiếu trực giao decomposition reduction
9. Các phép quay

Giải thích hình học và trực quan của các khái niệm vectơ,
không gian vectơ và ánh xạ tuyến tính
Giải tích vec-tơ
Regression
1. Đạo hàm của hàm một biến
2. Đạo hàm từng phần và Gradients
3. Gradient của hàm có giá trị vectơ Dimensionality
Optimization
reduction
4. Gradients của ma trận
5. Xác thực của việc tính Gradient
6. Backpropagation và đạo hàm tự động Probability Density
estimation
7. Đạo hàm bậc cao
8. Tuyến tính hoá và Chuỗi Taylor nhiều
biến Classificatio
n

Tối ưu liên tục
§ Tối ưu với Gradient

Descent Dimensionality
reduction
§ Tối ưu có hạn chế và

nhân tử Lagrange Density
estimation
§ Tối ưu lồi
Classification

Phân tích thành phần chính (PCA)
Bài toán: Cho 𝑛 điểm trong một không gian
Cực đại phương sai?
vector p-chiều. Có thể biến đổi 𝑛 điểm đó lên
một không gian mới 𝑘-chiều 𝑘 ≪ 𝑝 sao cho x2
thông tin được bảo toàn nhiều nhất.
1. Tạo ra một ma trận 𝑋)×+ với mỗi dòng là một

vector 𝒙, .
2. Tính ma trận hiệp phương sai 𝜮+×+ của 𝑿
-
𝜮+×+ = 𝑿𝑿. x1
)
1. Tìm vector riêng và giá trị riêng của 𝜮
2. Các thành phần chính là 𝑘 vector riêng ứng với 𝑘 giá p = 2, k = 1
trị riêng lớn nhất. Trong không gian 1 chiều, (red, yellow, blue)
đường nào bảo tồn được nhiều thông tin nhất?

Bayes theorem
Thomas Bayes (1701-1761) là nhà thống kê học,
nhà triết học người Anh. Định lý Bayes, phát minh
quan trọng nhất của ông, là nền tảng của các
phương pháp học máy thống kê.
Định lý Bayes cho ta biết cách cập

nhật xác suất tiên nghiệm 𝑃(𝐻)
nếu ta thấy sự kiện 𝐸, để tìm ra
xác suất hậu nghiệm 𝑃(𝐻|𝑒).

Data transformation – Biến đổi dữ liệu
Input space Feature space
𝜙
X F 𝜙: X à F sao cho
bài toán dễ gải
hơn trên F
X is the set of all oligonucleotides, S

consists of three oligonucleotides, and
S is represented in F as a matrix of
pairwise similarity between its elements.
© Bao Ho. Khoa học dữ liệu cần Toán thế nào?

Kernel methods
Input space X Feature space F
inverse map f-1
x1 x2
f(xn)
f(x)
f(xn-1)
...
f(x1)
… f(x2)
xn-1 xn
k(xi,xj) = f(xi).f(xj)
Kernel matrix Knxn kernel-based algorithm on K

kernel function k: XxX à R
(computation done on kernel matrix)
f :X = R 2 ® H = R 3
( x1 , x2 ) ! ( x1 , x2 , x12 + x22 )
© Bao Ho, Machine Learning: Challenges and Principles 25

Mô hình đồ thị xác suất–Probabilistic graphical models
§ A probabilistic graphical model là một cách biểu diễn các quan hệ xác suất của các
biến ngẫu nhiên (mang lý thuyết đồ thị và lý thuyết xác suất vào một kết nối hình thức
mạnh mẽ cho mô hình thống kê đa biến))
Probability Graph
theory theory
§ Là một công cụ mạnh để lập mô hình và giải quyết các bài toán liên quan đến
Uncertainty và Complexity
26
Probabilistic graphical models
Instances of graphical models
Probabilistic models
Naïve
Bayes Graphical models
classifier
LDA
Directed Undirected
Bayes nets MRFs

Mixture
models DBNs
Conditional
random
fields
Kalman
filter MaxEnt
model Hidden Markov Model (HMM)

Topic models
The key ideas
documents topics
documents
Topic
models C F
words
words
Q
topics
Normalized co-
occurrence matrix
Mỗi văn bản là một tổ hợp của các chủ đề và mỗi chủ đề là một phân bố
xác suất của các từ (học các chủ đề như các biến ẩn và biểu diễn văn bản
với các chủ đề).
Word embedding
§ Word2vec: by Mikolov, Sutskever, Chen, Corrado and Dean at Google,
NAACL 2013.
§ Đầu vào là tập các văn bản và

đầu ra là các vector biểu diễn
các từ
§ Nghĩa của từ và quan hệ giữa
các từ được mã hoá trong
không gian
https://www.youtube.com/watch?v=RyTpzZQrHCs
29
Variable selection in regression
§ Để ước lược bình phương tối thiểu cực
tiểu sai số huấn luyện
1 $
) 𝑌! − 𝛽 % 𝑋! &
𝑛 !"#
§ Ta có thể tính cực tiểu của penalized

training error: § q = 2: ridge regression.
! "
∑
" #$!
𝑌# − 𝛽% 𝑋# & +𝜆 𝛽 & § 𝒒 ≈ 𝟎 thực hiện hàm phạt
& !/&
với 𝛽 & = ∑' 𝛽' theo các trục
§ Lời giải là: § q = 1 Phương pháp Lasso có
𝛽7 = 𝕏% 𝕏 + 𝜆𝐼 )! 𝕏% 𝕐 hàm phạt dạng diament

Regularized regression
S&P 500: Graphical Lasso and Parallel Lasso

Deep learning
§ Expressivity
§ Learning/Optimization
§ Generalization

Lời kết
§ Toán học là công cụ nền tảng và tạo nên sự đột phá của AI, học máy và
khoa học dữ liệu.
§ Nghiên cứu, phát triển, sử dụng AI và khoa học dữ liệu đều cần làm chủ
toán học ở mức cần thiết.
§ Thách thức: Đưa toán học vào các công cụ AI và khoa học dữ liệu sao
cho mọi người đều có thể dùng.

Mod 2022

Uploaded by

Copyright:

Available Formats

You might also like

Mod 2022

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Mod 2022

Uploaded by

Copyright:

Available Formats

Khoa học dữ liệu

cần Toán thế nào?

§ Tại sao khoa học dữ liệu?

Trình bày; 50’, Q&A: 25’

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 2

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 3

Trí tuệ nhân tạo

Là khoa học về phân tích

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 4

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 5

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 6

Suy diễn (deduction) Cá thể

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 7

27 March 2019:Turing award 2019

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 11

§ L1 loss function = ∑#$%! 𝑦&'() − 𝑦*')+$,&)+

§ Hinge loss function = max 0, 1 − 𝑡. 𝑦 𝑡 = ±1

§ Kullback Leibler divergence loss (KL loss)

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 13

Các phương pháp tối

Định lượng độ không chắc chắn của dữ

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 15

1. Định thức và vết Probability and

Also called Matrix Factorizations

1. Xây dựng một không gian xác suất

4. Thống kê cơ bản và tính độc lập

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 17

sample • Ước lượng parameters

8. Phép chiếu trực giao decomposition reduction

9. Các phép quay

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 20

§ Tối ưu với Gradient

§ Tối ưu có hạn chế và

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 21

1. Tạo ra một ma trận 𝑋)×+ với mỗi dòng là một

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 22

Định lý Bayes cho ta biết cách cập

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 23

X is the set of all oligonucleotides, S

© Bao Ho. Khoa học dữ liệu cần Toán thế nào?

Kernel matrix Knxn kernel-based algorithm on K

© Bao Ho, Machine Learning: Challenges and Principles 25

Bayes nets MRFs

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 27

§ Đầu vào là tập các văn bản và

§ Ta có thể tính cực tiểu của penalized

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 30

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 31

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 32

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 33

You might also like