Mod 2022

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 33

Khoa học dữ liệu

cần Toán thế nào?


Hồ Tú Bảo
Viện Nghiên cứu cao cấp về Toán
Nội dung

§ Tại sao khoa học dữ liệu?


§ Toán học trong khoa học dữ liệu
§ Một vài ví dụ

Trình bày; 50’, Q&A: 25’

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 2


Data science – Khoa học dữ liệu

“In God we
trust. All
DOMAIN others bring
EXPERTISE data”.
STATISTICAL DATA W.E. Deming
RESEARCH PROCESSING

DATA
SCIENCE
STATISTICS COMPUTER “We cannot solve problems
& MATHS SCIENCE
Source:
Palmer, Shelly, MACHINE LEARNING
by using the same kind of
Data Science thinking we used when we
for the C-Suite
New York: created them”
Digital Living
Press, 2015 Albert Einstein

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 3


Khoa học dữ liệu và AI

Trí tuệ nhân tạo

Học máy

Khoa học
Học sâu Dữ liệu

Là khoa học về phân tích


dữ liệu để có sự thấu hiểu

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 4


AI tổng quát và AI chuyên dụng
DATA-DRIVEN AI – AI DỰA VÀO DỮ LIỆU

Narrow AI or Weak AI
General AI or Strong AI (AI chuyên dụng hoặc AI hẹp)
(AI tổng quát hoặc AI mạnh) Hỗ trợ con người giải quyết các vấn đề cụ thể
Nhằm làm cho máy biết “lập luận” và “suy nhờ sử dụng dữ liệu với các phương pháp
nghĩ” ở mức cao của trí tuệ con người. của toán học và khoa học máy tính.

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 5


German AI strategy: ‘weak AI’

https://www.ki-strategie-deutschland.de/home.html

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 6


Suy diễn và Quy nạp
Duy nhất
Tri thức
chuyên gia

Suy diễn (deduction) Cá thể


Quy luật
và tri thức và dữ liệu
Quy nạp (induction)
Rất nhiều
Bệnh án Số hoá
điện tử bệnh án

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 7


Machine learning
§ Mục đích của học máy là xây dựng hệ thống máy tính có thể học
như con người.
§ Given
o { 𝒙! , 𝑦! }, 𝒙! là mô tả (dữ liệu ) của các đối tượng trong một
không gian nào đấy, và 𝑦! ∈ {C",C#,…,C$} or 𝑦! ∈ ℝ là nhãn của
𝒙! , 𝑖 = 1, … , 𝑛.
o Examples: Tập hợp các bệnh án điện tử.
• Find
o Hàm 𝑝 𝑦 𝒙) đoán nhãn 𝑦 cho đối tượng mới 𝒙 khi dữ liệu {𝒙! } có
nhãn và 𝑝 𝒙 để biết tính chất {𝒙! }, khi dữ liệu {𝒙! } không nhãn. (Source: Eric Xing lecture)
o Tri thức chẩn đoán bệnh hoặc phác đồ điều trị cho bệnh nhân.
Machine learning = Máy học hay Học máy?
© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 8
Structured vs. unstructured & labeled vs unlabeled data

H1 H2

H3 H4

C1 C2

C3 C4
Structured data

Unstructured data
© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 9
Machine learning: Phân loại theo dữ liệu
Labelled vs. Unlabelled data
Given: 𝒙! , 𝑦! , 𝒙" , 𝑦" , … , (𝒙# , 𝑦# )
• 𝒙$ là biểu diễn của một đối tượng.
• 𝑦$ tính chất nào đấy của 𝒙$ , nếu không biết 𝑦$ dữ liệu
Các tế bào này có tính chất gì ?
là không có nhãn (unlabelled), nếu biết 𝑦$ dữ liệu là
có nhãn (labelled).

Find: Hàm 𝒇 H H C
• đặc trưng {𝒙$ } (unsupervised learning)
H C C
• dự đoán 𝒇 𝒙$ = 𝑦$ (supervised learning)
(𝑦$ rời rạc: classification, 𝑦$ liên tuục: regression)
Tế bào này là C hay H?
[reinforcement learning, generative models, others]
© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 10
Machine learning: Phân loại theo bản chất

27 March 2019:Turing award 2019

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 11


Model selection: Vấn đề cơ bản của học máy
Model: Abstract description or
representation of a reality. Mô tả hay Một mô hình trong học máy được
biểu diễn trừu tượng của một thực tế xác định như một tập hợp của các
phân bố xác suất với tham số.
𝑴 = 𝒇 𝒚 𝜽 𝜽 ∈ Ω}

0
0

" =
=
𝒃! 𝒃#
𝒂 #,

+ 𝒃
𝑥+ 𝜽 =
𝒂 !

𝒂" 𝑥
12
Một số loss function trong học máy

§ L1 loss function = ∑#$%! 𝑦&'() − 𝑦*')+$,&)+


"
§ L2 loss function = ∑#$%! 𝑦&'() − 𝑦4*')+$,&)+

§ Hinge loss function = max 0, 1 − 𝑡. 𝑦 𝑡 = ±1

§ Kullback Leibler divergence loss (KL loss)

0 / 1 /
− ∑/ 𝑃 𝑥 log = ∑/ 𝑃 𝑥 𝑙𝑜𝑔
1 / 0 /
§ 𝐷-. (P||Q) = = 0 / 1 /
−∫𝑃 𝑥 log 𝑑𝑥 = −∫𝑃 𝑥 log 𝑑𝑥
1 / 0 /

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 13


Nền tảng và bốn trụ cột của học máy

Các phương pháp tối


ưu để tìm cực trị của
Về khái niệm gradient
các hàm số trong
được dùng rộng rãi trong
thuật toán học máy.
các phương pháp tối ưu
của học máy

Công cụ cơ bản để
Tính toán cơ bản cho các biến đổi biểu diễn
đối tượng biểu diễn được của các đổi tượng có
dưới dạng dữ liệu cấu trúc dữ liệu cấu trúc.
(vectors và ma trận)

Định lượng độ không chắc chắn của dữ


liệu là lĩnh vực của lý thuyết xác suất Trọng tâm là việc xây dựng các cách đo
sự tương tự giữa các đối tượng.

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? Book ‘mathematics for machine learning’ 14
Đại số tuyến tính
1. Hệ phương trình tuyến tính
2. Ma trận
Vector
3. Giải hệ phương trình tuyến calculus

tính
4. Không gian vector
5. Độc lập tuyến tính
6. Cơ sở và hạng
7. Ánh xạ tuyến tính Dimensionality
Analytic geometry Classification
8. Không gian reduction

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 15


Phân tích ma trận

1. Định thức và vết Probability and


Distribution
2. Giá trị riêng và vec-tơ riêng
3. Phân tích Cholesky
4. Phân tích và chéo hoá dựa vào
vectơ riêng
5. Singular Value Decomposition
6. Xấp xỉ ma trận
7. Matrix Phylogeny Dimensionality
Reduction

Also called Matrix Factorizations


© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 16
Xác suất và Phân bố

1. Xây dựng một không gian xác suất


2. Xác suất rời rạc và liên tục
3. Quy tắc tổng, nhân và định lý Bayes Regression

4. Thống kê cơ bản và tính độc lập


5. Phân phối Gaussian Dimensionality
reduction
6. Sự kết hợp (conjugacy) và họ hàm

7. Thay đổi biến / Biến đổi ngược Density
estimation

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 17


Essence of statistics
Tổng thể Tổng thể
Suy diễn thống kê

sample • Ước lượng parameters


data • Kiểm định giả thuyết

Suy diễn thống kê là việc rút ra kết luận về các tham số của
tổng thể từ việc phân tích dữ liệu mẫu.
18
Hình học giải tích
1. Chuẩn
Classification
2. Nội tích
3. Độ dài và Khoảng cách
4. Góc và Trực giao
5. Cơ sơ trực giao
6. Phần bù trực giao
7. Nội tích của các Hàm Regression Matrix Dimensionality

8. Phép chiếu trực giao decomposition reduction

9. Các phép quay


Giải thích hình học và trực quan của các khái niệm vectơ,
không gian vectơ và ánh xạ tuyến tính
© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 19
Giải tích vec-tơ
Regression
1. Đạo hàm của hàm một biến
2. Đạo hàm từng phần và Gradients
3. Gradient của hàm có giá trị vectơ Dimensionality
Optimization
reduction
4. Gradients của ma trận
5. Xác thực của việc tính Gradient
6. Backpropagation và đạo hàm tự động Probability Density
estimation
7. Đạo hàm bậc cao
8. Tuyến tính hoá và Chuỗi Taylor nhiều
biến Classificatio
n

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 20


Tối ưu liên tục

§ Tối ưu với Gradient


Descent Dimensionality
reduction

§ Tối ưu có hạn chế và


nhân tử Lagrange Density
estimation

§ Tối ưu lồi

Classification

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 21


Phân tích thành phần chính (PCA)
Bài toán: Cho 𝑛 điểm trong một không gian
Cực đại phương sai?
vector p-chiều. Có thể biến đổi 𝑛 điểm đó lên
một không gian mới 𝑘-chiều 𝑘 ≪ 𝑝 sao cho x2
thông tin được bảo toàn nhiều nhất.

1. Tạo ra một ma trận 𝑋)×+ với mỗi dòng là một


vector 𝒙, .
2. Tính ma trận hiệp phương sai 𝜮+×+ của 𝑿
-
𝜮+×+ = 𝑿𝑿. x1
)
1. Tìm vector riêng và giá trị riêng của 𝜮
2. Các thành phần chính là 𝑘 vector riêng ứng với 𝑘 giá p = 2, k = 1
trị riêng lớn nhất. Trong không gian 1 chiều, (red, yellow, blue)
đường nào bảo tồn được nhiều thông tin nhất?

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 22


Bayes theorem
Thomas Bayes (1701-1761) là nhà thống kê học,
nhà triết học người Anh. Định lý Bayes, phát minh
quan trọng nhất của ông, là nền tảng của các
phương pháp học máy thống kê.

Định lý Bayes cho ta biết cách cập


nhật xác suất tiên nghiệm 𝑃(𝐻)
nếu ta thấy sự kiện 𝐸, để tìm ra
xác suất hậu nghiệm 𝑃(𝐻|𝑒).

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 23


Data transformation – Biến đổi dữ liệu
Input space Feature space

𝜙
X F 𝜙: X à F sao cho
bài toán dễ gải
hơn trên F

X is the set of all oligonucleotides, S


consists of three oligonucleotides, and
S is represented in F as a matrix of
pairwise similarity between its elements.

© Bao Ho. Khoa học dữ liệu cần Toán thế nào?


Kernel methods
Input space X Feature space F
inverse map f-1
x1 x2
f(xn)
f(x)
f(xn-1)
...
f(x1)
… f(x2)
xn-1 xn
k(xi,xj) = f(xi).f(xj)

Kernel matrix Knxn kernel-based algorithm on K


kernel function k: XxX à R
(computation done on kernel matrix)

f :X = R 2 ® H = R 3
( x1 , x2 ) ! ( x1 , x2 , x12 + x22 )

© Bao Ho, Machine Learning: Challenges and Principles 25


Mô hình đồ thị xác suất–Probabilistic graphical models
§ A probabilistic graphical model là một cách biểu diễn các quan hệ xác suất của các
biến ngẫu nhiên (mang lý thuyết đồ thị và lý thuyết xác suất vào một kết nối hình thức
mạnh mẽ cho mô hình thống kê đa biến))

Probability Graph
theory theory

§ Là một công cụ mạnh để lập mô hình và giải quyết các bài toán liên quan đến

Uncertainty và Complexity
26
Probabilistic graphical models
Instances of graphical models

Probabilistic models
Naïve
Bayes Graphical models
classifier
LDA
Directed Undirected

Bayes nets MRFs


Mixture
models DBNs
Conditional
random
fields
Kalman
filter MaxEnt
model Hidden Markov Model (HMM)

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 27


Topic models
The key ideas

documents topics

documents
Topic
models C F
words

words
Q

topics
Normalized co-
occurrence matrix

Mỗi văn bản là một tổ hợp của các chủ đề và mỗi chủ đề là một phân bố
xác suất của các từ (học các chủ đề như các biến ẩn và biểu diễn văn bản
với các chủ đề).
© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 28
Word embedding
§ Word2vec: by Mikolov, Sutskever, Chen, Corrado and Dean at Google,
NAACL 2013.

§ Đầu vào là tập các văn bản và


đầu ra là các vector biểu diễn
các từ
§ Nghĩa của từ và quan hệ giữa
các từ được mã hoá trong
không gian

https://www.youtube.com/watch?v=RyTpzZQrHCs

29
Variable selection in regression
§ Để ước lược bình phương tối thiểu cực
tiểu sai số huấn luyện
1 $
) 𝑌! − 𝛽 % 𝑋! &
𝑛 !"#

§ Ta có thể tính cực tiểu của penalized


training error: § q = 2: ridge regression.
! "

" #$!
𝑌# − 𝛽% 𝑋# & +𝜆 𝛽 & § 𝒒 ≈ 𝟎 thực hiện hàm phạt
& !/&
với 𝛽 & = ∑' 𝛽' theo các trục
§ Lời giải là: § q = 1 Phương pháp Lasso có
𝛽7 = 𝕏% 𝕏 + 𝜆𝐼 )! 𝕏% 𝕐 hàm phạt dạng diament

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 30


Regularized regression
S&P 500: Graphical Lasso and Parallel Lasso

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 31


Deep learning

§ Expressivity
§ Learning/Optimization
§ Generalization

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 32


Lời kết

§ Toán học là công cụ nền tảng và tạo nên sự đột phá của AI, học máy và
khoa học dữ liệu.
§ Nghiên cứu, phát triển, sử dụng AI và khoa học dữ liệu đều cần làm chủ
toán học ở mức cần thiết.
§ Thách thức: Đưa toán học vào các công cụ AI và khoa học dữ liệu sao
cho mọi người đều có thể dùng.

© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 33

You might also like