Professional Documents
Culture Documents
Mod 2022
Mod 2022
Mod 2022
“In God we
trust. All
DOMAIN others bring
EXPERTISE data”.
STATISTICAL DATA W.E. Deming
RESEARCH PROCESSING
DATA
SCIENCE
STATISTICS COMPUTER “We cannot solve problems
& MATHS SCIENCE
Source:
Palmer, Shelly, MACHINE LEARNING
by using the same kind of
Data Science thinking we used when we
for the C-Suite
New York: created them”
Digital Living
Press, 2015 Albert Einstein
Học máy
Khoa học
Học sâu Dữ liệu
Narrow AI or Weak AI
General AI or Strong AI (AI chuyên dụng hoặc AI hẹp)
(AI tổng quát hoặc AI mạnh) Hỗ trợ con người giải quyết các vấn đề cụ thể
Nhằm làm cho máy biết “lập luận” và “suy nhờ sử dụng dữ liệu với các phương pháp
nghĩ” ở mức cao của trí tuệ con người. của toán học và khoa học máy tính.
https://www.ki-strategie-deutschland.de/home.html
H1 H2
H3 H4
C1 C2
C3 C4
Structured data
Unstructured data
© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 9
Machine learning: Phân loại theo dữ liệu
Labelled vs. Unlabelled data
Given: 𝒙! , 𝑦! , 𝒙" , 𝑦" , … , (𝒙# , 𝑦# )
• 𝒙$ là biểu diễn của một đối tượng.
• 𝑦$ tính chất nào đấy của 𝒙$ , nếu không biết 𝑦$ dữ liệu
Các tế bào này có tính chất gì ?
là không có nhãn (unlabelled), nếu biết 𝑦$ dữ liệu là
có nhãn (labelled).
Find: Hàm 𝒇 H H C
• đặc trưng {𝒙$ } (unsupervised learning)
H C C
• dự đoán 𝒇 𝒙$ = 𝑦$ (supervised learning)
(𝑦$ rời rạc: classification, 𝑦$ liên tuục: regression)
Tế bào này là C hay H?
[reinforcement learning, generative models, others]
© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 10
Machine learning: Phân loại theo bản chất
0
0
" =
=
𝒃! 𝒃#
𝒂 #,
+ 𝒃
𝑥+ 𝜽 =
𝒂 !
𝒂" 𝑥
12
Một số loss function trong học máy
0 / 1 /
− ∑/ 𝑃 𝑥 log = ∑/ 𝑃 𝑥 𝑙𝑜𝑔
1 / 0 /
§ 𝐷-. (P||Q) = = 0 / 1 /
−∫𝑃 𝑥 log 𝑑𝑥 = −∫𝑃 𝑥 log 𝑑𝑥
1 / 0 /
Công cụ cơ bản để
Tính toán cơ bản cho các biến đổi biểu diễn
đối tượng biểu diễn được của các đổi tượng có
dưới dạng dữ liệu cấu trúc dữ liệu cấu trúc.
(vectors và ma trận)
© Bao Ho. Khoa học dữ liệu cần Toán thế nào? Book ‘mathematics for machine learning’ 14
Đại số tuyến tính
1. Hệ phương trình tuyến tính
2. Ma trận
Vector
3. Giải hệ phương trình tuyến calculus
tính
4. Không gian vector
5. Độc lập tuyến tính
6. Cơ sở và hạng
7. Ánh xạ tuyến tính Dimensionality
Analytic geometry Classification
8. Không gian reduction
Suy diễn thống kê là việc rút ra kết luận về các tham số của
tổng thể từ việc phân tích dữ liệu mẫu.
18
Hình học giải tích
1. Chuẩn
Classification
2. Nội tích
3. Độ dài và Khoảng cách
4. Góc và Trực giao
5. Cơ sơ trực giao
6. Phần bù trực giao
7. Nội tích của các Hàm Regression Matrix Dimensionality
§ Tối ưu lồi
Classification
𝜙
X F 𝜙: X à F sao cho
bài toán dễ gải
hơn trên F
f :X = R 2 ® H = R 3
( x1 , x2 ) ! ( x1 , x2 , x12 + x22 )
Probability Graph
theory theory
§ Là một công cụ mạnh để lập mô hình và giải quyết các bài toán liên quan đến
Uncertainty và Complexity
26
Probabilistic graphical models
Instances of graphical models
Probabilistic models
Naïve
Bayes Graphical models
classifier
LDA
Directed Undirected
documents topics
documents
Topic
models C F
words
words
Q
topics
Normalized co-
occurrence matrix
Mỗi văn bản là một tổ hợp của các chủ đề và mỗi chủ đề là một phân bố
xác suất của các từ (học các chủ đề như các biến ẩn và biểu diễn văn bản
với các chủ đề).
© Bao Ho. Khoa học dữ liệu cần Toán thế nào? 28
Word embedding
§ Word2vec: by Mikolov, Sutskever, Chen, Corrado and Dean at Google,
NAACL 2013.
https://www.youtube.com/watch?v=RyTpzZQrHCs
29
Variable selection in regression
§ Để ước lược bình phương tối thiểu cực
tiểu sai số huấn luyện
1 $
) 𝑌! − 𝛽 % 𝑋! &
𝑛 !"#
§ Expressivity
§ Learning/Optimization
§ Generalization
§ Toán học là công cụ nền tảng và tạo nên sự đột phá của AI, học máy và
khoa học dữ liệu.
§ Nghiên cứu, phát triển, sử dụng AI và khoa học dữ liệu đều cần làm chủ
toán học ở mức cần thiết.
§ Thách thức: Đưa toán học vào các công cụ AI và khoa học dữ liệu sao
cho mọi người đều có thể dùng.