Bài 5

MÔN HỌC:
NHẬP MÔN KHOA HỌC DỮ LIỆU

VÀ TRÍ TUỆ NHÂN TẠO
Nguyen Ngoc Linh. Phd

Falculty of Computer Science
BÀI 5
GIỚI THIỆU HỌC MÁY
Nguyen Ngoc Linh. Phd

Falculty of Computer Science
MỤC TIÊU BÀI HỌC
1. ĐỊNH NGHĨA BÀI TOÁN HỌC MÁY

2. MÁY TÍNH HỌC NHƯ THẾ NÀO
3. PHÂN LOẠI CÁC BÀI TOÁN HỌC MÁY
4. GIỚI THIỆU BÀI TOÁN HỌC SÂU
ĐỊNH NGHĨA HỌC MÁY
VAI CÁC MODULES CỦA DỰ ÁN AI/
TRÒ NHÂN SỰ TRONG ĐỜI HỌC KHDL MÁY
Data scientist AI/ML architect
Identify
Frame the Pre-
the Collect Engineer Develop Deploy Monitor
ML process
business data features model model model
problem data
goal
Prepare data
Domain experts and Data engineer ML engineer and

business analysts MLOps engineer
15
HỌC MÁY LÀ GÌ?
HỌC MÁY LÀ GÌ?
Input (A) Output (B) Application
email spam? (0/1) spam filtering
audio text transcripts speech recognition
English Chinese machine translation
ad, user info click? (0/1) online advertising
image, radar info position of other cars Self-driving car
image of phone defect? (0/1) visual inspection
sequence of words the next word chatbot
deeplearning.ai AndrewNg
Andrew Ng
HỌC MÁY LÀ GÌ?
Machine learning là một ứng dụng của trí tuệ nhân tạo (AI) cho phép các thiết
bị học từ trải nghiệm của chúng và cải thiện ứng dụng mà không cần lập
trình.
HỌC MÁY LÀ GÌ?
Data processing
• Đầu vào: dữ liệu + rule (if/else)

• Đầu ra: thông tin cần dự đoán
• Ví dụ:
• Dữ liệu: thông tin thời gian học của sinh
viên
• Quy tắc: nếu học nhiều thì đậu
• Dự đoán: liệu sinh viên đậu/rớt
• Đầu vào: dữ liệu + kết quả trong quá khứ

• Đầu ra: các quy tắc dùng để dự đoán
• Ví dụ:
• Dữ liệu: thông tin thời gian học của sinh viên
• Kết quả trong quá khứ
• Quy tắc: nếu học nhiều thì đậu + đọc thêm
tài liệu -> thì đậu
CÁC ĐỊNH NGHĨA KHÁC VỀ ML
Machine learning đề cập đến một loại thuật toán máy tính học từ ví dụ thay vì được lập
trình rõ ràng để thực hiện một nhiệm vụ
Machine learning là một lĩnh vực tập trung vào việc sử dụng dữ liệu và thuật toán để bắt
chước cách con người học, dần dần cải thiện độ chính xác của nó
Machine learning là một lĩnh vực nghiên cứu nhằm sử dụng các thuật toán tính toán để
chuyển dữ liệu thực nghiệm thành các mô hình có thể sử dụng.
MỘT SỐ VÍ DỤ VỀ BÀI TOÁN HỌC MÁY
Example: Speech recognition
Amazon Google Apple Baidu

Echo / Alexa Home Siri DuerOS
AndrewNg
Andrew Ng
Key steps of a machine learning project

Echo / Alexa
1. Collect data
2. Train model
Iterate many times until
good enough
3. Deploy model
Get data back
Maintain / update model
Andrew Ng
Key steps of a machine learning project

Self-driving car
1. Collect data image position of other cars
2. Train model
Iterate many times until
good enough
3. Deploy model
Get data back
Maintain / update model
MÁY TÍNH HỌC NHƯ THẾ NÀO
Example: Linear Regression
CÁC BƯỚC MÔ HÌNH HỌC
Step 1: Data collection
Step 1: Data collection: D = {(xi , yi ), i = 1, 2, ..., m}

<latexit sha1_base64="Z4sy0xSU1l86raTo4q/cUpthNGI=">AAACDXicdVBNS8NAEN3Ur1q/qh69DFahQghJLG09FEQ9eFSwWmhL2Gy37eLmg92NWEL/gBf/ihcPinj17s1/40YrqOiDgcd7M8zM82POpLLtNyM3NT0zO5efLywsLi2vFFfXzmWUCEKbJOKRaPlYUs5C2lRMcdqKBcWBz+mFf3mY+RdXVEgWhWdqFNNugAch6zOClZa84tYRQKOTlq89ZsLIYzsmMGiAY4JrgmVZJgSdsVcs2dZevepWqmBbtl1zXCcjbq2yWwFHKxlKaIITr/ja6UUkCWioCMdSth07Vt0UC8UIp+NCJ5E0xuQSD2hb0xAHVHbTj2/GsK2VHvQjoStU8KF+n0hxIOUo8HVngNVQ/vYy8S+vnah+vZuyME4UDcnnon7CQUWQRQM9JihRfKQJJoLpW4EMscBE6QALOoSvT+F/cu5azq7lnlZK+weTOPJoA22iMnJQDe2jY3SCmoigG3SHHtCjcWvcG0/G82drzpjMrKMfMF7eAWKGl1g=</latexit>
<latexit sha1_base64="PkIl4XD1DJKFEUDNaFRCbeawWfo=">AAACCXicbVDLSgNBEJyNrxhfUY9eBoMQQcKuBPUiBAXxGME8IBuW3skkO2T2wcysuiy5evFXvHhQxKt/4M2/cZLsQRMLGoqqbrq73IgzqUzz28gtLC4tr+RXC2vrG5tbxe2dpgxjQWiDhDwUbRck5SygDcUUp+1IUPBdTlvu8HLst+6okCwMblUS0a4Pg4D1GQGlJaeIbQ9UmowchvE5vio/OOwI3zupDTzyYHSInWLJrJgT4HliZaSEMtSd4pfdC0ns00ARDlJ2LDNS3RSEYoTTUcGOJY2ADGFAO5oG4FPZTSefjPCBVnq4HwpdgcIT9fdECr6Uie/qTh+UJ2e9sfif14lV/6ybsiCKFQ3IdFE/5liFeBwL7jFBieKJJkAE07di4oEAonR4BR2CNfvyPGkeV6yTSvWmWqpdZHHk0R7aR2VkoVNUQ9eojhqIoEf0jF7Rm/FkvBjvxse0NWdkM7voD4zPH1TZmNY=</latexit>
xi = (xi1 , xi2 , xi3 )

Step 2: ŷi = F (xi , w↵ )
yi = profit of startup i
N
<latexit sha1_base64="WWKXl0pdF3TujavPJePRav7ZSrE=">AAACLXicbVDLSsNAFJ34rPVVdelmsAi6sCRF1I1Q1IULEQWrQlPDzXTSDJ1JwsxECGl+yI2/IoKLirj1N5zWLnwduHDmnHuZe4+fcKa0bQ+sicmp6ZnZ0lx5fmFxabmysnqt4lQS2iQxj+WtD4pyFtGmZprT20RSED6nN37veOjf3FOpWBxd6SyhbQHdiAWMgDaSVzk523JjQbvgucCTELbxIXYDCSR3ivzcU4WrUuHl7NAp7kZv3HdD0HlWeAzv4Mxj/bu6V6naNXsE/Jc4Y1JFY1x4lWe3E5NU0EgTDkq1HDvR7RykZoTTouymiiZAetClLUMjEFS189G1Bd40SgcHsTQVaTxSv0/kIJTKhG86BehQ/faG4n9eK9XBQTtnUZJqGpGvj4KUYx3jYXS4wyQlmmeGAJHM7IpJCCYrbQIumxCc3yf/Jdf1mrNX273crTaOxnGU0DraQFvIQfuogU7RBWoigh7QExqgV+vRerHerPev1glrPLOGfsD6+AR/S6hS</latexit>
X
<latexit sha1_base64="KgbKbWefqZXH+h3kkzQx4KD2nrk=">AAACLHicbVBdS8MwFE3n9/yq+uhLcCgKMtop6Isw3IuPE9wmrKOkWarBtCnJrWyU/iBf/CuC+OAQX/0dZlsf1Hkg3MM59ya5J0gE1+A4I6s0N7+wuLS8Ul5dW9/YtLe221qmirIWlUKq24BoJnjMWsBBsNtEMRIFgnWCh8bY7zwypbmMb2CYsF5E7mIeckrASL7dGPgcH1zgw4GfcTc/xuNaK+pJfuR55eG0w4sCOcgSJUMOWIZYA1GQJpjnvl1xqs4EeJa4BamgAk3ffvX6kqYRi4EKonXXdRLoZeY+TgXLy16qWULoA7ljXUNjEjHdyybL5njfKH0cSmVODHii/pzISKT1MApMZ0TgXv/1xuJ/XjeF8LyX8ThJgcV0+lCYCgwSj5PDfa4YBTE0hFDFzV8xvSeKUDD5lk0I7t+VZ0m7VnVPqrXr00r9sohjGe2iPXSIXHSG6ugKNVELUfSEXtA7GlnP1pv1YX1OW0tWMbODfsH6+gbyW6ZM</latexit>
s
1 2
L(!↵ )Step |ŷiTraining
= 2: Modeling and |
yimodel
Ns ŷi=1
= f (x , x , x ) i i1 i2 i3
Bài toán tối ưu: Tìm !↵ sao
= w1 ⇥ xi1 +cực
cho w2 tiểu
<latexit sha1_base64="mQqiqFsCQP7foXMGTUKRoj2axZU=">AAAB+3icbVBNS8NAEN3Ur1q/Yj16CRahXkoiRT0WvXjwUMF+QBPCZLtpl242YXcjlpC/4sWDIl79I978N27bHLT1wcDjvRlm5gUJo1LZ9rdRWlvf2Nwqb1d2dvf2D8zDalfGqcCkg2MWi34AkjDKSUdRxUg/EQSigJFeMLmZ+b1HIiSN+YOaJsSLYMRpSDEoLflm9a7uxhEZgZ+5wJIx5Ge+WbMb9hzWKnEKUkMF2r755Q5jnEaEK8xAyoFjJ8rLQCiKGckrbipJAngCIzLQlENEpJfNb8+tU60MrTAWuriy5urviQwiKadRoDsjUGO57M3E/7xBqsIrL6M8SRXheLEoTJmlYmsWhDWkgmDFppoAFlTfauExCMBKx1XRITjLL6+S7nnDuWg075u11nURRxkdoxNURw66RC10i9qogzB6Qs/oFb0ZufFivBsfi9aSUcwcoT8wPn8Ai4aUIw==</latexit>
L(! ↵ ) ⇥ xi2 + w3 ⇥ xi3

<latexit sha1_base64="zyD6KU/9LPq3vFVG64ApDYCs7Sw=">AAAB+HicbVBNS8NAEN3Ur1o/GvXoZbEInkoioh6LXjxWsB/QhDDZbtulu5uwuxFq6C/x4kERr/4Ub/4bt20O2vpg4PHeDDPz4pQzbTzv2ymtrW9sbpW3Kzu7e/tV9+CwrZNMEdoiCU9UNwZNOZO0ZZjhtJsqCiLmtBOPb2d+55EqzRL5YCYpDQUMJRswAsZKkVsNEkGHEOUB8HQE08iteXVvDrxK/ILUUIFm5H4F/YRkgkpDOGjd873UhDkowwin00qQaZoCGcOQ9iyVIKgO8/nhU3xqlT4eJMqWNHiu/p7IQWg9EbHtFGBGetmbif95vcwMrsOcyTQzVJLFokHGsUnwLAXcZ4oSwyeWAFHM3orJCBQQY7Oq2BD85ZdXSfu87l/WL+4vao2bIo4yOkYn6Az56Ao10B1qohYiKEPP6BW9OU/Oi/PufCxaS04xc4T+wPn8ASB2k2g=</latexit>
<latexit sha1_base64="U/M6qDbbjkth6kSHy8kklGStNnE=">AAACbXicbVFNT9wwEHVSoLBtaSjiAFTVqCs+qqJVkkWCCxKilx6p1AWkzSpyvA5r4XzIngCrKLf+wt74C1z6F+psclg+RrLm+b0Zzfg5yqXQ6LoPlv1mYXHp7fJK5937D6sfnbVPFzorFOMDlslMXUVUcylSPkCBkl/litMkkvwyuvlR65e3XGmRpb9xmvNRQq9TEQtG0VCh8yeYUCynVShg9wTi/fuwFF51AHX229yvvgVBx8h3oQcBioRraOrgu+H8ec5vuP4816+g7ocTCG45K+/rYQEbZ9jc76rQ6bo9dxbwEngt6JI2zkPnbzDOWJHwFJmkWg89N8dRSRUKJnnVCQrNc8pu6DUfGphSs8qonLlVwY5hxhBnypwUYcbOd5Q00XqaRKYyoTjRz7WafE0bFhgfj0qR5gXylDWD4kICZlBbD2OhOEM5NYAyJcyuwCZUUYbmgzrGBO/5k1+CC7/n9Xv+r8Pu6VlrxzLZJl/JPvHIETklP8k5GRBGHi3H2rS2rH/2hv3Z/tKU2lbbs06ehL33H1UYtzE=</latexit>
= ~xi · w
~
dL
<latexit sha1_base64="r8wICTCVJCGrKhizd79cK+eMZ6o=">AAACN3icbVDLSgNBEJz1GeMr6tHLYBAEMexKUC9C0IsHkQjGCNkYeie9yZDZBzOzQlj2r7z4G9704kERr/6Bk8dBEwsGiqpqerq8WHClbfvFmpmdm19YzC3ll1dW19YLG5u3KkokwxqLRCTvPFAoeIg1zbXAu1giBJ7Autc7H/j1B5SKR+GN7sfYDKATcp8z0EZqFa7cKMAOtFIXRNyF7D7t7TsZPaXTekYPqIsaqOtLYGn7MksnQhltFYp2yR6CThNnTIpkjGqr8Oy2I5YEGGomQKmGY8e6mYLUnAnM8m6iMAbWgw42DA0hQNVMh3dndNcobepH0rxQ06H6eyKFQKl+4JlkALqrJr2B+J/XSLR/0kx5GCcaQzZa5CeC6ogOSqRtLpFp0TcEmOTmr5R1wbSiTdV5U4IzefI0uT0sOUel8nW5WDkb15Ej22SH7BGHHJMKuSBVUiOMPJJX8k4+rCfrzfq0vkbRGWs8s0X+wPr+AR+DrVA=</latexit>
k+1 k
!↵ = !↵ ⌘
L !↵
!1
<latexit sha1_base64="bYbiWeJZyuB8/Zo2bfpqPD4W1U8=">AAAB8XicbVDLSgNBEJyNrxhfUY9eBoPgKexKUI9BLx4jmAcmS5id9CZD5rHMzAphyV948aCIV//Gm3/jJNmDJhY0FFXddHdFCWfG+v63V1hb39jcKm6Xdnb39g/Kh0cto1JNoUkVV7oTEQOcSWhaZjl0Eg1ERBza0fh25refQBum5IOdJBAKMpQsZpRYJz32lIAh6WfBtF+u+FV/DrxKgpxUUI5Gv/zVGyiaCpCWcmJMN/ATG2ZEW0Y5TEu91EBC6JgMoeuoJAJMmM0vnuIzpwxwrLQrafFc/T2REWHMRESuUxA7MsveTPzP66Y2vg4zJpPUgqSLRXHKsVV49j4eMA3U8okjhGrmbsV0RDSh1oVUciEEyy+vktZFNbis1u5rlfpNHkcRnaBTdI4CdIXq6A41UBNRJNEzekVvnvFevHfvY9Fa8PKZY/QH3ucPhQiQ1A==</latexit>
!2
<latexit sha1_base64="aZnGgjfZGO+/jgqAyMYQgDioNs4=">AAAB8XicbVDLSgNBEJyNrxhfUY9eBoPgKeyGoB6DXjxGMImYLGF20psMmccyMyuEJX/hxYMiXv0bb/6Nk2QPmljQUFR1090VJZwZ6/vfXmFtfWNzq7hd2tnd2z8oHx61jUo1hRZVXOmHiBjgTELLMsvhIdFARMShE41vZn7nCbRhSt7bSQKhIEPJYkaJddJjTwkYkn5Wm/bLFb/qz4FXSZCTCsrR7Je/egNFUwHSUk6M6QZ+YsOMaMsoh2mplxpICB2TIXQdlUSACbP5xVN85pQBjpV2JS2eq78nMiKMmYjIdQpiR2bZm4n/ed3UxldhxmSSWpB0sShOObYKz97HA6aBWj5xhFDN3K2Yjogm1LqQSi6EYPnlVdKuVYOLav2uXmlc53EU0Qk6RecoQJeogW5RE7UQRRI9o1f05hnvxXv3PhatBS+fOUZ/4H3+AIaNkNU=</latexit>
Overfit vs. Underfit
Step 3: Đánh giá chất lượng học: thực hiện trên tập test
Underfit Just right Overfit

• Giảm độ phức tạp mô hình
• Thay đổi (regulerization — phạt) hàm mất
• Tắng độ phức tạp mô hình mát
• tối ưu tham số1.môReduce
hình
number of features • Tăng kích thước dữ liệu huấn luyện
• Tăng kích thước dữ liệu huấn luyện • Sử dụng phương pháp cross-validation
2. Regularization
để chọn mô hình tối ưu
26
Example: Linear
CÁC BƯỚC MÔ HÌNH HỌC: VÍ DỤ Regression
T: predict profit of startups

E: data
P: Accuracy
CÁC BƯỚC MÔ HÌNH HỌC: VÍ DỤ
Step 1: Data collection
D = {(xi , yi ), i = 1, 2, ..., m}
<latexit sha1_base64="Z4sy0xSU1l86raTo4q/cUpthNGI=">AAACDXicdVBNS8NAEN3Ur1q/qh69DFahQghJLG09FEQ9eFSwWmhL2Gy37eLmg92NWEL/gBf/ihcPinj17s1/40YrqOiDgcd7M8zM82POpLLtNyM3NT0zO5efLywsLi2vFFfXzmWUCEKbJOKRaPlYUs5C2lRMcdqKBcWBz+mFf3mY+RdXVEgWhWdqFNNugAch6zOClZa84tYRQKOTlq89ZsLIYzsmMGiAY4JrgmVZJgSdsVcs2dZevepWqmBbtl1zXCcjbq2yWwFHKxlKaIITr/ja6UUkCWioCMdSth07Vt0UC8UIp+NCJ5E0xuQSD2hb0xAHVHbTj2/GsK2VHvQjoStU8KF+n0hxIOUo8HVngNVQ/vYy8S+vnah+vZuyME4UDcnnon7CQUWQRQM9JihRfKQJJoLpW4EMscBE6QALOoSvT+F/cu5azq7lnlZK+weTOPJoA22iMnJQDe2jY3SCmoigG3SHHtCjcWvcG0/G82drzpjMrKMfMF7eAWKGl1g=</latexit>
xi = (xi1 , xi2 , xi3 )

<latexit sha1_base64="KgbKbWefqZXH+h3kkzQx4KD2nrk=">AAACLHicbVBdS8MwFE3n9/yq+uhLcCgKMtop6Isw3IuPE9wmrKOkWarBtCnJrWyU/iBf/CuC+OAQX/0dZlsf1Hkg3MM59ya5J0gE1+A4I6s0N7+wuLS8Ul5dW9/YtLe221qmirIWlUKq24BoJnjMWsBBsNtEMRIFgnWCh8bY7zwypbmMb2CYsF5E7mIeckrASL7dGPgcH1zgw4GfcTc/xuNaK+pJfuR55eG0w4sCOcgSJUMOWIZYA1GQJpjnvl1xqs4EeJa4BamgAk3ffvX6kqYRi4EKonXXdRLoZeY+TgXLy16qWULoA7ljXUNjEjHdyybL5njfKH0cSmVODHii/pzISKT1MApMZ0TgXv/1xuJ/XjeF8LyX8ThJgcV0+lCYCgwSj5PDfa4YBTE0hFDFzV8xvSeKUDD5lk0I7t+VZ0m7VnVPqrXr00r9sohjGe2iPXSIXHSG6ugKNVELUfSEXtA7GlnP1pv1YX1OW0tWMbODfsH6+gbyW6ZM</latexit>
yi = profit of startup i
Step 2: Modeling and Training model
ŷi = f (xi1 , xi2 , xi3 )

= w1 ⇥ xi1 + w2 ⇥ xi2 + w3 ⇥ xi3
= ~xi · w
~
Step 2: Modeling and Training model
ŷi = f (xi1 , xi2 , xi3 )

= w1 ⇥ xi1 + w2 ⇥ xi2 + w3 ⇥ xi3
= ~xi · w
~
Loss Function (Cost function)
m
X
1 2
L(w1 , w2 , w3 ) = (yˆi yi )
2m i
m
X
1 2
= (w1 xi1 + w2 xi2 + w3 xi3 yi )
2m i
<latexit sha1_base64="Aw7wya3JIBNbASkmhrquweeogP8=">AAACbXicdVFNb9MwGHYyYF35yjbtwIeQRQW02lYl6aRxQargwoFDkeiH1LSR4zqtVTuJbGddZeW2X7gbf4ELfwGn7aG08Eq2n/d5P2w/b5QxKpXr/rTsgwcPHx1WjqqPnzx99tw5PunJNBeYdHHKUjGIkCSMJqSrqGJkkAmCeMRIP5p/KeP9GyIkTZMfapmREUfThMYUI2Wo0Ln7Vl+E3gVchH65tRrw/ScYxAJh7RXa50Ugcx7SMa8HM6T0MqQFvITmaIz9IKj+L9n0vA019Qp4brpqvyg9f+21StzabhM6NbfprgzuA28DamBjndC5DyYpzjlJFGZIyqHnZmqkkVAUM1JUg1ySDOE5mpKhgQniRI70Sq0CvjPMBMapMCtRcMVuV2jEpVzyyGRypGZyN1aS/4oNcxV/HGmaZLkiCV5fFOcMqhSW0sMJFQQrtjQAYUHNWyGeIaOeMgOqGhG83S/vg57f9FpN//tVrf15I0cFvAJvQR144Bq0wVfQAV2AwS/LsV5YL63f9pn92n6zTrWtTc0p+MvsD38AtFK21w==</latexit>
Training = finding w which minimizes L

Cần tăng w1 hay giảm w1 để loss function giảm?
(L = w**2, w=1, muốn giảm L thì tăng w hay giảm ư?)
Overfit vs. Underfit
Step 3: Đánh giá chất lượng học: thực hiện trên tập test
Underfit Just right Overfit

• Giảm độ phức tạp mô hình
• Thay đổi (regulerization — phạt) hàm mất
• Tắng độ phức tạp mô hình mát
• tối ưu tham số1.môReduce
hình
number of features • Tăng kích thước dữ liệu huấn luyện
• Tăng kích thước dữ liệu huấn luyện • Sử dụng phương pháp cross-validation
2. Regularization
để chọn mô hình tối ưu
26
PHÂN LOẠI BÀI TOÁN HỌC MÁY
CÁC NHÓM BÀI TOÁN HỌC MÁY
• Dựa trên đặc điểm dữ liệu training và mục tiêu bài toán, chúng ta phân loại các bài toán học máy thành:
Học có giám sát Học không có giám sát Học tăng cường
(Supervised learning) (Unsupervised learning) (reinforcement learning)
Input: Input:
{Xi, Yi} {Xii}

SUPERVISED LEARNING
Trong học có giám sát, mô hình học từ dữ liệu có nhãn {Xi, Yi}. Mục tiêu là học một hàm ánh xạ từ đầu vào tới
đầu ra.
• Phân loại (Classification):
◦ Mô tả: Gán nhãn cho các điểm dữ liệu vào các
nhóm hoặc lớp.
◦ Ví dụ: Phân loại email là spam hoặc không spam,
nhận dạng chữ viết tay.
• Hồi quy (Regression):

◦ Mô tả: Dự đoán giá trị liên tục.
◦ Ví dụ: Dự đoán giá nhà, dự báo thời tiết.
• Tạo sinh (Generative)

◦ Mô tả: Dự đoán giá trị liên tục.
◦ Ví dụ: Dự đoán giá nhà, dự báo thời tiết.
• Phương pháp:
Phương pháp thống kê
Học máy truyền thống,
Học bán giám sát (semi-supervied)
Học sâu
UNSUPERVISED LEARNING
Trong học không giám sát, mô hình học từ dữ liệu không nhãn {Xi}. Mục tiêu là tìm ra các mẫu hoặc cấu trúc
ẩn trong dữ liệu
• Cụm (Clustering):
◦ Mô tả: Nhóm các điểm dữ liệu thành các cụm dựa
trên sự giống nhau.
◦ Ví dụ: Phân nhóm khách hàng theo hành vi mua sắm,
phân loại hình ảnh.
• Giảm chiều (Dimensionality Reduction):

◦ Mô tả: Giảm số lượng các biến đầu vào để làm đơn
giản hóa mô hình.
◦ Ví dụ: PCA (Principal Component Analysis), t-SNE.
• Phân tích và phát hiện dị thường (Anomaly

Detection):
◦ Mô tả: Phát hiện các điểm dữ liệu không tuân theo mô
hình dự kiến.
◦ Ví dụ: Phát hiện gian lận trong giao dịch tài chính,
phát hiện lỗi trong sản xuất.
THẾ NÀO LÀ PHƯƠNG PHÁP
HỌC SÂU (DEEP-LEARNING)
Demand prediction
price demand
demand
“neuron”
price
Demand prediction
price
shipping cost
demand
marketing
material
Demand prediction
price
shipping cost
demand
marketing
material
Face recognition
30 32 22 12 10 10 12 33 35 30
12 11 12 234 170 176 13 15 12 12
234 222 220 230 200 222 230 234 56 78
190 220 186 112 110 110 112 180 30 32
49 250 250 250 4 2 254 200 44 6
55 250 250 250 3 1 250 245 25 3
189 195 199 150 110 110 182 190 199 55
200 202 218 222 203 200 200 208 215 222
219 215 220 220 222 214 215 210 220 220
220 220 220 220 221 220 221 220 220 222
Face recognition
identity

Bài 5

Uploaded by

Copyright:

Available Formats

You might also like

Bài 5

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bài 5

Uploaded by

Copyright:

Available Formats

MÔN HỌC:

NHẬP MÔN KHOA HỌC DỮ LIỆU

Nguyen Ngoc Linh. Phd

Nguyen Ngoc Linh. Phd

1. ĐỊNH NGHĨA BÀI TOÁN HỌC MÁY

Data scientist AI/ML architect

Domain experts and Data engineer ML engineer and

Input (A) Output (B) Application

email spam? (0/1) spam filtering

audio text transcripts speech recognition

English Chinese machine translation

ad, user info click? (0/1) online advertising

image, radar info position of other cars Self-driving car

image of phone defect? (0/1) visual inspection

sequence of words the next word chatbot

• Đầu vào: dữ liệu + rule (if/else)

• Đầu vào: dữ liệu + kết quả trong quá khứ

Example: Speech recognition

Amazon Google Apple Baidu

Key steps of a machine learning project

Key steps of a machine learning project

Step 1: Data collection: D = {(xi , yi ), i = 1, 2, ..., m}

xi = (xi1 , xi2 , xi3 )

L(! ↵ ) ⇥ xi2 + w3 ⇥ xi3

Underfit Just right Overfit

T: predict profit of startups

xi = (xi1 , xi2 , xi3 )

Step 2: Modeling and Training model

ŷi = f (xi1 , xi2 , xi3 )

ŷi = f (xi1 , xi2 , xi3 )

Training = finding w which minimizes L

Underfit Just right Overfit

{Xi, Yi} {Xii}

• Hồi quy (Regression):

• Tạo sinh (Generative)

• Giảm chiều (Dimensionality Reduction):

• Phân tích và phát hiện dị thường (Anomaly

You might also like