Download as pdf or txt
Download as pdf or txt
You are on page 1of 129





Chapter 1 绪论



机器学习




1

1
Artificial Intelligence (AI) 无处不在的AI!














1. 什么是人工智能



p人工智能,Artificial Intelligence (AI)


pAI是研究、开发用于模拟、延伸和扩展人的智能的理



论、方法、技术及应用系统的一门新的技术科学。



p人工智能是计算机科学的一个分支,它企图了解智能

的实质,并生产出一种新的能以人类智能相似的方式

做出反应的智能机器,该领域的研究包括机器人、语

言识别、图像识别、自然语言处理和专家系统等。

2023-8-29 3

人工智能与机器学习



• 人工智能,Artificial Intelligence (AI)


• 机器学习,Machine Learning (ML)




由 人工智能


讨论到 机器学习!



智能 算法的研究、设计与实现 机器学习!

2023-8-29 4


• Vision-Recognition Guided Robotic


application system


Some cases


Video 1 Computer Vision and Machine Learning for Autonomous Car-like Robot


Video 2 Greyparrot uses deep vision for waste management


Video 3 Watch This AI Robot Pick Peppers With A Tiny Saw







5


Execution


Target to be recognized



Multi-degree of freedom manipulator


Robot
Image acquisition system


Control signal
习 Original Information

message

Pose information

controller
Intelligent Systems

6 A Vision Guided Robotic application system


An intelligent system based on machine vision 6



Execution




•Target to be recognized


•Multi-degree of freedom


manipulator
•Robot •Control signal


•message
•Image acquisition module
习 Original Information

•Pose information

Intelligent Systems

Controller
•An intelligent system based on machine vision

•A Vision Guided Robotic application system 7



执行



多自由度机械臂 图像采集系统(传感器)
待识别目标


原始量
测信息


控制信号
位姿信息


识别系统(特征空间)


控制柜

图 视觉识别引导的机器人应用系统示意图

(视觉)识别引导的机器人应用系统在工业机器人的基础上增加感
知识别引导系统,通过感知系统获取场景原始量测特征信息(颜色/

深度定位信息等),通过模式识别系统(上位机中)对应用目标进

行识别定位,引导机器人动作(提供目标位置,姿态和路径指导)。

8
AI意义




1. 与生物学和心理学结合,将使我们进一步解开人类智能机


制之谜。


2. 了解自身;


3. 解决许多智能问题。




AI历史---与机器学习紧密结合发展的

智能 算法的研究、设计与实现 机器学习!


2. 人工智能与机器学习



p机器学习是人工智能的一个分支,探索如何让计算机


通过经验学习提高性能。



p学习是人类智能行为的重要形式,只有让计算机系统


由类似于人的学习能力,才有可能实现人工智能的最


终目的之一---建造人工智能人。 习
p机器学习成为人工智能研究最为关注的核心议题之一。



2023-8-29 10

2. 人工智能与机器学习



• 人工智能,Artificial Intelligence (AI)


• 机器学习,Machine Learning (ML)




机器学习是


人工智能发展到一定阶段的必然产物!



2023-8-29 11

2. 人工智能与机器学习



p机器学习成为人工智能研究最为关注的核心议题之一。


p机器学习



低级阶段:机械式学习,有教师指导下的学习


高级阶段:知识发现(计算机无需教师帮助,自发发现


蕴含在客观规律中的知识)

KDD(数据库中的知识发现)从90年代起成为机器学习的

一个重要分支:如何从数据中发现和获取隐含知识。


2023-8-29 12

AI诞生



1956年夏季,以麦卡锡(McCarthy)、明斯基(Minsky)、


罗切斯特(Lochester)和香农(Shannon)等为首的一批有



远见卓识的年轻科学家在一起研讨会,共同研究和探讨用机


器模拟智能的一系列有关问题,并首次提出了“人工智能”


这一术语,它标志着“人工智能”这门新兴学科的正式诞
生。


达特茅斯会议标志着人工智能这一学科的诞生



机器学习源自“人工智能”



制留
Artificial Intelligence (AI), 1956 -

复 权保
禁 所有
1956年夏 美国达特茅斯学院

严 专用
J. McCarthy, M. Minsky, N. Lochester, C. E. Shannon, 约翰 麦卡锡

, 课程
(1927-2011)
H.A. Simon, A. Newell, A. L. Samuel 等10余人
“人工智能之父”

习 习导 论
1971年图灵奖
达特茅斯会议标志着人工智能这一学科的诞生
学 器学
John McCarthy (1927 - 2011):
部 学机

1971年获图灵奖, 1985年获IJCAI终身成就奖。人工智能之父。他提出了“人工智能”
内 京大

的概念,设计出函数型程序设计语言Lisp,发展了递归的概念,提出常识推理和情境

演算。出生于共产党家庭,从小阅读《10万个为什么》,中学时自修CalTech的数学
16

课程,17岁进入CalTech时免修两年数学,22岁在Princeton获博士学位,37岁担任
20

Stanford大学AI实验室主任。


第一阶段:推理期



制留
复 权保
1956-1960s: Logic Reasoning

禁 所有
 出发点: “数学家真聪明!”

严 专用
, 课程
赫伯特 西蒙
 主要成就: 自动定理证明系统 (例如, (1916-2001)

习 习导 论
1975年图灵奖
西蒙与纽厄尔的“Logic Theorist”
系统)
学 器学
部 学机

渐渐地,研究者们意识到,仅有逻辑
内 京大

推理能力是不够的 …

16

阿伦 纽厄尔
(1927-1992)
20

1975年图灵奖

第二阶段:知识期



制留
复 权保
1970s -1980s: Knowledge Engineering

禁 所有
爱德华 费根鲍姆
 出发点: “知识就是力量!”

严 专用
(1936- )
1994年图灵奖

, 课程
 主要成就: 专家系统 (例如,费根鲍

习 习导 论
姆等人的“DENDRAL”系统)
学 器学
部 学机

渐渐地,研究者们发现,要总结出知识再“教”给
内 京大

系统,实在太难了 …

16
20


第三阶段:学习期



制留
复 权保
1990s -now: Machine Learning

禁 所有
 出发点: “让系统自己学!”

严 专用
, 课程
 主要成就: ……

习 习导 论
机器学习是作为“突破知识工程瓶颈”
学 器学
之利器而出现的
部 学机
内 京大

恰好在20世纪90年代中后期,人类发现自己淹没在数据的汪洋

16

中,对自动数据分析技术——机器学习的需求日益迫切
20















18













19













20













21













22
Why machine learning?



Because: 机器学习已经“无处不在”



We are in a data world, and we can not analyze and use


them fully depend on ourselves. We MUST use machine
learning to assist us to do such a terrible job




In 2009,Goolge

successfully predicted that


the H1N1 outbreak in a


small town in the US.


23
机器学习已经“无处不在”



制留
复 权保
禁 所有
严 专用
入侵检测

, 课程
Web搜索

生物信息学
习 习导 论
学 器学
部 学机
内 京大

16

决策助手(DARPA)
20

火星机器人 (JPL)

汽车自动驾驶
(DARPA Grand Challenge)


今天的“机器学
习”已经是一个


经常被谈到的“深度学习”

制留
广袤的学科领域 (Deep Learning)仅是

复 权保
机器学习中的一个小分支

禁 所有
例如,这是第32届

严 专用
国际机器学习大会
的“主题领域”

, 课程
习 习导 论
学 器学
部 学机

2006年,美国CMU
(卡内基梅隆大学)
内 京大

成立“机器学习系”

16
20


3. 机器学习




3.1 什么是机器学习?



3.2 机器学习的概述


(基本要素、概念?)





2023-8-29 26

3.1 什么是机器学习




p机器学习 ( Machine Learning ML ) 是指从有限的观


测数据中学习(或“猜测”)出具有一般性的规律,


并可以将总结出来的规律应用到未观测样本上的方法。







2023-8-29 27














28
3.1 什么是机器学习










由应用模式识别系统看ML的内涵与发展

2023-8-29 29

第一章 绪论




Review




模式识别课程


Do you remember?














机器学习概述




第一章 绪论


模式识别系统






计算机分类
识别




计算机分析


32

第一章 绪论


1.5 模式识别系统











33

第一章 绪论



p机器学习是指从有限的观测数据中学习(或“猜测”)出具有一般性的


规律,并可以将总结出来的规律应用到未观测样本上的方法。



模式识别系统



由应用模式识别系统看ML的内涵与发展


p传统的机器学习主要关注于如何学习一个预测模型。



什么是机器学习



机器学习是指:从有限的观测数据中学习(或“猜测”)出具有一般性的


规律,并可以将总结出来的规律应用到未观测样本上的方法。









2023-8-29
补充内容35

1. 什么是机器学习



机器学习是指:从有限的观测数据中学习(或“猜测”)出具有一般性的


规律,并可以将总结出来的规律应用到未观测样本上的方法。









2023-8-29 36

1. 什么是机器学习










特征转换方法也

是机器学习方法

2023-8-29 p传统的机器学习主要关注于如何学习一个预测模型。 37

1. 什么是机器学习












2023-8-29 38

第一章 绪论



开发者教会他!Algorithm!!!!!!!!!



机器学习算法!模式识别算法与系统!!!!


如何教会他?




1.模式—特征表示

2.学习

39

第一章 绪论


模式识别(Pattern Recognition)的概念


Ø 模式就是要让机器自动识别的事物。


用模式识别的术语来说,所见的具体事物是样本,通过


对具体的个别事物进行观测所得到的具有时间和空间分布的


信息称为模式,把模式所属的类别或同一类中模式的总体称


为模式类(或简称类)。


习 ?X



?X
40


为什么 特征描述(特征表示)?



计算机处理!人工智能!



区分度的特征(特性)








04
第一章 绪论


模式识别(Pattern Recognition)与模式的概念


Ø 模式识别的关键


因此,首先要能从度量中看出不同事物之间的差异,才


能分辨当前要识别的事物(称为测试样本)跟哪类事物更接近。


因此找到有效地度量不同类事物的差异的方法是最关键的。



区分度的特征(特性)




42

本页图片均来源于baidu搜索引擎

Feature Representation / Description




为什么 特征描述(特征表示)?




计算机处理!人工智能! 习

区分度的特征(特性)



43


?X



?X









44
基本概念 -- 特征、标签、样本



p特征Feature、特征向量Feature vector



p标签Label 需要预测的结果,可以连续值,可以离散值



p样本Sample


?X 习



?X
45

如何实现特征表示?





特征向量、特征空间



?X





?X

04
什么是机器学习



机器学习是指:从有限的观测数据中学习(或“猜测”)出具有一般性的


规律,并可以将总结出来的规律应用到未观测样本上的方法。









2023-8-29
补充内容47

联系PR与典型的机器学习过程举例,并了解其中基本术语



制留
复 权保
使用学习算法(learning algorithm)

禁 所有
类别标记

严 专用
训练数据 (label)
训练
模型

, 课程
色泽 根蒂 敲声 好瓜

习 习导 论
青绿 蜷缩 浊响 是 决策树,神经网络,支持向量机,
乌黑 蜷缩 浊响 是 Boosting,贝叶斯网,……
青绿 硬挺 清脆 否
学 器学
乌黑 稍蜷 沉闷 否
?= 是
部 学机

新数据样本
内 京大

(浅白, 蜷缩, 浊响, ?)


类别标记

未知
16
20


基本术语



制留
• 监督学习(supervised learning)

复 权保
• 无监督学习(unsupervised learning)

禁 所有
• 假设(hypothesis)
• 真相(ground-truth)

严 专用
• 学习器(learner)

, 课程
习 习导 论 • 分类, 回归
学 器学
• 二分类, 多分类
• 数据集; 训练, 测试 • 正类, 反类
部 学机

• 示例(instance), 样例(example)

内 京大

样本(sample)
• 属性(attribute), 特征(feature); 属性值 • 未见样本(unseen instance)

属性空间, 样本空间, 输入空间 • 未知“分布”


16

• 特征向量(feature vector) • 独立同分布(i.i.d.)



20

标记空间, 输出空间 • 泛化(generalization)




机器学习—基本术语



• 1. 数据集 2. 属性、特征 3. 示例、样本 。。。











50












机器学习—基本术语


51
机器学习—基本术语



• 1. 数据集 2. 属性、特征 3. 示例、样本 。。。











52
机器学习—基本术语



• 1. 数据集 2. 属性、特征 3. 示例、样本 。。。











53
机器学习—基本术语



• 1. 数据集 2. 属性、特征 3. 示例、样本 。。。











54
机器学习—基本术语



• 1. 数据集 2. 属性、特征 3. 示例、样本 。。。











55
机器学习—基本术语



• 1. 数据集 2. 属性、特征 3. 示例、样本 。。。











56
1. 什么是机器学习



机器学习是指:从有限的观测数据中学习(或“猜测”)出具有一般性的


规律,并可以将总结出来的规律应用到未观测样本上的方法。









2023-8-29 57

1. 什么是机器学习












2023-8-29 58

由应用模式识别系统看ML的内涵与发展



1. 表示学习












1. 什么是机器学习---表示学习












2023-8-29 60

由应用模式识别系统看ML的内涵与发展



1. 表示学习

































深度学习虽然早期主要用来进行表示学习,但越来越

多地来进行处理更加复杂的推理、决策等问题。


































1.






什么是机器学习





66







特征表示的能力!

深度学习虽然早期主要用来进行表示学习,但越来越

多地来进行处理更加复杂的推理、决策等问题。




机器学习---传统机器学习、表示学习、深度学习



机器学习是指:从有限的观测数据中学习(或“猜测”)出具有一般性的


规律,并可以将总结出来的规律应用到未观测样本上的方法。


• 什么是机器学习?----- 实例,感性认识!








“肺结节检测、良恶性识别比赛”
2023-8-29 68

机器学习( Machine Learning )







1. “肺结节检测比赛”


习 2.“循证医学”(evidence-based
medicine)、精准医学和大数据研究

3. 在“循证医学”(evidence-based

medicine)中,针对特定
的临床问题,先要对相关研究报告进行

详尽评估

4. 基于放射影像组学和随机森林算
法的肺结节良恶性分类

69
“肺结节计算机辅助诊断”



应用机器学习技术,进行计算机辅助诊断



根据病理结果,标记为
“是结节”或 “不是肺结节”



对是否“肺结节”


进行预测
习 分类模型

1. “肺结节检测比赛”

2. 基于放射影像组学和随机森

林算法的肺结节良恶性分类

3. 机器学习




3.1 什么是机器学习?



3.2 机器学习的概述


(基本要素、概念?)





2023-8-29 71

3.2.1. 机器学习的相关概念



机器学习是指:从有限的观测数据中学习(或“猜测”)出具有一般性的


规律,并可以将总结出来的规律应用到未观测样本上的方法。









2023-8-29 72

3.2.1. 机器学习的相关概念












73

3.2.1. 机器学习的相关概念












74

3.2.1. 机器学习的相关概念












75

3.2.1. 机器学习的相关概念












76

3.2.1. 机器学习的相关概念












77

3.2.1. 机器学习的相关概念












2023-8-29 78

3.2.2. 机器学习的三个基本要素



机器学习是指:从有限的观测数据中学习(或“猜测”)出具有一般性的


规律,并可以将总结出来的规律应用到未观测样本上的方法。









2023-8-29 79

学习模型



机器学习是指:从有限的观测数据中学习(或“猜测”)出具有一般性的


规律,并可以将总结出来的规律应用到未观测样本上的方法。









补充内容
2023-8-29 80

学习模型 补充内容



机器学习是指:从有限的观测数据中学习(或“猜测”)出具有一般性的


规律,并可以将总结出来的规律应用到未观测样本上的方法。





建立样




2023-8-29 81

基本概念 补充内容



机器学习是指:从有限的观测数据中学习(或“猜测”)出具有一般性的


规律,并可以将总结出来的规律应用到未观测样本上的方法。









2023-8-29 82

基本概念 补充内容



机器学习是指:从有限的观测数据中学习(或“猜测”)出具有一般性的


规律,并可以将总结出来的规律应用到未观测样本上的方法。









2023-8-29 83

3. 机器学习的三个基本要素



p机器学习方法分为三个基本要素:模型、学习准则、优化算法。








Review

模型、学习准则、 优化算法 基本概念


2023-8-29   arg min J ( )



84


3. 机器学习的三个基本要素



p机器学习方法分为三个基本要素:模型、学习准则、优化算法。








补充内容

模型、学习准则、 优化算法 基本概念


2023-8-29   arg min J ( )



85


3.2.2. 机器学习的三个基本要素














3.2.2. 机器学习的三个基本要素














3.2.2. 机器学习的三个基本要素














3.2.2. 机器学习的三个基本要素



机器学习是指:从有限的观测数据中学习(或“猜测”)出具有一般性的


规律,并可以将总结出来的规律应用到未观测样本上的方法。









2023-8-29 89

3.2.1. 机器学习的三个基本要素



p 机器学习方法分为三个基本要素:模型、学习准则、优化算法。


后面课程详细讲授









2023-8-29 90

3.2.3. 机器学习算法类型














3.2.3. 机器学习算法类型-task














3.2.3. 机器学习算法类型-task














3.2.3. 机器学习算法类型-task














3.2.3. 机器学习算法类型-task














3.2.3. 机器学习算法类型-task














3.2.3. 机器学习算法类型-model














3.2.3. 机器学习算法类型-方法














Review


监督学习与非监督学习



• 监督学习与非监督学习的最大区别在于


训练样本是否有类别标号,无类别标号


的称为非监督学习;



• 监督学习与无监督学习也被称为有教师

学习与无教师学习。





3.2.3. 机器学习算法类型-方法



























101


Age








Size

不致 致癌



102
3.2.3. 机器学习算法类型-方法














3.2.3. 机器学习算法类型-方法














Semi-supervised learning (SSL)



The teacher gives an incomplete training signal: a



training set with some (often many) of the target


outputs missing.



它主要考虑如何利用少量的标注样本和大量的未标注


样本进行训练和分类的问题。主要分为半监督分类,

半监督回归,半监督聚类和半监督降维算法。


105
3.2.3. 机器学习算法类型














3.2.3. 机器学习算法类型














3.2.3. 机器学习算法类型














3.2.3. 机器学习算法类型

















Unsupervised learning is the


machine learning task of inferring Age
a function to describe hidden


structure from unlabeled


data.(From Wikipedia)


数据并不被特别标识,学习模型是为 习
了推断出数据的一些内在结构。常

见的应用场景包括关联规则的学

习以及聚类等。常见算法包括
k-Means算法和Apriori算法。……

Size

110

非监督学习的广泛应用


Review
























非监督学习的广泛应用














非监督学习的广泛应用



































































3.2.3. 机器学习算法类型














3.2.3. 机器学习算法类型














3.2.3. 机器学习算法类型














3.2.3. 机器学习算法类型














3.2.3. 机器学习算法类型














Supervised v.s. Reinforcement




• Supervised


“Hello” Say “Hi”
Learning from


teacher “Bye bye” Say “Good bye”


• Reinforcement


……. ……. ……

Hello  …… Bad

Learning from

critics Agent Agent



Supervised v.s. Reinforcement




• Supervised:



Next Next


move: move:


习“5-5” “3-3”

• Reinforcement Learning

First move …… many moves Win!


……

Alpha Go is supervised learning + reinforcement learning.



3.2.3. 机器学习算法类型-方法














3.2.3. 机器学习算法类型-方法
















1. Python(Pytorch,TensorFlow, Keras… )



2. C++



3. Matlab



……

……



128

致谢与说明



• 本章课件标有“南京大学机器学习导论课程专用


所有权保留”的页面所有权属南京大学。


• 课件部分内容来自《Introduction of Machine


Learning 台湾Dr. Hung-yi Lee》



• 课件仅限本课堂内部教学使用,不用商业用途。

• 课件仅限本课堂内部教学使用,勿转载或作他用。



You might also like