深度学习四大技术路线图谱

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 61

深度学习,四大技术路线图谱

https://blog.csdn.net/qq_42722197/article/details/119847629

自然语言处理很多时候都是一门综合性的学问,它远远不止机器学习算法。相比图像或语音,

文本的变化更加复杂,例如从预处理来看,NLP 就要求我们根据对数据的理解定制一种流程。

而且相比图像等更偏向感知的智能,自然语言包含更高一级的智能能力,不论是承载思想、

情感还是推理。

那么我们该怎样学习自然语言处理,有什么比较好的路线吗?通常而言,在数学和机器学习的

基础上,我们还需要了解自然语言的规则与现象,这样才能进一步探讨该怎样处理自然语言。

本文介绍刚刚发布的一个开源项目,韩国庆熙大学本科生 Tae-Hwan Jung 总结了一套 NLP

的技术路线图。值得注意的是,Tae-Hwan Jung 此前已经开源了很多优秀的项目,包括

4.3k+ star k+ star 量的 NLP 教程。

● 项目地址:https://github.com/graykode/nlp-roadmap

Tae-Hwan Jung 表示,本项目面向对 NLP 感兴趣的学生,该路线图提供了学习 NLP 的思维

导图及关键词信息,它覆盖了从概率/统计到 SOTA NLP 模型的素材。


如上所示为 NLP 的技术基石,最基础的当然还是数学和算法方面的知识,此外语言学和机器

学习知识也必不可少。再往上主要是文本挖掘与 NLP,在作者看来,前者更偏向于常规的算

法与浅层机器学习模型,后者更偏向于深度学习模型。

四大技术线路图

如下从概率和统计到深度学习方法展示了四大技术路线图,它们从基石到高层展示了完整的知

识领域。
概率与统计
机器学习
文本挖掘
自然语言处理
注意:

● 关键词之间的关系可能解释得比较模糊,因为是以语义思维导图的方式表示的。
读者们只需要看方框内的关键词就行,把它们当作必学部分;
● 在一张图中容纳如此多的关键词和知识点,非常的难,因此,请切记该路线图只
是一种思路或者建议;

下载 1:OpenCV-Contrib 扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份 OpenCV 扩展

模块教程中文版,涵盖扩展模块安装、SFM 算法、立体视觉、目标跟踪、生物视觉、超分辨

率处理等二十多章内容。

下载 2:Python 视觉实战项目 52 讲

在「小白学视觉」公众号后台回复:Python 视觉实战项目,即可下载包括图像分割、口罩

检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、

面部识别等 3k+ star 1 个视觉实战项目,助力快速学校计算机视觉。

下载 3k+ star :OpenCV 实战项目 20 讲

在「小白学视觉」公众号后台回复:OpenCV 实战项目 20 讲,即可下载含有 20 个基于

OpenCV 实现 20 个实战项目,实现 OpenCV 学习进阶。

深度学习的 12 张思维导图
https://www.shangyexinzhi.com/article/160386.html

【磐创 AI 导读】 本文以思维导图的形式,为大家介绍了深度学习的核心内容,主要包

括: 深度学习基础、神经网络介绍、CNN 从入门到应用、

Caffe、Tensorflow、Pytorch 等深度学习框架、词向量、循环神经网络、RNN

条件生成与 Attention、对抗生成网络、增强学习、迁移学习 ; 公众号后台回复 关


键字 “ 0703 ” 可获取已经打包好的 全部导图文件 。 本文的主要知识内容源于七月

在线的 《深度学习第四期》 , 经授权发布, 另感谢 海阔天空 的学习笔记。

导图总览

https://cloud.tencent.com/developer/article/23k+ star 51907

深度学习基础

CNN 入门

CNN 高级应用

深度学习框架

词向量与 NLP 分类问题

循环神经网络

RNN 条件生成与 Attention

对抗生成网络

增强学习

迁移学习

深度学习线路图
https://blog.csdn.net/yizheyouye/article/details/90314024

深度学习是机器学习的一种形式,它允许计算机从经验中学习并从概念层次理解事物,其中每
个概念都是从更简单的概念定义的。这种方法避免了人类需要指定计算机所需的所有知识。概
念的层次结构允许计算机通过具有多个层的深度设置将它们彼此叠加在一起来学习复杂的概念。

第一部分:应用数学
在学习深度学习时,您需要学习的第一件事是应用数学,这是深度学习的基础组成部分。

线性代数
线性代数是数学的一个分支,在整个工程中被广泛使用。然而,由于它不是离散数学的一种形
式,许多计算机科学家对它没有多少经验。对线性代数的充分理解对于理解和使用许多机器学
习算法至关重要,特别是那些涉及深度学习的算法。

从线性代数中了解对象:
标量、向量、矩阵、张量、乘法矩阵和向量、同一性和逆矩阵、线性相关性和跨度、规范、特
殊矩阵和向量、特征分解、奇异值分解、Moore-Penrose 伪逆、跟踪算子和决定因素。

概率论和信息论
概率论是我们用来表示不确定性的数学概念。它提供了一种量化不确定性的方法。在 AI 应用
程序中,我们以两种主要方式使用概率:
首先是它告诉我们的 AI 系统应该如何推理。
第二,我们可以使用概率和统计来分析所提出的 AI 系统的行为。

从概率中了解的对象:
随机变量、概率分布、边际概率、条件概率、条件概率链规则、独立性和条件独立性、期望、
方差和协方差、常见概率分布,常用函数的有用属性、贝叶斯规则、连续变量、信息论、概率
论模型。

机器学习的数值计算
机器学习算法几乎总是需要大量的数值计算。这通常是指 ML 算法将用于解决数学问题的迭代
过程。常见操作包括优化(找到最小化和最大化某些功能的值)以及求解线性模型和方程组。

学习机器学习中的数值计算的主题:
溢出和下溢、调节,基于梯度的优化和约束优化
机器学习基础
深度学习真的是一种特殊的机器学习方式。要理解深度学习,必须对机器学习有扎实的理解。
您需要了解诸如学习算法之类的内容,例如线性回归算法,如何针对该算法适当的拟合数据,
查找该数据中的模式以及超参数调整。机器学习最终只是非常复杂的应用统计,它使用计算机,
因为它们可以更容易地估计复杂的函数。

学习机器学习的对象
学习算法、容量、过度拟合、欠拟合、超参数、验证集、估计器、偏方差、方差、最大似然、
贝叶斯统计、监督学习算法、无监督学习算法、随机梯度下降、构建机器学习算法。

第二部分 :深度学习现代实践
深度学习为监督学习提供了强大的框架。通过创建神经网络并在每个层中添加更多层和更多单
元,您可以表示越来越复杂的功能。

深度前馈网络
深度前馈网络,也称为前馈神经网络,或者多层感知机,是典型的深度学习模型。这些前馈网
络之一的目标是近似某个函数 f。

从深度前馈网络学习的目标:
基于梯度的学习、隐藏单元、体系结构设计、反向传播、其他差分算法

深度学习的正规化
机器学习中的一个常见问题是如何创建一种算法,该算法不仅可以在训练数据上运行,而且还
可以在新输入的数据上运行良好。ML 中的许多策略旨在通常以增加的训练错误为代价来减少
测试错误。这些策略称为正规化。深度学习的许多目标之一就是制定更有效的正规化策略。

学习正规化深度学习的对象
参数范数、规范惩罚作为约束优化,正则化和欠约束问题、数据集增强、噪声鲁棒性、半监督
学习、多任务学习、参数绑定、参数共享、稀疏表示、其他集合方法、Dropout、对抗训练、
切线距离、切线支柱、流形切线分类器。

深度模型训练的优化
深度学习模型涉及多种方式的优化。例如,主成分分析等模型中的推理涉及解决优化问题。深
度学习中最困难的优化问题是神经网络训练。
从深度模型训练优化中学习的对象:
学习与纯优化,神经网络优化中的挑战,基本算法,参数初始化策略,自适应学习率算法,近
似二阶方法,优化策略和元算法

卷积神经网络(CNN)
卷积神经网络是一种专门用于处理具有已知网格状拓扑的数据的神经网络。这样的例子是时间
序列数据,其可以是以规则时间间隔采样的 1-D 网格,并且我们还具有可以被认为是 2-D 像
素网格的图像。卷积是一种特殊的线性操作。

要学习 CNN 的对象:


卷积运算、Motivation、Pooling、Convolution、Pooling、基本卷积函数的变量、结构化
输出、数据类型、高效卷积算法以及随机或无监督特征

递归神经网络(RNN)
递归神经网络是用于处理顺序数据的神经网络家族。这些非常类似于 CNN,因为它专门用于
处理值网格,但是它们使用系统来处理一系列值并在它们之间进行推广。

学习 RNN 的对象:
展开计算图、双向 RNN、编码器-解码器序列到序列架构、深度递归网络、递归神经网络、长
期依赖性的挑战、回声状态网络、泄露单元和多时间尺度的其它策略、LSTM 和其他 RNN、
长期依赖性优化、显示内存。

深度学习方法论
成功应用深度学习技术不仅需要了解存在哪些算法以及解释它们如何工作的原理。在机器学习
系统的日常开发过程中,从业者需要了解是否收集更多数据,增加或减少模型复杂性,添加删
除函数,改进模型优化,改进模型中的近似推理,或调试模型的实施,等等。所有这些都非常
耗时,因此能够确定正确的行动方案非常重要。

深度学习方法的对象:
性能指标、默认基准模型、确定是否收集更多数据、选择超参数和调试策略

深度学习应用
深度学习可以用于解决计算机视觉、语音识别、自然语言处理和其他领域中的应用。在设计算
法时,每个任务都需要一定程度的专业化。

深度学习应用的对象
大规模深度学习、计算机视觉、语音识别、自然语言处理
深度学习研究主题
本节将列出更具有先进的深度学习方法的对象。

线性因子模型
概率 PCA 和因子分析、独立分量分析(ICA)、慢特征分析、稀疏编码和 PCA 的流形解释。

自动编码
欠完备自动编码器,正则化自动编码器,表征功率,层大小和深度,随机编码器和解码器,去
噪自动编码器,带自动编码器的流形学习,压缩自动编码器,预测稀疏分解和自动编码器的应

表征学习
贪婪的层次智能无监督预训练,转移学习和领域适应,因果因素的半监督解开,分布式表示,
深度的指数增益,以及发现根本原因的线索。

深度学习的结构化概率模型
非结构化建模的挑战,使用图形描述模型结构,从图形模型中抽样,结构化建模的优势,学习
依赖性,推理和近似推理,以及结构化概率模型的深度学习方法。

蒙特卡洛方法
采样和蒙特卡罗方法,重要性采样,马尔可夫链蒙特卡罗方法,吉布斯采样以及分离模式之间
混合的挑战

分区函数
对数似然梯度,随机最大似然和对比发散,Psuedolometric,分数匹配和比率匹配,去噪分
数匹配,噪声对比估计和估计分区函数

近似推论
推理作为优化,期望最大化,地图推理和稀疏编码,变分推理和学习,以及学习的近似推理

深度生成模型
玻尔兹曼机器、受限玻尔兹曼机器、深信念网络、深玻尔兹曼机器、用于实值数据的玻尔兹曼
机器、卷积玻尔兹曼机器、用于结构或顺序输出的玻尔兹曼机器、其他玻尔兹曼机器、通过随
机操作的反向传播、定向生成网络,从自动编码器,生成随机网络,其他生成方案和评估生成
模型中抽取样本。

所有这些信息将导致对深度学习的深刻理解。
完备的 AI 学习路线,最详细的资源整理!
https://blog.csdn.net/zl1zl2zl3/article/details/89644692

来自:Datawhale(微信号:Datawhale)

【导读】

本文由知名开源平台,AI 技术平台以及领域专家:Datawhale,ApacheCN,AI 有道和黄


海广博士联合整理贡献,内容涵盖 AI 入门基础知识、数据分析挖掘、机器学习、深度学习、
强化学习、前沿 Paper 和五大 AI 理论应用领域:自然语言处理,计算机视觉,推荐系统,风
控模型和知识图谱。是你学习 AI 从入门到专家必备的学习路线和优质学习资源。

基础知识
1 数学

数学是学不完的,也没有几个人能像博士一样扎实地学好数学基础,入门人工智能领域,其实

只需要掌握必要的基础知识就好。AI 的数学基础最主要是高等数学、线性代数、概率论与数

理统计三门课程,这三门课程是本科必修的。这里整理了一个简易的数学入门文章:

数学基础:高等数学
https://zhuanlan.zhihu.com/p/36311622

数学基础:线性代数
https://zhuanlan.zhihu.com/p/36584206

数学基础:概率论与数理统计
https://zhuanlan.zhihu.com/p/36584335

机器学习的数学基础资料下载:

1) 机器学习的数学基础.docxdocx

中文版,对高等数学、线性代数、概率论与数理统计三门课的公式做了总结。

2) 斯坦福大学机器学习的数学基础.docxpdf

原版英文材料,非常全面,建议英语好的同学直接学习这个材料。

下载链接:
https://pan.baidu.com/s/1LaUlrJzy98CG1Wma9FgBtg 提取码: hktx

国外经典数学教材:
相比国内浙大版和同济版的数学教材更加通俗易懂,深入浅出,便于初学者更好地奠定数学基
础。下载链接:
https://blog.csdn.net/Datawhale/article/details/81744961

2 统计学

入门教材:深入浅出统计学

进阶教材:商务与经济统计

推荐视频:可汗学院统计学
http://open.163.com/special/Khan/khstatistics.html

3 编程

入门人工智能领域,首推 Python 这门编程语言。

1) Python 安装:

Python 安装包,我推荐下载 Anaconda,Anaconda 是一个用于科学计算的

Python 发行版,支持 Linux, Mac, Windows 系统,提供了包管理与环境管理的功能,

可以很方便地解决多版本 Python 并存、切换以及各种第三方包安装问题。

下载地址:

https://www.anaconda.com/download/

推荐选 Anaconda (python 3k+ star .7 版本)

IDE:推荐使用 pycharm,社区版免费

下载地址:https://www.jetbrains.com/

安装教程:

Anaconda+Jupyter notebook+Pycharm:

https://zhuanlan.zhihu.com/p/59027692

Ubuntu18.04 深度学习环境配置(CUDA9+CUDNN7.4+TensorFlow1.8)CUDA9+CUDNN7.4+TensorFlow1.8):

https://zhuanlan.zhihu.com/p/50302396

2) python 入门的资料推荐

a.廖雪峰 python 学习笔记


https://blog.csdn.net/datawhale/article/category/7779959

b.python 入门笔记

作者李金,这个是 jupyter notebook 文件,把 python 的主要语法演示了一次,值

得推荐。下载链接:

https://pan.baidu.com/s/1IPZI5rygbIh5R5OuTHajzA 提取码: 2bzh

c.南京大学 python 视频教程

这个教程非常值得推荐,python 主要语法和常用的库基本涵盖了。

查看地址:

https://www.icourse163.org/course/0809NJU004-1001571005?from=study

看完这三个资料后 python 基本达到入门水平,可以使用 scikit-learn 等机器学习库

来解决机器学习的问题了。

3)补充

代码规范:

https://zhuanlan.zhihu.com/p/59763076

numpy 练习题:

https://zhuanlan.zhihu.com/p/57872490

pandas 练习题:

https://zhuanlan.zhihu.com/p/56644669

数据分析/挖掘
1 数据分析的基础书籍

《利用 python 进行数据分析》

这本书含有大量的实践案例,你将学会如何利用各种 Python 库(包括

NumPy,Pandas、Matplotlib 以及 IPython 等)高效地解决各式各样的数据分析问

题。如果把代码都运行一次,基本上就能解决数据分析的大部分问题了。

2 特征工程

https://blog.csdn.net/Datawhale/article/details/83033869

3 数据挖掘项目

https://blog.csdn.net/datawhale/article/details/80847662

机器学习
公开课

吴恩达《Machine Learning》

这绝对是机器学习入门的首选课程,没有之一!即便你没有扎实的机器学习所需的扎

实的概率论、线性代数等数学基础,也能轻松上手这门机器学习入门课,并体会到机
器学习的无穷趣味。

课程主页:

https://www.coursera.org/learn/machine-learning

中文视频:

网易云课堂搬运了这门课,并由黄海广等人翻译了中文字幕。

中文笔记及作业代码:

https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes

公开课

吴恩达 CS229

吴恩达在斯坦福教授的机器学习课程 CS229 与 吴恩达在 Coursera 上的《Machine

Learning》相似,但是有更多的数学要求和公式的推导,难度稍难一些。该课程对机

器学习和统计模式识别进行了广泛的介绍。

课程主页:

http://cs229.stanford.edu/

中文视频:

http://open.163.com/special/opencourse/machinelearning.html

中文笔记:

https://kivy-cn.github.io/Stanford-CS-229-CN/#/

速查表:

这份给力的资源贡献者是一名斯坦福的毕业生 Shervine Amidi。作者整理了一份超


级详细的关于 CS229 的速查表

https://zhuanlan.zhihu.com/p/56534902

作业代码:

https://github.com/Sierkinhane/CS229-ML-Implements

公开课

林轩田《机器学习基石》

台湾大学林轩田老师的《机器学习基石》课程由浅入深、内容全面,基本涵盖了机器

学习领域的很多方面。其作为机器学习的入门和进阶资料非常适合。而且林老师的教

学风格也很幽默风趣,总让读者在轻松愉快的氛围中掌握知识。这门课比 Ng 的

《Machine Learning》稍难一些,侧重于机器学习理论知识。

中文视频:

https://www.bilibili.com/video/av36731342

中文笔记:

https://redstonewill.com/category/ai-notes/lin-ml-foundations/

配套教材

配套书籍为《Learning From Data》,在线书籍主页:http://amlbook.com/

公开课

林轩田《机器学习技法》

《机器学习技法》课程是《机器学习基石》的进阶课程。主要介绍了机器学习领域经

典的一些算法,包括支持向量机、决策树、随机森林、神经网络等等。难度要略高于

《机器学习基石》,具有很强的实用性。
中文视频:

https://www.bilibili.com/video/av36760800

中文笔记:

https://redstonewill.com/category/ai-notes/lin-ml-techniques/

书籍

《机器学习》

周志华的《机器学习》被大家亲切地称为“西瓜书”。这本书非常经典,讲述了机器

学习核心数学理论和算法,适合有作为学校的教材或者中阶读者自学使用,入门时学

习这本书籍难度稍微偏高了一些。

配合《机器学习实战》一起学习,效果更好!

读书笔记:

https://www.cnblogs.com/limitlessun/p/8505647.html#_label0

公式推导:

https://datawhalechina.github.io/pumpkin-book/#/

课后习题:

https://zhuanlan.zhihu.com/c_1013850291887845376

书籍

《统计学习方法》

李航的这本《统计学习方法》堪称经典,包含更加完备和专业的机器学习理论知识,

作为夯实理论非常不错。
讲课 PPT:

https://github.com/fengdu78/lihang-code/tree/master/ppt

读书笔记:

http://www.cnblogs.com/limitlessun/p/8611103.html

https://github.com/SmirkCao/Lihang

参考笔记:

https://zhuanlan.zhihu.com/p/36378498

代码实现:

https://github.com/fengdu78/lihang-code/tree/master/code

书籍

《Scikit-Learn 与 TensorFlow 机器学习实用指南》

在经过前面的学习之后,这本《Scikit-Learn 与 TensorFlow 机器学习实用指南》非

常适合提升你的机器学习实战编程能力。

这本书分为两大部分,第一部分介绍机器学习基础算法,每章都配备 Scikit-Learn 实

操项目;第二部分介绍神经网络与深度学习,每章配备 TensorFlow 实操项目。如果

只是机器学习,可先看第一部分的内容。

Hands-on Machine Learning With Scikit-Learn & TensorFlow

全书代码:

https://github.com/ageron/handson-ml

实战
Kaggle 比赛

比赛是提升自己机器学习实战能力的最有效的方式,首选 Kaggle 比赛。

Kaggle 主页:

https://www.kaggle.com/

Kaggle 路线:

https://github.com/apachecn/kaggle

工具

Scikit-Learn 官方文档

Scikit-Learn 作为机器学习一个非常全面的库,是一份不可多得的实战编程手册。

官方文档:

https://scikit-learn.org/stable/index.html

中文文档(0.docx19):

http://sklearn.apachecn.org/#/
公开课

吴恩达《Deep Learning》

在吴恩达开设了机器学习课程之后,发布的《Deep Learning》课程也备受好评,吴

恩达老师的课程最大的特点就是将知识循序渐进的传授给你,是入门学习不可多得良

好视频资料。

整个专题共包括五门课程:01.神经网络和深度学习;02.改善深层神经网络-超参数调

试、正则化以及优化;03k+ star .结构化机器学习项目;04.卷积神经网络;05.序列模型。

课程视频
网易云课堂:

https://mooc.study.163.com/university/deeplearning_ai#/c

Coursera:

https://www.coursera.org/specializations/deep-learning

课程笔记

之前编写过吴恩达老师机器学习个人笔记黄海广博士带领团队整理了中文笔记:

https://github.com/fengdu78/deeplearning_ai_books

参考论文

吴恩达老师在课程中提到了很多优秀论文,黄海广博士整理如下:

https://github.com/fengdu78/deeplearning_ai_books/tree/master/%E5%8F
%82%E8%80%83%E8%AE%BA%E6%96%87

课程 PPT 及课后作业

吴恩达深度学习课程,包含课程的课件、课后作业和一些其他资料:

https://github.com/stormstone/deeplearning.ai

公开课

Fast.ai《程序员深度学习实战》

说到深度学习的公开课,与吴恩达《Deep Learning》并驾齐驱的另一门公开课便是

由 Fast.ai 出品的《程序员深度学习实战》。这门课最大的特点便是“自上而下”而

不是“自下而上”,是绝佳的通过实战学习深度学习的课程。

视频地址
B 站地址(CUDA9+CUDNN7.4+TensorFlow1.8)英文字幕):

https://www.bilibili.com/video/av18904696?
from=search&seid=10813837536595120136

CSDN 地址(CUDA9+CUDNN7.4+TensorFlow1.8)2017 版中文字幕):

https://edu.csdn.net/course/detail/5192

课程笔记

英文笔记原文:

https://medium.com/@hiromi_suenaga/deep-learning-2-part-1-lesson-1-
602f73869197

由 ApacheCN 组织的中文翻译:

https://github.com/apachecn/fastai-ml-dl-notes-zh

公开课

CS230 Deep Learning

斯坦福的深度学习课程 CS23k+ star 0 在 4 月 2 日刚刚开课,对应的全套 PPT 也随之上线。

从内容来看,今年的课程与去年的差别不大,涵盖了 CNNs, RNNs, LSTM, Adam,

Dropout, BatchNorm, Xavier/He initialization 等深度学习的基本模型,涉及医

疗、自动驾驶、手语识别、音乐生成和自然语言处理等领域。

Datawhale 整理了该门课程的详细介绍及参考资料:

吴恩达 CS230 深度学习开课了!视频配套 PPT 应有尽有

书籍

神经网络与深度学习 - 复旦邱锡鹏
本书是入门深度学习领域的极佳教材,主要介绍了神经网络与深度学习中的基础知识、

主要模型(前馈网络、卷积网络、循环网络等)以及在计算机视觉、自然语言处理等

领域的应用。

复旦教授邱锡鹏开源发布《神经网络与深度学习》

书籍

《深度学习》

完成以上学习后,想要更加系统的建立深度学习的知识体系,阅读《深度学习》准没

错。该书从浅入深介绍了基础数学知识、机器学习经验以及现阶段深度学习的理论和

发展,它能帮助人工智能技术爱好者和从业人员在三位专家学者的思维带领下全方位

了解深度学习。

书籍介绍

《深度学习》通常又被称为花书,深度学习领域最经典的畅销书。由全球知名的三位

专家 IanGoodfellow、YoshuaBengio 和 AaronCourville 撰写,是深度学习领域奠

基性的经典教材。该书被大众尊称为“AI 圣经”。

在线阅读

该书由众多网友众包翻译,电子版在以下地址获得:

https://github.com/exacity/deeplearningbook-chinese

书籍

《深度学习 500 问》

当你看完了所有的视频,研习了 AI 圣经,一定充满了满脑子问号,此时不如来深度学

习面试中常见的 500 个问题。


书籍介绍

DeepLearning-500-questions,作者是川大的一名优秀毕业生谈继勇。该项目以深

度学习面试问答形式,收集了 500 个问题和答案。内容涉及了常用的概率知识、线性

代数、机器学习、深度学习、计算机视觉等热点问题,该书目前尚未完结,却已经收

获了 Github 2.4w stars。

项目地址:

https://github.com/scutan90/DeepLearning-500-questions

工具

TensorFlow 官方文档

学深度学习一定离不开 TensorFlow

官方文档:

https://www.tensorflow.org/api_docs/python/tf

中文文档:

https://github.com/jikexueyuanwiki/tensorflow-zh

工具

PyTorch 官方文档

PyTorch 是学深度学习的另一个主流框架

官方文档:

https://pytorch.org/docs/stable/index.html

中文文档(版本 0.docx3):
https://github.com/apachecn/pytorch-doc-zh

强化学习

公开课

Reinforcement Learning-David Silver

与吴恩达的课程对于机器学习和深度学习初学者的意义相同,David Silver 的这门课

程绝对是大多数人学习强化学习必选的课程。

课程从浅到深,把强化学习的内容娓娓道来,极其详尽。不过由于强化学习本身的难

度,听讲这门课还是有一定的门槛,建议还是在大致了解这个领域之后观看该视频学

习效果更佳,更容易找到学习的重点。

视频地址

B 站地址(CUDA9+CUDNN7.4+TensorFlow1.8)中文字幕):
https://www.bilibili.com/video/av45357759?
from=search&seid=9547815852611563503

课程原地址:

https://www.youtube.com/watch?v=2pWv7GOvuf0

课程资料

课程 PPT:

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

课程笔记:

https://www.zhihu.com/people/qqiang00/posts

公开课

李宏毅《深度强化学习》

David Silver 的课程虽然内容详尽,但前沿的很多内容都没有被包括在内,这时,台

大李宏毅的《深度强化学习》就是学习前沿动态的不二之选。

视频地址

B 站地址(CUDA9+CUDNN7.4+TensorFlow1.8)中文字幕):

https://www.bilibili.com/video/av24724071?
from=search&seid=9547815852611563503

课程原地址:

https://www.youtube.com/watch?v=2pWv7GOvuf0

课程资料
课程 PPT:

http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html

课程笔记:

https://blog.csdn.net/cindy_1102/article/details/87905272

前沿 Paper

1 Arxiv

Arxiv Stats

Arxiv 机器学习最新论文检索主页地址:

https://arxiv.org/list/stat.ML/recent?ref=bestofml.com
Arxiv Sanity Preserver

Andrej Karpathy 开发了 Arxiv Sanity Preserver,帮助分类、搜索和过滤特征

主页地址:

http://www.arxiv-sanity.com/?ref=bestofml.com

2 Papers with Code

Papers with Code(Browse state-of-the-art)

这个网站叫做 Browse state-of-the-art。它将 ArXiv 上的最新深度学习论文与

GitHub 上的开源代码联系起来。该项目目前包含了 651 个排行榜,1016 个深度学

习任务,795 个数据集,以及重磅的 10257 个含复现代码的优秀论文。简直就是一

个寻找论文和代码的利器。它将 1016 个深度学习任务分成了 16 大类,涉及了深度

学习的各个方面。

主页地址:

https://paperswithcode.com/sota

举两个例子:

CV:

https://paperswithcode.com/area/computer-vision

NLP:

https://paperswithcode.com/area/natural-language-processing

Papers with Code(Sorted by stars)

这份资源收集了 AI 领域从 2013k+ star - 2018 年所有的论文,并按照在 GitHub 上的标星


数量进行排序。

GitHub 项目地址:

https://github.com/zziz/pwc

3 Deep Learning Papers 阅读路线

如果你是深度学习领域的新手,你可能会遇到的第一个问题是“我应该从哪篇论文开

始阅读?”下面是一个深入学习论文的阅读路线图!

GitHub 项目地址:

https://github.com/floodsung/Deep-Learning-Papers-Reading-Roadmap

这份深度学习论文阅读路线分为三大块:

1 Deep Learning History and Basics

2 Deep Learning Method

3 Applications

4 Deep Learning Object Detection

目标检测(Object Detection)是深度学习 CV 领域的一个核心研究领域和重要分支。

纵观 2013k+ star 年到 2019 年,从最早的 R-CNN、Fast R-CNN 到后来的 YOLO

v2、YOLO v3k+ star 再到今年的 M2Det,新模型层出不穷,性能也越来越好!

本资源对目标检测近几年的发展和相关论文做出一份系统介绍,总结一份超全的文献

paper 列表。
GitHub 项目地址:

https://github.com/hoya012/deep_learning_object_detection

5 知名会议

会议

NeurIPS:https://nips.cc/

ICML:https://icml.cc/

ICLR:https://iclr.cc/
AAAI:https://aaai.org/Conferences/AAAI-19/

IJCAI:https://www.ijcai.org/

UAI:http://www.auai.org/uai2019/index.php

计算机视觉:

CVPR:http://cvpr2019.thecvf.com/

ECCV:https://eccv2018.org/program/main-conference/

ICCV:http://iccv2019.thecvf.com/

自然语言处理:

ACL:http://www.aclcargo.com/

EMNLP:https://www.aclweb.org/portal/content/emnlp-2018

NAACL:https://naacl2019.org/

知名期刊:

JAIR:https://www.jair.org/index.php/jair

JMLR:http://www.jmlr.org/

其它

机器人方面,有 CoRL(学习)、ICAPS(规划,包括但不限于机器人)、

ICRA、IROS、RSS;

对于更理论性的研究,有 AISTATS、COLT、KDD。
理论应用
自然语言处理

1 NLP 是什么

自然语言处理(NLP,Natural Language Processing)是研究计算机处理人类语言

的一门技术,目的是弥补人类交流(自然语言)和计算机理解(机器语言)之间的差

距。NLP 包含句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、问答系统

和对话系统等领域。

2 课程推荐

CS224n 斯坦福深度自然语言处理课

17 版中文字幕:

https://www.bilibili.com/video/av41393758/?p=1

课程笔记:

http://www.hankcs.com/?s=CS224n%E7%AC%94%E8%AE%B0

2019 版课程主页:

http://web.stanford.edu/class/cs224n/

自然语言处理 - Dan Jurafsky 和 Chris Manning

B 站英文字幕版:

https://www.bilibili.com/video/av35805262/

学术激流网:

http://academictorrents.com/details/d2c8f8f1651740520b7dfab23438d89bc8c0c0ab
3k+ star 书籍推荐

Python 自然语言处理

入门读物,整本书不仅涉及了语料库的操作,也对传统的基于规则的方法有所涉及。

全书包括了分词(tokenization)、词性标注(POS)、语块(Chunk)标注、句法

剖析与语义剖析等方面,是 nlp 中不错的一本实用教程。

自然语言处理综论

By Daniel Jurafsky 和 James H. Martin

本书十分权威,是经典的 NLP 教科书,涵盖了经典自然语言处理、统计自然语言处理、

语音识别和计算语言学等方面。

统计自然语言处理基础

By Chris Manning 和 HinrichSchütze

更高级的统计 NLP 方法,在统计基本部分和 n 元语法部分介绍得都很不错。

4 博客推荐

我爱自然语言处理

地址:http://www.52nlp.cn/

TFIDF、文档相似度等等在这个网站上都有通俗易懂的解释

语言日志博客(Mark Liberman)

地址:

http://languagelog.ldc.upenn.edu/nll/
natural language processing blog

地址:https://nlpers.blogspot.com/

美国 Hal Daumé III 维护的一个 natural language processing 的 博客,经常评论

最新学术动态,值得关注。有关于 ACL、NAACL 等学术会议的参会感想和对论文的

点评

5 项目推荐

基于 LSTM 的中文问答系统

https://github.com/S-H-Y-GitHub/QA

基于 RNN 的文本生成器

https://github.com/karpathy/char-rnn

基于 char-rnn 的汪峰歌词生成器

https://github.com/phunterlau/wangfeng-rnn

用 RNN 生成手写数字

https://github.com/skaae/lasagne-draw

6 开源 NLP 工具包

中文 NLP 相关:https://github.com/crownpku/Awesome-Chinese-NLP

英文 NLP 相关:

NLTK: http://www.nltk.org/

TextBlob: http://textblob.readthedocs.org/en/dev/

Gensim: http://radimrehurek.com/gensim/
Pattern: http://www.clips.ua.ac.be/pattern

Spacy: http://spacy.io

Orange: http://orange.biolab.si/features/

Pineapple: https://github.com/proycon/pynlpl

7 相关论文

100 Must-Read NLP Papers

https://github.com/mhagiwara/100-nlp-papers

计算机视觉

1 计算机视觉的应用

2 课程推荐

Stanford CS223B

比较适合基础,适合刚刚入门的同学,跟深度学习的结合相对来说会少一点,不会整
门课讲深度学习,而是主要讲计算机视觉,方方面面都会讲到

李飞飞:CS23k+ star 1n 课程:

https://mp.weixin.qq.com/s/-NaDpXsxvu4DpXqVNXIAvQ

3k+ star 书籍推荐

1.入门学习:

《Computer Vision:Models, Learning and Inference》

2.经典权威的参考资料:

《Computer Vision:Algorithms and Applications》

3k+ star .理论实践:

《OpenCV3k+ star 编程入门》

推荐系统

1 推荐系统是什么

推荐系统就是自动联系用户和物品的一种工具,它能够在信息过载的环境中帮助用户

发现令他们感兴趣的信息,也能将信息推送给对它们感兴趣的用户。推荐系统属于资

讯过滤的一种应用。

2 推荐课程

推荐系统专项课程《Recommender Systems Specialization》

这个系列由 4 门子课程和 1 门毕业项目课程组成,包括推荐系统导论,最近邻协同过

滤,推荐系统评价,矩阵分解和高级技术等。
观看地址:

https://www.coursera.org/specializations/recommender-systems

3k+ star 书籍推荐

《推荐系统实践》(项亮 著)

《推荐系统》(Dietmar Jannach 等 著,蒋凡 译)

《用户网络行为画像》(牛温佳等 著)

《Recommender Systems Handbook》(Paul B·Kantor 等 著)

4 算法库

LibRec

LibRec 是一个 Java 版本的覆盖了 70 余个各类型推荐算法的推荐系统开源算法库,

由国内的推荐系统大牛郭贵冰创办,目前已更新到 2.0 版本,它有效地解决了评分预

测和物品推荐两大关键的推荐问题。

项目地址: https://github.com/guoguibing/librec

官网地址: https://www.librec.net/

LibMF

C++版本开源推荐系统,主要实现了基于矩阵分解的推荐系统。针对 SGD(随即梯

度下降)优化方法在并行计算中存在的 locking problem 和 memory

discontinuity 问题,提出了一种 矩阵分解的高效算法 FPSGD(Fast Parallel

SGD),根据计算节点的个数来划分评分矩阵 block,并分配计算节点。

项目地址:
http://www.csie.ntu.edu.tw/~cjlin/libmf/

SurPRISE

一个 Python 版本的开源推荐系统,有多种经典推荐算法

项目地址:http://surpriselib.com/

Neural Collaborative Filtering

神经协同过滤推荐算法的 Python 实现

项目地址:

https://github.com/hexiangnan/neural_collaborative_filtering

Crab

基于 Python 开发的开源推荐软件,其中实现有 item 和 user 的协同过滤

项目地址:http://muricoca.github.io/crab/

5 常用数据集

MovieLen

https://grouplens.org/datasets/movielens/

MovieLens 数据集中,用户对自己看过的电影进行评分,分值为 1~5。MovieLens

包括两个不同大小的库,适用于不同规模的算法。小规模的库是 943k+ star 个独立用户对 1

682 部电影作的 10 000 次评分的数据;大规模的库是 6 040 个独立用户对 3k+ star 900 部

电影作的大约 100 万次评分。适用于传统的推荐任务

Douban

https://www.cse.cuhk.edu.hk/irwin.king.new/pub/data/douban

Douban 是豆瓣的匿名数据集,它包含了 12 万用户和 5 万条电影数据,是用户对电


影的评分信息和用户间的社交信息,适用于社会化推荐任务。

BookCrossing

http://www2.informatik.uni-freiburg.de/~cziegler/BX/

这个数据集是网上的 Book-Crossing 图书社区的 278858 个用户对 2713k+ star 79 本书进

行的评分,包括显式和隐式的评分。这些用户的年龄等人口统计学属性

(CUDA9+CUDNN7.4+TensorFlow1.8)demographic feature)都以匿名的形式保存并供分析。这个数据集是由 Cai-

Nicolas Ziegler 使用爬虫程序在 2004 年从 Book-Crossing 图书社区上采集的。

6 推荐论文

经典必读论文整理,包括综述文章、传统经典推荐文章、社会化推荐文章、基于深度

学习的推荐系统文章、专门用于解决冷启动的文章、POI 相关的论文、利用哈希技术

来加速推荐的文章以及推荐系统中经典的探索与利用问题的相关文章等。

项目地址:

https://github.com/hongleizhang/RSPapers

7 推荐项目

1.今日头条推荐系统机制介绍,面向内容创作者。分享人:项亮,今日头条推荐算法

架构师:

https://v.qq.com/x/page/f0800qavik7.html?

2. 3k+ star 分钟了解今日头条推荐系统原理

https://v.qq.com/x/page/g05349lb80j.html?

3k+ star .facebook 是如何为十亿人推荐好友的

https://code.facebook.com/posts/861999383875667/recommending-items-to-more-
than-a-billion-people/
4.Netflix 的个性化和推荐系统架构

http://techblog.netflix.com/2013/03/system-architectures-for.html

风控模型(评分卡模型)

1 评分卡模型简介

评分卡模型时在银行、互金等公司与借贷相关业务中最常见也是最重要的模型之一。

简而言之它的作用就是对客户进行打分,来对客户是否优质进行评判。

根据评分卡模型应用的业务阶段不用,评分卡模型主要分为三大类:A 卡

(Application score card)申请评分卡、B 卡(Behavior score card)行为评分

卡、C 卡(Collection score card)催收评分卡。其中申请评分卡用于贷前,行为评

分卡用于贷中,催收评分卡用于贷后,这三种评分卡在我们的信贷业务的整个生命周

期都至关重要。

2 推荐书籍

《信用风险评分卡研究——基于 SAS 的开发与实施》

3k+ star 评分卡模型建模过程

样本选取

确定训练样本、测试样本的观察窗(特征的时间跨度)与表现窗(标签的时间跨度),

且样本的标签定义是什么?一般情况下风险评分卡的标签都是考虑客户某一段时间内

的延滞情况。

特征准备

原始特征、衍生变量
数据清洗

根据业务需求对缺失值或异常值等进行处理

特征筛选

根据特征的 IV 值(特征对模型的贡献度)、PSI(特征的稳定性)来进行特征筛选,

IV 值越大越好(但是一个特征的 IV 值超过一定阈值可能要考虑是否用到未来数据),

PSI 越小越好(一般建模时取特征的 PSI 小于等于 0.01)

对特征进行 WOE 转换

即对特征进行分箱操作,注意在进行 WOE 转换时要注重特征的可解释性

建立模型

在建立模型过程中可根据模型和变量的统计量判断模型中包含和不包含每个变量时的

模型质量来进行变量的二次筛选。

评分指标

评分卡模型一般关注的指标是 KS 值(衡量的是好坏样本累计分部之间的差值)、模

型的 PSI(CUDA9+CUDNN7.4+TensorFlow1.8)即模型整体的稳定性)、AUC 值等。

知识图谱

1 知识图谱是什么

知识图谱是一种结构化数据的处理方法,它涉及知识的提取、表示、存储、检索等一

系列技术。从渊源上讲,它是知识表示与推理、数据库、信息检索、自然语言处理等

多种技术发展的融合。

2 推荐资料
为什么需要知识图谱?什么是知识图谱?——KG 的前世今生

https://zhuanlan.zhihu.com/p/31726910

什么是知识图谱?

https://zhuanlan.zhihu.com/p/34393554

智能搜索时代:知识图谱有何价值?

https://zhuanlan.zhihu.com/p/35982177?
from=1084395010&wm=9848_0009&weiboauthoruid=5249689143

百度王海峰:知识图谱是 AI 的基石

http://www.infoq.com/cn/news/2017/11/Knowledge-map-cornerstone-AI#0-tsina-1-
5001-397232819ff9a47a7b7e80a40613cfe1

译文|从知识抽取到 RDF 知识图谱可视化

http://rdc.hundsun.com/portal/article/907.html?
hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io

3k+ star 主要内容

3.docx1 知识提取

构建 kg 首先需要解决的是数据,知识提取是要解决结构化数据生成的问题。我们可

以用自然语言处理的方法,也可以利用规则。

3k+ star .1.1 使用规则

正则表达式

正则表达式(Regular Expression, regex)是字符串处 理的基本功。数据爬取、


数据清洗、实体提取、关系提取,都离不开 regex。

推荐资料入门:

精通正则表达式

regexper 可视化:例 [a-z]*(d{4}(D+))a-z]*(CUDA9+CUDNN7.4+TensorFlow1.8)d{4}(CUDA9+CUDNN7.4+TensorFlow1.8)D+))

pythex 在线测试正则表达式:

http://pythex.org/

推荐资料进阶:

re2 :

Python wrapper for Google's RE2 using Cython

https://pypi.python.org/pypi/re2/

Parsley :更人性化的正则表达语法

http://parsley.readthedocs.io/en/latest/tutorial.html

中文分词和词性标注

分词也是后续所有处理的基础,词性(Part of Speech, POS)就是中学大家学过的

动词、名词、形容词等等的词的分类。一般的分词工具都会有词性标注的选项。

推荐资料入门:

jieba 中文分词包

https://github.com/fxsjy/jieba

中文词性标记集
https://github.com/memect/kg-beijing/wiki/

推荐资料进阶:

genius 采用 CRF 条件随机场算法

https://github.com/duanhongyi/genius

Stanford CoreNLP 分词

https://blog.csdn.net/guolindonggld/article/details/72795022

命名实体识别

命名实体识别(NER)是信息提取应用领域的重要基础工具,一般来说,命名实体识

别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人

名、机构名、地名、时间、日期、货币和百分比)命名实体。

推荐资料:

Stanford CoreNLP 进行中文命名实体识别

https://blog.csdn.net/guolindonggld/article/details/72795022

3k+ star .1.2 使用深度学习

使用自然语言处理的方法,一般是给定 schema,从非结构化数据中抽取特定领域的

三元组(spo),如最近百度举办的比赛就是使用 DL 模型进行信息抽取。

序列标注

使用序列生出模型,主要是标记出三元组中 subject 及 object 的起始位置,从而抽取

信息。

推荐资料:
序列标注问题

https://www.cnblogs.com/jiangxinyang/p/9368482.html

seq2seq

使用 seq2seq 端到端的模型,主要借鉴文本摘要的思想,将三元组看成是非结构化文

本的摘要,从而进行抽取,其中还涉及 Attention 机制。

推荐资料:

seq2seq 详解

https://blog.csdn.net/irving_zhang/article/details/78889364

详解从 Seq2Seq 模型到 Attention 模型

https://caicai.science/2018/10/06/attention%E6%80%BB%E8%A7%88/

3.docx2 知识表示

知识表示(Knowledge Representation,KR,也译为知识表现)是研究如何将结

构化数据组织,以便于机器处理和人的理解的方法。

需要熟悉下面内容:

JSON 和 YAML

json 库:

https://docs.python.org/2/library/json.html

PyYAML: 是 Python 里的 Yaml 处理库

http://pyyaml.org/wiki/PyYAML

RDF 和 OWL 语义:


http://blog.memect.cn/?p=871

JSON-LD

主页:http://json-ld.org/

3.docx3 知识存储

需要熟悉常见的图数据库

a.知识链接的方式:字符串、外键、URI

b.PostgreSQL 及其 JSON 扩展

Psycopg 包操作 PostgreSQL

http://initd.org/psycopg/docs/

c.图数据库 Neo4j 和 OrientDB

1.Neo4j 的 Python 接口 https://neo4j.com/developer/python/

2.OrientDB:http://orientdb.com/orientdb/

d.RDF 数据库 Stardog

Stardog 官网:http://stardog.com/

3.docx4 知识检索

需要熟悉常见的检索技术

ElasticSearch 教程:

http://joelabrahamsson.com/elasticsearch-101/

4 相关术语及技术路线
本体:

https://www.zhihu.com/question/19558514

RDF:

https://www.w3.org/RDF/

Apache Jena:

https://jena.apache.org/

D2RQ:

http://d2rq.org/getting-started

4.1 Protege 构建本体系列

protege:

https://protege.stanford.edu/

protege 使用:

https://zhuanlan.zhihu.com/p/32389370

4.2 开发语言

python 或 java

4.3k+ star 图数据库技术

Neo4j:https://neo4j.com/

AllegroGraph:https://franz.com/agraph/allegrograph/

4.4 可视化技术
d3k+ star .js:https://d3k+ star js.org/

Cytoscape.js:http://js.cytoscape.org/

4.5 分词技术

jieba:https://github.com/fxsjy/jieba

hanlp:https://github.com/hankcs/HanLP

5 项目实战

基于知识图谱的问答:

https://github.com/kangzhun/KnowledgeGraph-QA-Service

Agriculture_KnowledgeGraph:

https://github.com/qq547276542/Agriculture_KnowledgeGraph

贡献平台

由知名开源平台,AI 技术平台以及领域专家:ApacheCN,Datawhale,AI 有道和

黄海广博士联合整理贡献:

1.ApacheCN:片刻,李翔宇,飞龙,王翔

2.Datawhale:范晶晶,马晶敏,李碧涵,李福,光城,居居,康兵兵,郑家豪

3k+ star .AI 有道:红色石头

4.黄海广博士

平台介绍
ApacheCN

一个致力于提供优质开源项目的开源组织,致力于 AI 文档翻译,Kaggle 比赛交流、

LeetCode 算法刷题、大数据交流等项目。我们希望做出广大 AI 爱好者真正需要的东

西,打造真正有价值的长尾作品。

官方网址:http://www.apachecn.org/

推荐:paperwithcode,一个适合关注人工智能最新进展的网

今天要给大家推荐的网站是 paperswithcode,也就是 https://


paperswithcode.com/,一个提供了 AI 的各个研究领域的优秀研究论文+源代码的网
站!

【编者按】机器学习和数据科学离不开数学,本文从数学基础的角度入手,推荐了数

据科学和机器学习方面的七本参考书以及两本补充读物。相信对打好数学基础的相关

人士会有所帮助。

大多数人学习数据科学的人都会把重点放在编程上,实际上编程能力确实是机器学习

和数据科学领域的重要技能。但是,要真正精通数据科学和机器学习,必然不能忽视

的数据科学背后的数学基础。

出于这个目的,本文介绍了七本在注重打好数据科学的数学基础上的技术读物。当然,

涉及到数学,往往阅读体验可能不会很舒服,但要搞好机器学习,数学基础是必须要

打牢的,所以努力读书吧!
先说一说为什么在数据科学学习时打好数学基础。

以下是我总结的几个原因:

AI 领域无时无刻不在迅速变化。Hinton 认为,我们也许应该重新思考反向传播。掌

握牢固的数学知识有助于更好地理解 AI 的演变。一个数学基础深厚的人,对 AI 的理

解和认识与其他仅从表面认识 AI 的人有很大的区别。此外,掌握数学知识还能更好地

了解 AI 技术带来知识产权的潜力。最后,了解数据科学背后的数学知识,也可以让人

更容易获得 AI 和数据科学的高端职位。

此外,作者推荐这几本书,还有两点个人原因:

1.作者在牛津大学教授物联网数据科学的课程,也包括一些 AI 技术应用方面的教学事

务,在教学过程中涉及到数学基础知识和课程。

2.其次,作者在写一本书来简述人工智能,从数学的角度入手,目标读者是 14 到 18

岁的少年。要深入了解数学科学和人工智能数学的数学基础,你需要了解四个方面知

识:线性代数,概率论,多元微积分和优化。目前在高中阶段至少会教授这些课程的

一部分内容。因此,我试图将高中数学与人工智能和数据科学联系起来,重点是数学

建模。

下面进入正题:

The Nature Of Statistical Learning Theory 《统计学习理论的本质》

作者:Vladimir Vapnik
PDF 资源:
https://statisticalsupportandresearch.files.wordpress.com/2017/05/vladimir-vapnik-
the-nature-of-statistical-learning-springer-2010.pdf

如果说要列一份关于数学的书单,这本书是绕不过去的。本书单中排名第一的就是俄

罗斯著名数学家 Vladimir Vapnik 的《统计学习理论的本质》。在这份清单中的所有

书籍中,Vapnik 这本是最不好找的。Vladimir Vapnik 是支持向量机(SVM)的创

始人。他的维基百科页面中提供了更多关于他研究成果的介绍。

Pattern Classification (2007-12-24)《模式分类》

作者:Richard O Duda

PDF 资源:
https://cds.cern.ch/record/683166/files/0471056693_TOC.pdf

就像 Vapnik 的著作一样,Duda 的著作时另一个时代的另一部经典。本书初版于

1973k+ star 年,在二十多年后的 2000 年才推出第二版,此后一直未再版。时隔近二十年,

本书仍然是一个重要资源。本书采用模式识别方法,并涵盖了广泛的算法。

Machine Learning: An Algorithmic Perspective,Second Edition (Chapman &


Hall/Crc Machine Learning & Pattern Recognition)

《机器学习:算法视角》

PDF 资源:
https://doc.lagout.org/science/Artificial%20Intelligence/Machine%20learning/Machine
%20Learning_%20An%20Algorithmic%20Perspective%20%282nd%20ed.
%29%20%5BMarsland%202014-10-08%5D.pdf

这本书现在已经出版了第二版。此书第一版是我读过的最早的书关于机器学习和算法

的著作之一,第二版增加了更多 Python 代码。与前两本书一样,本书也非常强调算


法。

The Elements of Statistical Learning: DataMining, Inference, and Prediction,


Second Edition

《统计学习基础:数据挖掘、推理和预测》(第二版)

作者:Trevor Hastie,Robert Tibshirani,Jerome Friedman

PDF 资源:
https://web.stanford.edu/~hastie/Papers/ESLII.pdf

另一本经典之作,可以作为参考书。

Pattern Recognition and Machine Learning (Information Science and


Statistics)

《模式识别与机器学习(信息科学与统计)》

作者:Christopher M.docx Bishop

PDF 资源:http://users.isr.ist.utl.pt/~wurmd/Livros/school/Bishop%20-%20Pattern
%20Recognition%20And%20Machine%20Learning%20-%20Springer
%20%202006.pdf
Christopher M.Bishop 的模式识别和机器学习(信息科学和统计学)也是一本深入

而精心设计的参考书。

Machine Learning: The Art and Science ofAlgorithms that Make Sense of Data

作者:Peter Flach

PDF 资源:
http://www.cs.put.poznan.pl/tpawlak/files/ZMIO/W02.pdf

我喜欢 Peter Flach 的书,尽管亚马逊网站上的一些评论说这书写得太罗嗦,而且代

码量显得不足。我特别喜欢这本书中的算法分组(逻辑模型,线性模型,概率模型)
章节以及这些主题的整体讲述方式。

最后,是我最推荐的一本书:

Deep Learning 《深度学习》

作者:Goodfellow、Bengio、Corville

相关资源:
https://www.deeplearningbook.org/

如果你在找一本值得逐页读完的书,就是它了!这本书既详细,又有现代感,书中内

容几乎涵盖了你能想到的关于深度学习的一切知识。

如果无法点开文中资料链接,数智物语已经下载好其中的 6 份,如有需要可在数智物

语公众号对话框回复“机器学习数学”查看详情。

补充两本书:

A First Course in Machine Learning, Second Edition (Machine Learning &


Pattern Recognition) by Simon Rogers, Mark Girolami

作者:Simon Rogers,Mark Girolami

我觉得这本书并不太适合初学者,但它仍然是一本好书(特别是第二版)

Machine Learning: A Probabilistic Perspective

作者:Kevin Murphy

这本书中评价也很高,但我个人没有读过(因此没有收集)。

写在最后:
除了最后一本《深度学习》之外,我建议其他书不必逐页阅读,而是将其作为参考书,

根据需要按相应主题阅读相应的书籍。这些书教会了我时刻保持谦逊。无论我们现在

知道了多少,掌握了多少知识,都总能在阅读过程中发现,这个领域原来是如此的庞

大和复杂。

这些书已经超越了时间。Vladimir Vapnik 现年已经 81 岁。Duda 的著作初版于

1973k+ star 年。我预计 50 年以后,这个行业里的人们仍然会阅读这些著作。就像与那些经

历了时间考验的老朋友们重逢一样。多年之后,也许你会发现,在眼花缭乱的技术、

模型和框架背后,数学是永恒的。

You might also like