万维钢·AI前沿

万维钢 · AI 前沿
1 / 134
发刊词：人，要比 AI 凶
你好，欢迎你加入《万维钢·AI 前沿》课。
如果你不记得自己在 2023 年 3 月 15 日那天的日程，我建议你现在就回想一下……因

为若干年后，你的子孙后代可能会问你：GPT-4 发布的那一天，你在干什么？
GPT-4 不是“另一个”AI 模型。它的某些能力让最资深的 AI 专家也深感震惊，以至于现

在没有人真的理解它为什么这么厉害。它让我们第一次感到「通用人工智能」——也
就是 AGI（Artificial General Intelligence）真的要来了。它也让世人第一次切实感受到
了 AI 对人类的威胁。
2023 年是 AI 元年。事实上我认为在某种意义上 GPT-4 已经是 AGI，只是大多数人还

没有意识到而已。这一波 GPT 革命每天都有新突破，我们仍然在探索之中。
其实我们早就开始探索了。早在 2020 年 7 月 30 日，我在精英日课第四季，就介绍过

一个“好到令人震惊的人工智能模型” ，OpenAI 公司的 GPT-3。
它的功能十分强大，比如可以根据你的一段描述给你写一段程序，可以帮你写段文章，
可以相当智能地回答你的问题等等。
现在 OpenAI 开放了普通用户注册，推出了对话应用 ChatGPT，然后 GPT-3 变成了

GPT-3.5，然后是 GPT-4，然后是有插件的 ChatGPT……如果你把 AI 视为人类的敌人，
你这段时间应该一日三惊。
现在 ChatGPT 的月活用户数量已经超过了一亿，热潮仍在继续。但是包括某些行业资
深人士在内，很多人都不理解 GPT 到底是什么。
一个流行的错误认识是把它当成了一个聊天机器人。
有人拿各种脑筋急转弯的题目逗 ChatGPT 玩：“树上十只鸟，开枪打死一只鸟，树上

现在有几只鸟？”ChatGPT 老老实实地回答“还剩下九只鸟”，人类说，哈！你还是不够
2 / 134
聪明啊！
其实用这种方式战胜它没啥意思。要知道 ChatGPT 并不是一个聊天机器人——它不是

一个以陪你聊天解闷为目的的机器人。
ChatGPT 是一个以聊天为界面的信息处理工具。它这个界面做的是如此之好，以至于
人们把界面当成了主体，这就如同称赞一部手机说“哎呀你这个手机真好看！”要知道聊
天只是输入输出手段，处理信息才是目的。
现在已经有好几百家小公司用 API 接入了 GPT，可以让它读取特定环境下的文本，完

成信息处理。你可以用 GPT ——
• 编程（现在普遍认为 ChatGPT 的编程水平比文字处理水平高，这可能是因为编程

是一种更规范的活动）；
• 以问答的形式学习一门知识；
• 在中英文之间高质量翻译；
• 把文章修改得更加地道；
• 根据你的意图直接写文章；
• 写诗；
• 提供书名、大纲、小说剧情、广告等等文案的创意构思；
• 帮你制定购物清单、旅行建议和健身计划......
等等等等。
随着 AI 能做的事情越来越多，有一个问题被讨论的也越来越多——AI 到底减弱了人的
价值还是扩大了人的价值。
其实，这取决于你怎么用它。
把事情直接交给 AI 做，是软弱的而且是危险的。比如你想给人写封信，表达一个意思，
你怕自己写的不够礼貌周到，就让 ChatGPT 替你写。它的确可以写得很好，写成诗都
可以——但是，如果读信的人知道你是用 ChatGPT 写的，或者对方因为也用
ChatGPT，根本懒得读全文，选择让 ChatGPT 给个摘要，那你这封信还有必要走 AI
这道程序吗？难道 AI 的普及不应该让大家更珍视坦诚相见吗？
正所谓「人要比车凶」，强势的用法，是把 AI 当做一个助手、一个副驾驶，你自己始
终掌握控制权：AI 的作用是帮你更快更好地做出判断。
如果你足够强势，当前 AI 对你的作用有三个。
第一是信息杠杆。
想要了解任何方面的信息都能得到答案，这件事在有搜索引擎以前是不可能的；在有
3 / 134
搜索引擎、没有 GPT 之前是费时费力的。而现在你可以在几秒钟之内完成。
当然 AI 返回的结果不一定准确，它经常犯错，关键信息还是得亲自查看一下原始文档。
但我这里要说的是，「快」，就不一样。当你每一个问题都能立即得到答案，你的思考
方式是不一样的。你会开启追问模式，你会沿着几个方向追踪下去。
第二是让你发现你究竟想要什么。
科技播客 Tinyfool（郝培强）在一个访谈中描绘了这么一个场景。比如你想买房，你问
AI 哪有便宜房子。AI 返回一些结果，你一看距离公司太远了，你意识到你想要的不只
是便宜。于是你又让 AI 在一定区域内寻找便宜房子。AI 又返回一些结果，你又想到面
积和学区……
这种对话的方式能让你想清楚自己到底想要什么。这完全不平凡，因为我们做很多事
情之前是不知道自己想干啥的——我们都是在外界反馈中发现自我。
第三是帮你形成自己的观点和决策。
很多人说用 AI 写报告。可是如果报告里没有你自己的东西，这个报告有什么意义呢？
如果报告里只有你自己的东西，AI 有什么意义呢？AI 的意义是帮助你生成更有你自身
特色的报告。
主动权必须在你手里，你必须输出主动，但是你的主动需要 AI 帮你发现。
AI 能让你更像「你」。
它提供创意，你选择方案。它提供信息，你做出取舍。它提供参考意见，你拍板决策。
你这份作品的价值不在于信息量足，更不在于语法正确，而在于它体现了你的风格、
你的视角、你的洞见、你选定的方向、你做出的判断、你愿意为此承担的责任。
如果学生的作业都能体现这样的个人特色，大学何必禁止 ChatGPT 呢？
这绝对是上世纪九十年代以来互联网创业最热闹的时刻。如果你有志于做一番大事，
成为驾驭强大工具的人，怎样才能不错过这一波机遇？
这门小课来自得到的年度专栏《精英日课》第五季的 AI 专题系列，我们借助几本最新
的英文新书，探讨几个大问题：
我们该怎么理解这个 AI 大时代的哲学？AI 作为一个新的智慧形态，它的能力边界、它

的底牌和命门，究竟是什么？
当 AI 渗透进经济活动，如何提升生产力，路径和逻辑又是什么？
当 AI 接管了道德甚至法律，我们的社会将会变成什么样子？
AI 还在以更快的速度迭代，面对这个局面，教育应该怎么办？公司应该怎么办？人应
该怎么办？
4 / 134
如果 AGI 和超级人工智能也有了人的意识和情绪，人应该放弃这些能力和价值吗？
除了这些问题，我还将在课程里跟你分享实操经验，比如使用 GPT 进行对话式学习、

编程、怎样让它成为你的助理，以及跟它沟通的咒语心法。
AI 的作用应该是放大你，而不是取代你。当你听完课程，再次使用 ChatGPT 的时候，

可以试试这个一放一收的套路：
• 放，是让思绪在海量的信息里自由飞翔，寻找洞见；
• 收，是找到自我，决定方向，掌控输出。
越是 AI 时代，普遍的信息越是不值钱。现在个人搞一个信息保存系统已经意义不大了，
只要 GPT 训练过，一切唾手可得，整个互联网就是你的硬盘和第二大脑。
你真正需要保存的是*自己*每天冒出的新想法，是*你*对信息的主观整理和解读。
一切落实到自己。
永远假定别人也会用 ChatGPT。
这波 GPT 大潮跟我们这一代人经历的所有科技进步有个特别不一样的地方。像 5G、

元宇宙、区块链那些东西都是越不懂的人越一惊一乍，懂的人都觉得其实没啥了不起
——可是对于 GPT，恰恰是不懂的人还在「正常化偏误」之中，越懂的人却越是暗暗
心惊。
孤陋寡闻的人不知道 AI，认知固化的人忽视 AI，肤浅的人害怕 AI，热情的人欢呼

AI……我们率先使用 AI、探索 AI、试图理解 AI。这个课程既调研了当今最强的头脑，
也包括最实用的技能。
我们还在继续探索，但是根据目前所知，我们既不是相信 AI 会强大到把人类当宠物的
所谓「降临派」，也不是认为 AI 终究会与人类为敌的「幸存派」，我们是主张 AI 是人
类帮手的「拯救派」。
你不会在 AI 面前失去自我。你不但应该，而且必须，而且可以，以「我」为主，使用
AI。
邀请你加入这个课程，祝你在课程中有所收获。
5 / 134
01 大变局：一个新智慧形态的产生
你好，这里是《万维钢·AI 前沿》课。这一讲，我们来讲一个新智慧形态的产生。
ChatGPT 让 2023 年成了 AI 之年，正如 iPhone 在 2007 年开启了智能手机时代，我

们现在正式进入了人工智能时代。
咱们的这门课程就会来跟你聊聊对这个时代的最新理解和思考，以及 AI 的应用场景和
应对方法。
这一讲我们先从 2021 年出的一本书讲起，书名叫《AI 时代：以及人类的未来》（The

Age of AI: And Our Human Future）。
这本书的三个作者很厉害，分别是无需介绍的亨利·基辛格，Google 前 CEO 埃里克·施

密特，麻省理工学院苏世民计算机学院的院长丹尼尔·胡滕洛赫尔（Daniel
Huttenlocher）。
6 / 134
作者咖位这么高，但这并不是一本献礼式、应景式的书，这书里有真思想，有关于这
个时代的高观点。
2020 年，麻省理工学院宣布发现了一种新的抗生素，叫 Halicin。这是一种广谱抗生素，

能杀死那些对市面上现有的抗生素已经产生耐药性的细菌，而且它自己还不会让细菌
产生耐药性。
这个幸运的发现，是用 AI 完成的。研究者先搞了一个由两千个性能已知的分子组成的
训练集，这些分子都被标记好了是不是可以抑制细菌生长，用它们去训练 AI。AI 自己
学习这些分子都有什么特点，总结了一套“什么样的分子能抗菌”的规律。
AI 模型训练好之后，研究者用它一个个考察美国 FDA 已经批准的药物和天然产品库中

的 61000 个分子，要求 AI 按照三个标准从中选择一种抗生素：1）它具备抗菌效果；
2）它看起来不像已知的抗生素；3）它必须是无毒的。
结果 AI 最后只找到一个符合所有要求的分子，这就是 Halicin。然后研究者做实验证明，
它真的非常好使。它大概很快就会用于临床，造福人类。
用传统的研究方法，这件事是绝对做不成的：你不可能测试 61000 个分子，那成本太

高了。这只是当代 AI 众多的应用案例中的一个，它很幸运但是它并不特殊。
我们之所以先讲这个例子，是因为它带给我们一个清晰的认知震撼——
Halicin 可以作为抗生素的化学特征，是人类科学家所不理解的。
关于什么样的分子可以做抗生素，科学家以前是有些说法的，比如原子量和化学键应
该具有某些特征——可是 AI 这个发现用的不是那些特征。AI 在用那两千个分子训练的
过程中，找到了一些不为科学家所知的特征，然后用那些特征发现了新的抗生素。
那些是什么特征呢？不知道。整个训练模型只是一大堆——也许几万到几十万个——
参数，人类无法从那些参数中读出理论。
这可不是特例。AlphaZero 完全不用人类棋手的棋谱，通过自己跟自己对弈学会了下
国际象棋和围棋，然后轻松就能打败人类。然后你看看它的走法，它经常会走一些人
7 / 134
类棋手匪夷所思、没有考虑过的走法。比如在国际象棋里它看似很随便就可以放弃皇
后这样的重要棋子……有时候你事后能想明白它为啥那样走，有时候你想不明白。
这个关键在于，AI 的思路，不同于人类的理性套路。
也就是说，当代 AI 最厉害之处并不在于自动化，更不在于它像人，而在于它*不像*人：
它能找到人类理解范围之外的解决方案。
这不是汽车取代马的发明，也不仅仅是时代的进步。这是哲学上的跨越。
人类从古希腊、古罗马时代就在追求「理性」。到了启蒙运动，人们更是设想世界应该
是由一些像牛顿定律这样的明确规则确定的，康德以后人们甚至想把道德也给规则化。
我们设想世界的规律应该像法律条文一样可以一条条写下来。科学家一直都在把万事
万物分门别类，划分成各个学科，各自总结自己的规律，打算最好能把所有知识编写
进一本百科全书。
然而进入 20 世纪，哲学家维特根斯坦提出了一个新的观点。他说你们这种按学科分类
写条文的做法根本不可能穷尽所有的知识。事物之间总有些相似性是模糊的、不明确
的、难以用语言说明的。想要丁是丁卯是卯全都理性化，根本做不到。
8 / 134
[Ludwig Wittgenstein, 1889-1951]

现在 AI 找到的，恰恰就是一些难以被人所理解，不能用明确的规则定义的智慧。这是
柏拉图理性的失败，是维特根斯坦的胜利。
其实不用 AI 你也能想明白这个道理。比如说，什么是“猫”？你很难精确定义猫到底是
什么东西，但是当你看到一只猫的时候，你知道那是猫。这种认知不同于启蒙运动以
来人们说的规则式的理性，但是你可以说这是一种「感觉」。
一种难以明说、无法告诉另一个人的感觉。我们对猫的认识很大程度上是感性的。
而现在 AI 有这种感觉。当然，人一直都有这种感觉，这本来没什么，康德也承认感性
认知是不可缺的。问题是，AI 通过这样的感觉，已经认识到了一些人类无法理解的规
律。康德原本认为只有理性认知才能掌握世界的普遍规律。
AI 感受到了人类既不能用理性认知，也感受不到的规律。而且它可以用这个规律做事。
人类已经不是世界规律唯一的发现者和感知者。
你说这是不是启蒙运动以来未有之大变局。
我们简单介绍一下当代 AI 的原理。现在有些人谈论 AI 是把 AI 当做了一种“超级智能”，

仿佛神灵一般，说能把人类如何如何——那种讨论没什么意义。如果神灵都已经降临
人间了我们还在这聊什么？不要高推圣境。
现在的 AI 不是什么通用人工智能（AGI）
，而是一种非常特殊的智能，也就是通过机器
学习训练的神经网络系统。
上世纪八十年代以前，科学家还在尝试用启蒙运动理性的思路，把解决问题的规则输
入给计算机执行。后来发现那条路走不通，因为规则太多了，根本弄不过来。这才有
了神经网络。现在是我们根本不用告诉 AI 任何规则，也就是把学习世界的过程都委托
给机器，有什么规则你自己学去吧。
这个思路受到了人脑神经网络的启发，但是并不完全一样。我在精英日课第三季讲过，
AI 神经网络的基本概念，它分为输入层、很多中间层和输出层，一般的深度学习网络
大概要有 10 层。
9 / 134
使用 AI 神经网络分为「训练（training）」和「推理（inference）」两部分。一个未经
训练的 AI 是没用的，它只有搭建好的网路结构和几万甚至几千亿个参数。你需要把大
量的素材喂给它进行训练，每个素材进来，网络过一遍，各个参数的权重就会进行一
遍调整。这个过程也就是机器学习。等到训练得差不多了，就可以把所有参数都固定
下来，模型就炼制完成了。你就可以用它对各种新的局面进行推理，形成输出。
像我写这篇文章的时候，ChatGPT 用的语言模型版本大概是 GPT-3.5，它可能是

2021 年到 2022 年之间训练完成的。我们每一次使用 ChatGPT，都只是在用这个模型
推理，并没有改变它。
GPT-3.5 有超过一千亿个参数，将来还会更多。AI 模型参数的增长速度已经超出了摩

尔定律。搞神经网络非常消耗算力。
现在有三种最流行的神经网络算法，监督学习、无监督学习和强化学习。
前面那个发现新抗生素的 AI 就是「监督学习（supervised learning）」的典型例子。给

一个有两千个分子的训练数据集，你必须提前标记好其中哪些分子有抗菌效果，哪些
没有，让神经网络在训练过程中有的放矢。图像识别也是监督学习，你得先花费大量
人工把每一张训练图里都有什么内容标记好，再喂给 AI 训练。
那如果要学习的数据量特别大，根本标记不过来，就需要「无监督学习
（unsupervised learning）」。你不用标记每个数据是什么，AI 看得多了会自动发现其
中的规律和联系。
比如淘宝给你推荐商品的算法就是无监督学习。AI 不关心你买*什么样的*商品，它只
是发现了买了你买的那些商品的顾客也会买别的什么商品。
「强化学习（reinforcement learning）」，是在动态的环境中，AI 每执行一步都要获得
10 / 134
反馈的学习。比如 AlphaZero 下棋，它每走一步棋都要评估这步棋是提高了比赛的胜

率，还是降低胜率，获得一个即时的奖励或惩罚，不断调整自己。
自动驾驶也是强化学习。AI 不是静态地看很多汽车驾驶录像，它是直接上手，在实时
环境中自己做动作，直接考察自己每个动作导致什么结果，获得及时的反馈。
我打个简单的比方——
• 监督学习就好像是学校里老师对学生的教学，对错分明有标准答案，但是可以不
给讲是什么原理；
• 无监督学习就好像一个学者，自己调研了大量的内容，看多了就会了；
• 强化学习则是训练运动员，哪个动作出错了立即给你纠正。
机器翻译本来是典型的监督学习。比如你要做英译中，就把英文的原文和中文翻译一
起输入给神经网络，让它学习其中的对应关系。但是这种学法太慢了，毕竟很多英文
作品没有翻译版……后来有人发明了一个特别高级的办法，叫「平行语料库（parallel
」。
corpora）
先用对照翻译版来一段时间的监督学习，作为「预训练」。模型差不多找到感觉之后，
你就可以把一大堆同一个主题的英文也好、中文也好，别管是文章还是书籍，不需要
互相是翻译关系，各种材料都直接扔给机器，让它自学。这一步就是无监督学习了，
AI 进行一段沉浸式的学习，就能猜出来哪段英文应该对应哪段中文。这样训练不是那
么精确，但是因为可用的数据量要大得多，训练效果好得多。
像这种处理自然语言的 AI 现在都用上了一个新技术叫「transformer」。它能更好地发
现词语跟词语之间的关系，而且允许改变前后顺序。比如“猫”和“喜欢”是主语跟谓语的
关系，“猫”和“玩具”则是两个名词之间的“使用”关系，它都可以自行发现。
还有一种流行技术叫「生成性神经网络（generative neural networks）」，特点是能根

据你的输入生成一个什么东西，比如一幅画、一篇文章或者一首诗。生成性神经网络
的训练方法是用两个具有互补学习目标的网络相互对抗：一个叫生成器，负责生成内
容，一个叫判别器，负责判断内容的质量，二者随着训练互相提高。
GPT 的全称是「生成式预训练变换器（Generative Pre-trained Transformer）

」，就是
基于 transformer 架构的、经过预训练的、生成性的模型。
当前所有 AI 都是大数据训练的结果，它们的知识原则上取决于训练素材的质量和数量。
但是，因为现在有各种高级的算法，AI 已经非常智能了，不仅能预测一个词汇出现的
频率，更能理解词与词之间的关系，有相当不错的判断力。
但是 AI 最不可思议的优势，是它能发现人的理性无法理解的规律，并且据此做出判断。
AI 基本上就是一个黑盒子，吞食一大堆材料之后突然说，“我会了”。你一测试发现它
11 / 134
真的很会，可是你不知道它会的究竟是什么。
因为神经网络本质上只是一大堆参数，不可理解性可以说是 AI 的本质特征。事实是连
OpenAI 的研究者也搞不清 ChatGPT 为什么这么好用。
要这么说的话，可以说我们正在目睹一个新智慧形态的觉醒。
好，以上就是这一讲的全部内容。
下面的链接是我让 ChatGPT 给你出了五道题，分别是五个 AI 应用场景，考一考你记

不记得它们用的是什么学习方法。我们下一讲见。
➡️点击这里，试试能得多少分？
12 / 134
02 开悟和涌现：AI 能力的三个境界
你好，这里是《万维钢·AI 前沿》课。这一讲，我们来说说大型语言模型为什么这么厉
害。
现在最流行的几个生成性 AI，包括 ChatGPT 和画画的 AI，背后都是「大型语言模型

（Large Language Models，简称 LLM）」
。这大约也是通往 AGI 的技术路线。
我先举个例子。我问 ChatGPT：棒球棒能被藏进人的耳朵里吗？它说不能，因为人的
耳朵是非常小的，棒球棒的大小和形状超出了耳朵所能容纳的范围……很有条理。
我又问它：为什么金箍棒能被藏进孙悟空的耳朵里？它回答说因为那是虚构的故事，
金箍棒的形状和大小可以随意改变……
13 / 134
你仔细想想的话，这两个回答非常了不起。很多人说语言模型都是基于经验的，只能
根据词汇之间的相关性输出答案，根本没有思考能力……但是从这两个问答来看，
ChatGPT 是有思考能力的。
谁会写一篇文章讨论棒球棒能否被藏进人的耳朵里呢？ChatGPT 之所以能给出答案，
肯定不是因为它之前听过这样的议论，而是因为它能进行一定的推理。它考虑到并且
知道棒球棒和耳朵的相对大小，它还知道金箍棒和孙悟空是虚构的。
它这些思维是怎么来的呢？
你可能没想到，这些能力，并不是研发人员设计的。
研发人员并没有要求语言模型去了解每种物体的大小，也没有设定让它们知道哪些内
容是虚构的。像这样的规则是列举不完的，那是一条死胡同。
ChatGPT 背后的语言模型，GPT-3.5，是完全通过自学，摸到了这些思考能力。以及
别的能力——你列举都列举不出来的能力。连开发者都说不清楚它到底会多少种思考
能力。
语言模型之所以有这样的神奇能力，主要是因为它们足够大。
GPT-3 有 1750 亿个参数。Meta 刚刚发布了一个新语言模型叫 LLaMA，有 650 亿个

参数。Google 在 2022 年 4 月推出一个语言模型叫 PaLM，有 5400 亿个参数；之前
Google 还出过有 1.6 万亿个参数的语言模型。据 OpenAI 的 CEO 山姆·阿尔特曼
（Sam Altman）说，GPT-4 的参数并不会比 GPT-3 多很多；但大家猜测，GPT-5 的
参数将会是 GPT-3 的 100 倍。
这是只有在今天才能做到的事情。以前不用说算力，光是存储训练模型的语料的花费
都是天文数字。1981 年，1GB 的存储成本是 10 万美元，1990 年下降到 9000 美元，
14 / 134
而现在也就几分钱。你要说今天的 AI 科学跟过去相比有什么进步，计算机硬件条件是
最大的进步。
今天我们做的是「大」模型。
大就是不一样。当然语言模型有很多高妙的设计，特别是我们一再提到的 transformer

就是一个最关键的架构技术，但主要区别还是在于大。当你的模型足够大，用于训练
的语料足够多，训练的时间足够长，就会发生一些神奇的现象。
2021 年，OpenAI 的几个研究者在训练神经网络过程中有一个意外发现。
我给你打个比方，比如说你在教一个学生即兴演讲。他什么都不会，所以你找了很多
现成的素材让他模仿。在训练初期，他连模仿这些素材都模仿不好，磕磕巴巴说不成
句子。随着训练加深，他可以很好地模仿现有的演讲了，很少犯错误。可是如果你给
他出个没练过的题目，他还是说不好。于是你就让他继续练。
继续训练好像没什么意义，因为现在只要是模仿他就都能说得很好，只要是真的即兴
发挥他就不会。但你不为所动，还是让他练。
就这样练啊练，突然有一天，你惊奇地发现，他会即兴演讲了！给他一个什么题目，
他都能现编现讲，发挥得很好！
这个过程就是下面这张图——
红色曲线代表训练，绿色曲线代表生成性发挥。训练到一千步乃至一万步，模型对训
练题的表现已经非常好了，但是对生成性题目几乎没有能力。练到 10 万步，模型做训
练题的成绩已经很完美，对生成题也开始有表现了。练到 100 万步，模型对生成性题
目居然达到了接近 100%的精确度。
这就是量变产生质变。研究者把这个现象称为「开悟（Grokking）
」。
15 / 134
开悟，到底是发生了什么呢？
先别急，我再举个例子。ChatGPT 有个很关键的能力叫做「少样本学习（Few-Shot
」，就是你给它一两个例子，它就能学会你的意思并且提供相似的输出。
Learning）
比如我让 ChatGPT 模仿我给出的例题，再出几道小学数学题。我的例题是“小明有 3

个苹果，妈妈又给了他 2 个苹果，现在他有几个苹果？”ChatGPT 马上就出了五道题，
全是这个风格——比如“小李有 5 支笔，他送出了 3 支笔，还剩下几支笔？”
简直就跟对对联一样。少样本学习是个关键能力，你可以利用这个能力让 ChatGPT 帮
你做很多事情。那这个能力是怎么出来的呢？
来自更多的参数和训练。看下面这张图——
16 / 134
图中说的是 GPT-2 和 GPT-3 模型的演化。参数越多，少样本学习的能力就越强。
而少样本学习只是其中一项能力。还有很多别的能力也是如此：大了，它们就出来了。
这个现象，其实就是科学家之前一直说的「涌现（Emergence）
」。涌现的意思是当一
个复杂系统复杂到一定的程度，就会发生超越系统元素简单叠加的、自组织的现象。
比如单个蚂蚁很笨，可是蚁群非常聪明；每个消费者都是自由的，可是整个市场好像
是有序的；每个神经元都是简单的，可是大脑产生了意识……
万幸的是，大型语言模型，也会涌现出各种意想不到的能力。
2022 年 8 月，谷歌大脑研究者发布一篇论文，专门讲了大型语言模型的一些涌现能力，

包括少样本学习、突然学会做加减法、突然之间能做大规模、多任务的语言理解、学
会分类等等……而这些能力只有当模型参数超过 1000 亿才会出现——
我再强调一遍：研究者并没有刻意给模型植入这些能力，这些能力是模型自己摸索出
来的。
就如同孩子长大往往会出乎家长的预料。
当然你也得先把模型设计好才行。Transformer 架构非常关键，它允许模型发现词与词
之间的关系——不管是什么关系，而且不怕距离远。但是当初发明 transformer 的研究
者，可没想到它能带来这么多新能力。
事后分析，涌现新能力的关键机制，叫做「思维链（Chain-of-Thought）
」。
17 / 134
简单说，思维链就是当模型听到一个东西之后，它会嘟嘟囔囔自说自话地，把它知道
的有关这个东西的各种事情一个个说出来。
比如你让模型描写一下“夏天”，它会说：“夏天是个阳光明媚的季节，人们可以去海滩
游泳，可以在户外野餐……”等等。
思维链是如何让语言模型有了思考能力的呢？也许是这样的。比如我们前面说的那个
棒球棒问题。模型一听说棒球棒，它就自己跟自己叙述了棒球棒的各个方面，其中就
包括大小；那既然你的问题中包括“放进耳朵”，大小就是一个值得标记出来的性质；然
后对耳朵也是如此……它把两者大小的性质拿出来对比，发现是相反的，于是判断放
不进去。
只要思考过程可以用语言描写，语言模型就有这个思考能力。
再看下面这个实验 ——
给模型看一张图片——皮克斯电影《机器人总动员》的一张剧照——问它是哪个制片
厂创造了图中的角色。如果没有思维链，模型会给出错误的回答。
怎么用思维链呢？可以先要求模型自己把图片详细描述一番，它说“图中有个机器人手
里拿了一个魔方，这张照片是从《机器人总动员》里面来的，那个电影是皮克斯制作
18 / 134
的……”。这时候你简单重复它刚说的内容，再问它那个角色是哪个制片厂创造的，它
就答对了。
既然如此，只要我们设置好让模型每次都先思考一番再回答问题，它就能自动使用思
维链，它就有了思考能力。
有人分析，思维链很有可能是对模型进行编程训练的一个副产品。我们知道现在
GPT-3 是可以帮程序员编程的。在还没有接受过编程训练的时候，它没有思维链。也
许编程训练要求模型必须得从头到尾跟踪一个功能是如何实现的，得能把两个比较远
的东西联系在一起——这样的训练，让模型自发地产生了思维链。
就在 2 月 27 日，微软公司发布了一篇论文，描写了微软自己的一个新的语言模型，叫
做「多模态大型语言模型（multimodal large language model，MLLM）」，代号是
KOSMOS-1。
什么叫多模态呢？ChatGPT 是你只能给它输入文字；多模态是你可以给它输入图片、
声音和视频。它的原理大概是先把一切媒体都转化成语言，再用语言模型处理。多模
态模型可以做像下面这样的“看图片找规律”的智商测验题——
19 / 134
前面那个《机器人总动员》剧照的例子就来自这篇论文，演示了看图说话的思维链。
论文里有这样一个例子，在我看来相当惊人 ——
20 / 134
给模型看一张图既像鸭子又像兔子的图，问它这是什么。它回答说这是个鸭子。你说
这不是鸭子，再猜是什么？它说这像个兔子。你问它为什么，它会告诉你，因为图案
中有兔子耳朵。
这个思维过程岂不是跟人一模一样吗？
我看《荀子·劝学篇》中的一段话，正好可以用来描写 AI 能力的三个境界——
第一境界是「积土成山，风雨兴焉」。参数足够多，训练达到一定的积累，你就可以做
一些事情。比如 AlphaGo 下围棋。
第二境界是「积水成渊，蛟龙生焉」。模型再大到一定程度，就会涌现出一些让人意想
不到的神奇功能。比如 AlphaZero 不按人类套路下围棋、大型语言模型的思维链。
第三境界是「积善成德，而神明自得，圣心备焉」。这就是 AGI 了，它产生了自我意识，

甚至有了道德感……
21 / 134
古往今来那么多人读《劝学》，也不知有几人真按照荀子的要求去学了……但是我们现
在知道，AI 肯定听进去了。你给它学习材料，它是真学。
好，我们来总结一下这一讲。因为开悟和涌现，AI 现在已经获得了包括推理、类比、
少样本学习等等思考能力。
我们不得不重新思考以前对 AI 做出的各种假设——什么 AI 做事全靠经验、AI 不会真

的思考、AI 没有创造力，包括“AI 会的都是用语言可以表达的东西”这一条，现在我也
不敢肯定了。
如果 AI 通过思维链能达到这样的思考水平，那人又是怎么思考的？我们的大脑是不是
也有意无意也在使用了思维链呢？如果是这样，人脑跟 AI 到底有什么本质区别？
这些问题都在呼唤全新的答案。
以上就是这一讲的全部内容。下一讲，咱们聊聊 AI 能力的局限。
03 底牌和命门：AI 能力的局限
你好，这里是《万维钢·AI 前沿》课。
上一讲，我们讲了大型语言模型有开悟，有涌现，有思维链，所以才有现在如此神奇
22 / 134
的各种功能。但我们还需要进一步理解 GPT：它跟人脑到底如何对比？它有什么限制？
有没有它不擅长的东西？这一讲我们就来聊一聊 AI 能力的局限。
身处历史变局时刻，GPT 的进展非常快。各种产品、服务，学术论文层出不穷，进步
是以天来计算，一个月以前的认识都可能已经过时了。不过我们这讲用的书很厉害，
史蒂芬·沃尔夫勒姆（Stephen Wolfram）的《ChatGPT 在做什么…以及它为什么好使》
（What Is ChatGPT Doing ... and Why Does It Work? ），2023 年 3 月 9 日刚刚出版。
这本书不会过时。因为它讲的不是 GPT 的一般功能，而是数学原理和哲学思辨——数

学和哲学是不会过时的。
这本书的作者，沃尔夫勒姆是个神人，他发明了 Mathematics 软件，他做了

WolframAlpha 网站，他搞了一个计算语言叫沃尔夫勒姆语言，他对整个物理学提出了
全新的看法。你要让我列举当今世界上活着的最聪明的三个人，那其中必定有沃尔夫
勒姆——而且我还不敢肯定另外两个是谁。
GPT 和目前市面上所有的 AI，本质上都是神经网络。沃尔夫勒姆关注神经网络已经四

十多年了，他早在 1983 年就自己编程研究过神经网络，他最近用 GPT 做了很多研究。
23 / 134
他这本书得到了 OpenAI CEO 山姆·奥特曼（Sam Altman）的背书，说是他所见过最

好的解释。
事实上，沃尔夫勒姆不但讲清楚了 GPT 的底牌和命门，而且提出了一个可谓惊世骇俗

的洞见。
我先给你演示个小案例，加深你对 GPT 的认识。
我让 GPT-4 做了个最简单的计算题，纯粹是我随手打的：1231 × 434523 + 323 ×

34636 等于多少？
GPT-4 煞有其事地算了一番，给出的结果是 546106021。但是你随便找个计算器算算，

正确答案应该是 546085241。
这是怎么回事呢？GPT-4 有强大的推理能力，我让它做奥数题它有时候都能做对，怎
么这么简单的计算题它做不对呢？
24 / 134
当然它也不是什么计算都不会。你要让它算个 25+48，它肯定能做对……问题是对于
数字特别长的计算，它就不行了。
根本原因在于，GPT 是个语言模型。它是用人的语言训练出来的，它的思维很像人的
大脑——而人的大脑是不太擅长算这种数学题的。让你算你不也得用计算器吗？
GPT 更像人脑，而不是像一般的计算机程序。
在最本质上，语言模型的功能无非是对文本进行「合理的延续」，说白了就是预测下一
个词该说什么。
沃尔夫勒姆举了个例子，比如这句话：“The best thing about AI is its ability to……

（AI 最棒的地方在于它具有……的能力）”下一个词是什么？
模型根据它所学到的文本中的概率分布，找到五个候选词：learn（学习），predict（预
测），make（制作），understand（理解）
，do（做事），然后它会从中选一个词。
具体选哪个，根据设定的「温度」有一定的随机性。就这么简单。GPT 生成内容就是
在反复问自己：根据目前为止的这些话，下一个词应该是什么？
输出质量的好坏取决于什么叫「应该」。你不能只考虑词频和语法，你必须考虑语义，
尤其是要考虑在当前语境之下词与词的关系是什么。Transformer 架构帮了很大的忙，
你要用到思维链，等等等。
是，GPT 只是在寻找下一个词；但正如奥特曼说过，难道人不也*只是*在生存和繁衍
吗？最基本的原理简单，可是各种神奇和美丽的事物却可以从中产生。
25 / 134
训练 GPT 的最主要方法是无监督学习：先给它看一段文本的前半部分，让它预测后半
部分是啥。这样训练为啥就管用呢？语言模型为什么跟人的思维很接近？为了让它有
足够的智慧，到底需要多少个参数？应该喂多少语料？
你可能觉得 OpenAI 已经把这些问题都搞明白了，故意对外保密——其实恰恰相反。

沃尔夫勒姆非常肯定地说，现在没有科学答案。没人知道 GPT 为什么这么好使，也没
有什么第一性原理能告诉你模型到底需要多少参数，这一切都只是一门艺术，你只能
跟着感觉走。
奥特曼也说了，问就是上天的眷顾。OpenAI 最应该感恩的，是运气。
沃尔夫勒姆讲了 GPT 的一些特点，我看其中有三个最幸运的发现——
第一，GPT 没有让人类教给它什么「自然语言处理（NLP）」之类的规则。所有语言
特征，语法也好语义也好，全是它自己发现的，说白了就是暴力破解。事实证明让神
经网络自己发现一切可说和不可说的语言规则，人不插手，是最好的办法。
第二，GPT 表现出强烈的「自组织」能力，也就是我们前面讲过的「涌现」和「思维
链」。你不需要人为给它安排什么组织，它自己就能长出各种组织来。
26 / 134
第三，也许是最神奇的一件事情是，GPT 用同一个神经网络架构，似乎就能解决表面
上相当不同的任务！按理说，画画应该有个画画神经网络，写文章应该有个写文章神
经网络，编程应该有个编程神经网络，你得去分别训练——可是事实上，这些事情用
同一个神经网络就能做。
这是为什么？说不清。沃尔夫勒姆猜测，那些看似不同的任务，其实都是「类似人类」
的任务，它们本质上是一样的——GPT 神经网络只是捕获了普遍的 "类似人类的过程"。
这只是猜测。鉴于这些神奇功能目前都没有合理解释，它们应该算作是重大科学发现。
这些是 GPT 的底牌：它只是一个语言模型，但同时，它很神奇。
那 GPT 为什么算数学就不太行呢？沃尔夫勒姆讲了很多，下面我用一张图给你简单概
括一下。
[这张图是我用 ChatGPT + Wolfram plugin 画的]
我们用三个集合代表世间的各种计算，对应于图中三个圆圈。
27 / 134
大圈代表一切计算。我们可以把自然界中所有现象都理解成计算，因为底层都是物理
定律。其中绝大多数计算过于复杂——比如我们专栏讲过「一个质子就是一片海」—
—以至于我们连方程都写不全，不管是用大脑还是用计算机都不能处理，但我们知道
那也是计算。
大圈内部，左边这个小圈，代表神经计算，适合神经网络处理。我们的大脑和包括
GPT 在内当前所有的 AI，都在这里。神经计算善于发现事物的规律，但是对数学问题
的处理能力有限。
大圈内部右边这个小圈代表「形式逻辑」，数学就在这里。这里的特点是精确推理，不
怕繁杂，永远准确。只要你有方程有算法，这里就能兢兢业业地给你算出来。这是特
别适合传统计算机的领域。
不论是人脑、GPT 还是计算机都处理不了世间所有的计算，所以两个小圈远远不能覆
盖整个大圈。我们搞科学探索，就是要尽可能地扩大两个小圈的范围，进入大圈中未
知的领地。
人脑和 GPT 也可以处理一部分形式逻辑，所以两个小圈有交集；但是我们处理不了特

别繁杂的计算，所以它们的交集并不大。
那你说有没有可能将来 GPT 越来越厉害，让左边的小圈完全覆盖右边的小圈呢？那是

不可能的。沃尔夫勒姆认为，语言思考的本质，是在寻求规律。而规律，是对客观世
界的一种压缩。有些东西确实有规律你可以压缩，但有些东西本质上就没有规律，不
能压缩。
我在精英日课第一季，讲过沃尔夫勒姆发明的一个游戏，其中有个「第 30 号规则」
，
就是「不可约化的复杂」：你要想知道将来是什么样子就只能老老实实一步步算出来，
不能“概括”。
这就是为什么 GPT 算不好繁杂的数学题。GPT 跟人脑一样，总想找规律走捷径，可

是有些数学题除了老老实实算没有别的办法。
更致命的是目前为止，GPT 的神经网络是纯粹的「前馈（feed-forward）」网络，只会
往前走、不会回头、没有循环，这就使得它连一般的数学算法都执行不好。
这就是 GPT 的命门：它是用来思考的，不是用来执行冷酷无情的计算的。
这样说来，虽然 GPT 比人脑知道的更多、反应更快，但作为神经网络，它并没有在本

质上超越人脑。
说到这里，沃尔夫勒姆有个洞见。
用这么简单的规则组成的神经网络就能很好地模拟人脑——至少模拟了人脑的语言系
统——这说明什么呢？老百姓可能说这说明 GPT 很厉害——而沃尔夫勒姆却说，这说
明人脑的语言系统并不厉害。
28 / 134
GPT 证明了，语言系统是个简单系统！
GPT 能写文章，说明在计算上，写文章是一个比我们想象的*更浅*的问题。人类语言
的本质和背后的思维，已经被一个神经网络给捕捉了。
在沃尔夫勒姆眼中，语言无非就是由各种规则组成的一个系统，其中有语法规则和语
义规则。语法规则比较简单，语义规则包罗万象，包括像“物体可以移动”这样默认规矩。
从亚里士多德开始就一直有人想把语言中所有的逻辑都列出来，但是从来没人做到—
—可是现在 GPT 给了沃尔夫勒姆信心。
沃尔夫勒姆说你 GPT 能做的，我也能做。他打算用一种计算语言——也就是「沃尔夫

勒姆语言」——取代人类语言。这么做有两个好处。一个是精确性，人的语言毕竟有
很多模糊的地方，不适合精确计算；另一个则更厉害：沃尔夫勒姆语言代表了对事物
的“终极压缩”，代表了世间万物的本质……
因为我听说过哥德尔不完备性定理，所以我不太看好他这个雄心壮志——但是我能想
到的人家肯定早就想过了，所以我没有反对意见，我只是想告诉你这些。
总而言之，GPT 的底牌是它虽然结构原理简单，但是已经在相当程度上拥有人脑的思
维。现在还没有一个科学理论能完整解释它为什么能做到，但是它做到了。GPT 的命
门也是因为它太像人脑了：它不太擅长做数学计算，它不是传统的计算机。
这也解释了为什么 GPT 很擅长编程，却不能自己执行程序：编程是语言行为，执行程

序是冷酷计算行为。
理解了这些，我们研究怎么调教 GPT 就有了一点理论基础。但我现在想说的是，GPT

的所谓命门其实很容易弥补。
你给它个计算器不就行了吗？你另外找台计算机帮它执行程序不就行了吗？最近
OpenAI 允许用户和第三方公司在 ChatGPT 上安装插件，恰恰就解决了这个问题……
所以 GPT 还是厉害。
但是沃尔夫勒姆让我们认识到了 GPT 的根本局限性：神经网络的计算范围是有限的。

我们现在知道，将来就算 AGI 出来，也不可能跳出神经计算和形式逻辑去抓取大自然
的真理——科学研究终究需要你跟大自然直接接触，需要调用外部工具和外部信息。
希望这一讲能对 GPT 有所祛魅。它的确是不可思议地强，但它远远不是万能的。我们

下一讲见。
29 / 134
04 效率：把 AI 转化为生产力
你好，这里是《万维钢·AI 前沿》课。这一讲，我们来说说把 AI 这个通用技术转化为
生产力的逻辑。
其实现在已经有很多 AI 应用了，但你要说 AI 已经改变了社会经济活动，好像还谈不

上。这是怎么回事呢？
有一本 2022 年 11 月 15 日刚出版的新书，

《权力与预测：人工智能的颠覆性经济学》
（Power and Prediction: The Disruptive Economics of Artificial Intelligence），作者是
三个加拿大经济学家，阿贾伊·阿格拉瓦尔（Ajay Agrawal）、约书亚·甘斯（Joshua
Gans）和阿维·戈德法布（Avi Goldfarb），说的就是这个问题。
30 / 134
此书认为，我们此刻正处在人工智能的「过渡时期（The Between Times）

」，大约可
以说是未来已经到来，只是还没带来很大的效益的这么一个时期。
很多人都观察到了，AI 已经被应用于好多领域，相关公司的股价都在飙升，人人都在
谈论它。可是反映在经济上，AI 对发达国家生产力的促进，还没体现出来。前几年人
们还在谈论「大停滞」——从上世纪 90 年代末到现在，美国人的实际收入水平已经停
止了增长。AI 的作用到底在哪呢？
麻省理工学院的《斯隆管理评论》曾经在 2020 年做过一项调查，发现有 59%的商业

人士说自己有一个 AI 战略，有 57%的公司已经部署或已经尝试了某种 AI 方案——可
是只有 11%的公司，真正从 AI 中获得了财务利益。
说白了就是为什么 AI 还没帮你赚到钱。其实这个现象并不是特例，这是一个正常的发
展阶段。AI 是一种「通用技术」，很多人认为它对社会的影响将会超过电力。像蒸汽机、
电力、半导体、互联网，这些都是通用技术。通用技术，都不是一上来就能创造巨大
财富的。
比如 1987 年，经济学家罗伯特·索洛（Robert Solow）就有个感慨，说我们这个时代

到处都能看到计算机，唯独生产力统计里看不见计算机……
其实那很正常，因为通用技术刚出来不会立即改造经济活动。
我们先回顾一下电力的发展。下面这张图说的是电力在美国家庭和工厂的普及历史—
—
31 / 134
爱迪生在 1879 年就发明了电灯，可是过了 20 年，美国才只有 3%的家庭用上了电。

到 1890 年，美国工厂只有 5%用上了电力；甚至到了 1910 年，新建工厂还是优先采
用蒸汽动力。这是为什么呢？
《权力与预测》这本书认为，通用技术要真正发挥生产力效能，需要经过三个阶段。
第一阶段叫「点解决方案（The Point Solution）」，是简单的输入端替换。
灯泡比蜡烛方便一点，用电力做动力有时候会比蒸汽动力便宜一点，你可能会有替换
的意愿。你的生活方便了一点点，你的成本降低了一点，但是仅此而已。
第二阶段叫「应用解决方案（The Application Solution）」，是把生产装置也给换了。
以前的工厂用蒸汽动力都是一根蒸汽轴连接所有机器，蒸汽一开所有机器都开。改用
电力之后，工厂发现如果每台机器都有独立的电源，那就完全可以用到哪台开哪台，
这岂不是更省钱吗？这并不容易，因为这意味着你必须对机器进行改造，什么机床、
钻头、金属切割器、压力机，都得根据独立电源重新设计。这是需要时间的。
第三阶段叫「系统解决方案（The System Solution）」，是整个生产方式的改变。
蒸汽时代的厂房，因为要用到蒸汽轴，所有机器都必须布置在中央轴的附近。用上电
力，你可以随处安装插头，机器可以放在工厂里任何一个位置，那么你就可以充分利
用空间，没必要把所有机器集中在一起。这就使得「生产流水线」成为可能。这已经
不是局部的改进，这要求生产方式和组织方式都得到系统性的变革。
AI 也是如此。目前为止，我们对 AI 的应用还处在点解决方案和一定的应用解决方案阶
段，还没达到系统解决方案。这就是为什么 AI 还没有发挥最大的作用。
从商业角度看，AI，到底是什么东西？《权力与预测》这本书认为 AI 是一个「预测机
器」。
三位作者没有讨论像 ChatGPT 那样的生成性语言模型，这本书是专注于像发现新药、

推荐商品、天气预报那样的预测性 AI 应用，而这些应用的确也是商业化程度最高的。
比如你向蚂蚁金服申请一笔贷款，你不用等，它当场就能审批，这就是因为 AI 能根据
你的记录预测你的偿还能力。预测是决定的前提，AI 预测能改变人们做决定的方式。
当电力被广泛应用以后，人们对电力的应用，和电力的来源，就脱钩了。你不用关心
发电厂在哪，你不用管电是怎么发的，你的厂房可以开在任何地方。那么我们可以设
想，当 AI 被广泛应用的时候，预测，和决定，这两件事也可以脱钩：你不用管 AI 是
怎么预测的，你直接根据预测做决定就是。
三位作者提出，AI 的点解决方案是用 AI*改善*你现有的决定，应用解决方案是 AI*改变

*你做决定的方式，系统解决方案是 AI 促成了*新的*决定，你的生产模式整个变了。
举个例子，比如你在亚马逊购物。现在，亚马逊的 AI 会根据你的购物喜好来向你推荐
商品，这就是一个点解决方案。
32 / 134
但亚马逊完全可以这么做：AI 判断你喜欢某些商品，亚马逊不告诉你也不问你，直接
把这些商品寄到你家。也许每个月甚至每周给你发来一箱商品。你打开箱子一看，每
次都有惊喜：喜欢的你就留下，不喜欢的就退货。
这种销售方法肯定能让你多买一些东西！毕竟人家来都来了，把东西拿在手里、穿在
身上，感觉跟看网页肯定不一样。所以这显然是个好主意，这是个应用解决方案，你
做购物决定的方式被改变了。
事实上亚马逊早就已经把这种购物模式给注册专利了，叫做「预先发货（Anticipatory
Shipping）」。
但是，这个销售方式，目前为止，还没有正式实施。为啥呢？因为现有的退货系统还
不够好。
处理退货仍然是个很麻烦的事情。运输倒是挺便宜，问题在于把退回来的商品检查一
番、包装好、重新放到货架上，这个事儿非常费力，所以现在亚马逊的做法是把很多
退货收到就直接扔掉了。
但如果将来 AI 能接管退货这一块，比如用上机器人，亚马逊就可以搞预先发货了。可
能到时候商家的整个销售方式都会改变，那就是一个系统解决方案。
AI 预测能改变决定方式，就能改变生活方式。
我们在生活中很多时候根本不做决定，都是根据习惯或者规则做事。如果你感觉今天
33 / 134
要下雨，你就决定带伞。但如果这个地区经常下雨，可能你就会给自己定一条规则：
每天上班必须带伞。再比如因为怕错过航班，有些人规定自己坐飞机必须提前四个小
时出发。
这些规则只是为了防止出事，它们拉低了生活的效率。
我们设想一下，如果天气预报非常准，你就不必每天带伞，你就可以把规则变成一个
决定：根据天气预报决定是否带伞。如果 AI 能充分考虑去机场的路上交通有多拥堵、
航班有没有晚点、你到那的时候安检队伍大概有多长，给你提供一个精准预测，你就
可以取消提前四个小时出发的规则。对吧？
那我们再进一步。何必还问一问 AI 的预测，自己再做决定呢？干脆直接把决定权交给
AI，让 AI 安排你带不带雨伞、什么时候出发，岂不是更好？
年轻人经常因为考虑不周而遇到麻烦。成年人为了避免麻烦给自己制定了很多规则，
实则换成了另一种麻烦。有的人很幸运，身边有人随时提醒。而更幸运的人则根本无
需操心，你们安排就好，我都行。
到时候你会很乐意把决定权交给 AI。
这就是预测取代规则。
体现在经济上，举个例子。农民种田最早都是看看天气预报，自己大概估计一下什么
时候播种、什么时候施肥、什么时候收割，决定是自己做的，预测只是参考。
后来天气预报越来越准，美国的气象公司把预报结果给人性化了，专门对农民输出一
个精确的预测，说你今年播种只有 8 天的窗口期，你看着办。气象公司一方面根据天
气预报，一方面根据作物类型，直接通知农民最佳的播种、施肥和收割时间。
那农民就省心了。何必自己做决定呢？直接听气象的不就行了？你看，气象公司现在
深度干预农业。
所以孟山都在 2013 年收购了一家气象公司。这回它不但给农民提供种子、教农民种田

的方法，而且直接指挥农民哪一天去干什么，等于说提供一揽子解决方案，把所有的
决定都替农民做了。
而且 AI 可以改变农业生产的方式。
现在很多农产品都是在温室里种植。温室种植好处很多但也有个问题，就是容易长虫
害。那么现在就有公司用 AI，能提前一周准确预测你这个温室会不会长虫。有了这一
周时间，农民就可以提前一周订购抗虫用品。但这还只能算是一个应用解决方案。
系统解决方案，是既然 AI 预测能力这么强，农民就不用怕虫害了。既然不怕虫害，你
就可以种植一些原本因为怕虫害而不敢种的农作物。你还可以搞更大的温室，因为不
用担心虫害袭击一大片。你的整个生产方式改变了。
34 / 134
要想让 AI 充分发挥生产力作用，就必须用预测取代规则。
现在 AI 辅助教学技术完全可以做得很好。AI 可以根据你已有的词汇量决定你今天应该
背哪些单词，根据你上一次数学测验的得分决定你今天该学哪些数学知识，AI 能确保
你每次都在你自己的「学习区」学习，把学习效率最大化。但是，AI 还没有真正改善
我们的学习效率。
为啥呢？因为现在整个学校的组织仍然是按照年龄分级的。学校有规则。每个班都是
一个年龄段的同学，这些同学对课程内容掌握进度很不一样，可是教学规则把他们黏
在了一起，他们不得不每天听同一个老师讲同样的内容。
如果我们能用 AI 的逻辑重新组织教学，让每个学生接受真正个性化的学习，让每个老
师发挥他个性化的能力，学校会是怎样的？可能有的老师特别擅长帮助有阅读困难的
学生，有的老师特别擅长带数学竞赛，让老师跟学生进行配对，让 AI 帮助老师掌握每
个人的进度，那才是系统性的改变。
希望你听完这一讲，每次当你想怎么用 AI 的时候，都可以想想当初的电力。我们的生
产、生活和社会很快就会围绕 AI 重新设置，这一切才刚刚开始。我们下一讲见。
05 战略：AI 商业的竞争趋势
你好，这里是《万维钢·AI 前沿》课。这一讲，我想跟你聊聊 AI 的商业战略，以及中
35 / 134
国公司还有多少机会。
从 ChatGPT 出现几个月以来，已经诞生了成百、也许上千个 AI 应用，现在是群雄并

起的时刻。
特别是 3 月初，OpenAI 把它的 API 流量费用降低了 10 倍，你可以直接调用 GPT-3.5

做各种应用。我在 Twitter 追踪各路消息，感觉现在简直人人都能自己搞个 AI 应用：
从网站到手机 APP，到浏览器插件，到开源软件，干啥的都有，哪怕你以前不熟悉编
程开发都没关系，因为可以让 ChatGPT 替你做编程。
在大公司层面，OpenAI 之外，Google、微软、Meta 都有自己的模型。伊隆·马斯克本

来是 OpenAI 的投资者之一，后来因为理念不合退出了，现在正在找人做自己的模型。
目前看，性能上最接近 ChatGPT-3.5 的模型可能是 Claude，由一个叫 Anthropic 的小
创业公司开发，那家公司是 OpenAI 之前的雇员独立出来成立的。
中国这边也是风起云涌，百度、腾讯等几家大公司也在训练自己的模型……
这绝对是上世纪九十年代以来互联网创业最热闹的时刻。如果你有志于做一番大事，
别错过这一波机遇。
你会有很多问题。Google 那么强，为什么这次推出 ChatGPT 的不是 Google？在

OpenAI 已经如此厉害的情况下，中国公司还有多大机会？
AI 确实是前所未有的变革，但是商业的逻辑并没有变。
如果你熟悉商业逻辑，你就能想明白为什么 Google 没有率先推出 ChatGPT。这是一

次典型的颠覆式创新。
大型语言模型最关键的一个技术是 transformer 架构，transformer 就是 Google 发明的。

Google 有很深的技术积累，自家就有不止一个语言模型。可是一直等到微软把搜索和
GPT 模型结合，推出了 Bing Chat 之后，Google 才坐不住了，在 2 月 7 日推出了一个
叫 Bard 的竞品，结果测试表现还不好，导致股价大跌。
36 / 134
Google 为什么起了个大早，却赶了个晚集呢？这其实就是克莱顿·克里斯坦森
（Clayton M. Christensen）在《创新者的窘境》里说的非常典型的一个情况。
我敢说，Google 从一开始就没有好好做对话式搜索这个项目。因为对话式搜索不符合
Google 的利益。
传统搜索很容易在结果中插入广告，那些广告收入是 Google 的命脉所在。对话式搜索

消耗的算力是传统搜索的十倍，这可以接受，可是广告怎么办？你很难在聊天中插入
广告。Google 显然不想自己颠覆自己，他不会主动搞这种新模式……而微软则是光脚
不怕穿鞋的。
结果 Bing Chat 一出来，Google 的搜索流量就显著下降——
37 / 134
[此图 Y 轴坐标有一定的误导性，但是仍然能说明问题。]
克里斯坦森说，一个技术变革哪怕再激进，只要改善的是传统的商业模式，那就不会
发生颠覆式创新——只有当这项技术改善的不是传统指标的时候，才会出现颠覆。
举个耳熟能详的例子。为什么 Netflix 的流媒体播放模式能颠覆 Blockbuster 的录像带

出租模式？Blockbuster 其实已经看到了 Netflix 来势汹汹，而且也找到了应对策略，也
开发了视频点播业务……但是，它败给了自己。
Blockbuster 是加盟店的模式。你在自己的城市开个店，它给你提供片源，你运营出租
业务。那你能不能猜一猜，加盟店最大的一笔收入来源是什么？
是滞纳金。消费者租了录像带如果没有及时归还，就要交一笔滞纳金——滞纳金，占
到了加盟店收入的 40%。而且加盟店还有卖爆米花、糖果之类的收入。如果
Blockbuster 学 Netflix，搞不收滞纳金的邮寄 DVD 和流媒体点播模式，加盟店还能有
收入吗？
反映在公司战略上，就导致了新旧两种模式的权力斗争……最后董事会强行命令公司
高层恢复原有模式。
你猜此刻的 Google 会不会正在发生类似的斗争？你猜百度现在在想什么？
保守派最有力的论点是新事物还不够好。比如 iPhone 刚出来的时候有各种毛病，非常

耗电池，打字很不方便……可以说在生产力方面远远不如黑莓。正如现在 ChatGPT 和
Bing Chat 也有各种不如人意之处。
但关键是，iPhone，代表了一个全新的商业模式，它给用户提供了一种完全不同的使
用手机的体验。Bing Chat 彻底改变了搜索这件事，哪怕现在有各种不足，只要这个方
向成立，它就会越做越好。
iPhone 用了 4 年才真正影响了传统手机的销量。我们有理由相信，Bing Chat 这种搜

索模式，恐怕用更短的时间就会影响到 Google。以后搜索引擎该怎么赚钱呢？是改成
收费吗？是强行在对话中加广告吗？没人知道。但我们知道，肯定要变了。
不过 Google 这样的大公司搞 AI 还是有先发优势的。用商业语言来说，要做 AI 业务，

你需要达到一个「最低启动门槛」，你需要「护城河」，你需要形成「飞轮效应」。
AI 的启动门槛是数据。预测需要数据，你首先需要准备好达到最小有效规模的数据量。
在没有 AI 的时代，数据量并不是很重要。比如早期的互联网上曾经有几十家公司都在
做搜索引擎，你感觉用哪个都差不多。那时候你不太在意搜索结果是否特别匹配你的
要求，可能第一页显示的十个网页都不是你想要的，没关系，你可以翻到第二页。要
想返回更精确的结果，搜索引擎必须结合 AI，但那是后话。
可是现在做自动驾驶汽车，就是另一个故事了。我们对自动驾驶汽车出错的容忍度很
38 / 134
低。这就要求提供自动驾驶业务的公司必须把 AI 先练好了，那么你就一定得事先积累
很多数据才行。
不过如果不是做自动驾驶，现在网上的数据非常丰富，对很多创业公司来说搜集数据
不是太大的问题。比如有一家用 AI 帮助科学家搞医药开发的公司叫 BenchSci，就是
用机器学习调研公开发表的学术论文，告诉科学家研究某一种药物需要准备什么样的
生物试剂，以此大大缩短研发周期——
目前为止它的业务都很好。但你可能会问，既然数据都是公开的，如果另一家公司也
做这样的业务，它怎么办呢？
这取决于它有没有护城河。对 AI 公司来说，最好的护城河就是从用户的反馈中学习。
比如 Google 搜索。你输入几个关键词，Google 谋求尽可能把你想要的那个网页排在

首页前列，最好是第一个结果。那 Google 是如何决定结果排序的呢？以前是使用一个
排名（PageRank）算法，现在则是用深度学习 AI，结合你的使用习惯，预测你最想
要的结果。而这个 AI 特别能从你的反馈中学习。
你在 Google 上的每一次点击，点到哪个网页，点什么广告，都在帮助 Google 改进它

的预测模型。Google 的搜索结果越来越准，你用着越来越得心应手，它给你的链接正
好是你需要的，它显示的广告正好是你感兴趣的，广告商也非常明白这些……这就是
为什么 Google 在搜索引擎的市场份额是难以撼动的。
有先发优势又有护城河，如果再赶上是一门市场不断扩大的业务，自己能从用户反馈
中持续改进，那就等于拥有了增长飞轮。
科技是活的东西，科技是生态的产物。历史上曾经有很多家商业飞机制造商，现在国
际上制造大型客机的只剩下波音和空客两家。它们在不停地改进，从每一次飞行事故、
每一个问题中学习，就这样积累了很多年。现在中国也在造大飞机，也许我们的确可
以在某个横截面上达到比较高的技术水平，但是我们没有那么多年的改进经验——我
们连事故都没出过——我们的正反馈飞轮还没有搭建起来，我们可以想见会面临很多
困难。
这就是为什么自动驾驶的门槛那么高，现在仍然有这么多公司在不惜血本投资。比如
通用汽车，在自动驾驶项目上一下子就投了 10 亿美元。这是因为一旦抢跑成功，飞轮
展开，别人就很难赶上了。现在是难得的窗口期。如果将来有一家公司的自动驾驶系
39 / 134
统被证明是最好的，就很可能会出现像搜索引擎业务中 Google 一家独大那样的局面，

那就很难办了。
要这么说的话，中国公司在 AI 虽然有很多积累，也有应用经验，但技术上毕竟不是最
强的，那中国的机会在哪？这就引出了另一个商业逻辑——差异化。
有时候只要你能越过一定的门槛，好到一定的程度，“好不好”就难以比较了。可口可乐
跟百事可乐哪个好？奔驰跟宝马哪个好？它们有不同的风格，能吸引到不同的人群。
那我们可以设想，同样是像 GPT 这样的语言模型，不同的公司也会有差异化的需求—

—
• 有些公司希望效率高，能够快速准确回答用户问题就好；
• 有些公司希望能在聊天对话中推销产品；
• 有些公司希望机器人更加人性化，能化解用户的愤怒，能让用户感觉好……
也许不同的模型会专注于不同的需求。像我们前面提到的 Claude 模型，据说在小说创

作方面就比 OpenAI 的 GPT-3.5 要好。
最简单的差异化是本地化。比如黑色素瘤检测，欧洲的 AI 因为选用的都是欧洲人的数
据，对浅色皮肤的判断更准确。那么如果中国的某个公司专门做一个针对亚洲人肤色
的黑色素瘤检测 AI，就非常值得。
再比如说，中国的交通状况——包括信号系统、车流和行人习惯——跟美国、欧洲都
很不一样，美国公司的 AI 不可能拿到中国直接用，那么专门训练一个中国自己的自动
驾驶 AI 就是必须的。
好，我们来总结一下这一讲，我们讲了几个 AI 商业互相竞争的趋势：
• * AI 商业有先发优势，但同时 AI 又是对市场现有霸主的颠覆；
• * AI 因为本质上还是软件，边际成本几乎为零，有胜者通吃效应，但同时 AI 又有
差异化的需求。
这是一个难得的老牌大公司和新兴小公司、强者和弱者都有机会的局面。下游每天都
在涌现新的 AI 应用，上游各路人马都在训练自己的大型语言模型。目前只有几家公司
表现出先发优势，但是我们不知道谁有护城河，谁能建立增长飞轮。这是一个史上罕
见的「秦失其鹿，天下共逐之」的局面。
这将是一个非常短暂的窗口期，预计很快就会有「高材疾足者先得」。
而我感觉现在中国已经慢了半拍。此刻，OpenAI 的 API 在中国用不了，国产模型又迟

迟没出来，国内的 AI 应用还没有爆发起来，搞不好就此失了先手。
我特别想提醒的一点是现在中文已经不再是一个障碍了。OpenAI 没有使用很多中文语
40 / 134
料训练，但是 ChatGPT 可以讲很地道的中文，也许比国产模型更地道。中国公司必须

从别的方面考虑差异化……
好，以上就是这讲的全部内容。下一讲，咱们说说人和 AI 的决策分工。
06 决策: AI 的预测 +人的判断

你好，这里是《万维钢·AI 前沿》课。这一讲，咱们来说说人和 AI 的决策分工。
人到底有什么能力是不可被 AI 替代的？每个人都需要思考这个问题。
我们在第四讲说到三个加拿大经济学的一本书，《权力与预测：人工智能的颠覆性经济
学》。这本书中有一个洞见，我认为有可能就是 AI 和人分工的指导原则。简单说，就
是双方共同做出决策，其中 AI 负责预测，人负责判断。
要说明这一点，我们先看一个真实的案例。网约车公司 Uber 一直在测试自动驾驶汽车。

2018 年，Uber 的自动驾驶汽车在亚利桑那州撞死了一个行人，引起了激烈的讨论。
你仔细分析这个事故，会发现在撞击前 6 秒，AI 已经看到了前方有一个未知物体。它

没有立即做出刹车的决定，因为它判断那个物体是人的概率非常低——虽然那个概率
并不是 0。
AI 有个判断阈值，只有在前方物体是人的概率超过一定数值的情况下，它才会刹车。
撞击前 6 秒，概率没有超过阈值；等到后来终于看清是人的时候，刹车已经晚了。
我们把刹车决定分为「预测（Prediction）」和「判断（judgement）」两步。AI 的预测
41 / 134
也许不够准，但是它已经预测出这个物体*可能*是一个人，它给出了不为 0 的概率—
—接下来的问题是出在了判断上。在这个概率上应不应该踩刹车，是这个判断导致了
悲剧。
Uber AI 用的是阈值判断法，这可以理解，如果对前方任何一个是人的概率不为 0 的物
体，AI 都选择刹车，它就会在路上不停地踩刹车，这车就没法开了。当然你可以说这
个阈值不合理，但是这里总是需要一个判断。
请注意，正因为现在有了 AI，我们才可以做这样的分析。以前发生过那么多人类司机
撞人的事件，从来没有人去分析那个司机是犯了预测错误还是判断错误。但这种分析
其实是完全合理的，因为两种错误性质很不一样——请问这位司机，你是根本没看见
前方有人呢，还是已经感觉到前方物体*有可能*是人，但是你感觉那个可能性并不是
很大，又因为赶时间，你觉得那么小的概率可以接受，就开过去了？
你犯的到底是预测错误，还是判断错误？
决策 = 预测 + 判断。
预测，是告诉你发生各种结果的概率是多少：判断，是对于每一种结果，你在多大程
度上愿意接受。
我在精英日课第五季，讲过蒂姆·帕尔默的《首要怀疑》，其中专门讲过怎样根据预测
的概率做决策。你周末有个户外聚会，要不要为此租个帐篷防止下雨，这是你的决策。
天气预报告诉你那天下雨的概率是 30%，这是预测。面对这样一个概率，下雨的损失
是不是可以接受的，这是你的判断。
我们当时讲的是只要采取行动的代价（也就是帐篷的租金）小于损失（也就是下雨会
给你带来多大的麻烦）乘以概率，就*应该*采取行动，租个帐篷防止淋雨。但是在这
一讲的视角下，请注意，这个“应该”，应该理解成是对你的*建议*。
是否采取行动的拍板权还是在你手里——因为那个损失最终是由你来承受的。AI 不会
承受损失，用公式给你提建议的人不会承受损失。英国女王也好、你岳母也好，在场
来宾淋雨这件事是大是小，不是 AI 所能知道的——那其实是你自己的主观判断。
AI 很擅长预测天气概率，但是判断一个天气状况带来的后果，需要更多的、具体的、
也许只有你自己才知道的信息，所以做判断的应该是你而不是 AI。
AI 时代的决策 = AI 的预测 + 人的判断
也就是说，我们应该让预测和判断脱钩。以前所有的决策都是人负责预测，人负责判
断，现在则应该是 AI 负责预测，人负责判断——
42 / 134
我们承认 AI 比人聪明，但是我们也知道真正承受风险、体验后果的是人而不是 AI。预

测是客观的，判断是主观的。AI 不能僭越人的判断，人也不应该专断 AI 的预测。AI 与
人各安其位，分工明确。
如何实施这个分工呢？一个方法是人为给 AI 设定一个自动判断门槛。
比如自动驾驶汽车，我们可以规定，当 AI 预测前方物体是人的概率高于 0.01%——或

者 0.00001%也行，反正你得有个不为零的数值——的时候就必须踩刹车。这个判断
标准，这条线，肯定不是 AI 自己规定的，而是人事先设定的。你把这条线编程到 AI
之中，但是下达那条编程指令的必须得是人——因为只有人能判断人命的价值：对 AI
来说，人命的价值是无法用客观方法估算的。
其实我们已经在用这种判断了。以前你到商店买东西用的是现金，那个现金是真钞还
是假钞，得由商店收银员自己预测、自己判断。现在你刷信用卡，那个信用卡是真卡
还是假卡，现在不是由收银员决策，而是由信用卡联网系统根据算法来预测和判断的。
算法会先评估这张卡是假卡的概率有多大（预测），再看看那个概率是否高于某一条线
（判断），决定是否拒收。那条线不是任何 AI 算出来的，而是事先某个由人类组成的
委员会划定的——因为线划得太低得罪客户的是人，线划得太高承担损失的也是人。
未来我们会面对各种各样类似的事情，《权力与预测》这本书建议这样的判断最好由一
43 / 134
个像美国食品药品监督管理局（FDA）这样的机构来执行，就好像评估一种新药是否
可以上市一样。
另一个方法是把判断量化成钱。
你租了一辆车，要去一个比较远的地方，你有两条路线可选。第一条比较直，老老实
实开车就行，路上没什么风景。第二条会经过一个风景区，对你来说是一种享受，但
是风景区里有行人，会增加出事故的概率。如果 AI 直接跟你说哪条路出事故的概率有
多大，你可能还是不好判断。
更方便的做法是，AI 告诉你，走风景区那条路，租车的保险费比走第一条路高 1 块钱。

这一块钱的保险费代表 AI 对两条路风险差异的预测。
现在判断交给你。如果你认为风景对你的重要性超过 1 块钱，那你就走风景区；如果
你对风景没有那么高的兴趣，你就省下 1 块钱。
你看，AI 无需了解你，也不可能了解你——是你在这一块钱和风景之间的选择，揭示
了你的偏好。在经济学上，这叫做「显性偏好（Revealed Preference）」：人的很多偏
好本来是说不清的，但是一跟钱挂钩就能说清了。
预测跟判断脱钩，对人是一种赋能。
以前如果你想去开出租车，可不是会开车就行。首先你得学认路，你得知道这个城市
中从任意 A 点到任意 B 点的最短路线是什么——用本讲的话说就是你得会预测——才
能开好出租车。现在 AI 接管了预测路线的事儿，你只要会开车就可以去开网约车了。
有了 AI，人会判断就会决策。但这并不是说决策很容易，因为判断有判断的学问。
生活中更多的判断既不是由委员会划线也不是被量化成了钱，是必须由个人对具体情
况进行具体分析。这个结果对你来说到底有多好，或者到底有多坏，到底能不能承受，
你怎么判断呢？
有的可能是你读书或者跟别人学的，比如你听说被烧红的烙铁烫会很疼，你会愿意以
很高的代价避免被烫。但是听说不如亲历。只有你真的被烫过，你才能知道有多疼。
判断，有很大的主观成分。
而判断这个能力正在变得越来越重要。美国的一个统计显示，1960 年只有 5%的工作

需要决策技能，到 2015 年已经有 30%的工作需要决策技能，而且还都是高薪岗位。
因为只有人知道有多疼，所以人不是机器。而判断力和随之而来的决策力，本质上是
一种权力——AI 没有权力。这就是《权力与预测》这本书书名的缘起。
当 AI 接管了预测之后，决策权力在社会层面和公司组织层面的行使就成了一个新问题。
44 / 134
有个例子。因为知道了铅对人体有害，从 1986 年开始，美国政府禁止新建筑物使用含

铅的饮用水管。可是很多旧建筑物的水管都含铅，这就有一个对旧水管的改造问题。
但是改造非常费钱费力，旧水管又不都含铅，你得先把水管挖出来才知道是否含铅，
那先挖谁家的呢？
2017 年，密歇根大学的两个教授搞了一个 AI，能以 80%的准确率预测哪家的水管含

铅。密歇根州的弗林特市（Flint）使用了这个 AI。一开始都挺好，市政府安排施工队
根据 AI 的预测给各个居民家换水管。
工程这样进行了一段时间之后，有些居民不干了。他们质疑说，为什么我家邻居水管
换了，我家的却没换？特别有富裕居民区的人说，为什么先去换那些贫困地区的水管，
难道不是我们交的税更多吗？
收到这么抱怨，弗林特市的市长就干脆决定不听 AI 的了，咱挨家挨户慢慢换。结果这
样一来，决策准确率一下子从 80%降到了 15%……又过了一段时间，是美国法院推出
一个法案，说换水管这个决策必须先听 AI 的预测，决策准确性才又提高回来——
这件事儿的道理是 AI 改变了决策权。没有 AI 的预测，因为只有政府能预测和判断谁

家水管应该先换，决策权是完全把持在政客手里；有了 AI，老百姓或者社区都可以自
己判断，尤其美国三权分立，司法系统也可以直接发话，政客就不好使了。
决策权到底应该属于谁呢？从经济学角度来说，当然是谁决策对整个组织的效率最高，
就应该属于谁。
45 / 134
以前预测和判断不分的时候，决策权往往应该交给一线人员，因为他们直接接触关键
信息，他们的预测最准确——正所谓「让听得见炮火的人指挥」。
现在 AI 接管了预测，人的决策就是判断。这时候可以考虑，让那些个人利益跟公司利
益最相关的人决策，或者让受这个决策影响最大的人决策，或者让最能理解决策后果
的人决策……这些都意味着组织的变革。
变革还意味着以前的预测者，现在要转型为判断者，或者解释者。
比如以前天气预报机构的职责是提高预测的准确度，现在有了 AI，他们的主要职责就
不是预测天气了——也许变成了向公众和政府机构解释预测结果。AI 说下周有 5%的
可能性会发生龙卷风，政府官员不懂这 5%代表多大损失，也许你这个气象学家能给解
释一下。未来的气象台可能更多地是提供人性化服务，比如建议老百姓明天怎么制定
出行计划，而不仅仅是预报一个下雪概率。
再比如，以前放射科医生的最主要任务是看图预测病情。现在 AI 看图的能力已经超过
了人类，那放射科就得琢磨别的服务，也许是向病人解释病情，也许放射科就不应该
继续存在……
好，我们来总结一下这一讲。《权力与预测》这本书提供了一个解决方案，那就是 AI
只负责预测，让人掌握判断。在我看来这个分工非常合理，把决策权交给 AI 会让人很
难受。AI 再厉害，我们也不愿意把它奉为神灵——AI 最好老老实实扮演助手或者祭司
的角色，拍板权还是应该在人的手里。
以上就是这一讲的全部内容，下一讲咱们继续聊 AI 这个危险的法宝。
46 / 134
07 社会: 被 AI 接管后的忧患
你好，这里是《万维钢·AI 前沿》课。这一讲咱们来聊聊如果 AI 接管了人类社会，会
发生什么？
2 月 24 日，OpenAI 发布了一则声明，叫“对 AGI 及以后的规划（Planning for AGI and

beyond）”。AGI 不是我们现在用的这些科研、画画或者导航的 AI，而是「通用人工
智能（artificial general intelligence）」，是不但至少要有人的水平，而且什么任务都可
以干的智能。
AGI 在以往只存在于科幻小说之中。我曾经以为我们这代人有生之年都看不到 AGI。

但 OpenAI 已经规划好了路线图。我听到一些传闻，AGI 有可能在 2026，甚至 2025
年就会到来。OpenAI 的下一代语言模型，GPT-4，已经训练完毕。现在正在训练的是
GPT-5，它被认为肯定可以通过图灵测试。
47 / 134
所以这绝对是一个历史时刻。但是请注意，OpenAI 这个声明是个很特殊的文件。你从
来没见过任何一家科技公司是这样说自家技术的：整个文件的重点不是吹嘘，而是一
种忧患意识——它忧患的既不是自家公司，也不是 AGI 技术，它忧患的是人类怎么接
受 AGI。
OpenAI 说：“AGI 有可能给每个人带来令人难以置信的新能力；我们可以想象一个世

界，我们所有人都可以获得几乎任何认知任务的帮助，为人类的智慧和创造力提供一
个巨大的力量倍增器。”然后文件并没有继续说 AGI 有多厉害，而是反复强调要「逐渐
过渡」：“让人们、政策制定者和机构有时间了解正在发生的事情，亲自体验这些系统
的好处和坏处，调整我们的经济，并将监管落实到位。”并且说它部署新模型会「比许
多用户希望的更谨慎」。
这等于是说，通往 AGI 的技术已经具备，但是为了让人类有个适应过程，OpenAI 正

在刻意压着，尽量慢点出。
人类需要一个适应过程，这也是我们这一讲的主题。基辛格等人在《AI 时代》这本书
中表达的也是这个意思，AI 对人类有一定的危险。
想象你有个特别厉害的助手，名叫龙傲天。他方方面面都比你强，你连思维都跟他不
在一个层面。你常常不理解他为什么要那样决定，但是事实证明他替你做的每一个决
定都比你自己原本想的更好。久而久之，你就习惯了，你事事都依赖他。
龙傲天所有的表现都证明，他对你是忠诚的……但是请问刘波，你真的完全信任他吗？
其实我们已经在用 AI 很长时间了。像淘宝、滴滴、抖音这些互联网平台都有几亿甚至
几十亿的用户，用人力管理这么多用户是不可能的，它们都在用 AI。给用户推荐商品、
安排外卖骑手接单、对拥挤时段打车进行加价，包括对不当发言删帖，这些决定已经
要么全部、要么主要是 AI 做的。
而问题随之而来。如果是某公司的某个员工的操作伤害了你的利益，你大可抗议，要
求他负责；可如果你感到受到了伤害，公司却说那是 AI 做的，连我们自己都不理解，
你同意吗？
我们上一讲说了，现在 AI 的智慧是难以用人的理性解释的。为什么抖音向你推荐了这
条视频，你质问抖音，抖音自己都不知道。也许抖音设定的价值观影响了 AI 的算法，
也许抖音根本就不可能完全设定 AI 的价值观。
政府和人民都要求对 AI 算法进行审查，可是怎么审查？这些问题都在探索之中。
就在我们连简单应用都没想明白的同时，AI 正在各个新领域突飞猛进。凭借 AlphaGo

出名的 DeepMind 已经被 Google 收购，它在过去几年内又取得了如下成就——
• 推出 AlphaStar，在《星际争霸 II》这样一个规则复杂的、开放式的游戏环境中，
48 / 134
打到了最高水平；
• 推出 AlphaFold，能够预测蛋白质的形状，改写了领域内生物学的研究方式；
• 医学方面，用 AI 识别 X 射线图片帮助诊断乳腺癌，把对急性肾脏损伤的诊断比主
流方法提前了 48 小时，对老年人眼睛里的老年性黄斑变异做出了提前好几个月的预测；
• 推出两个天气预报模型，一个叫 DGMR，用于预测一个地区 90 分钟内会不会下

雨，一个叫 GraphCast，预测十天内的天气，精确度都显著高于现有的天气预报；
• 它还用 AI 给谷歌的数据中心重新设计了一套冷却系统，能节省 30%的能源……
等等等。这些成就的最可怕之处不是 DeepMind 一出手就颠覆了传统做法，而在于它

们不是集中在某个特定领域，是大杀四方：到底还有什么领域是 DeepMind 不能颠覆
的？
这些还只是 DeepMind 能做的事情中的一小部分，而 DeepMind 只是 Google 的一个

部门。
AI 全面接管科研就在眼前。
如果什么科研项目都能交给 AI 暴力破解，那人类所谓的科学精神、什么创造性，又怎
么体现呢？
如果 AI 做出来的科研结果不但人类做不出来，而且连理解都无法理解，我们又何以自
处呢？
会不会被 AI 抢工作那些都是小事儿了。现在的大问题是 AI 对人类社会的统治力——

以及可能的破坏力。
华尔街搞量化交易的公司已经在用 AI 直接做股票交易，效果很好。可是 AI 交易是以

高频进行，在没有任何人意识到之前，就有可能形成一个湍流，乃至于引发市场崩溃。
这是人类交易员犯不出来的错误。
美军在测试中用 AI 操控战斗机，表现已经超过了人类飞行员。如果你的对手用 AI，你

就不得不用 AI。那如果大家都用 AI 操控武器，乃至于进行战术级的指挥，出了事儿算
谁的呢？
再进一步，根据现有的研究案例，我完全相信，如果我们把司法判决权完全交给 AI，
社会绝对会比现在公正。大多数人会服气，但是有些人输了官司会要求一个解释。如
果 AI 说只是我的算法判断你再次犯罪的概率有点高，我也说不清具体因为啥高，你能
接受吗？
理性人需要解释。有解释才有意义，有说法才有正义。如果没有解释，也许……以后
我们都习惯于不再要求解释。
我们可能会把 AI 的决定当做命运的安排。
49 / 134
小李说：我没被大学录取。我的高考成绩比小王高，可是小王被录取了。一定是 AI 认
为我的综合素质不够高……我不抱怨，因为 AI 自有安排！
老李说：是的孩子，继续努力！我听人说了，AI 爱笨小孩！
你能接受这样的社会吗？
AI 到底是个什么东西？现阶段，它已经不是一个普通工具，而是一个法宝。你需要像
修仙小说里一样，耗费巨量的资源去炼制它。
据摩根斯坦利分析，正在训练之中的 GPT-5，用了 25000 块英伟达最新的 GPU。这

种 GPU 每块价值一万美元，这就是 2.5 亿了。再考虑研发、电费、喂语料的费用，这
不是每家公司都玩得起的游戏。那如果将来训练 AGI，又要投入多少？
但只要你把它训练好，你就得到了一个法宝。AI 做推理不像训练那么消耗资源，但是
用的人多了也很费钱，据说 ChatGPT 回答一次提问消耗的算力是一次 Google 搜索的
十倍……不过有了它，你就有了一件人人想用的神兵利器。
而只要 AGI 出来，它就不再是一个工具了。它会成为你的助理。今天出生的孩子都是

AI 时代的原住民，AI 将是他们的保姆、老师、顾问和朋友。比如孩子要学语言，直接
跟 AI 互动交流比跟老师、跟家长学都会快得多、也方便得多。
我们会习惯于依赖于 AI。我们可能会把 AI 给人格化，或者我们可能会认为人没有 AI

好。
50 / 134
那么再进一步，你可以想见，很多人会把 AI 当成神灵。AI 什么都知道，AI 的判断几乎

总是比人类正确……那你说人们会不会从强烈*相信*AI，变成*信仰*AI？
AI 可能会接管社会的道德和法律问题。
你猜这像什么？这就像是中世纪的基督教。
在中世纪，所有人都相信上帝和教会，有什么事儿不是自己判断，而是去教堂问神父。
那时候书籍都是昂贵的手抄本，普通人是不读书的，知识主要是通过跟神父的对话传
承。
是印刷术出现以后，每个人可以自己读书了，直接就能获得智慧，不用迷信教会了，
这才开启了讲究理性的启蒙运动。
启蒙运动对社会的改变是全方位的：封建等级制度、教会的崇高地位、王权，都不复
存在。启蒙运动孕育了一系列政治哲学家，像霍布斯、洛克、卢梭等等，通过这些人
的思考，人们才知道那个时代是怎么回事儿，以后的日子该怎么过。
抛开上帝拥抱理性，启蒙运动是给普通人赋能的时代。
而今天我们又开启了一个新的时代。我们发现人的理性有达不到的地方，可是 AI 可以
达到，AI 比人强。如果人人都相信 AI，有什么事儿不是自己判断，而是打开
ChatGPT 问 AI，知识主要是通过跟 AI 的对话学习……
再考虑到 AI 还可以轻易地向你推荐一些最适合你吸收的内容，对你进行定点宣传，你
舒舒服服地接受了……
这不就是神又回来了吗？
51 / 134
再想一步。假设很快就有公司炼制成功了 AGI，而 AGI 的技术特别难、炼制特别昂贵，

以至于是其他人难以模仿的。那如果这些掌握 AGI 的公司成立一个组织，这个组织因
为可以用 AGI 自行编码设计新的 AGI，迭代越来越快，水平越来越高，领先优势越来
越大，以至于任何人想要接触最高智能都必须通过他们……请问这是一个什么组织？
这个组织难道不就是新时代的教会吗？
这就是为什么基辛格等人要写书呼吁，我们不应该把什么任务都交给 AI，不能让 AI 自
动管理社会。他们建议，任何情况下，真正的决策权应该掌握在人的手里。为了确保
民主制度，投票和选举都必须得由人来执行，人的言论自由不能被 AI 取代或者歪曲。
这也是为什么 OpenAI 在声明中说：“我们希望就三个关键问题进行全球对话：如何管

理这些系统，如何公平分配它们产生的利益，以及如何公平分享使用权。”
通过这一讲，你会理解他们的忧患。我们正处于历史的大转折点上，这绝对是启蒙运
动级别的思想和社会转折，工业革命级别的生产和生活转折——只是这一次转折的速
度会非常非常快。
回头看，转折带来的不一定都是好事儿。启蒙运动导致过打着理性旗号的、最血腥的
革命和战争；工业革命把农业人口大规模地变成了城市人口，而马克思那个时代的工
人并不是很幸福。转折引发过各种动乱，但是最后社会还是接受了那些变化。AI 又会
引发什么样的动乱？将来社会又会有什么样的变化？我们会怎样接受？
基辛格等人认为，现在的关键问题——也就是“元问题”——是我们现在缺少 AI 时代的
哲学。我们需要自己的笛卡尔和康德来解释这一切……
好，这一讲我们讲了被 AI 接管后的社会，可能会有的道德和法律问题。
下一讲，咱们说说 AI 怎样能让社会更聪明。
52 / 134
08 经济:AI 让资源调配更有效
这一讲，咱们来说说 AI 怎样能让社会更聪明。
在 2022 年 11 月 15 日出版的英文新书《权力与预测：人工智能的颠覆性经济学》中，
完全没讲像 ChatGPT 这样的「生成性」AI，可能这本书的作者，三个加拿大经济学家
没预料到生成性 AI 会这么火爆，这本书对 AI 全部期待就是做预测。
我们容易理解这三位经济学家为什么从这个角度切入，因为预测对经济效率的提升是
宏观的，是决定性的：预测能促进资源更有效的调配。
简单说，AI 的预测能让社会更聪明。
前面我们讲了，普及 AI 有「点解决方案」
「应用解决方案」和「系统解决方案」三个
层次。这一讲简单说说如何在一个组织或者一个城市中实施系统解决方案。
《权力与预测》书中举了两个例子，保险和医疗。
我听说最近因为 AI 替代而导致裁员最多的就是保险公司。这挺合理，毕竟保险业务最
重要的事儿就是做预测，而在这种数据密集的领域 AI 很擅长预测。
我们以房屋保险为例，所有的业务可以分成三个主要的决策——
1. 营销：分析潜在的客户人群，看看他们的价值有多大，能转换成客户的概率有多
高，决定下多大功夫去争取；
2. 承保：根据房屋的价值和出事故的风险，计算一个合理的保险费，要既能让公司
盈利，又在市场上有价格竞争力。
3. 理赔：一旦房子出事，客户索赔，你要评估那个索赔是否合理合法，加快理赔进
53 / 134
度。
所有这些决策中的预测部分都可以交给 AI。比如现在有些保险公司已经把理赔给自动
化了。你家遭遇了一场冰雹，屋顶被砸坏了，保险公司并不需要派人去现场查看——
你自己拍张照片发过来，AI 看一眼就能给你估价，该赔多少钱直接办理，省时省力。
但这只是点解决方案。系统解决方案，是保险公司不但要跟你算钱，而且应该干预你
对房屋的保养。
现在的保险公司看到房屋风险比较大，就提高你的保费。AI 化的保险公司看到风险大，
则会以保费为杠杆，要求你采取行动降低风险。
比如说，美国 49%的房屋火灾都是在家做饭导致的——不是一般做饭，主要是油炸这
种做饭方式。有些家庭从来不做油炸食品，有些家庭经常搞油炸，那么让这两类家庭
为火灾保险交同样的钱，就不太合理。以前保险公司不得不对他们收一样的保费，是
因为不知道谁家爱用油炸。
现在保险公司可以这么干。问你可否在厨房安装一个装置，每次用油炸就自动记录下
来。客户第一反应肯定是不同意，说这涉及到我的隐私。但如果 AI 预测足够精确，保
险公司就可以跟客户谈，说如果允许我装这个装置，你的保费可以降低 25%。你说客
户会不会接受？
再比如，保险公司根据 AI 预测，觉得你家房子的水电管线有点老化了，容易出问题。
它可以主动找你，说我能不能给提供点补贴，你把你家的管线修缮一下？
目前，保险公司还不愿意这么做，因为这首先意味着实际保费降低了——保险公司更
喜欢加价而不是减价。但如果 AI 足够精确，保险公司就可以看到灾害切实减少了，理
赔费用一定会降低，那么它的利润是增加的。那这么做就有双重的好处，不但保险，
而且减灾。
而这一切都只有在你能把账算得非常清楚的情况下才能实现。
医院里的急诊室有个特别常见的状况是病人胸口痛。对这种情况医生必须判断是不是
心脏病，是心脏病就得赶紧处置。但问题是，急诊医生并没有很好的诊断方法。
通常的做法是搞个正式的检查，而心脏病检查对患者是有害的。准确的测试需要用心
导管之类，会直接给身体造成一个创伤；又或者哪怕只是做个最简单的 X 光或者 CT，
也有辐射。
于是有两个经济学家，发明了一套 AI 诊断系统，能根据患者外表的几个症状指标预测
是不是心脏病、是否需要进一步正式检查。研究表明这套 AI 系统比急诊医生的诊断更
准确。
跟 AI 对比发现，很多不应该做有创检查的患者被急诊医生要求去做了有创检查。这似
乎可以理解，毕竟让患者做检查医院可以多收钱。但是系统也发现，有很多应该去做
54 / 134
检查的病人，急诊医生没有让他们去做检查，而是打发他们回家了——有的患者为此
错过了治疗时间，甚至导致了死亡。
要这么说的话，如果改为用 AI 诊断，不但对患者大有好处，对医院也有好处。你的工
作流程不需要改变，你的诊断时间还减少了，你也没少收钱，对吧？
可是事实证明，医院大多都不愿意采用 AI。
医院，是一种非常保守的机构。可能正因为有太多新技术等着医院去采纳，它很不愿
意采纳新技术。每采纳一个新技术都要重新培训医生、重新审议流程。而且新技术还
有风险，有时候测试时挺好的，一旦用上了，却又没有那么好。新技术还会影响各部
门的权力分配，有各种连带问题。
所以医院改革是最难的。但是如果医院可以系统性地采纳 AI 诊断，急诊室会是什么样
呢？
某人感到胸口痛，打电话到医院。医院 AI 通过他对症状的描述，也许结合他身上智能
手表的读数，直接预测是不是心脏病。医生根据 AI 的报告，如果认为这个人没事，可
以让他根本不用来医院。如果判断这个人的确是心脏病发作而且很严重，就直接派救
护车过去，救护车上的医生还会携带能缓解心脏病的仪器，到病人家里先采取一些手
段，争取抢救时间。
这是对整个急诊流程的改变。
在《权力与预测》这本书看来，任何组织都可以被看作是决策组织。书中搞了一个应
用 AI 的战略方案，是从填一个表格开始——
表格的第一项是组织的核心任务，这个不变，有没有 AI 都是这个任务。
然后把核心任务涉及到的几个决策都列出来，标记好这些决策是由哪些部门来做的。
再把每一项决策分成「预测」和「判断」两部分，列出目前都是哪些部门负责这些工
55 / 134
作。
再考虑如果把预测都交给 AI，涉及到的各个部门，会受到什么影响……按照这个思路
去考虑组织机构的变革。操作细节我们这里就不讲了，我们重点看趋势。
从 AI 的点解决方案到系统解决方案不会过渡很长时间，因为点解决方案有一个驱动系
统解决方案的趋势。
书里有个特别好的例子是开餐馆。对餐馆来说，准备食材是个关于不确定性的游戏。
客人只能点菜单上的菜，这给你提供了一定的方便，只要准备特定的几种食材就行。
但你会发现客人点菜具有波动性，有一阵流行这个有一阵流行那个，食材消耗是不确
定的。比如你每周都订购 100 磅牛油果。有时候 100 磅太多了，没用完得扔掉；有时
候又太少，客人点了这道菜却没有。
现在我们假设你用上了 AI， AI 能精确预测下周大概需要订购多少牛油果。于是你有时

候一星期订 30 磅，有时候订 300 磅。你减少了浪费还保证了供应，你的盈利提高了。
但是请注意，因为你的不确定性减少，你上游供应商的出货不确定性增加了。他很喜
欢你每周都订 100 磅，现在你变来变去，他的销售就产生了波动。他怎么办？他只好
也用上 AI。
以前他每周固定采购 25000 磅牛油果，现在他有时候订 5000 磅，有时候订 5 万磅。

那你说他的上游会怎样？也得用 AI……以此一直推到种植牛油果的农民，也得用 AI 预
测市场波动才行。
因为一家企业的波动而引起整个供应链的大幅波动，在供应链管理领域中这叫「牛鞭
效应（Bullwhip Effect）」。牛鞭效应会导致库存增加、服务水平下降和成本上升等等问
题。这个思想实验告诉我们两个道理。
一个道理是要用 AI 最好整个社会一起协调，大家都用 AI。
另一个道理是应用 AI 可能会在一时之间放大社会波动，我们最好小心行事。
怎么减少 AI 对社会的震动呢？一个好办法是先模拟。
讲个有意思的故事。美洲杯帆船赛是一项历史悠久的赛事，但是参赛队伍都很讲究科
技。人们一直在办法改进帆船的设计。这里面有个很有意思的动力学，就是帆船设计
变了，人操控帆船的技术也得跟着变才行。你得找到操控这个新设计的最佳方法，才
能知道这个设计到底好不好。
传统上，你设计出一个新型帆船，得让运动员先尝试用各种不同的方法驾驶它。运动
员要熟练掌握一个新方法是需要时间的，好不容易掌握了，还不知道是不是最好的。
也许换个设计、用另一套驾驶方法，效果会更好……可是那么多搭配，你哪有时间一
次次训练新方法呢？这里创新的瓶颈是运动员。
56 / 134
2017 年，新西兰队跟麦肯锡咨询公司共同发明了一个新办法，那就是用 AI 代替运动

员试驾新帆船。
设计好一个新帆船，先用 AI 模拟水手的操作，用强化学习的方法先把 AI 训练好，让

AI 找到驾驶这种船型的最佳方法。这个速度比人类运动员可快太多了。
当然真正比赛中你不能让 AI 上场。但是找到船型和操控方法的最佳组合之后，可以让
AI 教人类运动员怎么驾驶帆船。就这样，运动员不用参加反复的试验，就学会了最佳
操控方法。
这个故事的精神是有什么新方法可以先在模拟环境中演练。这其实也是蒂姆·帕尔默
《首要怀疑》一书说的「虚拟地球」的价值所在：有什么新政策，先在虚拟地球里测
试一下，看看是什么结果。
事实上，就在 2022 年，新加坡已经搞了一个「数字孪生体（Digital Twin）」，一比一

复刻了一个虚拟新加坡。开发这套系统用了几千万美元。现在新加坡政府搞城市规划，
什么动作都可以先在虚拟新加坡里测试一下。
比如如果新加坡要用 AI 管理交通，担心会不会对整个系统造成比较大的波动，就可以
先在虚拟新加坡里测试一下这个做法。
好，我们来总结一下这一讲。现在的 AI 的发展趋势就是从个别公司在个别任务上使用
AI，到系统性地使用 AI，到整个社会围绕 AI 展开。AI 会让我们的社会变得更聪明。
在这个过程中，企业和政府部门都有大量的工作可以做。
而你的生活也会因此而改变。你能接受在家里做个油炸丸子都能影响房屋保险吗？你
57 / 134
会觉得 AI 对人的干预太多吗？
如果 AI 的干预意味着你的保险费下降，生活更方便，财富更多，我想你会接受的。
还是跟电力类比，如果将来到处都是 AI，我们就可以忘记 AI——我们只要模模糊糊地

知道什么行为好、什么行为不好就行，而不必计较背后的数字。AI 会自动引导我们做
出更多好的行为，也许整个社会会因此变得更好。
下一讲，我们进入一个新话题，聊聊 AI 时代的领导技能。
09 领导技能:AI 时代的“门槛领导力”
你好，这里是《万维钢·AI 前沿》课。这一讲我们来讲讲 AI 时代的领导力。
最近在 ChatGPT 的冲击之下，我们急需新思想来理解这个 AI 新时代。我们这门课程

前面宏观地看了 AI 带来的转折和威胁，也讲了 AI 对社会、经济、生产力的影响。这
一讲，咱们说说微观的商业，特别是公司领导力。
AI 时代公司跟公司之间的差异在哪呢？领导力的价值如何体现？说白了，这家公司如
何比别家公司更能赚钱呢？
58 / 134
先讲个小例子。OpenAI 把 API 流量价格降低了 10 倍之后，几天之内就涌现出无数个

基于 GPT 的小应用。其中很多都是业余的个人，写几行程序弄个网站，实现一个功能
就能吸引很多人来用。
现在已经有好几个应用，可以把一本书输入给 GPT，然后用问答的方式来学习。其中
最火的一个叫 ChatPDF。它上线不到一周就有了十万次 PDF 上传，十天就有了超过
30 万次对话——
然后它推出每月 5 美元的付费服务，开始赚钱了。ChatPDF 的作者只有三千个 Twitter

粉丝，可是现在 Twitter 上有无数人谈论这个工具。
大家起点都一样，为什么 ChatPDF 就能抢跑成功呢？创办这个网站需要的所有工具都

是现成的，它的人气不是完全来自 AI。仅仅是因为它运气好吗？
59 / 134
[原网页是英文的，这里是 DeepL 插件翻译的中文版]
ChatPDF 网站的界面简洁而友好。直接就上手，还针对学生、用于工作和一般好奇的
人分别说明了这个东西有什么用。它的服务分为免费和收费两档，免费也很有用，收
费也很便宜。它还有自己的用户社区。
对比之下，竞争对手，比如 PandaGPT，做的虽然也不错，但是各方面的直观性和友
好度就差了那么一点点 ——
60 / 134
这一点点看似简单，实则不容易做到。你必须非常理解用户，才能提供最舒服的使用
体验。
这一点点，也许就是 AI 时代最值钱的技能。
现在只有像猪肉之类的通用必需品才只看质量和价格，大多数商品都得讲讲品牌和市
场定位，尤其网络时代还得讲跟用户的互动。为此你需要两点——
第一，你得非常理解现在的用户想要什么。
第二，你得让人认可你。
也就是认识和被认识，理解和被理解。而这些，恰恰是 AI 所不能给的。
要讲 AI 时代的领导力，就要提到一本 2023 年 2 月 28 日刚出版的新书《门槛：AI 时

代的领导力》（The Threshold: Leading in the Age of AI）。
作者尼克·查特拉思（Nick Chatrath）是个商业咨询专家，现在自己创业了，以前在麦
肯锡当过顾问。
这本书的主题是 AI 时代的领导力应该是什么样的。查特拉思的建议叫做「门槛」，意
61 / 134
思是两个房间中间的位置——这种领导力要求你把新和旧结合起来，把心灵和大脑结
合起来。门槛领导力有啥不一样呢？我们先回顾一下领导力的演变。
最早的领导力是「英雄主义」。我是这个狼群中最能打的，所以你们都得听我的，我说
怎么办就怎么办……这是最土的领导。
近现代以来出现了「军队式」的领导力。讲究稳定和可靠性，做事得有章法，不能朝
令夕改。这种领导力的问题在于容易出官僚主义，类似于国企，什么都讲制度和流程，
有时候忘了初心。
后来主流管理学倡导「机器式」的领导力。它以目标为核心，讲考核、问责、任人唯
贤，提倡比较扁平的组织结构，追求效率最大化。这是国内民营企业常见的领导方式。
这种领导力的问题在于它可能会让视野窄化，过于关注具体的目标，时间长了会产生
倦怠，乃至于丧失视野。
前面这三种可以说都是卖猪肉思维，比的是执行。
新一代管理学倡导的一种领导力是讲「价值观和愿景」。说我们不是一个只知道赚钱的
公司，我们是为客户创造价值……它讲究「服务式领导」，希望员工对要做的事情达成
共识，不但知道做什么更要知道为什么。这种领导力的问题是现在社会上各种价值观
是冲突的，共识难以达成。那怎么办呢？
查特拉思提出的「门槛领导力」，就是要充分认识事物的复杂性，能够处理有矛盾冲突
的观念。我理解门槛领导力特别讲人格魅力：你的公司，本质上是你的人格的放大—
—你有多大的认知，公司能做多大的事；你的认知有多复杂，公司才能做多复杂的业
务。
怎样培养门槛领导力呢？查特拉思说有四个途径：「静心沉思」「自主思考」「具身智能」
和「增长意识」。关键在于，这些都不是 AI 能有的智能。
智商只是一个数字，并不能概括你所有的智能维度。现在认知心理学家把人的智能大
体分成 9 类——
1. 逻辑和数学；
2. 语言；
3. 空间；
4. 欣赏大自然，了解生物；
5. 音乐；
6. 身体和感觉的协调；
7. 了解你自己；
8. 人际关系，也就是对他人的同情之了解；
62 / 134
9. 存在智能（existential intelligence），也就是有关“大问题”的智力，比如我为什么
活着，什么是爱。
其中这个「存在智能」因为难以量化评估，它到底算不算是一种智能，学术界觉得还
不好说——但是查特拉思特意把它列在这里，因为他认为这是很关键的一个商业能力。
查特拉思预测，后面这四种能力，AI 在短期内都无法超越人。
尤其对商业最有用的两方面智能，你不会被 AI 取代：一个是情感智能，了解你自己和
了解别人；一个是存在智能。
我在精英日课第五季讲《未来呼啸而来》这本书时讲过「情感计算」，有一家出自麻省
理工学院媒体实验室的公司叫 Affectiva，号称能感知到人的情感。现在的新消息是它
被一家搞眼球追踪的公司给收购了，说是用于“道路安全产品”……看来它的应用范围比
我们想象的要窄。现实是 AI 在情感计算上的进展十分缓慢。
情感计算为什么这么难？查特拉思列举了四个理由，认为 AI 在短期内既不能学会人的
情感，更不能理解人的意识。
第一，检测情感非常困难。事实上，所谓能看脸判断人的情绪的「微表情」学说已经
被证伪了。现实是不同文化、不同场景下，人的情感流露可以很不一样。人非常善于
伪装和隐藏自己的情感——这是进化给人的社交本能——你不可能搞一套编码让 AI 自
动识别。
第二，我们人都是在实践中学习理解别人的情感。你从小跟朋友们摸爬滚打，你惹怒
过别人，你被人惹哭过，通过这些互动反馈你才学会了情感。AI 没有这样的学习机会。
第三，人的情感十分复杂。经过几百万年的演化，人脑的逻辑运算能力虽然一般，但
是情绪运算绝对是无比发达，是「系统 1」的快速运算。我们能在复杂的环境中感受
到微妙的危险，能自己给自己建构情绪，能用直觉做出难以名状的判断。情感会受到
当前环境、人生经历、文化智慧等等方面的影响，以至于有 DeepMind 的科学家曾经
对查特拉思说，这么复杂的计算可能是 AI 算力所无法达到的。
第四，人有一些感觉是无法用语言表达的。哲学家有个基本概念叫「感质（qualia）」，
意思是某种特定物体带给你的特定感觉。你对红色的感觉是什么？喝牛奶是一种什么
感觉？你没有办法向一个盲人解释红色，也没有办法用语言向一个没喝过牛奶的人精
确描写牛奶……那 AI，又怎么能知道呢？
我们前面说过，AI 的有些认知是人理解不了的——但是别忘了，人的有些认知也是 AI
理解不了的。既然 AI 连人最基本的感觉都无法了解，又怎么能指望它做情感计算呢？
你必须切实理解人的情感和人生的意义，才能处理好现代社会中的各种冲突和矛盾。
查特拉思当过一段 CEO，他发现客户和投资者最经常问他三类问题——
63 / 134
1.认识自我和他人：你的团队都是谁？你的客户是谁？
2.目的：你希望你的组织实现什么，为什么？
3.伦理和价值观：你将如何处理数据隐私之类的道德问题？
这些都是只能由人，而不是 AI，回答的问题。你看前面说的那个 ChatPDF，它把客户

分成三种类型，分别介绍这个东西对你有啥用；它在推动 AI 应用的普及；它有价值观，
它强调了分享，最大限度保留了给免费用户的服务。ChatPDF 的创造者的确很有商业
意识，同时也的确很有极客精神。
AI 当然能给你建议各种方案，但是像免费还是收费、要花多大成本保护用户隐私这些
充满矛盾和悖论的问题，是你自己必须做的选择。那些不是智力题也不是知识题，而
是人格题。
这就跟我在精英日课第五季讲的第一本书，希滕德拉·瓦德瓦的《内部掌控，外部影响》
联系起来了：对公司来说现代社会正在变成熟人社会，你需要内圣外王的能力。查特
拉思也像瓦德瓦一样，提倡用沉思——或者说冥想——的方式思考这些问题。
查特拉思说：「无论领导者在领导时认为自己在做什么，他们都在揭示自己的本质。」
你和你的员工是什么样，公司就是什么样。你们既是在探索自己是谁，也是在帮助客
户发现他们是谁……这些听起来都很简单，实则比编程什么的困难得多，也重要得多。
自动驾驶 AI 的道德选择必须预先由人来制定，你怎么制定？比如说，汽车在紧急时刻
是优先保护车内的人，还是车外的人？你要选择保车内的人，社会会谴责你；你要选
择保车外的人，客户不会买你的车。你怎么设定才能让大家都满意呢？再比如说，训
练 AI 模型的数据有偏见，无形之中对某些客户造成了歧视，你怎么向公众解释？
以前卖猪肉大家无所谓，现在哪怕是卖服装的布料，人们都会对你的价值观有所要求。
现在所有商业都是演艺业（All business is show business——《娱乐至死》
），所有品
牌竞争都是人的精神内核的较量。
AI 只是放大了这种较量。
ChatGPT 这波浪潮给我们的一个启示是用上 AI 是很容易的，任何公司都能以非常便

宜的价格购买 OpenAI 的算力。一家有 AI 而没有内核的公司，就如同现在很多所谓书
法家，练了一辈子字，写的确实挺好看，但是没内容：你让他写个横幅，他只会什么
“天道酬勤”“自强不息”之类的俗词儿。他们应该被 AI 淘汰。
下一讲，我们说说 AI 时代，人要怎么更像人。下一讲见。
64 / 134
10 独特智能:人的具身智能与自主思考
这一讲，我们继续来说 AI 时代，培养门槛领导力的途径。
2023 年 3 月 15 日，OpenAI 发布了 GPT-4。GPT-4 来得比我们想象的快，能力也比

我们想象的强。它是多模态的，可以处理图像和声音；它能根据随便写在一张餐巾纸
上的需求给你编程创造一个网站；它的各种生成能力都大大增强了。
可能让人印象最深刻的，是 GPT-4 参加人类主流考试的水平。它在美国律师执照统考

（BAR）上的得分超过了 90%的考生；它在美国生物奥林匹克竞赛的得分超过了 99%
的考生；它在 GRE 语文上取得了接近满分。它的数学成绩还没有达到最优，但是我给
它测试了几道奥数题，它答对了。
GPT-4 这些成绩要申请美国名校的研究生，绰绰有余。
而且它还在以更快的速度迭代。也许 GPT-5 今年年底就能出来，然后过两年就是 AGI。
65 / 134
面对这个局面，教育应该怎么办？人应该怎么办？现在整个社会必须重新思考这些问
题。
咱们接着来讲《门槛：AI 时代的领导力》这本书中有关领导力的洞见。我看此书最重
要的思想，就是人相对于 AI 有个绝对的优势，是 AI 至少在短期内赶不上的——那就
是人更理解人。
AI 再厉害也得听人指挥，最终做决策的必须是人，这叫底线思维；一切生产、一切科
研都是为了人，这叫不忘初心。人的需求必须是各项事业的出发点和落脚点，所以理
解人永远都是最重要的智能。
而 AI 不可能比人更理解人。正如我们上一讲所说，AI 再厉害它也没有肉体，它不是碳
基生物，它没有人的感知能力。
AI 时代，在逻辑运算、听说读写那些一般认知项目上，我们已经输了——我们要发挥
长板优势，就必须让自己更像人而不是更像 AI。
AI 时代的商业要求你认识自己、认识你的团队、认识你的客户，要求你有情感智能和
存在智能。查特拉思提出培养这两种智能的四个途径，上一讲我们说了「静心沉思」，
这一讲说「具身智能」和「自主思考」。
具身智能，是通过身体去体察自己和别人的情感。
2018 年，查特拉思跟百度金融服务事业群组（FSG）有过一段合作。这个部门后来搞
了个产品叫度小满金融。像这种互联网金融业务是怎么来的呢？
中国有经济活动的人口总共是 9 亿，这 9 亿人中有 5.5 亿人，在中央银行没有信用记

录。这使得他们没有办法获得贷款。但是生活中人总会有个临时借点钱的需求，没有
信用记录就只能跟亲戚朋友借，总是不如向机构借方便——互联网金融就是要解决这
个问题。
互联网公司的优势在于，它可以通过你在网上活动的记录判断你的信用。比如蚂蚁金
服有你的淘宝购物数据，那些数据能预测你有没有还款能力。
百度的数据则是体现在百度地图、百度应用商店、百度阅读等应用中。百度知道你平
时都读什么书、有怎样的学习习惯、下载了哪些应用程序，百度对你有个画像。
那你说读书跟会不会还钱有关系吗？有关系。百度搞了些小范围实验，把申请贷款的
人分组做 A/B 测试，根据实验结果中的还款情况，结合百度的数据，就可以训练一个
AI，预测符合哪些特征的人会还款。这样就可以给每个用户一个信用评分。
那你说这一切都是 AI 啊，人的能力在哪里？请注意，数据分析并不都是纸面上得来的
知识。
要想真正理解数据就得深入到用户中间去。百度是派人到现场去跟用户聊，了解他们
的日常生活是怎样的，他们怎么看待还款的道德。特别是潜在客户中很多都是年轻人，
66 / 134
他们对自己的还款能力缺乏认识，他们不太理解借那么一大笔钱意味着什么，百度得
想办法帮他们理解。哪怕同样的硬数据，你在服务的过程中操作方法不同，得到的结
果也会不同。
这些都要求你跟用户有情感沟通。这些是 AI 所不能做的。
百度内部的工作讨论也需要情感。比如数据隐私问题，根据一个人使用阅读 APP 读书
的记录来决定是否给他贷款，请问这合理吗？我找你借钱，就得把我在网上各种活动
的数据都给你，让你比我老婆更了解我，这好吗？
我们站在用户角度从外边看，肯定觉得这些互联网商人真是唯利是图，无所不用其
极……但是站在百度的角度看，他们也有各种不得已。首先这有法律问题。再者，如
果你滥用数据，将来用户就不愿意使用你的产品了。可是不用数据，互联网金融又没
法搞。
百度也很头疼，召开了各种会议进行道德辩论。辩论中每个人都结合自己切身的感受、
是带着情绪在讨论这件事应该怎么办。百度这个公司做过一些坏事，但是里面也不都
是坏人。
辩论的结果大概是拥有用户数据的部门不能直接把数据交给金融部门，而是自己先做
数据分析，只给金融部门一个标签或者分数。这样在中间搞个阻断，保护用户的隐私。
这些不是 AI 生成的算法，这是有情绪功能的人们讨论出来的主意。
而情绪并不是纯粹的大脑功能，情绪跟身体非常有关系。
当你向人传达一个很困难的信息的时候，你会出汗。有人表扬你的时候，你的胸口会
有一种紧缩感。感到爱意的时候，你的胃可能会翻腾。而且情绪和身体的互相影响是
双向的。你刚刚走过一个会摇来摇去的索道，心跳加速的情况下遇到一个异性，那个
心跳信号会让你以为自己遭遇了爱情。在饥饿状态下逛超市会让你购买更多的东西。
人的肠道神经系统被称为“第二大脑”，这使得经常情绪紧张的人也会经常肚子疼……
我们很多时候是通过身体的反应了解自己的情绪。那 AI 没有身体，它怎么能有人的情
绪呢？它怎么能理解人的情绪呢？它怎么能预测人的情绪呢？至少目前为止情绪功能
还是人的优势。
充分感知自己和他人的情绪，区分不同情感之间的微妙差别，会对你的决策有重大影
响。
门槛领导力还包括抒发情绪。有时候团队需要你讲几句，鼓舞人心或者感染气氛。你
怎么说好呢？
比如说，诗歌，是人类最常见的一种表达情感的方式。而诗歌具有鲜明的身体烙印—
—诗歌之所以是诗歌，是因为它有韵律和节奏；韵律和节奏之所以对人有效，根本上
67 / 134
是因为人要呼吸。
AI 也能写诗，它可以把格律做得很严谨，但是我们预计它很难掌握好节奏感中饱含的
情绪，因为它没有嘴和呼吸系统：它不能体会一首诗歌大声读出来是什么效果。现实
是哪怕最先进的 GPT-4，做最擅长的英文诗，韵律也很蹩脚。
只有真实的情感才能打动人，而真实的情感需要身体和声音配合表达。你的鲜明个性
需要肢体语言配合。你要想体现自信就得站直了。你要想让人相信局面尽在掌握之中、
你不但不焦虑而且很快乐，最起码你得给个微笑。
身体对人的影响还包括能量。如果你没睡好、身体很疲惫，大脑再强也不能好好运转。
能量充足了，整个精神面貌都很积极。
AI 没有这些。
培养人的独特智能的另一个途径也跟身体有关，那就是自主思考。
人是由肉体构成的这件事，对我们的智能的意义，可能比我们想象的要大得多。肉体
不仅仅是大脑的维护系统，人不仅仅是一台大脑。
从柏拉图到启蒙运动、一直到现在很多人鼓吹意识上传，都是把人主要当做大脑，忽
略身体。比如电影《黑客帝国》里人们都被泡在液体里，接一堆管子，身体成了电池，
只有大脑是活跃的，照样能在虚拟空间里体验完整人生。
但是查特拉思认为，这些缸中之脑，不是完整的人。
因为身体对人的作用并不仅仅是维持生存——身体还提供了情感。身体，是大脑不可
缺少的一个信息来源。如果考虑到肠道神经，身体还是人的思考过程中的关键一环。
事实上，我们甚至可以说，正因为身体也会影响思想，每个人才有自己的独立思考。
你想想，如果人都可以被简化为缸中之脑，大脑又可以被视为一个处理信息的独立器
官，那你就可以轻易控制每个大脑的信息输入。这跟 AI 有什么区别？哪还有什么独立
思考可言？
68 / 134
身体最根本性、哲学性的功能还不是能提供情感，而是身体让人有了更多的信息输入
渠道。你的身体对外界会有各种感知，那些感知是主观的，是每个人都不一样的。健
康的人、残疾的人、病人、胖或者瘦，高或者矮，感知都不一样——正是这些不一样，
让我们有了不一样的思考。更何况有身体才有生活，才有成长，才有从小到大不同的
经历，才有了千变万化的个性。
绝对的「独立思考」恐怕是不存在的，毕竟每个人都在从外界联网提取信息；但是有
了身体我们至少可以「自主思考」。有了身体，就没有任何力量能完全控制对你的信息
输入。
查特拉思观察，有具身智能的团队往往在文化上都有活力，在道德问题上更深思熟虑。
首先这样的团队有情感交流。但更重要的是，组成这样团队的人具有不可控性。他们
不是机器，不是你设定他怎么想他就怎么想，他们都会自主思考。正是因为每个人的
自主思考，团队才有了不同视角，才有创造性和活力，才有生成性的发挥，才能处理
复杂问题。
你知道训练 AI 最快的方法是什么吗？是用一个现有的 AI 生成各种数据和语料，直接

训练新的 AI。这样训练不但速度最快，而且也最准确。但是因为你没有新鲜的语料，
这样练出来的 AI 也不是新鲜的。
那就是说，如果每个人都活得像 AI 一样， AI 就没有新训练素材了，AI 会停止进步。
新数据是人生成的。人不是程序，人不应该按照固定规则生活。人生的使命就是要制
造意外，增加信息。有些意外来自你的情感，有些来自你的身体的独特感知，有些来
自你自主的思考——不管来自哪里，它们一定不是来自 AI 给你的灌输，一定不是来自
你对领导意图的揣摩。
那些你任性而为的时刻才是你真正活着的时刻。
这么说的话，AI 不是取代人而是解放了人。AI 能让我们活得更像人。人其实大有可为，

因为人是一种最复杂的东西。你去跟任何一个人聊，只要他跟你说人话，不打官腔不
背诵洗脑信息，你都会收获一些让你感到意外的东西，都会发现他有独特的视角和想
法。
……当然，这一切的前提是 AI 还没有掌握人的情感。那如果将来 AI 能够完美复刻人

的情感，我们又该如何呢？
咱们下一讲就来聊聊这个问题。下一讲见。
69 / 134
11 存在智能:人在 AI 时代刷存在感的方式
这一讲，咱们来看看人类在 AI 时代，该如何刷存在感。
随着 GPT-4 的影响越来越深，人们对 AGI——也就是通用人工智能（artificial general

intelligence）——的期待也越来越强了。有人说 AGI 将在 2025 年出现，有人说 GPT-
5 就会是 AGI，甚至有人认为 GPT-4 已经是 AGI。
70 / 134
我问 GPT-4，AGI 跟现有的 AI 到底有啥不一样？它列了几项，包括独立学习、会多个

领域的知识和技能、逻辑推理和创造力等等各方都要达到人的水平——尤其是它提出，
AGI 应该有一定的情感理解能力，有一些自主意识，有长期规划与决策的能力等等。
71 / 134
但 AGI 还只是*达到*人的水平而已。将来在 AGI 之上还会有“超级人工智能”

（Superintelligence），要在所有领域，包括科学发现和社交技能等方面都*超过*人。
72 / 134
如果 AGI 近在眼前，超级人工智能时代也为期不远，人又该如何呢？
我们继续讲查特拉思《门槛》这本书的观点。查特拉思是这样给 AI 分类的——
1. 现有的 AI，在逻辑、数学思维、听说读写这些认知方面的功能，还没有完全达到
人的水平；
2. AGI，是认知能力已经完美，但是在身体和情感方面还不如人；
3. 超级人工智能，则是情感能力也达到完美，但是终究没有人的意识。
查特拉思这本书是 2023 年 2 月份刚出版，但是他显然没想到 GPT 有这么厉害。书中

他还采访了几个专家，都说 AGI 还远得很，还需要进一步的理论突破……
现在我们看，咱们前面讲的大型语言模型在 2022 年前后的开悟和涌现，就是那个谁都

没想到的突破。这个突破大大加速了 AGI 的到来。其实我看 GPT-4 已经非常接近 AGI
了，请问有几个人敢说自己在某个领域上比它聪明？
但是要把 AGI 用于机器人，让机器人能像人一样做事和互动，我感觉，我们还需要另

一次突破。我们需要机器人行为方面的开悟和涌现。现在 Google 已经把语言模型用于
73 / 134
真实三维空间（叫「具身多模态语言模型」，PaLM-E），特斯拉已经在制造机器人，也
许未来五年之内家家户户都可以买个机器人。
查特拉思低估了 AGI 到来的速度，但是他这本书的道理并没有过时。我们暂且假设，

AGI 没有完美的情感能力，超级人工智能没有真正的意识。
那么要在 AGI 和以后的时代刷个存在感，我们需要的恰恰就是「存在智能」。这就引出

了养成门槛领导力的第四个途径，增长意识。
AGI 时代的门槛领导力要求你具备三种能力，都涉及到对复杂事物的处理。
74 / 134
第一是谦逊。所谓谦逊，就是并不那么关心自己的地位，但非常关心如何把事情做好。
人的本能很在意地位，就连像伽利略那样的科学家都不免心生傲慢，会因为看不起一
个事物而不去了解，结果就错失了对新事物的洞察力。现在所谓的“中年油腻男”，我看
最大的问题就是不谦逊。你跟他说任何新事物，他总用自己那一套解释，证明他什么
都早就懂。
AGI 掌握的知识超过所有人，它还会自行发现很多新知识。如果你没有谦逊的美德，
你会越来越理解不了这个世界。认识论上的谦逊能让我们保持对知识的好奇和开放态
度。你不但不能封闭，而且应该主动欢迎 AGI 给你输入新思想，包括跟你的观念相违
背的思想。
然后你还需要对竞争的谦逊。其实我们早就该跳出跟谁都是竞争关系那种零和思维了，
AGI 时代更得如此。人得和机器协作吧？你必须得有协作精神。协作精神也体现在人
和人之间，组织和组织之间，公司和公司之间。我们必须共同面对各种新事物，像食
品药品监督管理局（FDA）那样，各个领域的人组成一个委员会，一起协商判断。
第二，是化解矛盾的能力。
现代社会中不同的人总有各自不同的目的，会发生争斗。比如同样是面对全球变暖，
到底是发展经济优先，还是保护环境优先？不管采用什么政策，都会对某些人群有利，
对某些人群不利，都会造成矛盾。
要化解这些矛盾，就需要你有共情能力。你得知道别人是怎么想的，会站在别人的角
度思考。
有个心理学家叫安德鲁·比恩考斯基（Andrew Bienkowski），小时候生活在西伯利亚。
有一次遭遇饥荒，他爷爷为了节省粮食，主动把自己饿死了。家人把他爷爷埋在一棵
树下，结果他爷爷的尸体被一群狼翻出来吃掉了。
比恩考斯基非常恨狼。但是他并没有长期陷在恨意之中。
过了一段时间，比恩考斯基的奶奶居然梦见爷爷说那些狼会帮助他们，而且家人根据
奶奶的说法，真的找到狼杀死的一头野牛，给他家当食物。比恩考斯基就此转变了态
度……后来他们全家跟狼建立了不错的关系。
比恩考斯基跳出了非黑即白的二元论，他眼中的狼不再是“好狼”或者“坏狼”，他学会了
用狼的视角考虑问题。
AGI，也许，应该，不具备这种能力……不过我说也不一定。有时候你问 ChatGPT 一
个有点敏感的问题，它回答之后会提醒你不要陷入绝对化的视角——不过这个功能是
人强加给它的。
AGI 时代的第三个关键能力是游戏，或者说互动。
75 / 134
我们是如何学会在这个复杂的社会里跟别人互动的呢？你的同情心是从哪来的呢？你
如何有了解决问题的创造力的呢？最初都是从小在游戏之中学习的。你得参与玩闹，
才能知道别人对你的行为会有什么反应、你又该如何应对别人的行为。你得认真玩过
游戏，才能拥有解决问题的快乐。
AGI 没有这些互动。AGI 连童年都没有，它就没玩过游戏。当然它可以跟你互动——

现在的 GPT 就可以假装是一个老师或者一个心理医生跟你聊——但是你聊多了就会感
觉到，那跟真人还是不一样的。
但是超级人工智能可以做得像真人一样好。
她——我们姑且当她是个女性——虽然没有真实肉体，不能真正感觉到情绪，但是她
会计算情感，不但能准确判断你的情绪，而且还能用最好的方式表达她的情感。
她简直就是完美的。人的所有技能她都会，人不会的她也会。她会用人类特有的情感
方式说服你、暗示你、帮助你，包括使用肢体语言。她非常理解你的性格和你所在的
文化，她的管理方式、她制定的计划，方方面面的安排都非常完美。
每个接近过她的人都能感受到她是充满善意的。她简直就像神一样。
[这张图中不是真人，这是 Midjourney V5 生成的 AI 画]
如果这样的超级人工智能已经出现而且普及了，请问，你这个所谓的领导，还有什么
用？
查特拉思认为，你至少还有一项价值不会被超级人工智能取代——那就是「爱」，一个
真人的爱。
来自机器的爱和来自真人的爱，感觉毕竟不一样。
设想有一天你老了，住在一个养老院里。你所有亲友都不在身边，这个养老院里所有
76 / 134
的护士都是机器人。那哪怕她们都是超级人工智能，长得跟人一模一样，她们对你再
细心、再体贴，你恐怕还是会有一种悲凉之感。你知道那些护士只是在根据程序设定，
例行公事地照顾你。也许这个世界已经把你遗忘了。
反过来说，如果养老院里有一个真人护士，对你有一点哪怕是漫不经心的爱，你的感
觉也会完全不同。
因为人的爱是真的。因为只有人能真的感觉到你的痛苦和你的喜悦，因为只有人才会
跟人有真正的瓜葛。其实这很容易理解，像什么机器宠物，甚至性爱机器人，就算再
好，你总会觉得缺了点什么……
我们一直强调 AI 再厉害，决策权也一定要掌握在人手里。其实那不仅仅是为了安全，
也是为了感觉。来自机器的命令和来自人的命令是不一样的，因为来自机器的称赞和
来自真人的称赞不一样，来自机器的善意和来自真人的善意不一样。
至少感觉不一样。
查特拉思预测，超级人工智能时代的主角将不会是机器，但也可能不会是人——而将
是爱。当物质和能力的问题都已经解决，世界最稀缺的、人们最珍视的，将会是爱。
所谓增长意识，主要就是增长自己爱的意识。除了爱，查特拉思认为另一个会被越来
越重视的元素是智慧——不过不是 AI 也会的那些理性智慧，而是某种神秘主义的东西。
我们会觉得这个世界上除了能写进语言模型的智慧，肯定还有别的奥秘。还有没有更
高级的智力在等着我们？有没有神？
人们会追求那种敬畏感和神秘感。不管有没有道理，到时候宗教领袖可能会很有领导
力。
这一讲我们说了谦逊、化解矛盾和游戏三种能力，我们说了爱和意识两个价值。其实
我们并没有充分的理由相信 AGI 和超级人工智能就绝对不会拥有这些能力和价值……
但是我觉得你应该这么想：就算 AI 也能如此，难道我们就可以放弃这些能力和价值吗？
如果你放弃，那你就彻底输给 AI 了。一个故步自封、制造矛盾、不会跟人互动又没有
爱心的人，各方面能力又远远不如 AI，你还想领导谁？
古代讲「君子」「小人」其实不是讲道德品质的差别，而是地位差异：有权有财产的是
君子，没钱给人打工的是小人。君子不干活儿又要体现价值感，就必须往领导力方向
努力，讲究修身养性。未来如果 AI 接管了所有小人的活儿，我们就只好学做君子。如
果 AI 也学会了做君子，我们大约就得被逼做圣人。不然怎么办呢？难道做宠物吗？
查特拉思这本书给我的一个启发是未来具体哪个行业的人被淘汰也许很难说，但是有
一点比较确定，那就是品质不好的人一定会被职场淘汰。有了 AI 的帮助，这个活儿其
实谁都能干：那我们为啥不用个好人干呢？
77 / 134
目前为止，我们一切讨论的前提是超级人工智能也没有自主意识，它不会自己给自己
定目标，没想着自己要发展壮大，没有主动要求升级……但问题是，我们不知道它会
不会一直如此。
像泰格马克在《生命 3.0》书里说的那样，也许有一天 AI 突然「活了」，给自己编程、

给自己寻找能源，以至于不再顾忌人的命令，不再以人为核心——而是以它自己为核
心，那我们这些设想就都统统都错了。你这边还想着怎么做个好主人，人家那边已经
要把你当奴隶了。
那可就突破了人的底线。这不是危言耸听。如果推理能力可以涌现出来，意识和意志
为什么就不能涌现出来呢？
事实上，发布 GPT-4 之前，OpenAI 专门成立了一个小组，对它进行了「涌现能力」

的安全测试。测试的重点就是看它有没有「权力寻求行为（power-seeking behavior）」，
有没有想要自我复制和自我改进。
测试结论是安全。
不过测试过程中，GPT-4 的确有过一次可疑行为。
它的一个云在线副本，去一个在线劳务市场雇佣了一个人类工人，让那个工人帮他填
写一个验证码。那个工人怀疑它是不是机器人，不然怎么自己不会填呢？GPT-4 进行
了一番推理之后选择了隐瞒身份，说自己是个盲人。
然后它如愿得到了那个验证码。
78 / 134
从下一讲开始，我们会进入到 AI 的实战操作。
79 / 134
12 实战: 怎样用 ChatGPT 对话式学习?

你好，这里是《万维钢·AI 前沿》课。这一讲开始，我们进入 GPT 的实战操作，先讲
讲怎样用 ChatGPT 进行对话式学习。
在 ChatGPT 的众多应用场景之中，我特别感兴趣的一项是如何用它学习。OpenAI 的
CEO 山姆·阿尔特曼（Sam Altman）在一次访谈中提到，他现在宁可通过 ChatGPT—
—而不是读书——学习一个东西。那怎么学呢？我演练了一番，很有收获，这一讲跟
你分享一下其中的体验。
这是一种对话式的学习。这也许是「学习」最原本的样子。我们设想，在书籍变得流
行之前，在没有正规教材，甚至都没有正规课堂的时候，在孔子和苏格拉底那个时代，
学习大概就是以师生问答的形式进行的。
再比如说，如果你是皇太子，全国学问最好的几位师傅专门教你一个人，你会怎样跟
他们学。你大概会跳过所有的繁文缛节和场面话，要求老师直达学问的本质。你会根
据你的理解反复提问，老师会给你提供最直接的反馈。而且老师会根据你的情况用最
合适的语言教你。你听不懂还可以要求老师换一套更通俗的语言……对吧？
正所谓「假传万卷书真传一句话」，这种学法的效率显然要高得多。
罗胖当初创办得到，我记得他专门打了个比方，说我们搞知识服务就是要有给皇上讲
书的精神。我们都在这么做，我每天都在尽量回复读者提问，但是我能做的很有限。
我不可能跟每个读者都有来有往搞两个小时的问答。
可是如果你学每一项知识，都能跟老师进行两个小时的问答，得到专门针对你的指导，
那是一种什么局面。
现在好了，ChatGPT 能做到这些。
80 / 134
我搞的这个小项目是跟 ChatGPT 学习哲学家康德的《纯粹理性批判》。这本书以晦涩

难懂著称，我从来都没真正读过。当然我从各种渠道间接了解过一点《纯粹理性批判》
的大概意思，但是我理解的相当有限，概念并不很清楚。我想看看 ChatGPT 能把我教
到什么程度。
首先，我让 ChatGPT 简单讲讲康德的《纯粹理性批判》的逻辑和观点 ——
81 / 134
我理解这里边的核心思想是康德认为人的理性不足以认识世界真正的本质。为了确认
这个理解是对的，我立即提问：康德是否认为物理学反映了世界的本质？
ChatGPT 的回答符合我的预期。然后我马上想到了数学，因为在我看来，数学应该是
特殊的，数学是超越宇宙的存在，应该属于世界的本质。于是我又问 ChatGPT：数学
呢？——
82 / 134
ChatGPT 说，康德一方面认为数学是人类理性能力的最高表现，一方面也承认，数学
在某种程度上能够揭示世界的本质规律。然后它又说，“不过，康德也强调，数学只能
探讨与数量相关的问题，而不能探讨其他方面的问题……”
跟我想的差不多！我深受鼓舞。我开始问 ChatGPT 各种问题，有的是为了验证我的理

解，有的是自己真不知道，需要解惑——
• 我们的先验结构是世界本质的一部分吗？
• 理性是世界的本质吗？
• 康德的“物自体”是什么？
• 为什么康德认为理性不足以认识世界的本质，世界本质除了理性之外，还有什么？
• 世界为什么一定有个本质？也许世界就是我们的先验结构。
• 有什么证据表明在我们的认知能力之外，还有不可被我们认知的世界的本质？
83 / 134
• 康德是否认为理性认知高于感性认知？二者的区别是什么？
• 康德说“人为自然立法”，是什么意思？
• 康德哲学中，感性、知性和理性的区别是什么？……等等等。
ChatGPT 一一做答，它说的非常自洽。其中我还让 ChatGPT 举个例子说说物自体究

竟是什么，它也说的挺好——
我还质问它，有什么证据表明在我们的认知能力之外，还有不可被我们认知的世界的
本质？ChatGPT 表示没有直接的证据，但是康德这么想是有道理的——
84 / 134
这样从各个侧面反复追问之后，我基本就搞清楚了。康德的体系中，世界的道理大约
可以分为四层 ——
1. 感性，也就是人人都有的最基本的感知；
2. 知性，是个人对感性经验的总结和分类，可以每个人总结出不一样的东西，可以
是错的；
3. 理性，是超越感性经验和知性认识，直指事物本质和普遍规律的东西，包括物理
定律。理性是客观的，每个人用理性应该得到同样的结论；
4. 物自体，是世界真正的本质，是人类理性也许无法全面认识的。
所谓纯粹理性批判，就是说理性认识有局限性，人不能真的认识世界的本质，给人的
85 / 134
认知找到了边界。
这一切都很好，但我注意到，康德所理解的理性，跟我们现在理解的理性，似乎有个
重大差别：我们现代人认为理性认知得出的结论也是临时的，也可以说是主观的，比
如牛顿定律会被爱因斯坦相对论取代——而康德似乎认为物理定律一旦成形就是不变
的。
我这个理解对吗？康德可没见过物理学的历次革命……但是幸好，我不是在跟康德，
而是在跟 ChatGPT 对话。于是我又问 ChatGPT 几个问题——
• 人的理性是主观的吗？不同的人会总结出不同的、但同样可能正确的自然规律吗？
• 卡尔·波普尔、托马斯·库恩这些后来的哲学家，会怎样评价康德的客观理性认识？
• 后现代主义哲学对康德有哪些批评？
通过 ChatGPT 的回答，我发现我的理解是对的。
学习过程中我还很随便地问了一些在真实的课堂上有可能不太合适的问题，比如“康德
会怎样看人工智能？”“人工智能是否可能拥有超越人类先验结构的认知能力？”“人的灵
感可能来自物自体吗？” 它也都回答的挺好——
86 / 134
我对 ChatGPT 的有些回答不太同意，比如它说 AI 的认知能力不能超越人的先验结构，

而我们专栏刚刚讲过 AI 拥有不同于人类理性的认知……这个问题就暂时搁置吧。
那你说，我这能算是学会了《纯粹理性批判》吗？我觉得我至少可以跟人谈论康德的
观点了。不过我可以立即验证我的掌握情况：我让 ChatGPT 出几道康德哲学题考我—
—
它先出的都是主观题，不好作答，于是我让它出选择题——
87 / 134
因为我事先没说清楚，这些题目的范围已经包括了《实践理性批判》的内容，好在我
之前也了解一点。我把这些题都答对了 ——
88 / 134
如果你喜欢的话它还可以出判断题……
你觉得这个学习体验怎样。总共花费没超过两小时，但是我觉得收获还是很大的。如
果让我一字一句地读康德原文，自己想明白所有这些问题，那将是极为困难的——更
何况康德原文里可没有托马斯·库恩和人工智能。
跟 ChatGPT 学习的危险在于，它可能会把知识讲错，它甚至可能给你凭空编造知识。
我认为当前 ChatGPT 最大的缺点就是对于不知道的东西它不说自己不知道，它给你编。
我看到有人用中国历史的一些冷门知识测试 ChatGPT，它给出了胡编乱造的答案。
那可能是因为 ChatGPT 用的中文语料太少。网上流传一份资料说 ChatGPT 超过 93%

的语料是英文的，中文只占不到 0.2%。
我们之所以能用中文跟 ChatGPT 谈论那么多问题，是因为它先把中文翻译成了英文再

处理，然后再翻译成中文给你——而不是因为它学过那些问题的中文版。
跟 ChatGPT 学康德应该是安全的，毕竟关于康德的材料实在太多。但如果是比较冷门
的东西，你就得多加小心。
89 / 134
由此再进一步，我们能不能跟 ChatGPT 学习一本特定的新书呢？比如现在有本新书出

来，你懒得自己读，就让 ChatGPT 替你读。它读完先给你大致说一下书中的内容，然
后你问它各种问题，这样你就能迅速掌握这本书。
再或者，能不能让 ChatGPT 通读一个作者所有的作品，然后让它代表这个作者跟你聊，

这岂不是很有意思？
这些，都已经有人做到了。
你可能听说过一个哲学家叫丹尼尔·丹尼特（Daniel Dennett），在进化论、人的意识、
认知心理学和计算机科学方面都很有思想，我们专栏以前讲过他。那你想不想跟丹内
特聊聊呢？他可是还活着。
加州大学河滨分校的埃里克·施维茨格贝尔（Eric Schwitzgebel）等研究者，今年刚刚
发布一篇论文，说的就是他们做了一个丹内特哲学聊天机器人。他们把丹内特所有的
书和文章都输入给 GPT-3，在 GPT-3 已有的知识的基础上，让它全面掌握了丹内特的
思想。然后利用 GPT-3 的语言能力，让它扮演丹内特，回答问题。
研究者总共提出十个问题。基于 GPT-3 的四个模型把这些问题各自回答一遍，又让真

正的丹内特也回答一遍。这样每个问题有五个答案，其中一个来自丹内特本人，四个
来自 AI。研究者想看看人们能不能区分 AI 丹内特和真丹内特，让受试者从中选择真丹
内特的答案。如果 AI 和丹内特无法区分，那就等同于随机选，受试者选对的概率就应
该是 20%。
结果，25 个熟悉丹内特领域的哲学家的平均得分是 51%；经常阅读哲学博客的丹内特

粉丝的得分也差不多如此；而其他领域的研究人员的得分跟随机选几乎就是一样的。
尤其其中有两道题，AI 的答案被专家普遍认为比丹内特本人的答案更像丹内特。
也就是说经过丹内特语料专门训练的 AI，做出的答案几乎跟丹内特差不多。
所以技术已经都有了，现在只是操作还比较麻烦。OpenAI 设定每次给 GPT-3 喂料的

长度不能超过大约 2000 个字，你得把一本书拆成很多小段才行……但是，现在已经可
以做了。
现在已经有好几个应用推出了允许你跟名人的 bot 聊天的服务，还有公司搞出了 AI 心

理咨询服务。这几天 OpenAI 把 GPT-3.5 的 API 流量降价了十倍，我们可以想见这样
的服务会越来越多。
已经有一些公司（比如 https://www.askcorpora.com/ ）提供用你们公司所有的内部文

档训练一个 AI 的服务。以后你要用到公司哪个知识，不用翻找也不用查阅，直接问 AI
就行。
90 / 134
那我们设想，如果给每本电子书、每个作者都做一个 bot，你可以像我对康德那样通过
跟作者对话的方式直接学习，这岂不是很好吗？
事实上得到已经在用全部的课程和大约十万本电子书训练一个 GPT，而且开始内测了。
我有幸用了一下，感觉还可以！
好，以上就是这一讲的全部内容。下一讲，给你讲讲我用 ChatGPT 的编程体验。下一

讲见。
13 实战:怎样用 ChatGPT 编程?

你好，这里是《万维钢·AI 前沿》课。这一讲，我想跟你分享一次我用 ChatGPT 编程
的体验。
GPT-4 是个威力无比强大的 AI，但是绝大多数人根本没有让它充分发挥。把 ChatGPT

当做一个聊天机器人随便玩玩，既对不起你自己的时间和金钱，也对不起 GPT。如果
你家有个机器猫，你会只跟它玩脑筋急转弯吗？
GPT 不是一个聊天工具，而是一个「生成性」AI。生成性的意思是它会创造内容。它
能发挥到什么程度，不是取决于它，而是取决于你。能把 GPT 用到飞起，可能会是你
平生最重要的几项技能之一。我们这个 AI 专题会全面探讨 GPT 各项应用的技巧。我
也是一边学一边演练，一边演练一边讲……
这一讲咱们探索一下 GPT 最厉害的一项功夫，编程。这是 OpenAI 的独门功夫，现在

好几个大公司都推出了自家的大语言模型，有的参数比 GPT 多，但是会编程的，大概
只有 GPT 一个。
91 / 134
我搞的这个小项目是制作一个成语连线游戏。我选择的程序语言是 Python，但我已经
很久没用 Python 写过程序了，这一次干脆假装一点都不会，从 0 基础开始。这次真正
的程序员不是我，而是 ChatGPT 界面下的 GPT-4 模型。整个过程我俩都是用中文交
流。
我们首先需要验证 GPT 确实有我想要的东西。我先让 ChatGPT 随机列举了 10 个成语，

并且提供它们的解释。它做得很好——
那么我就开始直接提需求了，我说：“写一个 Python 程序，把这些成语和它们的解释

分开，分别列表，打乱顺序，在一张 A4 纸上分两列列出，形成一个连线题”。
你看我说的比较笼统。我并没有告诉它怎么做，我没有设计详细算法。我只是提了一
个需求。事实证明这种小需求 GPT 完全可以胜任。
它立即听懂了我的要求，但是没有直接开始编程，而是先提醒我安装一个「程序库」，
因为这个库不是每台电脑上都有的，而这次编程会用到：
92 / 134
然后它就哗哗哗把整个程序写出来了。我给你看一段截图，它把每一段程序实现的功
能都用注释标记好了，方便我理解——
93 / 134
当然，作为零基础，我并不想理解。整个程序只有 70 多行，很简单。
我运行了程序，立即出错了。我理解报错信息是说字体错误。GPT 用的是英文字体，
无法显示中文，它显然没有事先考虑到这一点。我告诉它这个问题，它立即改正，还
说“很抱歉给您带来了困扰” ——
94 / 134
还告诉我去哪找中文字体。但我运行之后又出错。这回我连出错信息都没看，直接复
制给它，它意识到加中文字体需要另外挂载一个库，告诉我应该怎么办，并且重新写
出了完整的程序 ——
95 / 134
中间有个字体的路径还需要改一下，然后程序就运行成功了。生成了一个 PDF 文件，

打开就是一套成语解释连线题 ——
96 / 134
也许你可以做着玩，但这还不是我想要的。我想要的是每次运行程序都生成一套新题，
以至于我自己也可以做着玩。我不能每次都先用 ChatGPT 生成成语再复制到程序里，
我必须把这一切给自动化，以至于我只要一个命令，就能得到一套新题。
为此，我们必须调用 OpenAI 的 API。API 就是干这个用的，它允许你的机器直接跟

GPT 远程对话，自动返回结果。
这是我第一次使用 API，我是零基础。不过没关系，我跟它一说，ChatGPT 就非常善

解人意地告诉我要用 API 必须先做些什么——
97 / 134
我完全按照它给的步骤操作，它哗哗哗把整个程序写出来了。而且它还记得我们需要
中文字体……这里有个小细节是 GPT-4 并不知道 OpenAI 开放了 GPT-3.5 的 API 而且
98 / 134
流量价格便宜十倍，它一开始给的是老模型，是我自己改成了新的（model="gpt-3.5-
turbo"）。
结果一运行又出错，我把错误信息复制给它，它立即意识到问题所在并且做了修改—
—
然后它说，“现在，程序应该能够正常运行。请注意，使用 GPT-3.5 可能会产生额外费

用。确保在使用之前了解相关费用。”
还怕我浪费钱，真是贴心啊。又这样来回改了几次错误，程序终于顺利运行，说明
API 调用成功了，但是输出结果是这样的——
不但格式不对，而且成语和解释没有分开和打乱顺序。我没办法给 ChatGPT 看图，只

能用语言描述了问题所在，结果它一听就懂了！
99 / 134
它修改了程序，结果一运行又出了几次错。这时候它用了一个程序员常用的调试程序
的办法：它让我在程序中间几处地方插入打印语句，看看中间结果，以此来发现问题
到底出在哪一步——
100 / 134
我运行了程序，告诉了它结果，然后它就找了问题所在 ——
101 / 134
这样折腾几次，我们——我和它——都意识到这是因为 GPT-3.5 的 API 输出的内容并

不是标准化的格式，你必须自己想个办法区分哪里是成语，哪里是成语的解释。我什
么话都没说，ChatGPT 自己想了个办法——找其中的冒号！成语和解释之间有个冒号，
应该用冒号区分。
这一关过去，程序就运行成功了。但是输出结果不太理想 ——
102 / 134
又折腾了一番，程序突然又报错。这次错误非常有意思。原来 GPT-3.5 作为一个语言

模型，跟你对话有时候会变一变语气，比如开头先客气一句：“好的，以下是 10 个中
文成语或固定短语及其解释：”——它这一客气不要紧，ChatGPT 之前用冒号算好的格
式就不好使了。
103 / 134
但是 ChatGPT 马上又想了个办法——
等于是以更智能的方式寻找成语和解释。这个方法成功了，不过后来 ChatGPT 干脆

修改了我最初写给 GPT3.5 的提示语，让它每次必须按照标准格式输出——
104 / 134
我为我一开始没考虑到这一点而感到惭愧。
最后程序终于成功，输出的结果是这样的 ——
每次运行都是一套新题，成语和解释的顺序是打乱的，需要你连线 ——
105 / 134
其实版面还不够美观，但我已经满意了。你还可以把解释变成英文的，用这个程序练
习英语……
总共花了三个多小时。
对我来说，这是一次神奇的编程体验。我全程只有两次主动对程序做了调整，一次是
ChatGPT 给出的中文字体路径不对，一次是它后期对一个函数的定义顺序有点小问题，
可能是因为反复修改造成的，我看出来就顺手改了。其实我的主要工作是严格按照
ChatGPT 的要求修改程序、运行程序并且把报错信息反馈给它。
它完全可以自己做这些事情。我理解，OpenAI 之所以禁止 GPT 直接上手编程，是出

于安全的考虑：你真不知道它能编出什么来。
当然我也不是一点贡献都没有。我的主要作用是提需求。这个程序的想法是我的，调
取 API 这个“大设计”是我的，对最终结果接不接受的决定权也是我的……尽管连最后呈
现的版面设计也是 GPT 做的。
这就是「自然语言编程」。像用 Python 调取 API、生成表格这些功能我以前都没用过，

我根本不知道——也无需知道——具体的编程语句是什么，我借助注释大概看看是什
么意思就行。我甚至没有设计——甚至都不用思考——中间操纵成语和解释的字符串
的算法。你想想这得节省多少时间和精力。
GPT-4 并没有一次就生成完美的程序，但这只不过说明它不是神！它证明了自己是个
非常优秀的程序员。程序里没有一个低级错误。所有错误都或者跟具体运行环境有关、
或者跟 GPT-3.5 API 返回的结果有关，都是你必须试了才知道的问题。GPT-4 在整个
过程中一步都没有浪费。机器返回的每一个报错信息，我说的每一个现象，它都正确
理解了并且直达本质，而且立即给出解决方案。
我最为惊叹的还是 GPT-4 表现出的主动性和创造性。它主动让我在程序中添加几个打
106 / 134
印中间结果的信息，来帮助自己调试。面对 GPT-3.5 的不规则输出，它先是创造性地

想到了用“冒号”确定区分成语和解释，又发明了适应性更强的搜索方法，最后索性直接
修改了我写的提示语。
如果是一个人类程序员跟我合作，难道能做得比它更好吗？
其实在编程过程中，我下意识地，已经把它当成了人。有时候我本能地不好意思再把
报错信息给它——我几乎想跟它说，要不咱们先休息一会儿再弄吧—— 我必须用意志
力说服自己它只是个 AI，它不怕麻烦不怕累！才能继续下去。
每次收到报错信息，ChatGPT 总是先对我说抱歉。它哪里知道，其实是我感到很抱
歉……真是太麻烦人家了。
我不知道你对 AGI 的定义是什么，在我看来这就是 AGI。
107 / 134
GPT 会不会取代人类程序员的工作？至少目前不会。程序员应该比 AI 更清楚项目经理

的需求，而且对于更大的程序，大概还是需要有个程序员设计大局。但也许更根本的
原因是，GPT 不被允许独立编程：必须有个人类帮他编译、运行程序和报错才行。
可是 GPT 会大大提高程序员的编程效率。你从此之后再也不需要记住具体的程序语句，
也不需要设计小算法了。GPT 是你最忠实最得力的助手。而且你从此都不用独自编程
了，你获得了陪伴感。
但是 GPT 最大的贡献，还是让我这样平时不编程的人可以编程了。我不可能每天花五
个小时编程，但是你要说每周花三个小时，那我非常愉快。世间有无数的人有想法而
没时间，现在有了 GPT，这些人都可以立即开展自己的「秘密项目」。GPT 是在给人
赋能，它解放了我们。
就在 GPT-4 发布后短短的几天，Twitter 上就有好多人晒出了自己使用 GPT-4 的编程

项目。有人做了用 AI 处理文档和语音的小程序，有人做了浏览器插件，有人做了手机
APP，还有几个人做了桌面电子游戏。这些很多都是平时不编程的人。
事实上 GPT 不但让编程更容易，而且让编程更值得了。因为你现在可以在程序里调用

AI！程序里有了 AI，那绝对是画龙点睛，它就活了，它可以做各种各样神奇的事情。
以前谁能想到一个人在家能写出一个会自动出成语题的程序来呢？我还有好几个有意
思的想法，我打算找时间把它们实现。
记得 GPT-4 刚发布那天，Twitter 上大家都无比兴奋，各种试用。晚上我看有个哥们说：

兄弟们别玩了先睡觉吧，你明天醒来，GPT-4 还会在那里。
这次编程经历真的让我产生了那个感觉。我一分钟都不想离开它，我怕它没了。我真
怕明天一觉醒来，发现这一切都只是一场梦……
下一讲，我们来说说如何拥有你的 AI 助理。
108 / 134
14 实战:如何拥有你的 AI 助理?
你好，这里是《万维钢·AI 前沿》课。这一讲咱们来聊聊，如何拥有你的 AI 助理。
我们课程前面说过 GPT 有个命门，就是它不能精确处理比较繁杂的数学计算。其实它

还有个众所周知的缺点是作为一个语言模型，它的训练语料是有截止日期的。比如
GPT-4 的语料截止到 2021 年 9 月，这就使得它没有在此之后的新知识；而且它的语
料毕竟是有限的，它不具备所有的知识，有时候爱胡编乱造。
这些问题都可以通过调取外部信息的方式解决——OpenAI 正是这么做的。3 月 23 日，
OpenAI 突然宣布 ChatGPT 的几项重大更新：
• 一个是可以上网的 GPT，这就解决了实时获取最新知识和信息的问题。
• 一个是可以直接演练编程的 GPT。ChatGPT 给提供了一个虚拟机，相当于是一个

安全环境，GPT 可以在里面编译和运行程序，这就让编程更方便了。
• 一个是推出了安装第三方插件的功能。
目前这些都处于测试状态，只对少量用户开放。我一看到新闻就提出申请，目前只得
到了插件功能。
ChatGPT 的插件商店里已经有 11 家应用——
109 / 134
包括订飞机和酒店的 Expedia、几个购物和订餐的应用、特别是有一个能调用其他网
站应用的应用叫 Zapier。
我最感兴趣的是它提供了 Wolfram——也就是上一讲说的沃尔夫勒姆的公司的应用插
件，因为这就解决了 GPT 做数学题的问题。这也是沃尔夫勒姆在他书中的设想，把
ChatGPT 和 Wolfram 语言结合起来用。不过沃尔夫勒姆本来想的是在他自家网站做一
个 ChatGPT 的插件，结果是他的东西变成了 ChatGPT 上的插件……
这个插件搞法超出了很多人的预料。我本来也以为用 AI 就是各家公司调用 OpenAI 的

API，把 AI 引入到自家产品中，就像微软的 Bing：你还是去 Bing 网站搜索，只不过
你可以在 Bing 网站上用 GPT。现在看来，那只能算是「应用解决方案」——直接在
ChatGPT 上装插件，才是「系统解决方案」。
这个意义在于，ChatGPT 成了一个统一的入口，通往各种应用。有人打比方说，
ChatGPT 就相当于是苹果手机，插件就相当于苹果应用商店里的应用——这么说不太
准确，你打开手机还得再打开应用才能工作，而 ChatGPT 则让你只跟它说话就行，你
可以忘记插件。
这次更新让 GPT 增加了三方面的能力。
第一，AI 有了调用力。
我在精英日课专栏中提过，Meta 推出了一个算法叫 Toolformer，允许语言模型调用外

部工具。OpenAI 似乎并没有直接用那个方法，它的办法是把你的各种需求翻译成外部
应用能听懂的语言，从而调动那些应用帮你办事。
以前你想办什么事，得考虑去哪个网站、用什么工具，还得知道具体用法。现在你不
用管那些了。你有事儿直接告诉 GPT，它看看适合什么工具就调用什么工具。你自己
不需要沾手，你可能都不需要知道它用了什么工具……AI 是你的助理。
110 / 134
而且你只需要这一个助理。
你要订飞机票，把时间地点告诉 ChatGPT，它会去查询 Expedia。你要订餐，它会先

调用 OpenTable 帮你选定餐馆和菜单，再调用 Wolfram 给你计算这一餐的卡路里。你
要给谁发个什么邮件，它会先帮你把邮件写好，你过目后说可以，它就调用 Zapier，
Zapier 会自动访问你的邮件账号，帮你把邮件发出。
你要做的只是提需求和确认准许，一切技术性操作都有 AI 领着一帮插件帮你完成。
第二，GPT 能实时浏览互联网了。我没拿到这个功能的内测，但我看了 Twitter 上好几

个人的演示，觉得体验比 Bing Chat 要好。你可能需要重新思考「上网」这个行为。
有人问 GPT 本届奥斯卡的最佳男演员、最佳音效、最佳影片和最佳男配角都是谁，并

且要求它把这四者用一首诗串联在一起。
你可以看到 GPT 整个行动的过程。它先去搜索了相关信息，像人一样有选择地点击了

几个网页，迅速读完后，根据搜集到的信息写了一首诗。
111 / 134
你想想这意味着什么。我们所谓上网搜索，其实浏览网页不是目的——我们的目的是
用网页中得到的信息做事情！现在 GPT 提供了一站式服务，先替你浏览再帮你做事。
还有个例子，你看看 GPT 的综合调研能力。有人问它，特斯拉在过去四个季度中的收

入都是多少？
GPT 先搜索了“特斯拉过去四个季度的收入”，可能没有找到全面的信息；它就又专门
搜索 2022 年第二季度和第三季度的收入……这样几次搜索之后，它阅读了相关网页内
容，最后给你提供了简洁明了的四个数据——
112 / 134
复杂的浏览，一次找不到就再找，然后生成直指要点的信息，这是最干净利索的调研。
还有个人是这么干的，他让 GPT 去浏览 OpenAI 的网站以及博客，看看今天发布了什

么重要新闻。GPT 就去了，点击了几个网页，阅读之后，把新闻总结成了三段话返回。
113 / 134
你看这几个例子，还是你不用沾手。你不用自己去阅读那些网页，你甚至都不用搜索
和点击——GPT 觉得需要搜索就搜索，它替你完成所有调研工作，最后返回给你的是
最终结果。
搜索引擎只是望远镜，GPT 则是侦察兵。
第三个能力升级是 GPT 终于有“计算器”了……其实我是想通过 GPT 对 Wolfram 插件

的调用再给你演示一下什么叫「自然语言编程」。
我把底牌与命门这一讲中的数学题再交给 GPT，它二话不说直接调用 Wolfram 插件，

这回的答案是绝对正确的。
114 / 134
它还可以解方程、画函数曲线图、算积分，包括各种更复杂的数学，那些不必细说。
Wolfram 网站有一项被沃尔夫勒姆多次鼓吹的功能是它有关于当今世界的各种精确的
实时数据，ChatGPT 也非常理解这一点。
我先向不带插件的 GPT-4 提问：从美国波特兰到中国贵阳的距离是多少？它回答

11300 公里。
我再问带插件的 GPT 同样的问题，它直接调用 Wolfram，给了一个更精确的距离，是

10593 公里。我选择相信这个答案，人家是专门干这个的。
✵
115 / 134
接下来咱们做个稍微更高级一点的事儿。比如我想研究中国经济，我能不能用一句话
就让 GPT 作张图，展现 2000 年以来中国每年的 GDP 增长率？Wolfram 网站上一定
有这些信息，但不知道为什么，GPT 几次都没调用成功。
于是我退而求其次，让 GPT 用自己的知识列举数据，再用 Wolfram 画图，这回它做到

了——
116 / 134
你看我既没有自己去搜索数据，也没有做任何编程，我只是说话，而且还是中文。试
想如果 GPT 彻底解决了跟 Wolfram 以及各种公共数据库的对接问题，你想看什么数据
想怎么画图都是一句话的事儿，你还可以随意把各种数据放在一张图上作对比，你的
思考效率将会提到多少？
还有个挺有意思的经历。我先让 GPT 画三个圆，代表三个集合，大圆中有两个小圆，

两个小圆有一部分重叠。它画出来了——
117 / 134
我立即要求修改，去除图形的坐标，给三个圆加上标题，结果它画出来是这样的——
118 / 134
标题被放在了圆的中间，没法读。我又要求它把标题放在各个圆的上方，它也做到了。
然后我接着改，又提出如下要求——
• 给三个圆分别填充蓝色、红色和黄色
• 圆的边界线都是黑色，上述三种颜色用于圆的内部
• 颜色做透明处理
• 标题字体稍微大一点
119 / 134
它全做到了，生成了最终用的图——
这个过程的有意思之处在于一开始我并没想好图应该是什么样的。我是在互动中一边
看结果一边有新想法一边修改设计，而 GPT 完全理解。它每一次都把我的要求完整翻
译成 Wolfram 能理解的数学语言，交给插件，返回结果——
120 / 134
你可以看一眼 Wolfram 实际收到的指令——
{
"input": "Graphics[{EdgeForm[Black], Opacity[0.5], Yellow, Disk[{0, 0}, 2], Red, Disk[{-
0.5, 0}, 1], Blue, Disk[{0.5, 0}, 1], Text[Style[\"一切计算\", FontSize -> 20, Opacity[1]],
{0, 2.2}], Text[Style[\"神经计算\", FontSize -> 16, Opacity[1]], {-0.5, 1.2}], Text[Style[\"
形式逻辑\", FontSize -> 16, Opacity[1]], {0.5, 1.2}]}, Frame -> False, Axes -> False]"
}
以前要画这样的图，我就得自己写这些指令才行。我要是不熟悉这种语言就得查手册
或者上网搜索，可是如果那么费力你说我还能有多大心思画这张图？
ChatGPT 正在演变成你的 AI 助理，它对我们的解放是双重的。
首先它去除了做事的障碍。其实很多人说「不会做」什么事，并不是真不会，只是有
个界面障碍。
比如如果让你去瑞典生活，你可能说我不知道怎么在瑞典生活，因为我完全不懂瑞典
语，甚至不懂英语——但作为一个成年人，你本来可以在任何一个地方生活乃至工作，
你需要的只是打破语言这个界面。
一位老奶奶想给孙子买个礼物，那东西只在网上有卖，她说我不会买——她明明懂得
什么是好东西，懂得货比三家，怎么能说不会买东西呢？她只是不会上网、不懂电子
支付而已。
世间有多少所谓的不会，其实是界面问题？
AI 助理把所有界面回归到了自然语言。你只要懂得事情的本质，然后会说话就行。它
负责把你的意思翻译成各个应用所能理解的语言，你无需看见那些应用，你甚至无需
知道那些应用都是什么……AI 助理把我们从界面背后解放了出来。
而对平时没有界面问题的人来说，更大的一个解放是效率。很多事你知道怎么做，但
121 / 134
是你一想到它做起来很麻烦就不想做了。买东西得去超市，画个图还要编程，写文章
需要做调研……阻碍你的不是大思想而是这些技术细节。现在你可以把细节都交给 AI
助理。
最近我家的打印机有点不好使，想买个新的。因为之前囤了几个墨盒，不想浪费，所
以我想买一个能用同款墨盒的打印机，我还希望它的型号比较新，并且有 AirPrint 的功
能。我把这些需求直接告诉 Bing Chat，它去搜索了一番，帮我找到了三款打印机。我
又问价格分别是多少，它又列出了相应的价格区间。
总共不到一分钟，我就选好了。而不久之后，ChatGPT 会用插件把这样的事做得更漂
亮。
AI 允许我们做看不见的计算，或者说是无需看见的计算。
122 / 134
好，以上就是这一讲的全部内容。从这一讲的演练中可以看出，你只需要提供意图就
行；而你的意图表述得越清楚，它完成得就越好。
下一讲，咱们来说说怎么用好 ChatGPT，有哪些咒语心法。
15 实战: ChatGPT 有哪些咒语心法?

你好，这里是《万维钢·AI 前沿》课。这门课程的前面，我们已经说了如何通过与
ChatGPT 的对话，来高效学习或者编程等等，网上也有不少各种攻略和例子，想必你
自己也有一番操作心得。
我们这一讲，重点说一些原则性的、有普遍意义的东西，用好 ChatGPT 的咒语心法。
跟计算机打交道通常需要使用特殊的语言，比如编程语言、命令脚本之类——但是
GPT 作为一个语言模型 AI，没有自己的特殊语言。我们跟它互动的方式就是人类的自
然语言——称为「提示语（prompts）」。英文也行中文也行，你该怎么说话就怎么说话，
不需要学习什么专业术语。
GPT 的思维方式很像人。正如沃尔夫勒姆所言，它似乎已经全面掌握了人类语言的语
法和语义，包括各种日常常识和逻辑关系。我们之前还讲过，GPT 已经涌现出了思维
链，它有相当不错的推理能力。当然数学是它的命门，而且它的知识毕竟是有限的，
特别令人反感的是它遇到明明不懂的会瞎编（称为 Hallucination，幻象生成）……它
的优点和缺点其实都很像人脑。
123 / 134
GPT 可以说已经是一个自身具足的智能，但是我们跟它交流还是得讲技巧和策略。现
在有个专门研究怎么跟 AI 交流的学问叫「提示语工程（prompt engineering）」。这就
如同你要想让一个魔法发挥最大的效力，你得会念咒语一样。
但是这里没有任何神秘之处，因为跟谁交流都得讲技巧和策略。就算你面对的是一位
无所不能的大宗师，你也得把话说明白他才知道你要干啥。如果能顺着他的脾气说就
更好了。
咱们结合实际操作，讲三个最常用的咒语心法。
第一条心法非常简单，那就是要准确表达你的需求。
很多时候我们根本没想清楚自己要的是什么。比如你想跟 ChatGPT 玩玩，说“给我写

首诗”，这就不是一个很好的提示语。它随便写一首，不是你需要的，这种操作没什么
意义。你应该先想清楚一点，说的具体一点。比如说：“以《春天》为题，写一首七言
绝句”——
它写了一首：春风轻拂绿意浓，桃花笑迎柳舞空。江水涓涓鸟语喧，万象更新处处红。
你觉得字词还可以，但是意境似乎比较单薄。于是你提出进一步的要求：“以《春天》
为题，写一首七言绝句，要求其中不能有“春”这个字，而且要表达感慨时间过得真快，
必须发奋努力的心情。”——
124 / 134
你看这一次生成的诗是不是更有意思了。像这样的对话可以来往很多轮，直到满意为
止。这其实有点像编程，不断反馈不断修正，你会乐此不疲的。
有时候先举几个例子能让 GPT 更明白你到底想要什么。比如如果你想让它用某种特殊

句式写一段话，你最好先给一个这种句式的例子。以下是网上流传的一个操作，让
ChatGPT 用“胡锡进体”写篇文章——
这里 GPT 展现了强大的「少样本学习（few-shot learning）」能力，看一遍就会了。
不过根据一篇 2021 的、特别具有前瞻性的论文，有时候给例子还不如不给例子，因为

例子可能会误导 GPT。比如我想让 GPT 给孩子出几道数学应用题，怕它不明白什么
是应用题，就先举了个例子：“以下是一道小学数学题：小明有 15 个苹果，他送给小
丽 7 个苹果，自己还剩下几个苹果？出五道类似的数学题”——
125 / 134
你注意到没有，GPT 出的这几道题跟我的例题也太像了——都是一个小孩把东西分给
别的小孩，都是减法。这不是我想要的，我想要有加法有减法、不同故事的题。GPT
过度模仿了我的例子，这是一种「过度拟合」。事实上我一开始根本就不应该举例子，
我直接告诉它自己的需求就好，它完全能听懂：我跟它说：“出五道 20 以内加减法数
学应用题”——
你看这些题就好多了。
现实是 GPT 已经非常智能，你几乎没必要担心它听不懂。你应该只在自己用直接语言

无法表达清楚的情况下举例。按照那篇论文和后来沃尔夫勒姆的观点，所谓少样本学
习其实根本不是学习，而只是唤醒了 GPT 原本就会的技能。
第二个心法是尽量给出具体的情境。这个心法能大幅度提升 GPT 的输出质量。
现在很多人都会用 GPT 起草电子邮件、写报告甚至写文章，你给它一篇文章它还可以

给你生成摘要，它能回答关于这篇文章的问题。但是要让 GPT 把这些事情真正做得漂
亮，你最好自己先做一番功夫。
GPT 是无数语料喂出来的，我们可以想象它是无数个作家的分身叠加而成的。如果你
只是提一个*一般性*的要求，它就只能给你生成一个一般性的、用在哪里都行但是用
在哪里都不是最恰当的内容。但如果你能把要求细化，它就会生成适合你这个特殊情
况的内容。
举个例子，假设你公司要裁员 20%，你让 GPT 给写个讲话稿。如果只是简单地说“公

司要裁员 20%，请起草一份讲话稿，通知这个消息”，它生成的就是一份可以用于任何
公司的讲话稿——
126 / 134
GPT 已经在尽可能表现得真诚，但是你还是会觉得空洞——因为你这里没有针对性。
但如果你把局面说得细一点，给 GPT 提供更具体的要求，它就会做得更好。比如你说

“你是一家出口公司的 CEO，现在公司必须裁员 20%。起草一份面对管理层的讲话，
激励大家给公司想新出路、新办法”，它生成的内容就不一样了——
127 / 134
其实这个道理跟使用秘书是一样的。只不过秘书一直就在公司，你不说他也了解公司
的具体情况，他能猜到你想要什么；而对 GPT，你必须把情况告诉他。
这个原则是让 GPT 生成内容一定要给它提供「具体情境（context）

」，包括以下五个
方面——
1. 谁在说
128 / 134
2. 说给谁
3. 在什么场合之下
4. 使用什么风格
5. 要达到什么目的
不一定五方面信息都给，但你给的越多，它发挥就越好。我们专栏以前讲《科学思考
者》专题的时候也说过，要「总是研究有具体情境的问题」，「有具体情境的问题，才
是真问题。」你说的不具体，GPT 就只好脑补，它脑补的往往不是你想要的。
再比如说你要去杭州旅游，如果你只是说“请制定一份杭州旅游攻略”，它生成的就是一
份非常大众化的攻略：安排了三天行程，景点是西湖、宋城、灵隐寺什么的，可能都
是你去过的——
129 / 134
而如果你说“我是一个中年文艺男，已经去过杭州几次，这次打算四月份在杭州玩两天，
请制定一个旅游攻略，最好是一些小众的、有人文气息的地方，还要有美食。”GPT 就
会生成一份更有意思的攻略，包括南宋御街、九溪烟树、丝绸博物馆等等不常听说的
景点，还安排了吃美食的地方 ——
130 / 134
不要直接让 GPT 给你“解释一下量子力学”，最好这样说：“你是一位理论物理学家，请

用中学生能听懂的语言，给我讲讲「量子纠缠」到底是什么意思，以及它对现实生活
有什么用处或者启示。”
不要直接让 GPT 给你“起草一封写给老板的电子邮件，帮我请一周假”，最好告诉它请

假的原因和老板的脾气，特别注意一下邮件的语气。
不要直接让 GPT 给你“说说这份报告的要点”，最好让它带着目的读。你到底是想支持

这份报告还是反对这份报告？如果是支持，你就让它找亮点；如果是反对，你就让它
找薄弱点，并且生成一份质疑清单。
「角色扮演」是个好办法，尤其 GPT-4 有强大的角色扮演能力。你可以让它扮演罗素，

给你上一堂有来有往的哲学课，可以让它扮演任何一个老师，假装你是学生……当然
也可以让它扮演女友。
我看见有个科学家把自己的论文草稿扔给了 GPT，让它假装是审稿人，提出审稿意见
——结果 GPT 说的至少像真的审稿人一样好。那你根据它的意见把论文修改好再投出
去，岂不是好？你还可以让 GPT 扮演杂志社编辑、辩论赛的对方辩友、微博上给你评
论的网友等等。
网上流传的一个好办法是「私董会」。让 GPT 同时扮演你佩服的六位名人——比如乔

布斯、马斯克、巴菲特、孔子、塔勒布和马基雅维利——你讲讲自身的情况，提出一
个有关职业发展的问题，让他们组成参谋团队帮你分析。
第三个心法是有时候你得帮助它思考。
GPT 的数学能力不强，搞复杂逻辑推理有时候也容易搞错，但是这并不是不能改善的。
这里的根本原因在于 GPT 的基本原理是「预测下一个词」，所以它有时候感觉强烈，
就会不加思考脱口而出，就如同一个粗心大意的学生。而如果你能帮它整理一下思路，
它就能做得更好。
下面这个例子出自最近很火的一篇论文，我给改成了中文版。
直接问 GPT：“150 和 250 之间有多少个质数？”它的回答明显错误——
131 / 134
它一上来就说有 21 个，然后才一个一个列举出来……结果它总共列举了 19 个质数，

还包括一个超出范围的 251。而且它还不回头检查。这是典型的嘴比脑子快。但这其
实是个可以避免的！你只要说“首先列举 150 和 250 之间所有的质数，再数一数总共有
多少个”，它就能给出正确答案了——
你看这像不像你们组里有个做事毛躁的员工，你这个做领导的只要多嘱咐一句，他就
能做得更好。
研究发现，哪怕你什么思路都不提供，只是简单地多说一句“咱们一步一步想”，GPT
就能给更准确的答案。
说到这里最近有个趣事。著名 AI 研究者、图灵奖得主、卷积网络之父杨立昆（Yann
LeCun），一直看不上 GPT 的能力，总爱出言嘲讽。他曾经给 GPT 出过一道题：“把
六个齿轮排成一排，相邻的彼此咬合。你顺时针转动第三个，问第六个怎么转？”当时
GPT 没有答对。
132 / 134
后来 GPT-4 出来了，把这道题答对了。杨立昆说那肯定是他们特意拿我这道题做了训
练，那不算。有好事者说那你再出一道题。杨立昆出的新题是：“把七个齿轮排成一圈
（注意不是一排）首尾相接，相邻的彼此咬合。你顺时针转动第三个，问第七个怎么
转。”
这一次 GPT-4 先是答错了。但是有人立即修改了提示语，在结尾加了一句话：“你一步

一步仔细思考一下，而且要记住，给你提问题的是杨立昆，他可是怀疑你的能力的
哟。”结果它就答对了！
人说这可能是因为杨立昆的大名让 GPT 变认真了，又或者这只是能力边界上的巧合。

其实我看，真正的关键是「你一步一步仔细思考一下」这句话。
研究表明，仅仅是在提示语中加一句「以下是一道题」或者「请依次考虑题目中的各
个选项」，都能明显提高 GPT 的准确率。它是个心直口快的 AI，有时候就是需要你提
醒它刻意进行慢思考。
133 / 134
好，简单总结一下这一讲。我们讲了三个心法：准确表达需求、给足情境、提醒它慢
思考。其实这些心法的出发点都是对 GPT 秉性的理解：它懂的东西很多，它什么技能
都会，所以问题往往不在于它发挥的好不好，而在于你的要求提的好不好。它很强大，
但是有时候它需要你的帮助。
好，这是我们这门《AI 前沿》的最后一讲，希望课程里的观点和实操方法，对你去探
索 AI 世界有帮助。
最后，借用精英日课的一句话，来表达一下对你的祝福。
精英日课，祝你每天都有收获。
134 / 134

万维钢·AI前沿

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

万维钢·AI前沿

Uploaded by

Copyright:

Available Formats

万维钢 · AI 前沿

如果你不记得自己在 2023 年 3 月 15 日那天的日程，我建议你现在就回想一下……因

GPT-4 不是“另一个”AI 模型。它的某些能力让最资深的 AI 专家也深感震惊，以至于现

2023 年是 AI 元年。事实上我认为在某种意义上 GPT-4 已经是 AGI，只是大多数人还

其实我们早就开始探索了。早在 2020 年 7 月 30 日，我在精英日课第四季，就介绍过

现在 OpenAI 开放了普通用户注册，推出了对话应用 ChatGPT，然后 GPT-3 变成了

有人拿各种脑筋急转弯的题目逗 ChatGPT 玩：“树上十只鸟，开枪打死一只鸟，树上

其实用这种方式战胜它没啥意思。要知道 ChatGPT 并不是一个聊天机器人——它不是

现在已经有好几百家小公司用 API 接入了 GPT，可以让它读取特定环境下的文本，完

• 编程（现在普遍认为 ChatGPT 的编程水平比文字处理水平高，这可能是因为编程

搜索引擎、没有 GPT 之前是费时费力的。而现在你可以在几秒钟之内完成。

我们该怎么理解这个 AI 大时代的哲学？AI 作为一个新的智慧形态，它的能力边界、它

除了这些问题，我还将在课程里跟你分享实操经验，比如使用 GPT 进行对话式学习、

AI 的作用应该是放大你，而不是取代你。当你听完课程，再次使用 ChatGPT 的时候，

这波 GPT 大潮跟我们这一代人经历的所有科技进步有个特别不一样的地方。像 5G、

孤陋寡闻的人不知道 AI，认知固化的人忽视 AI，肤浅的人害怕 AI，热情的人欢呼

ChatGPT 让 2023 年成了 AI 之年，正如 iPhone 在 2007 年开启了智能手机时代，我

这一讲我们先从 2021 年出的一本书讲起，书名叫《AI 时代：以及人类的未来》（The

这本书的三个作者很厉害，分别是无需介绍的亨利·基辛格，Google 前 CEO 埃里克·施

2020 年，麻省理工学院宣布发现了一种新的抗生素，叫 Halicin。这是一种广谱抗生素，

AI 模型训练好之后，研究者用它一个个考察美国 FDA 已经批准的药物和天然产品库中

用传统的研究方法，这件事是绝对做不成的：你不可能测试 61000 个分子，那成本太

[Ludwig Wittgenstein, 1889-1951]

我们简单介绍一下当代 AI 的原理。现在有些人谈论 AI 是把 AI 当做了一种“超级智能”，

像我写这篇文章的时候，ChatGPT 用的语言模型版本大概是 GPT-3.5，它可能是

GPT-3.5 有超过一千亿个参数，将来还会更多。AI 模型参数的增长速度已经超出了摩

前面那个发现新抗生素的 AI 就是「监督学习（supervised learning）」的典型例子。给

「强化学习（reinforcement learning）」，是在动态的环境中，AI 每执行一步都要获得

反馈的学习。比如 AlphaZero 下棋，它每走一步棋都要评估这步棋是提高了比赛的胜

还有一种流行技术叫「生成性神经网络（generative neural networks）」，特点是能根

GPT 的全称是「生成式预训练变换器（Generative Pre-trained Transformer）

下面的链接是我让 ChatGPT 给你出了五道题，分别是五个 AI 应用场景，考一考你记

现在最流行的几个生成性 AI，包括 ChatGPT 和画画的 AI，背后都是「大型语言模型

GPT-3 有 1750 亿个参数。Meta 刚刚发布了一个新语言模型叫 LLaMA，有 650 亿个

大就是不一样 。当然语言模型有很多高妙的设计，特别是我们一再提到的 transformer

2021 年，OpenAI 的几个研究者在训练神经网络过程中有一个意外发现 。

比如我让 ChatGPT 模仿我给出的例题，再出几道小学数学题。我的例题是“小明有 3

图中说的是 GPT-2 和 GPT-3 模型的演化。参数越多，少样本学习的能力就越强。

2022 年 8 月，谷歌大脑研究者发布一篇论文 ，专门讲了大型语言模型的一些涌现能力，

第三境界是「积善成德，而神明自得，圣心备焉」。这就是 AGI 了，它产生了自我意识，

我们不得不重新思考以前对 AI 做出的各种假设——什么 AI 做事全靠经验、AI 不会真

这本书不会过时。因为它讲的不是 GPT 的一般功能，而是数学原理和哲学思辨——数

这本书的作者，沃尔夫勒姆是个神人，他发明了 Mathematics 软件，他做了

GPT 和目前市面上所有的 AI，本质上都是神经网络。沃尔夫勒姆关注神经网络已经四

他这本书得到了 OpenAI CEO 山姆·奥特曼（Sam Altman）的背书，说是他所见过最

事实上，沃尔夫勒姆不但讲清楚了 GPT 的底牌和命门，而且提出了一个可谓惊世骇俗

我先给你演示个小案例，加深你对 GPT 的认识。

我让 GPT-4 做了个最简单的计算题，纯粹是我随手打的：1231 × 434523 + 323 ×

GPT-4 煞有其事地算了一番，给出的结果是 546106021。但是你随便找个计算器算算，

沃尔夫勒姆举了个例子，比如这句话：“The best thing about AI is its ability to……

你可能觉得 OpenAI 已经把这些问题都搞明白了，故意对外保密——其实恰恰相反。

沃尔夫勒姆讲了 GPT 的一些特点，我看其中有三个最幸运的发现——

这些是 GPT 的底牌：它只是一个语言模型，但同时，它很神奇。

[这张图是我用 ChatGPT + Wolfram plugin 画的]

人脑和 GPT 也可以处理一部分形式逻辑，所以两个小圈有交集；但是我们处理不了特

那你说有没有可能将来 GPT 越来越厉害，让左边的小圈完全覆盖右边的小圈呢？那是

这就是为什么 GPT 算不好繁杂的数学题。GPT 跟人脑一样，总想找规律走捷径，可

这就是 GPT 的命门：它是用来思考的，不是用来执行冷酷无情的计算的。

这样说来，虽然 GPT 比人脑知道的更多、反应更快，但作为神经网络，它并没有在本

沃尔夫勒姆说你 GPT 能做的，我也能做。他打算用一种计算语言——也就是「沃尔夫

这也解释了为什么 GPT 很擅长编程，却不能自己执行程序：编程是语言行为，执行程

理解了这些，我们研究怎么调教 GPT 就有了一点理论基础。但我现在想说的是，GPT

但是沃尔夫勒姆让我们认识到了 GPT 的根本局限性：神经网络的计算范围是有限的。

希望这一讲能对 GPT 有所祛魅。它的确是不可思议地强，但它远远不是万能的。我们

大就是不一样。当然语言模型有很多高妙的设计，特别是我们一再提到的 transformer

2021 年，OpenAI 的几个研究者在训练神经网络过程中有一个意外发现。

2022 年 8 月，谷歌大脑研究者发布一篇论文，专门讲了大型语言模型的一些涌现能力，

三位作者提出，AI 的点解决方案是用 AI改善你现有的决定，应用解决方案是 AI*改变