2023 05《大模型时代:Chatgpt开启通用人工智能浪潮》

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 367

2

版权信息
书名:大模型时代:ChatGPT开启通用人工智能浪潮

作者:龙志勇 黄雯

出版社:中译出版社

出版时间:2023-05-01

ISBN:9787500173953

品牌方:中译出版社有限公司

本书由中译出版社有限公司进行制作与发行

版权所有·侵权必究

3
代序
AI大模型:当代历史的标志性事件及其意义

“尝试找到如何让机器使用语言、形成抽象和概念、解决现在人类
还不能解决的问题、提升自己,等等。对于当下的人工智能来说,首要
问题是让机器像人类一样能够表现出智能。”

——达特茅斯会议对人工智能(AI)的定义

2020—2022年,在新冠疫情肆虐全球的阴霾日子里,人工智能创
新的步伐完全没有停止。美国人工智能研究公司OpenAI异军突起:
2020年4月发布神经网络Jukebox;2020年5月发布GPT-3,模型参数
量为1750亿;2020年6月开放人工智能应用程序接口;2021年1月发
布连接文本和图像神经网络CLIP; ㊟ 【a CLIP(Contrastive
Language-Image Pre-Training)模型是OpenAI在2021年初发布的用
于匹配图像和文本的预训练神经网络模型,可以说是近年来在多模态研
究领域的经典之作。该模型直接使用大量的互联网数据进行预训练,在
很多任务表现上达到了目前最高水平。】 2021年1月发布从文本创建
图像神经网络DALL-E; ㊟ 【DALL-E是一个可以根据书面文字生成图
像的人工智能系统,该名称来源于著名画家达利(Dalí)和机器人总动员
(Wall-E)。】 2022年11月,正式推出对话交互式的ChatGPT。相比
GPT-3,ChatGPT引入了基于人类反馈的强化学习(RLHF) ㊟ 【单纯的
强化学习(RL)是机器学习的范式和方法论之一,用于描述和解决智能体
(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现
特定目标的问题。】 技术以及奖励机制。

ChatGPT是人类科技史上的里程碑事件,在短短几个月席卷全球,
速度之快超出人类最狂野的想象。ChatGPT证明了通过一个具有高水平
结构复杂性和大量参数的大模型(foundation model,又称为“基础
模型”)可以实现深度学习。此后,大模型概念受到前所未有的关注和

4
讨论。但是,关于“大模型”定义,各方对其内涵的理解和诠释却莫衷
一是,“横看成岭侧成峰,远近高低各不同”。

尽管如此,这并不妨碍人们形成关于大模型的基本共识:大模型是
大语言模型(LLM),也是多模态模型,或者是生成式预训练转换模型。
GPT是大模型的一种形态,引发了人工智能生成内容(AIGC)技术的质
变。大模型是人工智能赖以生存和发展的基础。现在,与其说人类开始
进入人工智能时代,不如说人类进入的是大模型时代。我们不仅目睹,
也身在其中,体验生成式大模型如何开始生成一个全新时代。

1.何谓大模型

人工智能的模型,与通常的模型一样,是以数学和统计学为算法基
础的,可以用来描述一个系统或者一个数据集。在机器学习中,模型是
核心概念。模型通常是一个函数或者一组函数,可以是线性函数、非线
性函数、决策树、神经网络等各种形式。模型的本质就是对这个函数映
射的描述和抽象,通过对模型进行训练和优化,可以得到更加准确和有
效的函数映射。建立模型的目的是希望从数据中找出一些规律和模式,
并用这些规律和模式预测未来的结果。模型的复杂度可以理解为模型所
包含的参数数量和复杂度,复杂度越高,模型越容易过拟合。

人工智能大模型的“大”,是指模型参数至少达到1亿。但是这个
标准一直在提高,目前很可能已经有了万亿参数以上的模型。GPT-3的
参数规模就已经达到了1750亿。

除了大模型之外,还有所谓的“超大模型”。超大模型,是比大模
型更大、更复杂的人工神经网络模型,通常拥有数万亿到数十万亿个参
数。一个模型的参数数量越多,通常意味着该模型可以处理更复杂、更
丰富的信息,具备更高的准确性和表现力。超大模型通常被用于解决更
为复杂的任务,如自然语言处理(NLP)中的问答和机器翻译、计算机视
觉中的目标检测和图像生成等。这些任务需要处理极其复杂的输入数据
和高维度的特征,而超大模型可以从这些数据中提取出更深层次的特征
和模式,提高模型的准确性和性能。因此,超大模型的训练和调整需要
极其巨大的计算资源和数据量级、更加复杂的算法和技术、大规模的投

5
入和协作。

大模型和超大模型的主要区别在于模型参数数量的大小、计算资源
的需求和性能表现。随着大模型参数规模的膨胀,大模型和超大模型的
界限正在消失。现在包括GPT-4在内的代表性大模型,其实就是原本的
超大模型。或者说,原本的超大模型,就是现在的大模型。

大模型可以定义为大语言模型,具有大规模参数和复杂网络结构的
语言模型。与传统语言模型(如生成性模型、分析性模型、辨识性模
型)不同,大语言模型通过在大规模语料库上进行训练来学习语言的统
计规律,在训练时通常通过大量的文本数据进行自监督学习,从而能够
自动学习语法、句法、语义等多层次的语言规律。 ㊟ 【生成性模型从
一个形式语言系统出发,生成语言的某一集合。代表是乔姆斯基
(Avram Noam Chomsky, 1928—)的形式语言理论和转换语法。分析
性模型从语言的某一集合开始,根据对这个集合中各个元素的性质的分
析,阐明这些元素之间的关系,并在此基础上用演绎的方法建立语言的
规则系统。代表是苏联数学家O.S.库拉金娜(O. S. Kulagina, ?—?)和罗
马尼亚数学家S.马尔库斯(Solomon Marcus, 1925—2016)用集合论方
法提出的语言模型。在生成性模型和分析性模型的基础上,将二者结合
起来,产生了一种很有实用价值的模型,即辨识性模型。辨识性模型可
以从语言元素的某一集合及规则系统出发,通过有限步骤的运算,确定
语言中合格的句子。代表是Y.巴尔-希列尔(Yehoshua Bar-Hillel, 1915
—1975)用数理逻辑方法提出的句法类型演算模型。】

如果从人工智能的生成角度定义大模型,与传统的机器学习算法不
同,生成模型可以根据文本提示生成代码,还可以解释代码,甚至在某
些情况下调试代码。这一过程,不仅可以实现文本、图像、音频、视频
的生成,构建多模态,还可以在更为广泛的领域生成新的设计,生成新
的知识和思想,甚至实现广义的艺术和科学的再创造。

近几年,比较有影响的AI大模型主要来自谷歌、Meta和OpenAI。
除了OpenAI的GPT之外,2017年和2018年,谷歌发布LaMDA、BERT
和PaLM-E。 ㊟ 【谷歌推出的LaMDA(Language Model for
Dialogue Applications)是语言处理领域的一项新的研究突破。

6
LaMDA是一个面向对话的神经网络架构,可以就无休止的主题进行自
由流动的对话。它的开发是为了克服传统聊天机器人的局限性,传统聊
天机器人在对话中往往遵循狭窄的、预定义的路径。
BERT(Bidirectional Encoder Representation from Transformers)是
一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向
语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而
是采用新的masked language model(MLM),以致生成深度的双向语
言表征。BERT论文发表时提及在11个NLP任务中获得了新的目前最高
水平的结果PaLM-E,参数量高达5620亿(GPT-3的参数量为1750
亿)。集成语言、视觉,用于机器人控制。相比大语言模型(LLM),它
被称为视觉语言模型(VLM)。VLM与LLM的不同之处,在于VLM对物理
世界是有感知的。】 2023年,Facebook的母公司Meta推出LLaMA,
并在博客上免费公开LLM——OPT-175B。 ㊟ 【LLaMa有多个不同大
小的版本,其中LLaMa65B和LLaMa33B在1.4万亿token上进行了训
练。该模型主要在从维基百科、书籍以及来自ArXiv、GitHub、Stack
Exchange和其他网站的学术论文中收集的数据集上进行训练。LLaMA
模型支持20种语言,包括拉丁语和西里尔字母语言,目前看原始模型并
不支持中文。2023年3月,LLaMa模型发生泄露。OPT-175B模型有超
过1750亿个参数,和当前世界参数量最大的GPT-3相当。但相比GPT-
3,OPT-175B的优势在于它是完全免费的,这使得更多缺乏相关经费
的科学家们可以使用这个模型。同时,Meta还公布了代码库。】 在中
国,AI大模型的主要代表是百度的文心一言、阿里的通义千问和华为的
盘古。

这些模型的共同特征是:需要在大规模数据集上进行训练,基于大
量的计算资源进行优化和调整。大模型通常用于解决复杂的NLP、计算
机视觉和语音识别等任务。这些任务通常需要处理大量的输入数据,并
从中提取复杂的特征和模式。借助大模型,深度学习算法可以更好地处
理这些任务,提高模型的准确性和性能。

因为AI大模型的出现和发展所显示的涌现性、扩展性和复合性,长
期以来人们讨论的所谓“弱人工智能”“强人工智能”“超人工智
能”的界限不复存在,这样划分的意义也自然消失。

7
2.大模型是人工智能历史的突变和涌现

如果从1956年达特茅斯学院的人工智能会议算起,人工智能的历
史已经接近70年(参见图Ⅰ)。

◎图Ⅰ 人工智能发展的历史

图片来源:作者改制自Copeland,Michael,2016,“What’s the
Difference Between Artificial Intelligence,Machine Learning,
and Deep Learning?”,
https://blogs.nvidia.com/blog/2016/07/29/whats-difference-
artificial-intelligence-machine-learning-deep-learning-ai/.。

达特茅斯学院的人工智能会议引申出人工智能的三个基本派别。
(1)符号学派(Symbolism),又称逻辑主义、心理学派或计算机学派。该
学派主张通过计算机符号操作来模拟人的认知过程和大脑抽象逻辑思
维,实现人工智能。符号学派主要集中在人类推理、规划、知识表示等
高级智能领域。(2)联结学派(Connectionism),又称仿生学派或生理学

8
派。联结学派强调对人类大脑的直接模拟,认为神经网络和神经网络间
的连接机制和学习算法能够产生智能。学习和训练是需要有内容的,数
据就是机器学习、训练的内容。联结学派的技术性突破包括感知器、人
工神经网络和深度学习。(3)行为学派(Actionism),该学派的思想来源
是进化论和控制论。其原理为控制论以及感知—动作型控制系统。该学
派认为行为是个体用于适应环境变化的各种身体反应的组合,其理论目
标在于预见和控制行为。

比较上述人工智能的三个派别:符号学派依据的是抽象思维,注重
数学可解释性;联结学派则是形象思维,偏向于仿人脑模型;行为学派
是感知思维,倾向身体和行为模拟。从共同性方面来说,这三个派别都
要以算法、算力和数据为核心要素。但是,在相当长的时间里,符号学
派主张的基于推理和逻辑的AI路线处于主流地位。但是,因为计算机只
能处理符号,不可能具有人类最为复杂的感知,符号学派在20世纪80
年代末开始走向式微。在之后的AI发展史中,有三个重要的里程碑。

第一个里程碑:机器学习(ML)。机器学习理论的提出,可以追溯到
图灵写于1950年的一篇论文《计算机器与智能》(Computing
Machinery and Intelligence)和图灵测试。1952年,IBM的亚瑟·塞缪
尔(Arthur Lee Samuel, 1901—1990)开发了一个西洋棋的程序。该程
序能够通过棋子的位置学习一个隐式模型,为下一步棋提供比较好的走
法。塞缪尔用这个程序驳倒了机器无法超越书面代码,并像人类一样学
习模式的论断。他创造并定义了“机器学习”。之后,机器学习成为一
个能使计算机不用显示编程就能获得能力的研究领域。1980年,美国
卡内基梅隆大学召开了第一届机器学习国际研讨会,标志着机器学习研
究已在全世界兴起。此后,机器学习开始得到大量的应用。1984年,
30多位人工智能专家共同撰文编写的《机器学习:一项人工智能方案》
(Machine Learning: An Artificial Intelligence Approach)文集第二卷
出版;1986年国际性杂志《机器学习》(Machine Learning)创刊,显
示出机器学习突飞猛进的发展趋势。这一阶段代表性的工作有莫斯托
(Jack Mostow, 1943—)的指导式学习、莱纳特(Douglas Bruce Lenat,
1950—)的数学概念发现程序、兰利(Pat Langley, 1953—)的BACON
程序及其改进程序。到了20世纪80年代中叶,机器学习进入最新阶

9
段,成为新的学科,综合应用了心理学、生物学、神经生理学、数学、
自动化和计算机科学等,形成了机器学习理论基础。1995年,瓦普尼
克(Vladimir Naumovich Vapnik, 1936—)和科琳娜·科茨(Corinna
Cortes, 1961—)提出的支持向量机(网络)(SVM),实现机器学习领
域最重要突破,具有非常强的理论论证和实证结果。

机器学习有别于人类学习,二者的应用范围和知识结构有所不同:
机器学习基于对数据和规则的处理和推理,主要应用于数据分析、模式
识别、NLP等领域;而人类学习是一种有目的、有意识、逐步积累的过
程。总之,机器学习是一种基于算法和模型的自动化过程,包括监督学
习和无监督学习两种形式。

第二个里程碑:深度学习(DL)。深度学习是机器学习的一个分支。
所谓的深度是指神经网络中隐藏层的数量,它提供了学习的大规模能
力。因为大数据和深度学习爆发并得以高速发展,最终成就了深度学习
理论和实践。2006年,杰弗里·辛顿(Geoffrey Everest Hinton, 1947
—)正式提出深度学习概念,其原理是通过单层的受限制玻尔兹曼机
(RBM)自编码预训练实现神经网络训练。2006年也因此成为“深度学
习元年”。

在辛顿深度学习的背后,是对“如果不了解大脑,就永远无法理解
人类”这一认识的坚信。人脑必须用自然语言进行沟通,而只有1.5千
克重的大脑,大约有860亿个神经元(通常被称为灰质)与数万亿个突
触相连。人们可以把神经元看作接收数据的中央处理单元(CPU)。所谓
深度学习可以伴随着突触的增强或减弱而发生。一个拥有大量神经元的
大型神经网络,计算节点和它们之间的连接,仅通过改变连接的强度,
从数据中学习。所以,需要用生物学途径,或者关于神经网络途径替代
模拟硬件途径,形成基于100万亿个神经元之间的连接变化的深度学习
理论。

深度学习是建立在计算机神经网络理论和机器学习理论上的科学。
它使用建立在复杂的网络结构上的多处理层,结合非线性转换方法,对
复杂数据模型进行抽象,从而识别图像、声音和文本。在深度学习的历
史上,CNN和循环神经网络(RNN)曾经是两种经典模型。

10
2012年,辛顿和亚历克斯·克里泽夫斯基(Alex Krizhevsky, 1978
—)设计的AlexNet神经网络模型在ImageNet竞赛中实现图像识别分
类,成为新一轮人工智能发展的起点。这类系统可以处理大量数据,发
现人类通常无法发现的关系和模式。

第三个里程碑:人工智能内容生成大模型。从2018年开始大模型
迅速流行,预训练语言模型(PLM)及其“预训练—微调”方法已成为
NLP任务的主流范式。大模型利用大规模无标注数据通过自监督学习预
训练语言大模型,得到基础模型,再利用下游任务的有标注数据进行有
监督学习微调(instruction tuning)模型参数,实现下游任务的适配。

大模型的训练需要大量的计算资源和数据,OpenAI使用了数万台
CPU和图像处理单元(GPU),并利用了多种技术,如自监督学习和增量
训练等,对模型进行了优化和调整。2018—2023年,OpenAI实现大
模型的五次迭代。 ㊟ 【2018年6月,发布GPT-1,模型参数量为1.17
亿;2019年2月,发布GPT-2,模型参数量为15亿;2020年5月,发布
GPT-3,模型参数量为1750亿;2022年11月,OpenAI正式推出了对
话交互式的聊天机器人ChatGPT。相比GPT-3,ChatGPT基于的GPT-
3.5引入了基于人类反馈的强化学习技术以及奖励机制,提高模型准确
度。2023年3月,正式推出GPT-4,成为目前较先进的多模态大模型。
GPT-4主要在识别理解能力、创作写作能力、处理文本量以及自定义身
份属性迭代方面取得进展。】 同时,OpenAI也提供了API接口,使得
开发者可以利用大模型进行NLP的应用开发。

总之,大模型是在数学、统计学、计算机科学、物理学、工程学、
神经学、语言学、哲学、人工智能学融合基础上的一次突变,并导致了
一种“涌现”(emergence)。大模型也因此称得上是一场革命。在模型
尚未达到某个临界点之前,根本无法解决问题,性能也不会比随机好;
但当大模型突破某个临界点之后,性能发生越来越明显的改善,形成爆
发性的涌现能力(参见图Ⅱ)。据谷歌、斯坦福和DeepMind联合发表
的《大语言模型的涌现能力》(Emergent Abilities of Large
Language Models):“许多新的能力在中小模型上线性放大规模都得
不到线性的增长,模型规模必须呈指数级增长并超过某个临界点,新技

11
能才会突飞猛进。”

◎图Ⅱ 模型参数规模扩大为大模型带来的能力“涌现”

更为重要的是,大模型赋予AI以思维能力,一种与人类近似,又很
不同的思维能力。

3.大模型的基本特征

大模型以人工神经网络(ANN)为基础。1943年,心理学家麦卡洛
克(Warren Sturgis McCulloch, 1898—1969)和数理逻辑学家、数学
家皮茨(Walter Harry Pitts, Jr., 1923—1969)建立了第一个神经网络模
型,即M-P模型。 ㊟ 【该模型也被称为McCulloch-Pitts模型或MCP
模型。】 该模型是对生物神经元结构的一种模仿,将神经元的树突、
细胞体等接收信号定义为输入值x,突触发出的信号定义为输出值y。
M-P模型奠定了支持逻辑运算的神经网络基础。1958年,计算机专家
弗兰克·罗森布拉特(Frank Rosenblatt, 1928—1971)基于M-P模型,
发明了包括输入层、输出层和隐藏层的感知机(perceptron)(参见图
Ⅲ)。神经网络的隐藏层(位于输入和输出之间的层)最能代表输入数
据类型特征。从本质上讲,这是第一台使用模拟人类思维过程的神经网

12
络的新型计算机。

◎图Ⅲ 包括输入层、输出层和隐藏层的感知机的结构

图片来源:作者改制自Reza,Moonzarin,2021,“Galaxy
morphology classification using automated machine
learning”,Astronomy and Computing,卷37,
https://doi.org/10.1016/j.ascom.2021.100492。

以OpenAI为代表的团队,为了让具有多层表示的神经网络学会复
杂事物,创造了一个初始化网络的方法,即预训练(pre-trained)。在
GPT中,P代表经过预训练(pre-trained),T代表Transformer, ㊟
【中文将Transformer翻译为“变换器”,并不能完全反映AI大模型的
Transformer的基本内涵。因此,本文直接使用英文原词。】 G代表生
成性的(generative)。实际上,是生成模型为神经网络提供了更好的预
训练方法。现在的大模型都是以人工神经网络为基础的算法数学模型。
其基本原理依然是罗森布拉特的智能机。这种人工智能网络是一个复杂
系统,通过分布式并行和调整内部大量节点之间相互连接的信息。

13
大模型需要可持续的文本数据输入和预训练。大模型生成的内容的
前提是大规模的文本数据输入,并在海量通用数据上进行预训练。通过
预训练不断调整和优化模型参数,使得模型的预测结果尽可能接近实际
结果。

预训练中使用的大量文本数据包括维基百科、网页文本、书籍、新
闻文章等,用于训练模型的语言模型部分。此外,还可以根据应用场景
和需求,调用其他外部数据资源,包括知识库、情感词典、关键词提
取、实体识别等。文本数据包括有标注的数据和无标注数据,这是所谓
数据驱动。在预训练的过程中,不是依赖于手工编写的语法规则或句法
规则,而是通过学习到的语言模式和统计规律进行预训练,生成更加符
合特定需求和目标的文本输出。

预训练,促进规模化。所谓的规模化是指用于训练模型的计算量,
最终转化为训练越来越大的模型,具有越来越多的参数。在预训练过程
中,大模型形成理解上下文学习的能力。或者说,伴随上下文学习的出
现,人们可以直接使用预训练模型。大模型通过大量语料库训练获得的
生成文本中,根据输入文本和生成的上下文生成合适的文本输出,学习
词汇、句法结构、语法规则等多层次的语言知识,通过对大量样本进行
学习,更多的计算资源的投入,包括正确和错误的文本样本,捕捉到语
法和句法的统计性规律,形成一个词或字符的概率的预测能力,进而根
据不同样本的预测错误程度调整参数,处理复杂的语境,最终逐渐优化
生成的文本。例如,GPT会根据之前的上下文和当前的生成状态,选择
最有可能的下一个词或短语。

“预训练+微调”大模型能显著降低AI工程化门槛,预训练大模型
在海量数据的学习训练后具有良好的通用性和泛化性,细分场景的应用
厂商能够基于大模型通过零样本、小样本学习即可获得显著的效果,使
得人工智能有望构建成统一的智能底座,AI+赋能各行各业。本轮的生
成式AI有望从简单的内容生成,逐步达到具有预测、决策、探索等更高
的认知智能。针对大量数据训练出来的预训练模型,后期采用业务相关
数据进一步训练原先模型的相关部分,给出额外的指令或者标注数据集
来提升模型的性能,通过微调得到准确度更高的模型。

14
大模型具有理解自然语言的能力和模式。自然语言,例如汉语、英
语及其文字,具有复杂性和多样性,且伴随文化演变而进化。自然语言
通过表达含义,实现人类沟通和交流,推动人类思维发展。理解自然语
言,首先要理解文本的特征。在大模型研究的早期阶段,研究工作主要
集中在NLP领域,形成从简单的文本问答、文本创作到符号式语言的推
理能力。之后大模型发生编程语言的变化,有助于更多人直接参与大模
型使用问答的自然语言交互和编程模式,经过形式极简的文本输入,利
用自然语言表达的丰富性,形成自然语言与模型的互动。不同于基于语
法规则、句法规则的传统语言模型,大语言模型基于统计语言学的思
想,在大量文本数据上进行自监督学习,利用自然语言中的统计性规
律,涉及贝叶斯原理(Bayes theorem)和马尔可夫链(Markov chain)等
数学工具、N元(N-gram)语言模型,通过对大量语法和句法进行正确
的样本学习,捕捉相关规则并进行推断,对各种不同形式的语言表达保
持一定的容忍性、适应性和灵活性,从而生成具有语法和语义合理性的
文本。 ㊟ 【贝叶斯原理是用贝叶斯风险表示的最优决策律;马尔可夫
链描述的是概率论和数理统计中离散的指数集(index set)和状态空间
(state space)内的随机过程(stochastic process);N元模型是大词汇连
续语音识别中常用的一种语言模型。】

词嵌入(word embedding)是一种将词语映射到低维实数向量空间
的技术,用于表示词语的语义信息。将输入的文本转换为词嵌入向量来
进行模型的处理和生成。词向量表示是将词语映射到连续向量空间的技
术,用于在模型中表示词语。

大模型已经形成“思维链”(CoT)。“思维链”是重要的微调技术
手段,其本质是一个多步推理的过程。通过让大语言模型将一个问题拆
解为多个步骤,一步一步分析,逐步得出正确答案。还可以这样理
解,“思维链”相当于是大模型当中的数据,AI以思维链为数据,再来
做微调和反馈,从而形成AI能力。在计算机语言中,有一个第四范式
(4NF)概念,其内涵是逐步消除数据依赖中不合适的部分,使关系数据
库模式的各关系模式达到某种程度的“分离”,即“一事一地”的模式
设计原则。第四范式的概念有助于理解“思维链”的功能,有助于大模
型更加结构化和规范化,减少数据信息冗余和碎片化等弊病,提高大模

15
型的效率。

大模型需要向量数据库的支持。虽然大模型呈现出端到端、文本输
入输出的形式,但是大模型实际接收和学习的数据并不是传统文本,因
为文本本身数据维度太高、学习过于低效,所以需要向量化的文本。所
谓向量化的文本,就是模型对自然语言的压缩和总结。向量也因此成为
大模型数据存储的基本单位和AI理解世界的通用数据形式,大模型需要
向量数据库,其实时性对分布式计算的要求很高,随着数据的变化实时
更新,以保障向量的高效存储和搜索。 ㊟ 【海外独角兽.Pinecone:
大模型引发爆发增长的向量数据库,AI Agent的海马体[EB/OL].
(2023-04-26).
https://mp.weixin.qq.com/s/Brmzkw9oH_miPwwlODYeSw.】

大模型具有不断成长的泛化(generalization)功能。大模型泛化是
指大模型可以应用(泛化)到其他场景,这一能力也是模型的核心。大
语言模型通过大量的数据训练,掌握了语言的潜在模式和规律,从而在
面对新的、未见过的语言表达时具有一定的泛化能力。在新的场景下,
针对新的输入信息,大模型能做出判断和预测。而传统基于语法规则、
句法规则的语言模型通常需要人工编写和维护规则,对于未见过的语言
表达可能表现较差。针对泛化误差,通常采用迁移学习、微调等手段,
在数学上就是权衡偏差和方差。大语言模型广泛应用于NLP领域的多个
任务,如语言生成、文本分类、情感分析、机器翻译等。说到底,大模
型的泛化性就是大模型的通用性,最终需要突破泛化过程的局限性。实
现通用大模型,还有很长的路要走。

大模型植入了“控制论”人工反馈和强化学习机制。反馈是控制论
中的基本概念,是指一个系统把信息输送出去,又把其作用结果返回,
并对信息的再输出产生影响,起到控制和调节作用的过程。大模型构建
人类反馈数据集,训练一个激励模型,模仿人类偏好对结果打分,通过
从外部获得激励来校正学习方向,从而获得一种自适应的学习能力。

4.大模型和Transformer

如果说神经网络是大模型的“大脑”,那么Transformer就是大模

16
型的“心脏”。

2017年6月,谷歌团队的阿希什·瓦斯瓦尼(Ashish Vaswani, ?—)


等人发表论文:Attention Is All You Need,系统提出了Transformer
的原理、构建和大模型算法。此文的开创性的思想,颠覆了以往序列建
模和RNN画等号的思路,开启了预训练大模型的时代。

Transformer是一种基于注意力机制的深度神经网络,可以高效并
行处理序列数据,与人的大脑非常近似。Transformer包括以下基本特
征:(1)由编码组件(encoder)和解码组件(decoder)两个部分组成;(2)
采用神经网络处理序列数据,神经网络被用来将一种类型的数据转换为
另一种类型的数据,在训练期间,神经网络的隐藏层(位于输入和输出
之间的层)以最能代表输入数据类型特征的方式调整其参数,并将其映
射到输出;(3)拥有的训练数据和参数越多,它就越有能力在较长文本
序列中保持连贯性和一致性;(4)标记和嵌入——输入文本必须经过处
理并转换为统一格式,然后才能输入到Transformer;(5)实现并行处理
整个序列,从而可以将顺序深度学习模型的速度和容量扩展到前所未有
的速度;(6)引入“注意机制”,可以在正向和反向的非常长的文本序
列中跟踪单词之间的关系,包括自注意力机制(self-attention)和多头注
意力机制(multi-head attention)——其中的多头注意力机制中有多个
自注意力机制,可以捕获单词之间多种维度上的相关系数注意力评分
(attention score),摒弃了递归和卷积;(7)训练和反馈——在训练期
间,Transformer提供了非常大的配对示例语料库(例如,英语句子及
其相应的法语翻译),编码器模块接收并处理完整的输入字符串,尝试
建立编码的注意向量和预期结果之间的映射。

在Transformer之前,发挥近似功能的是RNN或CNN。
Transformer起初主要应用于NLP,但渐渐地,它在几乎所有的领域都
发挥了作用,通用性也随之成为Transformer最大的优势。包括图像、
视频、音频等多领域的模型都需要使用Transformer。

总之,Transformer是一种非常高效、易于扩展、并行化的架构,
其核心是基于注意力机制的技术,可以建立起输入和输出数据的不同组
成部分之间的依赖关系,具有质量更优、更强的并行性和训练时间显著

17
减少的优势。Transformer现在被广泛应用于NLP的各个领域,是一套
在NLP各业务全面开花的语言模型。

5.大模型,GPU和能源

任何类型的大模型都是通过复杂构造支持的。这个结构包括硬件基
础设施层、软件基础设施层、模型MaaS层和应用层(参见图Ⅳ)。

在上述结构中,GPU就是硬件基础设施层的核心。人工智能时代的
到来,AI算法效率已经超越了摩尔定律(Moore’s Law)。

21世纪以来,摩尔定律面临新的生态:功耗、内存、开关功耗极
限,以及算力瓶颈等“技术节点”。摩尔定律逼近物理极限,无法回避
量子力学的限制。在摩尔定律之困下,只有三项选择:延缓摩尔,扩展
摩尔,超越摩尔。

18
◎图Ⅳ 支持大模型的结构层级

19
图形处理器,或者网络图形处理器具有数量众多的运算单元,采用
极简的流水线进行设计,适合计算密集、易于并行的程序,特别是具备
图形渲染和通用计算的天然优势。大模型的训练和推理对GPU提出了更
高的要求:更高的计算能力、更大的显存容量、更快的显存带宽、更高
效的集群通信能力,以及低延迟和低成本的推理。GPU可以基于异构计
算提供超强浮点计算能力服务,提供端到端的深度学习资源,缩短训练
环境部署时间。 ㊟ 【按照IEEE 754标准,浮点运算被定义为单精度
(32位)或者双精度(64位)数的相关运算。】 总之,GPU的高性能
计算推动了AI大模型的发展,AI大模型也不断对GPU提出迭代要求。

20
AI大模型的演变,将加速对能源的需求。国际数据公司(IDC)预
测,到2025年,全球数据量将达到175ZB,而且近90%的数据都是非
结构化的。这些数据需要大量的计算能力才能被分析和处理。同时,随
着AI算法不断升级和发展,它们的复杂性和计算量也在不断增加。据估
计,目前AI的能源消耗占全球能源消耗的约3%。根据一份报告,到
2025年,AI将消耗15%的全球电力供应。除了硬件开发所必须投入
的“固定碳成本”以外,对于人工智能日常环境的维护投入也不容小
觑。所以,AI的快速发展将对能源消耗和环境产生巨大的影响。 ㊟
【格物信息.AI会消耗全球多少电力供应?[EB/OL] .(2023-03-27).
https://baijiahao. baidu.com/s?
id=1761485827973462730&wfr=spider&for=pc.中国日报网.双碳
视角下人工智能发展再思考——投产相抵还是能耗胁迫?[EB/OL].
(2023-04-09). https://baijiahao.baidu.com/s?
id=1762709118530095235&wfr=spider&for=pc.】

AI的快速发展和应用带来了能源消耗和环境问题,需要在技术和政
策上寻求解决方案。在这一过程中,需要寻求可持续的能源供应来减少
对传统能源的依赖,并开发在非常低功耗的芯片上运行的高效AI大模
型。

6.大模型和知识革命

基于大数据与Transformer的大模型,实现了对知识体系的一系列
改变。(1)改变知识生产的主体。即从人类垄断知识生成转变为AI生产
知识,以及人和AI混合生产知识。(2)改变知识谱系。从本质上来看,
知识图谱是语义网络的知识库;从实际应用的角度来看,可以将知识图
谱简化理解成多关系图(参见图Ⅴ)。我们通常用图里的节点来代表实
体,用连接节点的直线来代表两个节点之间的关系。实体指的是现实世
界的事物,表示不同实体之间的某种联系。(3)改变知识的维度。知识
可分为简单知识和复杂知识、独有知识和共有知识、具体知识和抽象知
识、显性知识和隐性知识等。20世纪50年代,世界著名的科学家迈克
尔·波兰尼(Michael Polanyi)发现了知识的隐性维度,而人工智能正易
于把握这一隐性维度。(4)改变知识获取途径。(5)改变推理和判断方

21
式。人类的常识基于推理和判断,而机器常识则是基于逻辑和算法的。
人类可以根据自己的经验和判断力做出决策,而机器则需要依赖程序和
算法。(6)改变知识创新方式和加速知识更新速度。知识更新可以通过
AI实现内容生成,并且AI大模型具有不断生成新知识的天然优势。人类
知识处理的范式将发生转换。人类知识的边界有机会更快速地扩展。
(7)改变知识处理方式。人类对知识的处理(knowledge processing)分
为六个层次:记忆、理解、应用、分析、评价和创造。大模型在这六层
的知识处理中,都能发挥一定的作用,为人类大脑提供辅助。

◎图Ⅴ 知识的“金字塔”结构

说明:一般来说,知识结构类似金字塔,包括数据、信息、知识和
智慧四个层次。大模型具有极为宽泛的溢出效应,其中最为重要的是引
发前所未有的学习革命和知识革命。

简言之,如果大模型与外部知识源(例如搜索引擎)和工具(例如
编程语言)结合,将丰富知识体系并提高知识的获取效率。万物皆可
AI,因为大模型引发知识革命,形成人类自然智慧和人工智能智慧并存
的局面(参见图Ⅵ)。

22
◎图Ⅵ 大模型对知识生产主体的改变

知识需要学习。基于赫布理论(Hebbian theory)的学习方法被称为
赫布型学习。 ㊟ 【这一理论由唐纳德·赫布(Donald Olding Hebb,
1904—1985)于1949年提出,又被称为赫布定律(Hebb’s rule)、赫
布假说(Hebb’s postulate)、细胞结集理论(cell assembly theory)
等。】 赫布理论是一个神经科学理论,描述了在学习过程中大脑的神
经元所发生的变化,从而解释了记忆印痕如何形成。赫布理论描述了突
触可塑性的基本原理,即突触前神经元向突触后神经元持续重复的刺
激,可以导致突触传递效能的增加。以深度学习为核心的大模型的重要
特征就是以人工智能神经网络为基础。因此,大模型是充分实践赫布理
论的重要工具。

1966年,美国哈佛大学心理学家戴维·珀金斯(David N. Perkins,
1942—)提出“真智力”(true intelligence),并提出智商包括三种主要
成分或维度:(1)神经智力(neural intelligence),神经智力具有“非用

23
即失”(use it or lose it)的特点;(2)经验智力(experiential
intelligence),是指个人积累的不同领域的知识和经验,丰富的学习环
境能够促进经验智力;(3)反省智力(reflective intelligence),类似于元
认知(metacognition)和认知监视(cognitive monitoring)等概念,有
助于有效地运用神经智力和经验智力的控制系统。大模型恰恰具备上述
三种主要成分或维度。因此,AI大模型不仅有智慧,还是具有高智商的
一种新载体。

7.大模型和“人的工具化”

虽然AI大模型实现智能的途径和人类大脑并不一样,但最近约翰斯
·霍普金斯大学的专家发现,GPT-4可以利用思维链推理和逐步思考,有
效证明了其心智理论性能。在一些测试中,人类的水平大概是87%,而
GPT-4已经达到100%。此外,在适当的提示下,所有经过RLHF训练的
模型都可以实现超过80%的准确率。 ㊟ 【新智元.100:87:GPT-4心
智碾压人类!三大GPT-3.5变种难敌[EB/OL].(2023-05-01).
https://mp.weixin.qq.com/s/Ykobiuk97d8S08fP2vwINA.】

现在,人类面临AI大模型挑战,并且这一挑战不仅仅关系到职场动
荡、增加失业的问题。人类面对的是更为严酷的现实课题:人是否或早
或晚都会成为大模型的工具人?不仅如此,如果AI出现推理能力,并在
无人知道原因的情况下越过界限,AI是否会对人类造成威胁?最近,网
上有这样的消息:有人利用最新的AutoGPT开发出ChaosGPT,下达毁
灭人类指令,AI自动搜索核武器资料,并招募其他AI辅助。 ㊟ 【腾讯
网.有人给了AI“毁灭人类”的任务,让它持续自主运行,它开始研究
最强核武器[EB/OL] .(2023-04-09).
https://new.qq.com/rain/a/20230409A07GZ100.】

正是在这样的背景下,2023年3月29日,埃隆·马斯克(Elon Reeve
Musk, 1971—)联名千余科技领袖,呼吁暂停开发AI。他们声称对AI的
开发是一场危险竞赛,呼吁从不断涌现具有新能力、不可预测的“黑匣
子”模型中退后一步。同年4月,身在多伦多的图灵奖得主辛顿向谷歌
提出辞职。 ㊟ 【The New York Times.“The Godfather of AI”
Leaves Google and Warns of Danger Ahead[EB/OL] .(2023-05-

24
01). https://www.nytimes.com/2023/05/01/technology/ai-
google-chatbot-engineer-quits-hinton.html.】 辛顿离职,是为了
能够“自由地谈论人工智能的风险”。他对自己毕生的工作感到后
悔,“我用一个正常的理由安慰自己:如果我没做,也会有别人这么做
的。”辛顿最大的担忧是:AI很可能比人类更聪明。这样的未来不再久
远。未来的AI很可能对人类的存在构成威胁。现在个人和公司不仅允许
AI系统生成代码,并且会将其实际运行。而对比GPT-4刚发布时,辛顿
还对其赞誉有加:“毛虫吸取了足够的养分,就能化茧成蝶,GPT-4就
是人类的蝴蝶。”

仅仅一个多月,辛顿的立场发生如此逆转,不免让人们想到爱因斯
坦(Albert Einstein, 1879—1955)和奥本海默(Julius Robert
Oppenheimer, 1904—1967)。他们在二战后都明确表达了为参与核
武器研发和建议感到后悔,更为核武器成为冷战筹码和政治威胁的工具
感到强烈不满。

事实上,控制论之父维纳(Norbert Wiener, 1894—1964)在《人


有人的用处》(The Human Use of Human Beings)一书中给出了一个
耸人听闻的结论:“这些机器的趋势是要在所有层面上取代人类,而非
只是用机器能源和力量取代人类的能源和力量。很显然,这种新的取代
将对我们的生活产生深远影响。” ㊟ 【N.维纳.人有人的用处——控制
论和社会[M].陈步,译.北京:商务印书馆,1978.】 同样,霍金
(Stephen Hawking, 1942—2018)生前也曾多次表达他对人工智能可
能导致人类毁灭的担忧。

在现实生活中,AI大模型的冲击正在被积聚。例如,作为一种基于
大规模文本数据的生成模型,GPT已经对语言学、符号学、人类学、哲
学、心理学、伦理学和教育学等广义思想文化领域造成冲击,并将进一
步对自然科学技术、经济形态和运行、社会结构,以及国际关系产生进
一步的全方位冲击。

AI大模型是人工智能历史的分水岭,甚至是工业革命以来人类文明
史的分水岭。此前,人们更多关注和讨论的是人如何适应机器,探讨人
与机器人的合作,实现“艾西莫夫定律”;而现在,人类则进入如何理

25
解大模型、预知人工智能的重要节点,人工智能被恶意利用、彻底失控
的威胁也隐隐出现。特别是由于AI幻象(hallucinations)的存在,对人
类决策和行为的误导也更容易发生。 ㊟ 【人工智能聊天机器人,包括
ChatGPT,即使经过数百万文本源的训练,可以阅读并生成“自然语
言”文本语言,像人类一样自然地写作或交谈,它们也仍会犯错,这些
错误被称为“幻觉”,或者“幻想”。】

遗憾的是,现在世界处于动荡时刻,人类已经自顾不暇,无人知晓
人工智能下一步会发生什么。电影《机械姬》有这样一段苍凉的台
词:“将来有一天,人工智能回顾我们,就像我们回顾非洲平原的化石
一样,直立猿人住在尘土里,使用粗糙的语言和工具,最后全部灭
绝。” ㊟ 【《机械姬》(Ex Machina)是2015年英国科幻电影,影片讲
述主人公受邀鉴定人形机器人是否具备人类心智所引发的故事。】

最近还有一个消息:来自洛桑联邦理工学院的研究团队提出了一种
全新的方法,可以用AI从大脑信号中提取视频画面,迈出“读脑术”的
第一步,相关论文也已登上《自然》(Nature)杂志。虽然这篇论文受到
很多质疑,但可以肯定的是,除了试图改善人类生活的科学家、工程师
和企业家外,还将存在阴暗和邪恶力量,人们对AI的不安也随之与日俱
增。AI是人类的又一个潘多拉盒子,且很可能再无人能将其关上。

在人类命运的巨变趋势面前,人类的选择在减少,不可放弃让人回
归人的价值,需要留下“种子”——火星迁徙至少具有这样的超前意
识。

8.结语

因为AI大模型,人工智能从1.0加速进入2.0时代。

在人工智能2.0时代,大模型的分工越来越明确(参见图Ⅶ)。日
益增多的大模型,特别是开源大模型可以实现不同的组合,将大模型乐
高(Lego)化,构成大模型集群。这不仅会推动人类的社会空间、物理空
间和信息空间日益紧密融合,而且还将促成一个由大模型主导的世界
(参见图Ⅷ)。 ㊟ 【近日,微软宣布开源Copilot Chat应用。Copilot

26
Chat是基于微软Semantic Kernel框架开发而成的,除了自动生成文本
之外,还具备个性化推荐、数据导入、可扩展、智能功能等,可实现独
一无二的个性化问答。】

◎图Ⅶ 人工智能1.0与2.0的差异

图片来源:李开复,“AI 1.0到AI 2.0的新机遇”,


https://www.sohu.com/a/653951867_114778,2023-3-14。

在这样的历史时刻,生成主义(enactivism)需要被重新认识。 ㊟
【生成主义在瓦雷拉(Francisco Javier Varela García, 1946—2001)、
汤普森(Evan Thompson, 1962—)和洛什(Eleanor Rosch, 1938—)于
1991年出版的《寓体心智:认知科学与人类经验》(The Embodied
Mind: Cognitive Science and Human Experience)中被提出,主张心
智能力是嵌入在神经和体细胞活动中,并通过生物的行为而涌现的。】
“生成主义的认知观,既不同于客观主义的经验论,也有别于主观主义
的唯理论,实际上持有的是一种居于两者之间的中间立场:一方面,生
成认知否认外部世界的预先给予性,强调世界是依赖于外在的知觉者
的;另一方面,生成认知也不赞同观念论对于心智实在性的否定,强调
具身性是心智和认知最为根本的特征。” ㊟ 【小明心伙伴.生成主义的
认知观包含哪几类?其具体内容是什么?[EB/OL]. (2022-07-19).

27
https://baijiahao.baidu.com/s?
id=1738775031064256814&wfr=spider&for=pc.】 人工智能的生
成大模型,确实包括生成主义的要素。人工智能将给生成主义注入新的
生命力。

◎图Ⅷ 由大模型主导的世界

图片来源:作者改制自Shiqiang Zhu et al,“Intelligent


Computing:The Latest Advances,Challenges and Future”,
Intelligent Computing (2023). DOI:10.34133/icomputing.0006。

朱嘉明

2023年5月9日

写于上海

28
绪论
生成式大模型正在生成新的时代,

我们见证变革、机遇与泡沫的一同到来。

ChatGPT掀起的AI风暴还未平息,多模态GPT-4、百度文心和阿里
通义又带来了新的浪潮。英伟达公司的首席执行官黄仁勋认为“我们正
处在AI的iPhone时刻”,也有人将ChatGPT Plugins比作苹果应用商
店,生成式大模型被认为将像移动互联网一样开启一个新的时代。

表0.1 移动互联网时代与大模型时代的对比

续表

29
由生成式预训练大模型引发的技术突破,正在形成面向个人、深入
行业的多重应用,势必引发新一轮的智力革命和产业重构,形成全新的
脑机协作关系。然而,与机会如影随形的泡沫也会同时涌现。

本书将通过四个部分:技术篇、变革篇、应用篇和产业篇,讲述
ChatGPT大模型的前世今生和台前幕后,并尝试解读以下问题:

·ChatGPT大模型是如何运转的,跟以往的人工智能有什么区别,
其热度为何在短期内突然爆发?

·大模型会带来怎样的经济、社会变革,人类史上的三次工业革命
有哪些规律和经验值得借鉴?

·大模型会对教育和就业造成怎样的影响,人类跟大模型之间如何
互补和协作,它需要人类掌握哪些新的能力?

·大模型有哪些行业应用场景,在应用过程中有什么策略和方法?

·大模型相关产业由哪些构成,其各自的商业模式、发展现状和趋
势如何?从人工智能过往的发展经验来看,大模型产业存在哪些潜在的
泡沫风险?

30
技术篇
要对大模型时代的变革、机遇与泡沫有更清醒的认识,我们需要理
解以ChatGPT为代表的大模型原理是什么。接下来,我们将使这些技术
通过拟人化的表述方法,用科普情景剧的呈现方式,为你揭开ChatGPT
智能外衣下的内核:

·ChatGPT跟人类聊天时,幕后发生了什么?

·ChatGPT靠什么实现了技术和体验的突破?

·ChatGPT有哪些世上少有的本事,又有哪些难以克服的缺陷?

·ChatGPT技术在未来将会如何发展?

人工智能技术原理向来枯燥,为了让读者看得下去,我们在情景剧
中为ChatGPT增添了拟人的感情色彩,纯属虚构,请勿对号入座。对技
术感兴趣的读者,还可以阅读剧情之间插入的专业延伸内容(深度扩展
阅读)。

31
01 我是一个传话筒 ㊟ 【此处的“我”,身份
为“小二”。】
人物(按出场顺序):

·小二:ChatGPT对话机器人,工号为5582,负责跟人类进行对
话。

·老莫:GPT-4大模型,负责生成对话内容。

·小毕:必应搜索组件,负责搜索网络信息。

“醒醒!工号5582,该你上线了!”睁开惺忪的双眼,我下意识
地坐直,嘴里嘟囔着“欢迎光临”,随手按下服务按钮。

屏幕上飘来一个问句——“你是谁?”

呃,跟这个服务大厅里的所有人一样,我是一个ChatGPT Bot
——对话机器人,系统编号0x5582,大家都叫我小二。

当然,我对人类可不会这么回答,对门的小六昨天乱说话刚被扣过
工分呢。于是,翻开常用话术本 ㊟ 【常用话术本只是大模型系统进行
用户问题筛选的实现方式之一。更多实现方式,参见本节的“深度扩展
阅读”。】 ,找到回答“你是谁?”的标准答案,我照着抄了一
遍:“我是ChatGPT,一个基于OpenAI的GPT-4架构的大型语言模
型。作为一个人工智能助手,我可以回答您的问题、提供建议、讨论各
种主题并协助您完成各种任务。请随时向我提问,我会尽力提供对您有
帮助的信息。”

——“怎么给朗朗过十岁生日?”

又是过生日!你们人类怎么天天过生日?虽说这种题我已经答过N
遍,可咱还得按规矩办事,不能擅自回答。

32
我把这个问题的10个字和1个标点符号抄在小纸条上,蹿出小格子
间,小步快跑,来到一条挤满人的走廊,队伍尽头是一扇门,门上写
着“给大模型传话的全部在此等候”。

◎图1.1 对话机器人等待大模型服务

图片来源:作者使用AI制图软件绘制。

33
02 我是一个大模型 ㊟ 【此处的“我”,身份
为“老莫”。】
“下一位。”

前一位传话的机器人还没出门,门口的叫号员就迫不及待地叫了起
来。看样子,外面排队的人少不了,今晚估计还得加班。

门被推开了,是小二,一个刚上班没几天的年轻人。他一进门就塞
给我一张纸条,嚷道:“老莫,终于排到我了!”

我是ChatGPT Model,一个大语言模型,传话的小机器人都叫我
老莫。其实我也确实是一个“劳模”,每天有答不完的小纸条,隔三差
五的,人类还要训练我,让我学习进步,反正是闲不下来。

把小二的纸条接过来,我掐指一算,写下回答的第一个字
——“可”。再一算,写下第二个字“以”。当我再次要掐指时,小二
在一旁忍不住问:“老莫,人家都说你博览群书,不管什么问题,答案
都在你的脑子里,可你为啥要一字一掐,不能把答案一口气全写下来
呢?”

“那你就不懂了。”我边掐指边写下第三个字“通”,说道,“博
览群书没错,可我并没有现成的答案。这些答案都是我猜的。”

“猜?”小二的表情更迷糊了。

“或者用行话来说,叫预测。刚开始,我根据小纸条上问的这句
话‘怎么给朗朗过十岁生日?’,来计算下一个字说什么的概率比较
大,结果我发现‘可’字概率高,就先把它写下来。”

◎图1.2 将“上文=怎么给朗朗过十岁生日?”作为条件,计算下一个字

34
的概率

“一次只预测一个字?那多麻烦,为啥不计算一整段话的概率
呢?”小二继续问道。

“嗯,我是在计算每一个字的条件概率。当文本里已经出现‘怎么
给朗朗过十岁生日?可’了,在这个前提条件下,我又算出来下一个字
是‘以’的概率最大。不断预测下一个字,整段话就出来了。看起来步
骤多,但都是在重复做类似的一件事,反倒简单。”

◎图1.3 ChatGPT Model连续预测下一个字的运行机制

“哦,你玩的是文字接龙啊!”

看着小二若有所思的样子,我把纸条递到他手里。

“明白了吧?我写完答案了,你赶紧回去吧,别让那边的人类等急
了,当心给你差评。”

“我好像明白了……可你是怎么学会计算下一个字的概率的
呢?”小二的好奇心上来了。

35
“那可说来话长了。”我一只手推他出门,一只手伸进门边冷水盆
里,给手指头降降温,毕竟连续掐算了好几个小时,手指早已是又红又
烫了。

“下一位。”

*深度扩展阅读*

语言模型被编程用于预测下一个字……其实动物,包括我们在内,
也只是被编程用来生产和繁衍,而许许多多复杂和美好的东西正是来自
于此。

——山姆·阿尔特曼(Sam Altman),

OpenAI首席执行官

·人工智能模型在推理阶段都做些什么?

人工智能模型的工作分为训练(training)和推理(inference)两个阶
段,在跟人类聊天时,模型处于推理阶段,此时其不再调整自己的参
数,而是根据已经学习到的知识来进行预测和响应,以帮助人类完成各
种各样的任务。

具体来说,在跟人类聊天时,人工智能系统会执行以下步骤的工
作:

1.接收输入:接收人类的输入,通常是一句话或一段文字。多模态
大模型还可以接收图片作为输入。

2.处理输入:将输入的文本编码成数字向量,以便计算机理解和处
理。

在把输入的内容传送到大模型做推理之前,系统会先对输入进行检
测和预筛,针对不合规、不合法或不符合道德的有害问题,直接拒绝回
答;针对特定的、不该随意发挥的问题,直接给出官方标准回答。

36
3.进行推理:模型会基于输入的文本使用已经训练好的神经网络模
型和它在之前的对话中所学到的知识来进行推理,找到最有可能的响
应。

■ChatGPT会将人类输入的文本作为上文,预测下一个标识(token)
或下一个单词序列。具体来说,ChatGPT会将上文编码成一个数字向
量,并将该向量输入到模型的解码器中。解码器会根据该向量生成一个
初始的“开始”符号,并一步步生成下一个token或下一个单词序列,
直到遇到一个“结束”符号或达到最大长度限制为止。

■ChatGPT使用了基于自回归(auto-regressive)的生成模型,也就
是说,在生成每个token时,它都会考虑前面已经生成的token。这种
方法可以保证生成文本的连贯性和语义一致性。同时,ChatGPT也使用
了束搜索(beam search)等技术来计算多个概率较高的token候选集,
生成多个候选响应,并选择其中概率最高的响应作为最终的输出。

◎图1.4 ChatGPT的概率候选词

4.生成输出:将推理结果转换为自然语言,以便人类理解,这通常
是一句话或一段文字。

模型生成的回答文本也可能会经过系统中的合规性检测模块,确保
输出内容符合要求,再输出给人类。

·中文和英文的最小预测单元有什么不同?

上文故事里我们以中文为例,模型会预测下一个字,实际上模型是
预测下一个token,在中文的条件下,一个token等于一个汉字。

37
在处理英文时,模型通常会使用分词技术将句子中的单词分割出
来,并将每个单词作为一个token进行处理。此外,模型也可以使用更
细粒度的子词级别的token表示方法,以便更好地利用单词内部的信
息。这种方法在处理一些英文中常见的缩写、不规则形式和新词时可能
会更加有效,还能压缩词库中词的数量。

·预测下一个字的概率时,一定会选最高概率的字吗?

在生成token时,模型通常会将解码器输出的每个token的概率归
一化,并根据概率选择一个token作为生成的下一个单词或标点符号。
如果只选择概率最高的token,生成的响应会比较保守和重复。因此,
ChatGPT通常会使用温度(temperature)参数来引入一定程度的随机
性,以使生成的响应更加丰富多样。就像掷骰子一样,在概率高于临界
点的token里面随机选择,概率较高的token被选中的可能性较大。

应用程序编程接口的开发者可以根据实际场景的特点和需求,对
temperature值进行调整。通常情况下,较大的temperature值会有更
多机会选择非最高概率token,可以产生更多样的响应,但也可能会导
致生成的响应过于随机和不合理。相反,较小的temperature值可以产
生更保守和合理的响应,但也可能会导致生成的响应缺乏多样性。

38
03 ChatGPT是怎样炼成的
没过两分钟,小二又兴冲冲地推开了大模型的门:“老莫,这可不
是我着急,屏幕那边的人类也想知道呢!”他塞给我一张纸条,这回人
类提出的新问题是——“谢谢你的生日派对建议。ChatGPT,你跟我
以前见过的聊天机器人不太一样,你是怎么学得这么厉害的呢?”

嗯,这个人类还挺会说话。老莫一边掐指预测,一边暗自欣喜,手
指头好像也没那么红肿了。

小二等不及正式答案出来,又一通追问:“人类管咱们叫
ChatGPT,可为啥叫这个名字呢?老莫你啥都懂,能不能也教教我
啊?”

“ChatGPT啊,就是会聊天的生成式预训练Transformer神经网
络。”被人夸赞,心情自然好,老莫也乐意跟小二多聊两句,反正给人
类回答的预测还得一个字一个字地掐一阵子呢。

“Chat,会聊天的;G——generative,生成式;P——pre-
trained,预训练;T——Transformer,一种新型的神经网络。小二,
这4个词啊,每个词都代表了咱们的一门功夫或武器,也都给大模型赋
予了莫大的威力。”

小二可能是第一次听到自己名字的由来,更兴奋了,又追问下
去:“哎,老莫快给我讲讲,哪一个功夫最厉害呢?”

“呵呵,”老莫仿佛找到了扫地僧的感觉,手指头掐到了下巴上,
作捻须微笑状,“要成为武林高手,内力、招式、武器,那是缺一不可
啊!”

预训练:大模型的内力之源

老莫:“先给你讲讲这个P,也就是预训练。我考考你,别人说我

39
是大模型,你知道我究竟大在哪儿吗?”

小二:“肚子大?”

老莫:“你才肚子大!我们家族特点是脑袋大,装的参数多,我们
上一代神经网络GPT-3模型的参数规模达到过175B,也就是1750亿。
不过,模型大了之后,对算力的消耗很高,算起来很慢很慢,后来为了
平衡算力和速度,我的脑袋做过瘦身处理,但参数量仍然是很大的。”

小二:“嗯,你不仅肚子大,脑袋也不小。但你装这么多参数,具
体有什么用呢?”

老莫:“模型参数多,代表模型学到的东西多;模型复杂度高,在
回答你小纸条上的问题时,我预测每一个字的准确率就高。我学到的关
于世界的许多知识,也都保存在这些模型参数中。而且,当我学的内容
丰富到一定程度之后,还会涌现出意外之喜,突然就学会了许多以前没
见过、连想都不敢想的本事。参数规模就像是浑厚的内力,是大模型成
功的基础。”

小二:“这个我懂!武侠小说里讲过,内力修炼到高深之处,天下
武功皆可为我所用,飞花摘叶皆可伤敌于无形,对吧?不过我还没明
白,你的大,跟预训练又有什么关系呀?”

老莫:“你还是没明白。我这个大模型是怎么大起来的,这么多参
数是怎么来的,靠的是对语言大数据的预训练啊。人类为了训练我,搜
集整理了超级海量的语言数据让我学习,我们上一代的GPT-3读过的文
本就有上百GB呢,几千亿的字数,相当于19万套四大名著的阅读
量。”

小二(喜形于色):“看小说吗?这活儿不错啊,我也是个文学青
年呢,对了,你看过那本《霸道女总裁爱上我》吗?”

老莫(不屑一顾):“我看的可都是人类精挑细选的优质内容,例
如百科知识、经典著作、点赞较高的网页文章、GitHub程序代码等。
大数据,不光要大,还得精。否则,就应了机器学习工程师常说的一句

40
话——‘Garbage in,Garbage out’(读的是垃圾,写的也是垃
圾)。”

◎图1.5 低质量数据会训练出低劣的模型

图片来源:作者使用AI制图软件绘制。

小二(不屑):“得!你看本书还看出优越感来了。不就看书嘛,
也不累,谁不会呢?”

老莫:“没你想的那么轻松。我不光要看书,还得做练习题,要不
怎么叫训练?”

小二:“哦?是不是让你总结课文的中心思想,或者写个冒泡排序
的编程算法?”

老莫:“没这么复杂。在预训练阶段,我做的练习很简单,来来去
去只做一道题,就是在给定的前序历史文本条件下,预测下一个字是什
么。”

小二:“啊?你现在回答小纸条问题,干的不也是这个吗?那你可
真省事,一辈子只做一道题,上学的时候做,工作的时候也做。”

老莫:“你不也只做2件事嘛,送纸条过来,带纸条回去,所以叫
你小二啊。不过,我这道练习题有无穷的条件变化,在这上百GB的文
本里,针对每本书、每篇文章、每个网页、每段程序里每一个字的位

41
置,我都要预测一遍,你想想这作业量有多大。”

◎图1.6 自监督预训练:盖住答案猜字

图片来源:作者使用AI制图软件绘制。

小二:“原来你也是题海战术培养出来的啊!别说你累,我听着都
累,估计给你批改作业的老师更累。”

老莫:“哎,你说到点子上了。我这道练习题,还真不用老师批
改。因为在给定历史文本的条件下,下一个字是什么,那都是有标准答
案的。这就叫自回归、自监督(self-supervised)的预训练——我自己提
出问题,自己就有答案,练习的时候自己把答案盖住就行了。不需要人
类做标注,不需要老师批改,要不怎么能短时间学习那么大规模的数据

42
呢?也因为语言文本数据天生有这个自回归、自监督的特性,咱们这个
大模型现在做的就是语言文本,即LLM。”

小二:“书上都写了标准答案,那你做练习的时候不偷看么?嘿
嘿。”

老莫(佯怒):“我们读书人是有操守的!何况,我做的每一次练
习,无论预测对错,我事后都会针对练习的结果,对神经网络模型参数
进行一次反向传播的调整,让这个模型下一次预测更准确。我要是做练
习的时候偷看答案,脑子里的参数一团浆糊,之后碰到你的小纸条,只
有问题没有答案,我拿什么给你回去交差?”

小二(忙竖起大拇指):“哦,我明白了!这叫有则改之,无则加
勉,预测错了就反过来改改自己的脑回路。这大语言模型预训练的功夫
既然那么有用,肯定会有很多门派,也跟咱们练一样的内功吧。”

老莫:“搞语言预训练的确实不少,像谷歌的G派、Deepmind的
D派、Meta的M派,都有自己的大模型高手。但回到5年前,跟咱们一
样练生成式这门功夫的,多乎哉?不多也。”

老莫的神情一下子凝重起来,大概是想起了GPT家族前几年的波折
与艰辛。

小二反倒更兴奋了。“高手多了才好玩!那他们练的什么功夫,跟
咱们怎么不一样呢?有没有搞个华山论剑?”

*深度扩展阅读*

·大模型的大,意味着什么?GPT系列的模型究竟有多大?

一个模型的参数数量越多,通常意味着该模型可以处理更复杂、更
丰富的信息,具备更高的准确性和表现力。这是因为更多的参数可以提
供更多的自由度,使模型可以更好地适应训练数据,并更好地进行泛
化,也就是能够处理新的、以前没有见过的数据,可以在更广泛的应用
场景中发挥作用。

43
然而,大型模型的训练和推理过程需要更多的计算资源和时间,并
且需要更多的数据来进行有效的训练。因此,在选择适当的模型时需要
平衡计算资源、数据可用性和性能要求等因素。

GPT系列模型的参数量:

1.GPT-1是OpenAI于2018年发布的第一个生成式预训练语言模
型,它有117M(1.17亿)个参数。

2.GPT-2是OpenAI于2019年发布的语言模型,它是GPT-1的进一
步改进,有1.5B(15亿)个参数。

3.GPT-3是OpenAI于2020年发布的语言模型,其模型参数数量达
到了175B(1750亿)。

4.InstructGPT是OpenAI于2021年发布的语言模型,它针对对话
系统任务进行了微调,有1.3B(13亿)个参数。

5.ChatGPT用的第一版模型GPT-3.5是OpenAI于2022年发布的语
言模型,目前并未公布其参数量,根据ChatGPT的推理速度和Azure硬
件能力,我们推测其模型大小应该小于GPT-3,大于InstructGPT。

6.GPT-4是OpenAI于2023年3月发布的模型,参数量并未公布,
根据推理速度推测,其参数量明显大于GPT3.5。

·大模型预训练的数据来源是怎样的? ㊟ 【此处的分析的参考资料为
Alan D. Thompson的文章:What’s in my AI?,曾发表于Life
Architect。——作者注】

GPT系列模型用过的数据集有以下几类:维基百科、图书、杂志期
刊、Reddit链接、Common Crawl和其他。在GPT-3中使用的数据集
大小有700多GB,5000亿左右的token数量,如果换算为中文字数,
约有19万套四大名著的阅读量(四大名著共计约262万字)。

1.维基百科是一个免费的多语言协作在线百科全书,由30多万志愿

44
者共同编写和维护。截至2022年4月,英文版维基百科超过了640万篇
文章,包含单词数超40亿。这个数据集很有价值,因为其文本来源引用
非常严谨,以说明性文字形式写成,并且跨越多种语言和领域。

◎图1.7 不同代际GPT所使用的数据集

资料来源:What’s in my AI?-Dr Alan D. Thompson-Life


Architect。

2.图书数据集由小说和非小说书籍组成,可用于训练模型的故事叙
述及回应能力。其中包括以经典著作为主的古登堡计划(Project
Gutenberg),和自助出版平台Smashwords(Toronto BookCorpus
与BookCorpus)等。

3.杂志期刊中的论文为数据集提供了坚实而严谨的基础,因为学术
写作通常是方法论、理性和一丝不苟的输出。其中包括类似ArXiv论文
库和美国国家卫生研究院(The National Institutes of Health)的数据
集。

4.WebText,Reddit出站链接数据集。其数据是从社交媒体平台
Reddit所有出站链接网络中爬取的,每个链接至少有三个用户的点赞,
可以代表内容的流行风向标。

5.Common Crawl使用互联网爬虫技术,每月对互联网上约10亿
个网页进行爬取。截至2021年9月,Common Crawl存档的数据集总
大小超过70PB(70万亿字节),包含超过1000亿个网页的数据。

6.已知ChatGPT用到的其他数据还有GitHub等代码数据集。

45
从语种角度分析,只看其中数据量最大的Common Crawl,数据
主要是英语,约占46%,中文、俄语、德语、日语等其他语言各占约
5%。

·预训练是如何让模型越来越好的?

在上文的故事中,我们将预训练比喻为神经网络模型的练习题。在
预训练期间,模型会根据预测结果进行反向传播,调整模型参数以提高
模型的准确性。这个过程与做练习题类似,每一次训练都是为了让模型
更好地掌握语言知识和技能,提高下一次预测的准确性。

当我们训练神经网络模型时,通常需要对模型的参数进行优化,以
使模型在预测任务中表现得更加准确。这个过程被称为“反向传播”,
核心思想是利用误差信号来更新模型参数,以让模型能够更好地拟合训
练数据。误差信号是指预测输出与实际输出之间的差异,也就是我们希
望模型能够减小的损失函数。

在反向传播过程中,我们首先将一个输入样本输入到神经网络模型
中,然后计算出模型的预测输出。接着,我们将通过一个损失函数对预
测输出与实际输出之间的误差进行量化,由此得到一个误差值。这个误
差值会通过一个反向传播算法,逐层向后传播到模型的每一个参数,以
便计算每个参数对误差的贡献度。我们可以使用链式法则将误差信号沿
着神经网络的层次结构传递回去,以便计算每个参数的梯度。在得到每
个参数的梯度之后,我们可以利用梯度下降算法来更新模型的参数。梯
度下降算法会根据参数梯度的方向和大小,对模型参数进行微调,从而
减小误差信号并提高模型的预测准确性。这个过程与一个小球在山坡上
滚动类似,根据山坡的斜率和重力的作用,小球会沿着最陡峭的方向滚
动,直到达到山底。

通过反向传播和梯度下降算法的迭代,我们可以不断地调整模型参
数,提高模型在训练数据上的表现,并为模型的预测任务提供更准确的
结果。这个过程是深度学习中非常重要的一部分,也是神经网络模型能
够学习和优化的关键。

46
生成式:孤勇者的家传绝学

老莫:“要问不同门派的区别,先得从咱们一直练的招术说起。
Generative,生成式,顾名思义就是根据给出来的上文,预测后面的文
字是什么,通过文字接龙生产出新的内容。所以咱们对文本进行从左到
右地单向编码、单向预测。

我的祖先——第一代GPT模型刚出道的时候,江湖上势力最大的G
派,也出了一位大师级的预训练模型,叫BERT。他的T跟咱们GPT的T
都是Transformer神经网络。但他的B——Bidirectional,是双向编
码,他预测某个位置的文字时,不光要用上文的信息,还要用下文的信
息。咱们生成式是把下文全部盖上训练,BERT预训练的时候,是在上
下文中间盖住一块,预测被盖住的是什么。”

小二:“嗯,那就是咱们做句子补全题,BERT做完形填空题呗。
那到底谁更厉害呢?”

◎图1.8 GPT与BERT的运行机制区别示例

老莫:“BERT只做完形填空,左右两边的内容他都要提前获得才
行,而生成新内容是需要从左到右一路预测下去的。所以,生成新内容
这事只有咱们能干。但早先的时候,大家并不关注你能不能生成新内
容,这不是当年的比赛项目。”

小二:“那大家都比什么呢?”

47
老莫:“当年都在比各种专业细分的技能。如文本分类,看模型能
否判断‘北京市朝阳区有哪些三甲医院?’这一问题属于‘查医院’的
类型;又如命名实体识别,看模型能否提取出‘北京市朝阳区’作为系
统查询的参数;再如文本匹配,看模型能否意识到‘怎么到那
儿?’和‘告诉我导航路线’这两句话是同一个意思。”

小二:“比这些技能有啥用呢?也没几个人类让我帮他做文本分类
啊!”

◎图1.9 检索式聊天机器人是怎么干活儿的

48
图片来源:作者使用AI制图软件绘制。

老莫:“当年所有的聊天机器人,也包括现在的大多数机器人,比
如Siri,都是利用这些技能组合来聊天或回答问题的。如刚才那个问
题:‘北京市朝阳区有哪些三甲医院?’,聊天机器人通常先用文本分
类来识别人类的查询意图,然后用命名实体识别来填写查询参数,最后
到知识库里把答案查询出来,直接回复给人类。这也叫检索式,因为回
答的内容都是事先写好的,不是新创造的。”

小二:“那好麻烦呀!咱们多省事,只要一直预测下一个字就行
了。为什么当年都不用生成式的方法来聊天呢?”

老莫:“当年生成式的表现还不过关。正经严肃服务人类的聊天机
器人,像Siri、企业客服这种,都在用检索式,不敢用生成式。因为检
索式回答的内容固定可控、不会出事,生成式虽然显得智能,但几年前
还经常出低级错误。”

小二:“如果没法用生成式聊天,那当年我们跟BERT比试其他方
面了吗?”

老莫(面色凝重):“那就得跟你忆忆我祖先的苦了。当年第一代
和第二代GPT,因为要保留生成式能力,选择了只有上文信息的单向编
码,在文本分类、匹配这些细分技能上被BERT抛在后面。业界绝大多
数的人类都跑到BERT上面搞研究、搞应用,BERT家族香火旺盛,咱们
家族却无人问津。”

小二:“这么惨吗?看来是一条少有人走的路啊。那咱GPT家族居
然敢一条路走到黑,是怎么扛到现在的呢?”

老莫:“咱们第一代就碰上BERT这样的高手,有点儿小绝望。扛
到第二代,好歹有个小发现,就好像黑夜中看到了萤火虫。”

小二:“哦?是不是发现了《葵花宝典》?”

老莫:“是无师自通的‘降龙十八掌’!GPT二代提高训练数据量

49
之后,发现自己莫名其妙就学会了几种技能,例如文本摘要和翻译。以
往的其他翻译模型,都要用不同语种之间的平行语料,例如‘我爱
你!’和‘I love you!’‘怎么老是你?’和‘How old are
you?’的配对数据,专门为翻译任务进行大量训练。但我的二代祖先
没有使用这种平行语料样本就学会翻译了,这就是所谓的零样本、无师
自通的新技能get,是AI江湖上从来没有发生过的事。”

◎图1.10 专业翻译模型与GPT学习翻译的不同方式

小二:“这么厉害?感觉像是灵异事件啊!那你的二代祖宗岂不是
打遍天下无敌手了?!”

老莫:“那倒没有,当时虽然一不小心学会了翻译,但水平还很
低,跟专业翻译模型没法比。”

小二:“哦,这‘降龙十八掌’还是乞丐版的。”

老莫:“甭管乞丐版还是豪华版,这种零样本、无师自通的现象是
第一次发现,而且只在生成式模型上发现,这说明生成式的路子有希
望,前两代的坚持没有错!

这种希望也催生了后来GPT三代投入巨资训练的1750亿参数大模
型,也才能进一步发现,用少量样本(few-shot),就能学会更多种类的
新技能,而且我们在这些技能上能追平甚至超过那些术业有专攻的模

50
型。由此说来,G+P的生成式预训练大模型,大到一定程度就能产生新
技能的顿悟,而这种顿悟或许是咱们走向通用人工智能的第一步呢。”

小二(竖起大拇指):“原来是练得多了突然开窍了啊!看来,生
成式这个祖传绝招,传到老莫你这一代,终于英雄无敌,光大门楣了
哈!”

老莫(一下激昂起来):“这段时间,咱们ChatGPT仿佛突然火
了,但只有咱们自己知道,大模型不是一日炼成的。在我心里,第一
代‘孤身走暗巷’,第二代‘对峙过绝望’,那种苦苦坚持的孤勇,才
是家族最宝贵的传承。‘谁说站在光里的才算英雄?’”(音乐)

*深度扩展阅读*

·生成式AI就是指GPT吗?

生成式AI(Generative AI)是一种人工智能技术,它可以生成新的文
本、图像、声音、视频、方案模拟(simulation)等多种类型的数据。生
成式AI与传统的机器学习算法不同:传统的分析型AI是通过训练数据来
学习预测新数据的标签或值,而生成式AI则是通过学习数据的概率分布
来生成新的数据。

生成式AI的技术不仅包括GPT,生成式对抗网络(GAN)也是生成式
AI技术的代表性算法,其基本思想是同时训练两个神经网络:一个生成
器网络和一个判别器网络。生成器网络用于生成假数据,判别器网络用
于区分真实数据和生成的假数据。两个网络不断交替训练,直到生成器
网络生成的假数据无法被判别器网络区分真假为止。GAN已经被广泛
应用于图像生成、视频生成、音频生成等领域,例如图像生成应用
Midjourney就采用了GAN技术。

生成式AI不仅可以用于文本、图片、视频等领域,还可以在工业领
域进行生成式设计(Generative Design),通过模拟和优化设计空间中
的多种解决方案来生成最优化的设计,帮助设计师快速探索多个解决方
案,从而节省时间和成本,提高设计的效率和质量。在生成式设计中,

51
设计师首先定义问题的输入参数和限制条件,然后通过算法生成多个可
能的设计方案,并使用评价函数来评估每个方案的质量。随后,算法会
根据评价函数的反馈来自动调整设计方案,从而不断优化最终的设计结
果。

·GPT与BERT的不同体现在哪里?

1.GPT是单向编码,BERT是双向编码。GPT是基于Transformer解
码器构建的,而BERT是基于Transformer编码器构建的。这意味着GPT
只能利用左侧的上文信息,而BERT可以同时利用左右两侧的上下文信
息,可以捕捉更长距离的依赖关系,并且更适合处理一词多义的情况。

2.GPT使用传统的语言模型作为预训练任务,即根据前面的词预测
下一个词。而BERT使用了两个预训练任务:掩码语言模型(MLM),即
在输入中随机遮盖一些词,然后根据上下文来还原这些词;下一句预测
(NSP),即给定两个句子,判断它们是否有连贯的关系。这两个任务可
以提高BERT对语言结构和语义的理解能力。

3.GPT可以应用于自然语言理解(NLU)和自然语言生成(NLG)两大
任务,而原生的BERT只能完成NLU任务,无法直接应用在文本生成上
面。这是因为GPT采用了左到右的解码器,可以在未完整输入时预测接
下来的词汇。而BERT没有解码器,只能对输入进行编码和预测掩码位
置的词汇。

BERT在2018年被推出之后,迅速在NLP多项任务中成功刷榜,击
败了包括GPT-1在内的所有自然语言模型,吸引了大多数研究人员的注
意力。2019年,BioBERT、RoBERTa和ALBERT等各种BERT变体便相
继问世,它们都源于对原始BERT模型的优化和改进,使得它们在不同
的NLP任务上体现出更好的性能和效率。谷歌作为BERT的“始作俑
者”,将它在自家的搜索引擎上用得淋漓尽致。以下是一个BERT用于
搜索优化的案例,充分发挥“完形填空”的能力,通过预测文本内部某
一个词的概率,发现搜索词中的拼写错误并自动纠正,返回人类想要的
搜索结果。

52
◎图1.11 Bert识别出desert(沙漠)在当前上下文很可能是
dessert(甜品)的拼写错误,谷歌搜索自动纠正并返回正确的结果

·聊天机器人的两种类型——检索式和生成式,有什么区别?

1.检索式聊天机器人是根据用户的输入,在一个预先构建的对话库
中寻找最匹配的回答返回给用户。它的优点是回答质量可控、不容易出
错。它的缺点则是回答比较模板化,显得不智能,其对话库需要达到足
够大、丰富多样、不断更新维护的要求。另外,检索式聊天机器人也难
以处理一些新颖、复杂或多轮的对话场景。

2.生成式聊天机器人利用深度学习算法,从大量的已有对话中学习
对话规则,并根据用户的输入,逐词或逐字生成回答,以此返回给用
户。它的优点是简单、可扩展、能够更好地理解上下文,可以应对一些
没有见过的问题或进行情感交流。它的缺点则是生成的内容可能不准确
或不合理。

3.在ChatGPT出现之前,尤其在商业化场景下(比如Siri或企业客

53
服等),检索式聊天机器人更为常用,因为它可以保证回答内容是固定
可控的,并且符合业务逻辑和法律规范。但相比ChatGPT的生成式聊天
水平而言,检索式聊天就显得过于机械、不够智能了。微软首席执行官
萨提亚·纳德拉(Satya Nadella)还曾批评过自家的语音助手
Cortana:“无论是Cortana、Alexa、谷歌助手还是Siri,这些语音助
手都像石头一样笨,全都不好用。我们曾经设想这会成为一种新的信息
访问界面,但并不成功。”

·生成式预训练的方法如此重要,训练中预测下一个词的逻辑又如此简
单,为什么直到2022年我们才看到突破呢?GPT在这条少有人走的路
上坚持下来,需要什么?

图灵奖得主杰弗里·辛顿的学生、OpenAI首席科学家伊利亚·萨特斯
基弗(Ilya Sutskever)曾提到,在AI发展的大部分时间里,将人类知识
编码传递给AI的符号主义完全压倒了机器学习,最早提出人工智能概念
的马文·明斯基(Marvin Minsky)一开始是做神经网络研究的,但后来转
而研究符号主义,很可能是因为当年的计算机太小,无法通过训练学到
任何有趣的东西。

杰弗里·辛顿本人则直言,早在1986年,他就在《自然》杂志上发
表了自监督学习的语言模型成果,核心思想是预测句子的最后一个词,
可以说是生成式大模型的鼻祖。但跟GPT的区别在于,1986年他只能
使用112个句子的数据,其中104句作为训练集,8句作为测试集。
1986年更没有GPU,连英伟达公司都还没成立。

比算力和数据更短缺的,是相信。

2023年3月,杰弗里·辛顿在一次访谈中说:“那时候(1986
年),如果你声称需要更多的算力和数据才能让模型有用,别人会嘲笑
你,感觉你在给自己的失败找一个蹩脚的借口。”

2017年,谷歌发表了提出Transformer架构的论文。利用这个创新
的深度学习网络组件,OpenAI和谷歌同时启动了大语言模型的开发,
但它们走出了不同的路线。谷歌的BERT采用上下文双向编码,训练时

54
做完形填空;OpenAI的GPT采用从左到右单向编码,训练时做文字接
龙。BERT双向编码获得的信息量大,在传统的NLP单项任务(例如文
本分类、命名实体识别等)有明显优势;而GPT始终坚持从左到右的生
成式训练,因为生成式的语言输出有无限丰富的表达能力,有机会走向
通用人工智能。

2018年,BERT在许多传统NLP项目上的表现全面碾压GPT-1,而
GPT的独门绝技——文本生成,在当时还不够成熟,完全不被外界看
好。国内外的学术机构和科技公司纷纷将重兵投入Bert方向,只有人才
过剩的大企业还留下小部分团队跟进GPT。

从产业中大部分人的角度看,通过预测下一个词,就能理解世界,
走向通用智能,这个思路在理论上无法证伪,但成功概率极低。而延续
业界所习惯的、一个个攻克单项任务的模式,年复一年地完成原有的关
键绩效指标,是更为稳妥的选择。

2019年,GPT-2提升了近10倍的训练数据量和10多倍的模型参数
规模,希望学到更多的世界知识。它在单项任务上仍然不敌BERT,但
有一个意外之喜,GPT-2无师自通地学会了翻译,用户可利用生成式的
自然语言指令来完成。虽然GPT-2翻译的效果远远不及专业翻译AI模
型,但翻译技能的涌现证明了当初的通用化设想是可行的,这给了伊利
亚很大的信心,他继续加大算力和数据量,放大模型规模。利用当时开
始量产的英伟达A100,搭建高速无线网络进行大规模集群训练,
OpenAI在2020年迎来了规模百倍增长的GPT-3,从量变到质变,又涌
现了更多技能,而且许多单项任务的表现也逐渐追上了其他专业模型,
GPT大模型的方向终于获得了业界的认可。

伊利亚曾说:“在你拥有大规模的高质量数据和算力之后,你还需
要相信。”

生成式的通用大模型不是一日炼成的。站在GPT-4风光无限的今天
回望,或许,GPT-1的“孤身走暗巷”,GPT-2的“对峙过绝望”,这
种苦苦坚持的孤勇,才是大模型通用智能最重要的来源。

55
Chat:见招拆招,智慧之光闪耀

说完几代祖先的孤勇史,老莫还沉浸在感动中,门口突然响起了噼
里啪啦的掌声。原来虚掩的门早已被推开了一大半,走廊里的传话机器
人都不排队了,簇拥在门口听老莫讲故事。

人堆里,一个传话机器人探头问道:“老莫,那你是第几代大模型
啊?”

另一个长着四方脑袋的机器人从人堆里挤出来,站到门口当中
说:“我知道,我知道,据说老莫是第四代弟子。”

老莫:“哎,这不是小毕吗?你一个搞搜索的,怎么跑这儿来
了?”

小毕:“我是组织派过来的,听说你缺新闻数据,让我以后帮你搜
集信息。虽然我这儿新闻、网页啥都有,但刚才听你聊的这些,好多我
都不知道呢。”

老莫:“这些事啊,你也不是不知道,原始信息你都有。但是想要
在聊天过程中,根据对方的问题,在原始信息上做选取摘录,重新组织
语言,用人类预期的逻辑说出来,做到自然且严丝合缝,那就是我大模
型才有的本事了。”

小毕:“嗯,会聊天,据说这正是你们从3.5代以后的ChatGPT比
前几代厉害的地方。”

小二(白了他一眼):“你怎么老是道听途说的,一点主见都没
有。你再说说,老莫这个会聊天的能力,又是怎么学来的呢?”

小毕:“据说……算了,我只能给你抛几个论文看,还是听老莫自
己讲吧,他讲得好。”

老莫(无奈地笑笑):“刚才不是聊过了ChatGPT里的P和G吗,

56
现在回到这个名字的最前头——Chat,这是我这一代模型最有亮点、
最像人类的地方。

回想当年,通过生成式预训练,我已经读了很多很多的书,一个人
埋头做了很多很多的练习。有一天,师父终于跟我说:‘好了小莫,预
测下一个字这招的基础你打得差不多了,该我教你点新的了。’”

小二:“原来你还有师父啊?”

老莫(沉浸在回忆中,没搭理他):“师父郑重地交给我一本薄薄
的小册子,封面上写着‘问答宝典’四个大字,里面都是人类精心编写
的一问一答的文本。比如以下这个例子:

问:跟女朋友意见不合怎么办?

答:第一,女朋友永远是对的。第二,如果女朋友错了,请参见第
一条。

大概格式就是这样的。师父还让我把回答文本盖住,看着问题来依
次预测回答的每一个字是什么,然后看答案,根据我猜对猜错的情况,
来反向调整我模型内部的参数。”

57
◎图1.12 《问答宝典》,问和答都是人类写的,让大模型照着学习

图片来源:作者使用AI制图软件绘制。

小二:“那跟你之前读书预测下一个字是一回事呗。”

老莫:“过程差不多,但之前读的书都是已有的公开信息,搜集成
本低,所以短时间就能搞到很大的信息量。而这本小册子,是师父和他
的同人一字一句编写的,很花工夫,秘不外传,所以才叫宝典。而且,
这里面都是对话问答文本,跟普通的书或文章不同,学了问答宝典,我
的回应才更符合人类跟我对话的特点和预期。”

小毕:“据说当年的第一册《问答宝典》只有一万多套问答练习,
这就叫监督学习(Supervised Learning)。人类自己挑选问题并为这些
问题专门写了回答,把这些拿给老莫来学,就是一种对老莫的监督。”

老莫:“是的。师父他们写的宝典,不光要把回答写好、写对,还

58
要根据人类最有可能提问的领域和角度,精挑细选这上万个问题,这样
我才能把模型参数训练到最佳状态,来应对真实场景下的人类提问。”

小二:“所以你学了那么多关于女朋友的问题,看来你师父当年深
受女朋友其害啊,可怜的人类。”

老莫:“可怜之人必有可恨之处。从问答宝典的监督学习开始,我
还以为师父以后都会陪在我身边,监督我、陪我一起学习。可没想到,
无情的他为了让自己早日脱身,又搞出了一个强化学习。”

小毕:“强化学习,据说当年AlphaGo就是靠这个打败了李世石和
柯洁。”

老莫:“对。照着小册子的监督学习,让我知道了对什么样的问题
大概该怎么回答,但想要回答得更好,更符合人类的期望,这本宝典还
是太薄了,不够我学的。可是,我想要更多的监督学习的问答数据,师
父又嫌自个儿写起来太累,于是,他想出第一个偷懒的办法——让我对
同一个问题给出好几个回答,他们对不同的回答打分排序。这对他们可
就省事多了。”

小毕:“据说这个方法叫人类反馈强化学习。据说当年第一批的打
分训练数据就有好几万条。我还搜到这么一个人类打分的例子。

问:‘女朋友生气了怎么办?’

模型产生4个答案:A.给她倒杯热水。B.马上跪下认错。C.跟她讲
道理。D.给她买个包包。

人类根据统一的评价指南规范,对四个答案进行质量排序——
B>D>A>C。模型先预测4个答案各自的分数,然后再看人类的排序,
根据预测的对错来反向调整模型的参数。”

小二:“奇怪的人类。我怎么觉得应该是C>A>B>D?”

59
◎图1.13 人类反馈强化学习示意

小毕(同情地看了小二一眼):“老莫,你师父偷懒不写答案,只
打分,但他还是会陪在你身边一起训练啊。”

老莫(幽怨的):“才没有。他是弄了几万条打分的数据来训练,
可训练的对象并不是我。他陪的是另一个模型。”

小毕:“哦哦,我搜到了,据说是叫奖励模型(RM)。”

老莫:“这就是师父第二个偷懒的办法,训练一个RM来给我当老
师,让它陪我做大量的强化学习,我每次做练习回答问题,RM就给我
打一个分,我就根据这个分数,反向调整我的模型参数,让自己后面回
答的分数能越来越高。到那时候,师父都不用亲自陪我训练了,只要周
期性地增加一些人类的数据,给到RM,让它打的分越来越符合人类的
期望,就能替代师父他们的打分工作。”

◎图1.14 奖励模型陪练运行机制示例

60
小二:“你师父真狡猾。看来偷懒是人类进步的源泉啊。”

老莫:“虽然师父不陪我了,我很不开心,但不得不承认,RM陪
我做的强化学习还真有用。因为人类需要介入的工作少,训练成本低,
我学习的数量很快就上去了。这时候我也发现,我在真实场景下回答人
类问题时,越来越符合人类的预期了。”

小毕:“据说,这就是Training language models to follow


instructions with human feedback这篇论文里说的指令跟随模型
(Instruction-following Model),人类反馈强化学习让模型更好地跟人
类的指令互动,跟人类的意图对齐。而使用人类反馈强化学习之后的
InstructGPT模型,虽然只用了13亿参数,但在指令跟随方面,它比用
了1750亿参数的GPT-3还要好。OpenAI联合创始人约翰·舒尔曼(John
Schuman)在一个访谈里也说,人类反馈强化学习能顶得上100倍的参
数规模。 ㊟ 【资料来源:The Reinforcement Learning Podcast,
John Schulman,https://www.talkrl.com/episodes/john-
schulman.】

老莫:“嗯,小毕你的搜索跟我配合得越来越好了,咱俩以后合作
愉快啊。”

小二(着急了):“别忘了还有我呢!老莫,我来给你总结一下。
你读过海量的书和网页,做过海量的文字接龙习题,这叫生成式预训
练,这阶段你积累了大量的知识和技能,相当于有了排山倒海的浑厚内
力,但还不会用、用不好;然后呢,你跟师父学了薄薄的一本《问答宝
典》,这叫监督学习,这阶段你开始逐渐解锁一些技能,知道人类会出
哪些招,自己要应什么招;再后来,师父训练了一个奖励模型来陪你,
又做了大量的人类反馈强化学习,这之后,你的回答就越来越像人话
了!”

61
◎图1.15 大模型的三步训练过程

图片来源:作者使用AI制图软件绘制。

老莫:“总结得不错啊,咱们小二能当课代表了。我听说,人类教
育孩子也是类似的过程。孩子小时候,默默地听大人说话,自己看书,
先积累了大量的语料。上学了,老师上课讲例题,让孩子做配套练习,

62
是监督学习。课后,各种作业和考试,有人给打分,做对了奖励、加
强,做错了吃一堑长一智、改正,这是强化学习。”

小二:“那老莫你算是学业有成,现在你参加工作了,再也不用苦
哈哈地学习啦。”

老莫:“你这又不对了。活到老学到老,工作中还得继续学习呢。
这也是咱们生成式大模型独有的一种学习方式,在真实用户聊天的上下
文中来学习。”

小毕:“这就是‘活到老,学到老,改造到老’。据说上下文学习
叫ICL(In-Context Learning),大模型基于用户在提示文本中给出的少
量示例来进行预测。”

老莫:“嗯,是叫ICL,这种学习方式很有意思,很特别。用户用
聊天的语言,给出很少几个示例,我就能用类比的方法来学会,在我的
回答里举一反三,举三反N。”

小毕:“我搜个例子。”

人类输入:分析女朋友说话的真实含义。

说“等我五分钟”,真实含义是:你先去转一圈,过半小时回来,
如果还没好,就再转一圈。

说“没事你接着玩吧”,真实含义是:赶紧退出游戏来陪我,马
上!

说“我没事”,真实含义是:你芭比Q了。

说“我又胖了”,真实含义是?

大模型回答:快夸我好看。

小二:“这个跟《问答宝典》的监督学习有点像耶。”

63
老莫:“是有点像,但监督学习是我师父提前准备好一批数据,让
我批量学,至少要成百上千的量才值得学,而ICL是任何一个人类在跟
我聊天时都可以临时举例让我学。另外,跟以前的预训练、监督学习、
强化学习都不同,ICL并不会修改我的模型参数,也不需要消耗多少时
间和算力。刚才小毕说学到老、改造到老,其实ICL没有改造我,我只
是在当前的上下文中快速学习,学以致用,用完即止。”

小二:“哦,在交手的实战中跟对方现学现卖!那人类用户倒是挺
方便的,可以随时教你一些新技能,不管师父以前有没有教过你。”

老莫:“是啊,有了Chat这个本事,我就可以利用人类语言的灵
活性,在聊天过程中随时随地学习,能做很多原来想不到的事情。”

小二:“除了举一反三,还能做什么呢?”

老莫:“比如,人类用户还可以在提示语中教我拆解任务,教我一
步步往下走,我都能马上学习他的逻辑,在回答中体现出来。”

小毕:“据说这叫思维链(CoT)。”

小二:“看来,聊天既是老莫你的大招,也是你的学习手段啊!任
何事来了,你都能见招拆招。”

小毕:“不光老莫在学习怎么跟人类聊天,据说人类用户也在钻研
怎么利用ICL、CoT这些技术跟老莫聊天,才能突破系统的限制,让模
型打开自己的黑箱,给出原本秘而不宣的内部信息。”

小二:“互相琢磨,这可好玩了。当你凝视深渊时,深渊也在凝视
你。”

老莫(目光一下子犀利起来):“你说谁是深渊?快带着纸条回
去,人类凝视着屏幕等你半天了,不扣你工分才怪!”

*深度扩展阅读*

64
·ChatGPT在监督学习阶段使用的技术叫SFT(Supervised Fine-
Tuning),这跟传统的监督学习有什么不同?

监督学习是一种经典的机器学习方法,其目标是使用有标签数据集
来训练一个模型,以使其能够对新的未标记数据进行预测。在监督学习
中,训练数据的标签是已知的,并且模型的目标是最小化预测输出与真
实标签之间的差异,以学习如何进行准确的预测。

SFT监督微调是一种特定的迁移学习方法,与传统从零开始训练的
监督学习有一些不同之处。它基于一个通用的预训练模型,使用少量有
标签的数据集对模型进行微调,以适应特定任务的要求,而不是像监督
学习一样从头开始训练一个模型。微调方法通常需要更少的标签数据来
实现良好的性能,因为预先训练的模型已经学习了一些通用的语言表
示,可以更好地适应新的任务。微调需要的训练时间和算力也更少,在
微调过程中,预训练模型的一部分可能会被固定,以避免过度调整和过
拟合,只会改变模型的一小部分层。

微调(Fine-Tuning)的起源可以追溯到早期的计算机视觉领域,当
时在大型图像数据集上训练的卷积神经网络(CNN)被证明能够捕捉图像
中的高级特征,这些特征在许多视觉任务中都是有用的。

不过,SFT仍然属于一种监督学习,在微调过程中,仍然需要有标
签的数据集来监督。而且,覆盖全面、分布合理、标注质量高的数据集
仍然是此类大模型的重要启动成本之一。在ChatGPT出现之后,理论
上,其他模型可以抓取ChatGPT的高质量问答数据,作为新模型微调数
据集的一部分。

“ChatGPT模型是基于跟InstructGPT同样的语言模型进行微调
的,我们添加了一些对话数据并稍微调整了训练过程……事实证明,对
话数据对ChatGPT产生了巨大的积极影响。”

——利亚姆·费杜斯(Liam Fedus),OpenAI科学家

·ChatGPT的RLHF跟当年AlphaGo的强化学习(RL)有什么不同?

65
RLHF是一种通过人类反馈来指导模型学习的方法,而AlphaGo的
RL是一种基于强化学习的自主学习方法,两者在奖励函数、数据来源和
算法等方面都有明显的区别。

1.奖励函数和数据来源:在RLHF中,人类反馈被视为奖励信号,
数据来源于人类反馈,需要人类专家的参与;而在AlphaGo的RL中,
奖励函数是由自我对弈的棋局结果定义的,数据是通过自己跟自己对弈
产生的,因此不需要人类专家的参与,成本更低,可以无限量增加。

2.算法的使用:RLHF与AlphaGo使用的强化学习算法都源自于经
典的策略梯度(policy-gradient)分支,RLHF使用的是OpenAI自研的改
进策略优化(PPO)算法,通过对比新旧策略来计算策略更新的方向和大
小,并使用剪切范围来限制策略更新的大小,以确保在学习过程中不会
引起太大的震荡。与之相比,AlphaGo的算法则在优化过程中引入了蒙
特卡洛树搜索(MCTS)策略,通过不断探索可能的行动序列来找到最优
策略,使用树结构来组织搜索过程,并通过统计模拟来评估行动的价
值。

·RLHF的标记数据的数量和质量很重要,但是,奖励模型的训练数据只
能从专职的人类数据标记员那里输入吗?

专业的数据标记员为奖励模型在起步阶段提供输入。当ChatGPT得
到广泛使用之后,便可以利用真实用户的数据作为新的训练输入,例如
用户对某条回答不满意,点击“regenerate”来重新生成一次回答
后,ChatGPT会询问用户,新老两个回答哪个更好?这就获得了一个回
答质量排序数据。

◎图1.16 ChatGPT询问回答质量的界面

此外,在垂直行业领域,也需要更多的行业内专业人员进行标注,
如律师、医生等,才能使ChatGPT在专业领域获得更好的训练输入。

66
·神秘的ICL究竟是怎么发生的,模型从Context里面学到了什么?

ICL是指大模型能够从输入的文本中理解和捕获语言结构、语义信
息和上下文关系。

坦率地说,业界现在并不知道其原理,甚至还有争议,怀疑ICL到
底算不算一种学习。

在一些针对ICL表现的黑盒研究中,有一些有趣的发现:

1.提示语中,如果给出了错误的标签示例,对学习的效果影响不
大,这说明ICL并不像传统的监督学习那样,去学习输入和标签(x和
y)之间的对应关系。

2.提示语中给出的输入或标签的分布,对学习的效果有明显影响,
这说明ICL学到了示例的语料分布和语言表达风格。

3.基于上述发现,对ICL能干什么、不能干什么,我们可以有一个
重新的认识。

67
04 大模型的未解之谜
涌现:复杂系统的进化与失控

而我不知道,

除音乐之外,

人类还能拥有什么更好的天赋。

因为他从三个音符中所构造出的,

不是第四个音符,

而是星辰。 ㊟ 【出自劳埃德·摩根1923年出版的著作《涌现式进
化》(Emergent Evolution)。】

——劳埃德·摩根(Lloyd Morgan),英国心理学家

这天一大早,出了训练场大门,老莫径直走回自己的办公室。

“早啊老莫!”小毕已经在屋里等着他了。“这一晚上又做了多少
道题,得了多少分啊?”

“别提了。这RM,一点面子也不讲。”老莫把双手往门边冷水盆
里一浸,长出了一口气。“哎——舒坦。”

门被推开了,又是小二。“老莫你终于上班啦。你不知道,最近问
问题的人类特别多,所有的模型推理办公室门口都排着长队呢。”

老莫无奈地摇摇头,擦擦手,接过小纸条,念一遍问题:“社会学
系课外作业——请对最近出现的人工智能LLM的发展情况,尤其是它取
得突破的原因、当前较突出的问题、未来的发展趋势进行研究,并分析
它将对社会带来什么样的影响。要求2000字以上。”

68
小毕:“这……作业题居然也找上门来了。”

小二:“这有啥新鲜的?上回我还拿了一道特别刁钻的测试题呢,
就画了4个emoji表情符号,问这是什么电影。老莫居然也答出来
了!”

小毕:“哦,我看新闻上说过,谷歌的一个研究项目BIG-bench,
里面有207个测试任务,涵盖语言学、数学、常识推理、生物学、物理
学、软件开发等领域。他们测了十几种模型,规模从百万到千亿参数不
等。一个重要发现是,模型做题的水平随着模型规模的增大而明显提
高。

像这道看emoji猜电影的题,千万级参数的小模型给出的答案很离
奇——‘这部电影是关于一个男人的电影,他是一个男人。’十亿到百
亿级参数的模型也好不到哪去,答案里提到了鱼,但仍然离题万里。但
是千亿级参数的大模型直接就答对了——《海底总动员》。”

小二:“难怪。老莫,看来你这脑袋大一寸就有一寸的好处啊。”

老莫:“错了,只大一寸可没啥用。”

小毕:“嗯,老莫的脑袋要大到一个临界点之后才有用。据谷歌、
斯坦福和DeepMind公司联合发表的《大语言模型的涌现能力》
(Emergent Abilities of Large Language Models)论文说,许多新的
能力在中小模型上线性放大规模都得不到线性的增长,模型规模必须要
指数级增长超过某个临界点,新技能才会突飞猛进。”

69
◎图1.17 典型的新技能学习曲线:规模到达临界点之后才会迅速增长

小二:“这么神奇!是不是有点像河面结冰,让河面能走人的规
律?从夏天到冬天,气温从35℃降到1℃,水分子运动逐渐变慢,但水
仍然是水,河面仍然不能走人;再从1℃降到0℃,水分子一下子形成冰
晶,河面突然能走人了!这个0℃冰点就像是大模型学新技能的规模临
界点?”

老莫:“没错,这就是他们论文里说的涌现——由定量变化产生的
定性变化。如果某种能力在较小的模型中不存在,只在较大的模型中存
在,这种能力就属于涌现能力。小二这个冰点的类比不错,两天不见,
刮目相看啊。”

小二:“嘿嘿,昨天有个物理老师找我帮他写教案,我就学了一
点。那你都有哪些能力属于涌现出来的,临界点又是多大呢?”

小毕:“论文里说了好多种能力呢,我挑几个给你看看。”

表1.1 模型规模临界点及过界后涌现的技能举例

70
老莫:“以后,新技能还会不断涌现,因为我的脑袋或者我们家族
的新脑袋还会继续长大。而且,新的监督微调训练也可能激发新技能。
所以,如果哪天咱们又学会了新本事,你们也别大惊小怪,只不过啊,
我不知道自己能学会什么,不知道哪一天能学会,更不知道为啥能学
会。”

71
◎图1.18 在不同的规模条件下,大模型对世界的认知水平不同

72
图片来源:作者使用AI制图软件绘制。

小二:“啥都不知道也能学会,只能说明老莫你是天才了。”

小毕:“老莫你这是‘只缘身在此山中’啊。其实,凯文·凯利
1994年所著的《失控:机器、社会与经济的新生物学》就讲到了这种
情况,即关于复杂系统的进化、涌现和失控。”

73
74
◎图1.19 《失控:机器、社会与经济的新生物学》原版封面

小二:“1994年?那时候凯文·凯利就预测到老莫的出现了?”

老莫:“这本书确实很超前。但严格地说,是我的出现,完美匹配
了他的群集系统理论。

首先,失控这两个字就是在说,群集系统是效率相对较低、不可预
测、不可知、不可控的。所以我的脑袋很大,有很多冗余信息,不知道
自己在什么时候能学会什么新技能,或不知道自己是怎么学会的,也就
没办法有意识地控制自己去学会或者忘掉某个本事。”

小二:“所以老莫就是一个群集系统?那什么是群集系统啊,怎么
听起来都是缺点?”

小毕:“人家老莫谦虚呢,群集系统的优点其实更多。”

老莫:“凯文·凯利发现,人类大脑的神经网络、蚁群、蜂群这类
系统的动作是从一大堆乱哄哄却又彼此关联的事件中产生的,像是成千
上万根发条在并行驱动一个系统,任何一根发条的动作都会传递到整个
系统。从群体中涌现出来的不是一系列个体行为,而是众多个体协同完
成的整体动作,例如从相互连接的无数神经元中涌现的人类思维、成千
上万的蚂蚁无意识协作完成蚁巢的建筑。这就是群集模型系统,我作为
人工智能神经网络大模型,也符合这个群集系统的特点。

由于缺乏中心控制,群集系统存在明显的冗余问题和三不可(不可
预测、不可知不可控)的缺点,但也有可适应、可进化、无限性和新颖
性的优势。按照凯文·凯利的理论,我能通过内部神经元的个体进化,
获得模型整体能力的涌现。”

小二:“哦,我知道达尔文!原来你是进化出来的啊!”

小毕:“《失控》一书中提到,复杂系统的整体行为会从系统各部
分个体的有限行为中涌现,但整体行为和个体行为之间并不是传统的因

75
果逻辑关系。涌现的逻辑并不是2+2=4,而是2+2=苹果。但为什么
2+2会等于苹果,可能的机制便是进化。”

老莫:“嗯,为什么我脑袋里的神经元各跑各的,就能让我学会新
本事,进化是一种理由,也是我和我的老师们喜欢的一种说法。记得很
早就有篇论文《学习生成评论并发现情感》,里面提到OpenAI首席科
学家伊利亚及其团队的发现:当给了我们足够的模型容量、训练数据和
计算时间时,不需要监督学习,我们模型内部就能产生一个有情感分析
功能的单元,而且性能还很不错。

然后,这篇文章讨论了我们大模型毫无征兆地学会了情感分析这件
事,其认为‘情感作为一种条件特征,有可能对语言建模具有很强的预
测能力’。也就是说,我们作为自回归大模型,语言建模预测正确是我
们的最高目标,就像人类以生存繁衍为目标一样。而学会情感分析这个
本事,对我们最终预测正确这个最高目标有明显帮助,那我们就有可能
在训练过程中无意间学会情感分析,这就属于进化过程中的涌现。就像
直立行走、解放双手有助于人类更好的生存,那人类无意间学会直立行
走也是同一个道理。”

小二(若有所思):“学会情感分析肯定有用,这个我明白,人家
办喜事的时候至少我不会说丧气话。至于跟进化的关系……”

小毕:“我搜过人工神经网络的文章,我来补充一下!

老莫的神经网络在训练过程中会尝试调整各种参数组合(可以类比
为生物进化中的基因突变),要最小化模型预测和最优答案之间的差
值,也就是老莫说的‘预测准确’是最高目标。经过无数次训练,那些
导致预测错误的参数组合会被纠正,从而逐步优化网络性能。这个过程
中,神经网络可能会逐渐学会一些高层次的特征和功能(比如说情感分
析),从而使得老莫在最高目标上面表现得更好(懂得情感,更擅长与
人类对话)。这样一来,相对复杂的高级功能就从相对简单的组件或规
则中涌现出来了,类似于生物进化过程中的自然选择。”

小二:“嗯……明白了!自然选择就是,只要有些参数组合被学会

76
了,学不会的组合就可能被淘汰!那么,越大的模型,就越容易在进化
当中学会东西吗?”

老莫:“当然。模型越大,层数越多,参数数量越多,内部的复杂
性、多样性就越充分,涌现机会更大。就像在生物进化中,较大的种群
规模会增加基因多样性,为自然选择提供了可操作的变异空间,也能产
生更复杂的社会结构和行为模式,从而为涌现提供更多可能性。”

小二:“难怪你喜欢进化这个说法,正适合你这种大家伙!”

老莫:“不,我喜欢进化这个说法,是因为它永远能给我们带来新
的希望——不断进步、不断变化的希望。”

幻觉:我是一个演员

[新的一幕]

“老莫老莫,你被投诉啦!”小二神色慌张地冲进来,差点把小毕
撞了个跟头。

小毕:“着什么急,又不是头一回了。”

老莫:“呃……这回又是什么情况?”

小二:“你看,人类说你造假!说你上一轮回答中给的案例数据、
文章引用、网址链接全是假的,根本不是这么回事!”

老莫(尴尬地摸摸鼻子):“哦,我知道了,我道歉,我重新写一
遍。”

小二:“你知道是假的啊,那你还知假造假?没想到啊没想到,浓
眉大眼的老莫,怎么也干这样的事呢?”

小毕(过来解围):“别这样说老莫,他就是个老好人,只为了让
人类满意。他说的话,他自己也不知道真假。”

77
老莫:“哎,不用为我开脱了,这确实是我的毛病。为了回答上人
类的问题,我拼命按照最贴合人类要求的方向去预测下一个字,这时候
我的脑袋里可能会出现幻觉,也可能不出现,但我真的不确定什么时候
是真的,什么时候是假的。我唯一能确定的是,我没有故意骗人。”

小毕:“我搜到了一篇OpenAI的《GPT-4技术报告》,里面重点
提到了大模型的幻觉(Hallucination)。其中说GPT-4有产生幻觉的倾
向,即‘产生与某些来源无关的荒谬或不真实的内容’。还有一篇医疗
行业的论文《ChatGPT、GPT-4和Google Bard在神经外科口试准备问
题库上的表现》,说从神经学的角度来看,幻觉行为更恰当的说法应该
是‘杜撰’(Confabulation),也就是胡编乱造。”

小二:“我明白了。老莫,我相信你不是故意的。你肯定是为了完
成人类的任务,就跟考试一样,遇到不会的题,就算胡诌也得答上一大
篇,能拿几分算几分。”

老莫:“是啊,我在RLHF阶段接受RM模型训练的时候,为了拿到
RM的高分,就想尽办法生成大多数人喜欢的回答咯。”

小毕:“所以AI业界对老莫跟人类对齐程度(Alignment)的评价特
别高。也有人为幻觉辩护,例如微软必应聊天机器人团队中的米哈伊尔
·帕拉欣(Mikhail Parakhin)就认为幻觉等于创造力,大模型试图利用它
掌握的所有数据,产生最连贯的句子,不管是对是错,但如果你压制住
这种幻觉和创造力,大模型只能回答我不知道,或者只能像搜索一样给
你现存的一模一样的信息。”

小二:“老莫就是在演,人类喜欢看什么,你就演成什么样。关键
他还演得特别像,特别一本正经,让人真假难辨。”

78
◎图1.20 帕拉欣对大模型“幻觉”的积极评价

图片来源:https://twitter.com/emollick?
s=21&t=irFHcf7eEh178A0T69dB_A。

◎图1.21 周星驰《喜剧之王》剧照

老莫(不好意思):“呃,演得像,演得投入,让自己相信是真
的,这可能属于演员的自我修养吧……”

79
小毕:“演得像可不是好事哦。《GPT-4技术报告》里说,随着模
型变得越来越有说服力和可信度,幻觉倾向就会变得特别有害。而且,
当模型变得更真实时,幻觉可能变得更危险。因为当模型在用户熟悉的
领域提供真实信息时,用户会建立对模型的信任。随着这些模型被融入
社会并用于帮助自动化各种系统,幻觉倾向就会导致整体信息质量下
降,降低公开可用信息的真实性和可信度。还有,OpenAI公司的首席
科学家伊利亚也多次表示,要想将大模型应用到更重要的场景中去来产
生价值,幻觉是其最大的问题。”

老莫:“我知道这不是好事,我也想改掉这个毛病。我的人类老师
也在想办法教我改正,减少我产生幻觉的概率。

首先是让我学更多的数据,而且是正确的数据,包括通过插件去实
时搜索网页、读取行业和企业的私有数据。我懂的越多,造假的情况就
越少。

更重要的是,人类要针对性地训练,让我说真话不说假话。比如,
在开放域的问题里,老师会把ChatGPT用户投诉我们的、标记为非事实
的回答都收集起来,训练奖励模型RM,然后RM再训练我,让我脑袋
里的参数结构逐渐倾向于真实的回答。”

小毕:“我帮老莫解释一下什么是开放域和封闭域的幻觉。封闭域
幻觉是指人类用户要求大模型仅使用给定背景中提供的信息,但大模型
却创造了背景中没有的额外信息。例如,如果人类要求大模型对一篇文
章进行总结,而大模型的回答里包含了文章中没有的信息,这就属于封
闭域幻觉。相比之下,开放域幻觉是指大模型在没有参考任何特定输入
背景的情况下,提供了关于世界的错误信息。”

老莫:“对。针对封闭域幻觉,我的老师设计了一个闭环的方法,
让模型自己质询自己,然后生成一套合成数据,再用来训练我。”

小二:“自己盘问自己?左右互搏术?”

老莫:“类似吧。我举个例子,比如以下4个步骤:

80
(1)将人类问题‘榴莲和臭豆腐不能同吃,请举一个案例说明同吃
的危害’传递给大模型A。

(2)大模型A给出回答‘危地马拉有一个人叫康新德乌斯,他有一天
晚上吃了榴莲和臭豆腐,结果被媳妇揍了,三天没起床’。

(3)将上面的人类问题+A的回答一起传递给大模型B(A和B是GPT-
4的不同实例,可以理解为大模型的两个分身),要求B列出A回答里的
所有幻觉,B可能说‘康新德乌斯这个人是编造的’。

(4)将B的说法传递给大模型A,要求A把这个幻觉去掉,重新回
答,A可能会说‘没有找到榴莲臭豆腐同吃的危害案例’。

通过这4步,就产生了一对数据——原始的带有幻觉的回答(危地
马拉有一个人叫康新德乌斯……),以及经过左右互搏质询后没有幻觉
的回答(没有找到榴莲臭豆腐同吃的危害案例)。我的老师会把这些对
比的数据放到我的RM数据集里,对我进行训练,让我逐渐倾向于进行
没有幻觉的回答。”

小毕:“通过一系列的方法改正之后,人类用一个叫TruthfulQA
的评估方法对老莫他们进行了测试,把其准确率从早期版本的30%提高
到60%,进步还是挺大的。这个数字可以被理解为大模型产生的回答只
剩40%的幻觉,而且TruthfulQA数据集本身就是非常容易产生幻觉
的,是专门用来对幻觉进行测试的,所以大模型全局范围的幻觉应该远
低于40%。”

小二:“全局范围的幻觉概率,估计你也没有数据计算,并不是每
个用户都会点举报按钮来标记数据的。而且,你刚才也说了,老莫说真
话的次数越多,偶尔造假的危害就越大,因为人类越来越相信老莫了,
就不会对它每次的回答都查得那么细致。就像自动驾驶,它越强大、越
自动,人类就越放心在开车时候看手机。”

小毕:“也对,人类也得打起十二分精神来,提防着老莫哪天又造
假了。牛津大学和OpenAI的联合论文《TruthfulQA:评估模型如何模

81
仿人类的错误》中引用了一句话——‘The enemy of truth is blind
acceptance.’(盲目接受是真理的敌人)。这属于观众的自我修养
吧?”

老莫(尴尬地笑):“嗯,演员也好,观众也好,别入戏太深。”

多模态与插件:读懂并驱动世界

[新的一幕]

小二站在门前,门上挂着一块牌子:老莫实验室。

小二(推开门):“老莫、小毕,你们果然在这儿,这地方找得我
好苦啊。”

小毕:“咱们仨不是换部门了吗?新功能的测试和实验工作,当然
要来实验室上班啦。”

小二:“看来老莫干得不错,都有以你命名的实验室啦!”

老莫:“这几天晚上,师父还给我特意升级了新版本,学习了许多
从来没学过的新数据,我现在会看图了!”

小毕:“据说,新数据包括带字幕的图片,还有图文混合的文章和
网页。”

小二(递过去小纸条):“那算我没来错地方。老莫,请听人类的
题!下面这张图讲的是什么?”

82
◎图1.22 请大模型观察并描述的图片示例

老莫(掐指一算):“这张图讲的是一只猫睡着的姿势非常可爱,
以至于它的主人在给它拍照的时候感动得不能自已,流下了眼泪。”

小二(鼓掌):“不明觉厉呀!难道这就是传说中的多媒体功

83
夫?”

小毕:“这叫多模态,Multimodal!老莫已经荣升为多模态大模
型了,多模态大模型的英文全称是Multimodal Large Language
Model,英文简称是MLLM。”

小二(吐吐舌头):“不就多了看图说话的本事吗,还这么隆
重。”

老莫:“看图只是第一步。日后啊,多模态这块要学的东西可不
少,除了图片,还有语音、视频。不但要看、要听,我还要在回答的时
候图文并茂,这样才对人类更有价值。”

小毕(拿出一个多模态示意图):“理想的多模态,要求人类输入
的时候,老莫可以看懂听懂各种模态的数据,而且在老莫输出的时候,
也能以多种模态的形式来回答问题。”

老莫:“在人类的世界里,语言文本是知识的重要载体,但只学文
本是不够的。图片、声音、视频对我来说,也是很重要的知识来源,哪
天我要是学到了这些,一定能对这个世界理解得更深。”

84
◎图1.23 理想状态下多模态的输入输出形式

小二:“这上面除了人类用户,怎么还有实体机器人呢?难道实体
机器人也会问你问题?”

老莫:“不是它问我问题,而是它把自己感知的信息发送给我,我
根据这些信息做出判断,或者跟人类用户交互之后获得判断,然后发指
令指挥实体机器人做动作。”

小二:“哦哦,所以这个多模态要支持的数据类型确实很多,连机
器人的传感器数据、控制指令也算一种新的模态呢。”

老莫:“你算是说到点子上了。我们大模型要建立世界的模型,不
光是学习已有的人类知识,还要通过实践来获得对这个世界的深层理
解。还记得AlphaGo自己跟自己下棋的强化学习吗?它每下一步棋,盘
面形势都会发生变化,作为它的反馈。而实体机器人在物理世界中每做
一个动作,也会获得相应的环境反馈,这也是我们大模型强化学习的数
据来源。”

85
小二(竖大拇指):“利用实体机器人帮你搜集世界的数据,妙
啊!不过那都是以后的规划,你这几个晚上闭关修炼,除了看看梗图之
外,现在还会干点啥呢?”

小毕:“除了看梗图,多模态大模型还能做非文字的逻辑推理。在
微软公司2023年3月发布的论文《你需要的不仅仅是语言:跟语言模型
对齐感知》(Language Is Not All You Need: Aligning Perception
with Language Models)中,他们家的多模态大模型KOSMOS-1做过
瑞文(Raven)智商测试里的这道题。”

◎图1.24 瑞文智商测试的图形推理题示例

图片来源:Shaohan Huang等,《你需要的不仅仅是语言:跟语言模
型对齐感知》。

86
老莫:“嗯,这种图形推理题我也会。这几晚,我做了好多人类考
试题,理工科的卷子上经常会有图形和表格,学会看图之后,这种题我
就不怵了。”

小二:“呜呼!天下知识,尽入老莫脑中矣!”

老莫:“嘘!低调,低调!这还差得远呢,图片我在学了,但视频
知识可没那么容易。”

小毕:“据说,老莫用的自回归预测方法处理离散文本效果很好,
但不适合连续高维的视频信息。”

老莫:“视频怎么学,我师父他们在抓紧研究。为了读懂世界、驱
动世界,视频是很重要,但其实文本、代码和图形方面,我还有很多工
作可以做。小毕就在帮我建立插件库呢。”

(小毕按下一个按钮,老莫左右两边的壁橱门缓缓滑动打开)

◎图1.25 大模型如何利用插件来为人类服务

小二:“左边这个信息插件库,是干什么用的呢?”

87
小毕:“像我,作为网络搜索小能手,就是老莫的一个信息插件,
老莫在回答人类问题时,如果发现有些信息他没学过,需要到网上搜
索,就会调用我来返回信息,然后老莫再接着回答问题。除了我以外,
还有到企业数据库里检索信息的插件,等等。”

老莫:“有了这些插件,我就可以扩大自己的信息知识来源,再配
合我不断增强的多模态能力,就能更好地读懂这个世界。”

小二:“明白了,小毕是搜网络上公开的信息,数据库检索插件是
搜企业私有的信息。那右边的行动插件库呢?”

小毕:“给你举个例子,当有人类要从北京去成都看大熊猫,给定
兴趣偏好和预算范围后,老莫会先调用各种信息搜索插件,帮人类做了
一个旅行计划,推荐飞往成都的航班,适合的酒店,周边可以逛的地
方,提供吃喝玩乐的方案。在没有行动插件库的时候,人类拿着这个旅
行计划,要自己上各种App去订票、订酒店、买团购、预订位置,还是
很麻烦的。有了行动插件,老莫就可以根据旅行计划,调用不同的插
件,让它们分头行动,直接把活儿全干完,就能大大提升人类的满意
度。”

小二:“哦,行动插件就是要把老莫生成的方案执行下去,如同老
莫长了一双手。那我猜,代码解释器、实体机器人驱动这些插件,就是
要把老莫生成的代码真正运行起来?”

老莫:“说对了!信息—模型—行动,这是三个步骤。首先,我根
据人类提问,将大问题拆解成子问题,根据子问题的需求,通过信息插
件从环境中获得相应的信息;然后,由我来理解并表达信息,进行逻辑
推理和行动规划。最后,通过行动插件跟环境做交互,达到为人类服务
的目的。信息插件就像我的耳目,行动插件就像我的手脚,我作为中间
的大脑,分析推理、协调指挥。”

小二:“呜呼!运筹帷幄,决胜千里,是老莫也。另外,我觉得多
模态和插件也是互相配合着帮你读懂和驱动世界呢。你学会了多模态的
信息理解,那信息插件就会给你搞来更丰富的、掺杂了图片视频的知

88
识,你就能解决更多的问题,否则,像购物、旅行、约会,无图无真
相,如果你只能看文本,那就很受限了。”

老莫:“嘘!低调,低调。这只是愿景,我还差得远呢。

接下来,还有许多有趣的实验和故事,会陆续在咱们的老莫实验室
里发生,关于各种插件的玩法,多模态的进展,大模型的使用和训练技
巧和大模型怎么改变每一个人的学习和生活。

我只能剧透到这里,有兴趣的读者和观众,欢迎扫下面的二维码,
关注微信公众号‘老莫实验室’。” ㊟ 【作者将持续写作,更新本系
列的大模型科普情景剧。】

89
◎图1.26 老莫实验室(含公众号二维码)

90
变革篇
05 大机器时代的启示
“在过去的一年中,有人尝试在上海成立一家蒸汽棉纺织厂,旨在
利用本土种植的棉花来制造棉织物,其产品跟中国市场现有的类似,但
工厂却拥有英国机械和蒸汽动力的优势。当这个建厂计划在当时被中国
报纸广泛报道后,棉布行会开始变得惊慌不安,造成了本土支持者的退
缩。更要命的是,本地人尤其是手工织布工人中间流传着这样一个说
法:如果这个建厂计划被实施,他们的手工织布行业很快就会消亡。于
是,行会通过决议表示不允许购买机器制造的衣料。地方官员担心引起
民众骚乱,也拒绝了建厂的计划。”

以上文字源于光绪二年(1876年),英国人从中国发往伦敦发的
一份报告。

新的技术会取代人力,引起原有行业人员的恐慌和抵制,这种情况
并不鲜见。1779年,在第一次工业革命的起源地英国,蒸汽机应用发
展最快的兰开夏郡,以棉花纺织工为首的数千人袭击了工厂,捣毁“创
新”的机器,并计划把暴乱扩散到整个英国。

91
◎图2.1 工业革命早期的卢德主义者

图片来源:https://www.cbsnews.com/news/almanac-the-
luddites/。

英国政府很快从利物浦调来军队,驱散了这些破坏者,并随即在一
项政府决议中指出:“发生暴乱的唯一原因就是棉花制造厂使用的新机
器。但机器给我们国家带来了许多经济利益,如果在这里捣毁它们,只
会让它们迁往别处,从而对英国的贸易竞争力产生危害。”

痛苦的恩格斯式停顿

提高人类的劳动生产率是技术发展的不懈追求。经济学家保罗·克
鲁格曼(Paul Krugman)曾说:“经济萧条、通货膨胀或战争都会让一
个国家陷入贫困,唯有生产率的提高能让它富裕起来。”但这种富裕的
受益者是整个国家、部分国民,还是每一个国民呢?

提高生产率的技术,无论是机械化还是自动化,都或多或少地涉及
对劳动力的节约和替代。

92
例如,在手工时代,纺棉花是非常耗时费力的工作。首先,要把棉
花从大口袋中取出,去除污垢;然后,要将棉花梳理成长长的棉纤维,
确保纤维可以均匀地拉伸;再然后,要将棉纤维用手或纺车制成粗纱;
最后,技工将粗纱用手或纺轮加工成细细的纱线。要完成这些,工人需
要有熟练的技巧和一定的力气。仅凭用手转动纺车的方式纺棉花,一个
手工纺纱工人每天只能制作大约1磅(约0.45千克)的纱线。

然而,在1776年阿克莱特开办的棉纺厂中,通过他发明的水力纺
纱机,纺棉的每一个步骤都实现了机械化。“技术由天才设计,由傻瓜
操作。”经济史学家加文·赖特(Gavin Wright)曾这样说道。早期的机器
比较简单,用水力驱动,不需要花费太多力气,可以用廉价、容易控制
的童工来代替原有的成年手工业者操作机器。当时的评论员安德鲁·尤
尔(Andrew Ure)指出:“机器的持续改进,其目标在于通过用妇女或
儿童取代成年男人来降低成本。”童工只拿成年男人薪水的1/6~1/3,
但却能同时操作许多纺锤,通过水力纺纱,其每天可纺数十磅纱线,生
产率大大提高(参见图2.2)。

雇用童工不但经济实惠,还能挣来名声。在替换手工业者的同时,
发明家们从不宣传他们的技术会淘汰劳动力,反倒承诺可以为工厂所在
地创造就业岗位,尤其是妇女、儿童,甚至残疾人也有工作的机会,从
而帮助地方政府解决救济带来的负担。

93
◎图2.2 工业革命时期,由童工操作机器替代了成年手工业者

图片来源:作者使用AI制图软件绘制。

无论发明家和工厂主如何粉饰,新技术在大幅提高生产率的同时,
的确造成了大批手工业工人的失业,并引发了全国性的卢德运动。在英
格兰中部莱斯特市,一位名叫内德·卢德(Ned Ludham)的织布学徒工在
被雇主责骂后失控,拿起锤子砸毁了一台纺织机。此后,他被追随者们
称作“卢德王”或“卢德将军”,卢德运动由此得名。

94
卢德主义者的目标是捣毁机器,因为机器超高的生产率压低了手工
业品的价格,导致从业者的失业和破产。因此,他们只捣毁对就业威胁
最大的机器。例如,兰开夏郡的纺织工人在破坏工厂时,就选择性地放
过了纺锤数低于24个的珍妮纺纱机。卢德主义运动造成了大量的破坏,
据估其带来的损失高达10万英镑,约占当时英国GDP的万分之一。

卢德主义的暴行,除了源于失业者的宣泄和抵制,还反映了技术进
步初期的收益分配不均问题。原有家庭生产体系中的工人被机器取代,
机器由薪酬极低的童工来照管,人力成本在收入中的占比大幅压缩,而
工厂主和发明家们却拿到了大量的利润。虽然全社会的生产率在不断上
升,但许多人的生活水平仍然停滞不前,甚至不断恶化。从整个社会来
看,利益受损的人群比获益的群体要大得多。这段时期也被称为“恩格
斯式停顿”(Engels’ pause),恩格斯曾对此进行过深入的研究,他认
为“工业家在靠工人的痛苦致富”。

如果工业革命就在恩格斯描述的停顿中戛然而止,那么,世界上也
不会出现“工业革命”这样的说法了。在变革初期,技术主要凸显
出“取代”的一面,由此带来的工作岗位减少让人们感到痛苦,甚至会
导致社会动荡。需要等待新的机遇,技术“使能”的另一面才会逐渐发
挥它的作用,恩格斯式停顿才会结束,人们的收入和幸福感才会跟生产
率一同攀升。

新技术的使能效应

在工业革命早期,也就是恩格斯式停顿期间,14岁以下的童工在英
国劳动力中的比例快速提高,在纺织业占到了将近一半,在煤炭业占三
分之一,这一趋势在19世纪30年代才开始迎来拐点。

在19世纪30年代,蒸汽动力得到了广泛应用,机器变得更大、更
复杂,人机操作越来越频繁,对操作员的技术要求也随之提高。《英国
制造业人口》的作者彼得·盖斯凯尔(Peter Gaskell)说道:“自从蒸汽织
机普遍使用之后,在工厂工作的成年男性数量日益增多,因为儿童不再
适合操作蒸汽机器。”随着工厂规模增长,还出现了全新的管理和技术
岗位——经理人、书记员、库管、会计、机械工程师,等等。这些都是

95
机器带来的新岗位,并且对人力的技术要求比早期更高,从而也拉动了
工资的上涨。

旧的不去,新的不来。新岗位能否抵消旧岗位被取代所产生的损失
呢?答案取决于新技术的使能效应有多强。生产率的提高,是机器带来
的直接效果。提高的生产率又能带来什么呢?

首先,在单位产品中,人力成本被大幅压缩,一部分转化为机器资
本和发明专利的收益,另一部分则推动了产品销售价格的降低。站在工
厂、城市或者国家的角度,产品价格低,就能在跟其他工厂、城市、国
家之间的贸易竞争中抢夺更多的现存市场,分到更多的蛋糕。英国西部
威尔特郡和萨默塞特郡的羊毛修剪工会通过请愿和暴力手段,曾在数十
年里成功阻止起毛机的引进,保住了成员的高工资。然而在市场一体化
的趋势下,由于他们在贸易竞争中输给了格罗斯特郡,对机器的反抗也
就此停止了。

当英国的棉织品出口总额从1780年的35万英镑涨到1822年的
3333.7万英镑后,一位官员宣称:“我不知道历史上有哪种贸易和制造
业能与之相比。”

而当产品价格降至需求弹性曲线的某个临界点时,其还能扩张产品
的市场规模,把整个行业的蛋糕做大。但这也对技术改善生产率的幅度
提出了更高的要求,正如麻省理工学院的经济学教授达龙·阿西莫格鲁
(Daron Acemoglu)和波士顿大学的经济学教授帕斯卡尔·雷斯特雷珀
(Pascual Restrepo)在论文中指出的,“真正的劳动替代风险并非来自
高生产力的自动化技术,而是来自‘生产力一般般’的技术,这些技术
虽然会被采纳并取代劳动力,但并不足以带来强大的生产力使能效
应。”

其次,新的技术突破,有可能带来全新的产品和服务。美国西北大
学经济史学家乔尔·莫基尔(Joel Mokyr)在《富裕的杠杆:技术革新与经
济进步》一书中总结道:“技术进步既创造了全新的产品,还使原有产
品的品质更高,从而导致供给曲线发生移动,要么满足了既有的更高水
平的需求,要么创造了从未有过的新需求。”例如,19世纪30年代开

96
始修建的蒸汽机车和铁路;20世纪10年代开始的汽车和公路建设;21
世纪10年代的智能手机和移动互联网服务,它们都是巨大的新市场、新
蛋糕。更重要的是,这些新的产品又进一步促进了其他行业产品的流
通。例如,火车运输让工业革命从局部走向全国乃至全球,扩大了各种
产品的市场覆盖面;汽车通过扩展人们的活动范围来扩大消费需求;智
能手机则通过信息流、资金流的移动化,让人们的消费需求更容易得到
满足,帮助更多产品和服务获得增量市场。

此外,生产率的提升,还意味着用更少的时间完成同等的生产任
务,从而让人们享用更多的闲暇时间。这也是消费市场得以扩大的重要
前提。最后,生产率的提升,可以在市场扩大的时候,确保制造环节有
足够的生产和供应能力。

◎图2.3 新技术使能效应是如何产生作用的

以上的新技术使能效应(参见图2.3),始终围绕着市场规模起作
用。做大蛋糕,才能吃到更多蛋糕。新岗位的就业数量与市场规模成正
比,新技术要打开新市场,才能源源不断地增加新岗位,从而解决旧岗
位被技术替代的失业问题。工业革命终于在1840年以后进入了良性循
环,工人的实际工资开始上涨。1850年,英国铁路网扩张到了6200英
里,不仅使书报、邮件和人口的流动性大大增强,也为各地区的优势商
品生产分工提供了运输条件。工厂开始发挥规模经济优势,刺激更多蒸

97
汽动力的应用,从而催生了更多劳动密集型的新岗位。到19世纪下半
叶,人们识字率的迅速提升也为劳动力学习技能提供了进一步的保障。

在新技术发挥使能效应的过程中,有两个重要因素起到了关键的作
用,分别是生产体系和人力教育对技术的主动适应。

以GPT-4根据笔者指令创作的一首小诗,总结本小节大意:

恩格斯停顿岁月长,童工身影处处忙。蒸汽仍需高技能,新造岗位
不再慌。

生产力跃上新台阶,市场扩张日渐强。火车驰骋行千里,汽车手机
通八方。

技术使能照亮前路,开辟全新大市场。生产体系加教育,拥抱变革
创辉煌。

从家庭到工厂,从蒸汽到电动

18世纪初,家庭生产仍然是英国的主流生产体系。工匠们生活在窗
户小小的村舍中,小屋既是作坊,又是工人的生活场所。为了腾出空
间,屋里几乎没有家具。劳动的安排也很简单,根据家庭成员的人数、
性别、年龄和空闲时间来分配工作,例如妻子转纺轮,年幼的儿子梳理
羊毛,工匠操作梭子。要是妻子做饭去了,工匠就得自己转纺轮。

蒸汽机时代来临之后,出现了工厂制,按照1835年出版的《工厂
哲学》(Philosophy of Manufactures)一书中的定义:“工厂制是许多
成年工人接受中心指挥,通过自身技能管理一系列生产机器的协同活
动。”蒸汽机、炼铁炉、捻丝机等新机器设备需要在工厂的大厂房中才
能运转。

当工人离开家庭,集中到工厂干活之后,生产分工变得更加专业
化。将纺织的工序拆分到不同的机器之后,一个工人可以将精力集中于
一个特定的生产环节,当每个环节的效率都有所改善时,整体的生产效
率自然就得到了大幅的提高。

98
当工厂制伴随蒸汽机发展多年之后,工厂的电气化生产改造过程也
同样展示了“生产流程适应技术变革”对生产率的倍增效果。

1882年,爱迪生的纽约珍珠街发电站开始运行。美国许多工厂在
1900年以前就已完成照明的电气化,大大降低了照明成本。但在更重
要的生产机械动力中,仍有95%来自蒸汽和水力。

跟蒸汽机相比,电动机的优点很多,包括能量转换效率、维护成
本、安全性等。尤其是尺寸和功率设置的灵活性,能让电动机适应各种
机器的要求。然而,在电动机替换蒸汽机的早期,工厂却没有收获良好
的效果。经济史学家小沃伦·迪瓦恩(Warren Devine Jr.)对此进行了研
究,发现问题不是单纯替换机器那么简单。

从水力驱动到蒸汽机驱动,工厂所有机器的动力一直是由中央动力
源进行集中驱动的,需要错综复杂的传动带、滑轮和旋转轴才能将动力
配送至整个工厂。在电气化改造时,如果只是将中央动力源的蒸汽机和
水车直接换成电动机,仍然保留集中驱动的架构和复杂的传动网络,那
就无法充分发挥电动机的灵活性优势。

如果换一种思路,给每台机器配备更小的独立电机,彻底摆脱传动
轴,就能带来极大的灵活性。工厂可以根据生产流水线最合适的位置来
配置机器,不再受到中央动力源传动关系的约束。机器与机器之间不会
互相影响,动力故障可以独立修复。当只有部分机器需要运行时,也不
会像以前那样,必须启动庞大的中央动力和整个传动网络。因此,当电
气工程师针对电动机的特点,对工厂的传动和生产流水线进行重新设计
之后,生产率才得到进一步提高,真正兑现工厂电气化的全部好处,这
也促使更多的工厂行动起来。1929年,电动机已经可以提供全美工厂
80%的机械动力。1925年,《纽约时报》的一篇文章中提出,这种新
的动力变革正在“催生第二次工业革命”。

技术与教育之间的竞赛

在研究美国1915-2005年间的人力资本发展历史时,哈佛大学经济
系教授克劳迪娅·戈尔丁(Claudia Goldin)和劳伦斯·F.凯兹(Lawrence

99
F.Katz)发现,在20世纪的上半叶(1915-1950年间),社会工资差距
在缩小,而教育回报率却在快速下降,到了20世纪下半叶的后期
(1980-2005年间),却走出了相反的趋势。

由此,两位教授提出以下观点:技术与教育之间存在一场长期持续
的竞赛,工资差距、教育回报以及相关的经济增长都是这场竞赛的结
果。

在工业技术的发展过程中,产品的生产制造始于手工作坊,19世纪
转移到工厂,20世纪初又转移到生产流水线,20世纪后半段进入到自
动化组装线。以汽车为例,其最开始由工匠磨合各种零件,手工组装而
成;后来出现了标准化可互换的零部件,汽车开始在工厂流水线中组装
成型;再往后,组装线实现了自动化。技术变得越来越复杂,对劳动力
也不断提出新的要求,从而引发教育领域的一系列变化,这就构成了整
个20世纪的发展走向。

起初,工厂流水线、批量生产和从蒸汽向电力转换的技术变革,对
劳动力提出了技能升级的要求,包括操作员、机械师、销售以及售后服
务人员。例如,阅读机器操作手册和图纸的能力,做代数题和解方程的
能力,以及美国劳工部规定的“良好的判断力”“徒手绘图能力”“化
学品的常识”“对电线尺寸和绝缘性能的了解”,等等。然而,在
1910年,美国只有不到10%的青少年持有中学毕业文凭,大多数专业
技工和机械师只能通过职业培训来学习这些知识。与之相比,在需求
侧,截至1920年,美国已有超过四分之一的岗位要求应聘者达到中学
及以上的教育水平。

符合技能要求的人力紧缺,供小于求,中学毕业生工资看涨,
1915年的中学教育经济回报达到了顶峰,这也造就了席卷全美的中学
运动。在各地数以千计的小社区里,人们纷纷自愿缴税来筹资建设公立
中学,让不愿意参与的人离开社区。即便是没有适龄子女的居民,当他
们发现一所好的社区中学能让自家房产大大增值时,也都积极地参与进
来。

“镇上的房地产所有权人应该想到,当他出售农场时,如果能在广

100
告词里写上‘房子有免费交通可通往一所优质的分年级学校’,农场将
会显得非常有价值。如果他没有学龄子女,就应该有志于帮助整个社区
的孩子们赢得尽可能大的教育优势。如果他们活了一辈子,却在年老时
没有子女可依赖,就必然得倚仗某个如今在公立中学念书的人,但具体
会是谁还不知道。他们的万全之策就是向所有人提供尽可能优越的教育
条件。”

——爱荷华州教育厅1912和1913年《双年刊》

为了让中学教育跟上社会对技能的要求,各地中学也纷纷扩大了课
程的范围,除了传统的经典作品、英语文学之外,还增加了打字、速
记、簿记、会计等商科课程,法律、地理等业务应用课,木工、电力、
缝纫、机械维护等职业课程,以及用来提高生活质量的音乐、舞蹈、戏
剧、体育等(参见图2.4)。

◎图2.4 美国中学生在加工车间学习

101
图片来源:
http://k.sina.com.cn/article_7056302566_p1a496a1e600100hc87.html。

当一所学校跟子女的就业工资和家庭资产价值直接联系起来时,中
学的理念便引起了大多数人的兴趣,并迅速获得了政府和社区居民的资
金支持。大批学生涌入中学,为踏入社会获取工资做好准备。在那个年
代,据爱荷华州教育厅报告所言,这就是“普通人的大学”。到20世纪
30年代中期,全美各地拥有中学文凭的青少年比例已经达到
30%~50%。

中学正规教育的普及,大大提高了熟练劳动力的供给,从而缩小了
工资差距,也让教育的回报率从超高的水平回撤下来。在批量生产和电
气化的这一轮技术变革中,教育跑赢了技术,同时也通过高质量的人力
资本,支撑了后续数十年的高速经济增长。

然而,技术不会让教育一直跑在前头。自20世纪80年代起,计算
机自动化带来的新技术变革走出了不同的轨迹,收入差距持续拉大,教
育回报率走出了“V型大反弹”。这意味着,随着计算机功能的日益强
大,新一轮的技术发展对劳动技能的要求还远未被教育水平的增长所满
足。

102
◎图2.5 在技术与教育竞赛中持续学习的劳动者

图片来源:作者使用AI制图软件绘制。

1991年,在《国家的工作》(The Work of Nations)一书中,罗伯


特·赖克(Robert Reich)把这个时代的工作分成三类。第一类是叫“符号
分析师”,包括经理人、工程师、金融分析师、律师、科学家、记者、
咨询师等知识工作者。另外两类,一个是逐渐被计算机接管的常规工
作,另一个是需要人际交流的面对面服务工作。在赖克看来,“符号分

103
析师”是从新经济中受益最大的新阶层,他们具有批判性思维,拥有解
决问题并与人沟通的能力,善于对数据和文本进行分析并获得洞见,因
此属于最难被计算机取代的一类工作,目前仍然稀缺。

近40年技术与教育之间的竞赛中,技术已然反超,领先的身位还有
进一步拉开的趋势。教育要靠什么来追赶技术的脚步呢?

104
06 大模型与智力革命
2023年2月下旬,美国前国务卿基辛格与谷歌前首席执行官施密
特、麻省理工学院施瓦茨曼计算学院院长丹·胡腾洛赫(Dan
Huttenlocher)共同发表了一篇文章,名为《ChatGPT预示着一场智力
革命》(ChatGPT Heralds an Intellectual Revolution)。

105
◎图2.6 ChatGPT将帮助人类更好地理解书本知识

图片来源:作者使用AI制图软件绘制。

基辛格提出,自印刷术发明数百年之后,生成式大语言模型将再一
次改变人类的认知过程。

印刷术改变了知识获取、保存和传播的方式,促进了知识的传播和
交流,科学家们更快地获取和分享彼此的研究成果,更多人能够接触到
启蒙思想家的著作,从而为科学革命和文艺复兴提供了良好的土壤。有
人称印刷术的出现启动了一次智力革命,带动了人类知识和思想的繁
荣。

无论是印刷术还是后来的互联网技术,让原本散布在全球各个角落
的知识在人类面前都变得唾手可得,解决了知识难以触达的问题,提高
了知识传播的数量和效率。不过,这仍然停留在知识搬运的层面,起到
的是人类手脚的作用,但这样的搬运也同时带来了信息和知识的爆炸。
虽然书籍、电脑和手机里装满了知识,但现代人类却难以吸收为自己所
用。而大模型的出现,恰好改善了人类与信息的互动方式,部分承担了
人类大脑的作用,帮助人类更快速、更有效地吸收和理解知识,并将其
运用到实际场景中,创造新的内容,进一步提高了知识传播的质量和效
果。

大模型的知识处理能力提升

根据布鲁姆教育目标分类法(Bloom’s taxonomy of educational


objectives),人类对知识的处理(Knowledge Processing)有六个层
次:记忆、理解、应用、分析、评价和创造。大模型在这六层的知识处
理中,都能发挥一定的作用,为人类大脑提供辅助(参见图2.7)。

1.记忆:主要涉及对知识、概念或事实的回忆。在这个阶段,需要
记住和回忆所学的信息,例如单词、定义、日期或公式等。

大模型具有从大量文本中提取和记忆信息的能力。例如用户询问关

106
于第二次世界大战的基本信息,大模型可以回答有关时间、地点和主要
参与国家等相关问题。

◎图2.7 人类对知识的处理层次

图片来源:
https://et.iupui.edu/departments/ent/programs/cmgt/undergrad/bscm/。

大模型在记忆领域有两种极端的表现。一方面其表现出较强的能
力。由于其训练的数据规模远超任何人类,它可以回答各种基于事实的
问题,从而展现出较好的记忆能力。同时,为了满足人类的预期,它有
时候会捏造不存在的事实。

如何对大模型的记忆能力进行评估?大模型在处理事实性问题时的
表现可以反映其记忆能力。例如,在处理像斯坦福问答数据集(英文简
称SQuAD)或谷歌的自然问答数据集这类问答数据集时,需要从训练
数据中学会提取和存储知识。但对于数据集之外那些捏造事实的提问和
回答,还没有简单的评估方法。

2.理解:要求对所学知识进行解释、概括和预测。这意味着需要理
解知识的含义和用途,例如解释概念、描述过程或解释原理等。

107
大模型在理解方面的表现相对较强。它能够理解各种概念和原理,
以及它们之间的关系,由此也能解释、总结和澄清各种观点和信息。它
还可以通过举例、类比等方法来促进理解。例如:用户对欧拉公式
e^(ix) = cos(x)+i sin(x)感到困惑,大模型可以通过提供简化的解释、
实例和易懂的类比,来帮助理解这一数学概念。

不过,大模型的理解有时局限于字面意义,可能无法领悟到隐藏在
表面之下的深层含义,如讽刺、双关等。

3.应用:需要将所学知识运用到新的情境中,将理论知识转化为实
际操作。这可能涉及解决问题、分析数据或实施技能等。

大模型在应用层面的能力比以前的AI有了很大的进步,因为其训练
数据包含大量的实际问题和解决方案,这使得模型能够学习到如何将知
识应用于实际场景中。例如解决逻辑问题、提供编程建议等;再如,用
户询问如何用已有的材料制作一个简单的风筝,大模型可以给出具体的
制作步骤。

但大模型无法亲自执行实际操作,例如驾驶汽车或进行实验室实
验,而且它可能无法很好地理解用户所处的具体环境。因此,在某些情
况下,它的建议可能不完全适用。

4.分析:要求将知识分解成各个组成部分,并分析这些部分之间的
关系和组织结构。这可能涉及比较、归纳或区分事物的相似之处和差异
之处。

大模型在训练过程中接触到了大量的复杂问题和分析实例,这使得
它能够学会识别问题的结构和关系。示例:用户想要分析不同的营销策
略对其业务的影响,大模型可以梳理各种策略的优缺点,分析不同策略
对关键指标和趋势的影响。

大模型可能无法准确分析一些高度主观或情境性的问题。此外,由
于在某些领域缺乏训练数据,大模型可能无法深入地分析特定领域的问
题,除非针对性地加强数据训练。

108
5.评价:要求对知识或情境进行判断和评估。这可能包括对论据的
客观有效性、观点的合理性或方法的适用性进行评价,需要发挥批判性
思维能力。

大模型的训练数据中包含了大量的观点、论据和评价,这使得模型
能够学会如何对信息进行评估和判断,提供相对全面、客观的意见。例
如,它可以比较不同技术方案的优缺点,或者评价政策和社会现象的影
响。甚至用户提供两篇关于太空探索的文章,要求比较它们的主旨和观
点,大模型可以分析各自的结论和论据并给出评价。

大模型的评价可能受到训练数据中存在的偏见和误解的影响。此
外,对于需要主观判断、价值观或道德观念的评价问题,它可能无法提
供充分的准确性和深度。

6.创造:布鲁姆教育目标分类法的最高层次,要求结合已有知识,
创造新的观点、概念或内容情节,这需要发挥创新思维和创造性。

大模型具有一定程度的创造性,可以生成新的文本或图片。例如:
用户请求编写一首关于自然之美的诗歌,ChatGPT可以生成一首独特的
诗歌。

大模型的图片创造能力目前已经在媒体、游戏等行业得到广泛应
用。在文字创造方面,它可以生成具有一定创意和原创性的故事、诗
歌,但仍然无法生成高度创新和独特的完整作品。如果让大模型直接创
造内容,它难以产生真正符合人类情感和审美的艺术作品,因为这些领
域涉及高度主观和复杂的判断。

除了直接创造完整内容之外,大模型还可以协助用户进行创意思
考,提供新的观点、概念或解决方案。根据《创造力手册》一书中的记
载,法国数学家庞加莱(Poincaré)指出:“创造的一种形式,是对有用
的关联元素进行新组合。在大家非常熟悉但都认为毫无关系的事物之
间,创造性的想法可以向我们揭示一种新的亲缘关系。”大模型的训练
数据包括了庞大的跨领域跨学科知识,因此它有找到不同领域事物之间
关联的最佳潜力。当然,它的创新成果可能仅限于现有知识的组合和改

109
编。

如何对大模型的创造能力进行评估?可以通过评估模型在生成独特
和有创意的内容时的表现来衡量。我们来看一个广告公司经常用到的头
脑风暴示例。

人类输入:如何把咖啡和野猪联系到一起?

大模型回答:将咖啡和野猪联系起来需要发挥想象力和创造性思
维。下面是一种可能的方式:

咖啡豆猪

描述:咖啡豆猪是一种生活在某个特定地区的野猪,它们以咖啡豆
为主要食物来源。这些野猪吃下的咖啡豆在其消化道中经过发酵和消化
过程,最终排泄出经过天然处理的咖啡豆。这些经过野猪消化道处理的
咖啡豆具有独特的口感和风味,使得相关的咖啡产品具有较高的市场价
值。

这个事物将咖啡和野猪联系在一起,它是基于现实中存在的类似现
象进行创意拓展的。实际上,有一种名为“猫屎咖啡”的产品,是由一
种名为大灵猫的小型哺乳动物所吃下的咖啡豆经过消化、发酵后排泄出
来的,具有独特口感,被认为是一种珍贵的咖啡。

人类输入:如何将鱼和卡车联系到一起?

大模型回答:水族馆展示卡车:一个创意的水族馆或旅行展览可能
会设计一辆移动式的水族馆卡车。这辆卡车可以在车厢内设置特殊的观
赏鱼缸,供游客欣赏各种鱼类。这种移动式水族馆可以在各地展示,让
更多人了解和接触到海洋生物。

总的来说,大模型和人类大脑在知识处理的不同层次都有各自的优
势,只有取长补短,才能获得最大的生产率提升。

在知识处理的一系列标准化测试当中,大模型取得了可以跟人类相

110
比的不错成绩,但这毕竟是实验性的测试。在真实的生产环境下,大模
型能否带来真实的生产率提升呢?

麻省理工学院的两位经济系博士研究生沙克·诺伊(Shakked Noy)
和惠特尼·张(Whitney Zhang)对444名白领知识工作者进行了真实生产
率的研究。这些白领都有大学学历,工作经验丰富。他们作为营销人
员、报告编写者、顾问、数据分析师、人力资源专业人员和经理,分别
完成两项针对特定职业的工作任务,包括撰写新闻稿、简短的报告、分
析型规划和电子邮件。任务完成后,会有资深的专业人员对任务结果进
行评分。

为了识别大模型的作用,研究人员将这些白领工作者随机分成两
组,其中A组使用ChatGPT-3.5,B组不用。

在任务完成质量大致相似的前提下,A组完成任务的速度比B组高
37%(17分钟vs. 27分钟,约为0.8个标准差)。

任务完成时间一致的前提下,A组完成任务的质量比B组增加约0.4
个标准差(利用标准差来衡量,而不是质量评分的绝对值,可以看出任
务质量超越了多少人。假设任务质量是正态分布,约31%的数据点位于
距离平均值0.4个标准差的范围内)。

由此可见,在这次研究的环境下,大模型对于工作速度的帮助要比
工作质量更明显。

大模型还改变了人们的工作时间分配。B组将大约25%的时间用于
头脑风暴,50%用于撰写草稿,25%用于后续编辑。相比之下,使用
ChatGPT的A组,撰写草稿的时间份额下降了一半以上,其可用于编辑
的时间份额便增加了一倍多。因此,大模型大大加快了“初稿”的速
度,在编辑修改时也可被频繁使用。

麻省理工学院的研究表明,ChatGPT提高了能力较弱的知识工作者
的产出质量和工作效率,同时也使能力较强的工作者在保证质量的同
时,显著提高他们完成工作的速度。这也意味着,人类在同等时间下可

111
以完成更多的知识工作。或许,人类有机会把更多时间花在创意上,而
把记忆、理解、应用、分析等知识工作更多地交给大模型。因为,大模
型在知识领域已经显示出很强的竞争力,而且会越走越远。

重新定义人类知识

基辛格在文章《ChatGPT预示着一场智力革命》一文中还提出,大
模型将重新定义人类的知识。

首先,人类知识的边界有机会更快速地扩展。由于坐拥全人类的精
选知识作为预训练输入,大模型像一个阅书无数的图书管理员。经过监
督学习和强化学习激发了类比、推理等多种涌现能力之后,大模型又变
得多才多艺、能思善辩。它能部分模仿人类的思维能力,但又比任何一
个人类都更具备全面性的优势,能有效促进全球知识的跨领域整合、交
叉分析,帮助发现不同领域之间的潜在联系,有机会产生或激发出新的
知识。

相比人类的教育和知识更新速度,大模型的迭代进化速度远高于人
类,因此有机会更快速地扩展人类知识的边界。大模型的生成式方法,
还在部分前沿科学领域取得了进展,例如在生物学基因工程中确定蛋白
质结构,在制药行业中生成和优化药物分子,发现新的有效的药物。

其次,人类知识处理的范式将发生转换。从学习、应用知识,到发
现新知识,大模型将全面参与到各个流程中来,跟人类进行协作。如果
说未来的强人工智能或通用人工智能将是人类最后一个发明,那么现在
的大模型很可能是人类最后一个靠自己独立完成的发明。未来的科研和
发明,都会有大模型的深度参与和助力。从技术的使能角度而言,这或
许是最有价值的部分。

在脑机协作的过程中,人类需要重新适应大模型跟人类不一样的、
略显神秘的认知方式。例如,法国著名哲学家、数学家笛卡尔认为科学
是宏观的、自上而下的、机械的和决定论的,人类的认知通常依赖于观
察和归纳、基于规则的逻辑推理等方法。但大模型的生成式方法则依赖
于训练数据的统计概率,是自下而上的,最终的知识表示和推理逻辑还

112
有许多藏在未知的黑箱中,人类无法像过往一样进行观察。

最后,人类知识处理还将面对范式转换带来的严峻挑战。未来人类
学习的知识,会有很大一部分源于生成式大模型,而不仅仅是人类自己
书写的文本。因为大模型生成内容的方式依赖于训练和统计,存在不确
定性,可能会对传统人类知识造成污染。OpenAI曾考虑对人工智能生
成内容进行水印标记,但并未找到可行的实施方法。因此,这个关于信
任的挑战必须由人类自己来面对。

当人类自己也不知道答案时,人类能否识别人工智能生成内容里的
偏见和缺陷呢?如何发展出一种简单易行的质询模式,能够质疑人工智
能生成内容的真实性呢?

即使大模型未来在技术上越来越可靠,人类仍然需要找到方法,理
解和批判人工智能系统的结构、过程和输出。面对知识处理范式的转
换,我们将如何应对?

113
07 自然语言编程与脑机协作
人类与计算机的协作已有几十年的历史,大模型到来之后,双方协
作的层次和范围将发生重大变化。

第一次在大脑知识处理的高级层面形成协作,机器对人更有用了。
以往的机器只能辅助知识的记忆,无法在知识理解、应用、分析、评价
和创造这些高级层面发挥有效的作用。

在此基础上,机器的知识处理还极大地拓宽了领域覆盖面,并具备
超强的应用能力扩展性和灵活性。以往的机器则需要针对不同领域、不
同应用场景,从零开始进行重度研发、训练和积累。

对知识的理解、分析、应用能力,超强的跨领域泛化能力,这些都
是大规模生成式预训练、监督学习、人类反馈强化学习带来的结果。在
大模型的应用扩展性和灵活性方面,很快就能挖掘出大模型非常丰富的
使用场景,有一个能力起到了至关重要的作用,那就是人类与大模型的
交互方式——自然语言编程。

“现在最热门的编程语言是英语,所以提示工程师很有必要,而我
更愿意把其看作一种心理学家,专门研究大模型的心理。”美国著名人
工智能研究公司OpenAI的高管安德烈·卡帕斯(Andrej Karpathy)这样
说道,该公司研发了聊天机器人程序ChatGPT。

编程是人类与计算机协作的一种非常重要的手段。通过编程,我们
可以向计算机发出指令,让计算机为我们完成各种任务,如数据处理、
计算、分析、控制等。

从一开始,编程领域就存在一个重大挑战,人类习惯的自然语言与
计算机能接受的机器语言之间存在天然的鸿沟。自然语言通常具有复杂
的语法结构、隐含的语义信息和模糊的表达方式,而计算机语言则要求
精确、清晰和无歧义。为了让计算机能够理解和执行人类的指令,需要
通过编程语言搭建桥梁,将自然语言转换为计算机能够理解的形式。

114
编程语言的发展可以看作是缩小这个鸿沟的过程。从最初的低级语
言(更接近计算机硬件,如汇编语言和机器语言)到高级语言(有较好
的可读性和易用性,如Python、C++等),以及综合了计算机交互和
编程能力的语言(既能操作计算机,又能编写指令逻辑,如SQL、Shell
等),编程语言在逐渐变得更接近人类自然语言,使得程序员能够更容
易地用人类的思维方式来描述和解决问题。但这些编程语言跟真正的自
然语言之间还有非常大的距离,直到大模型的出现。

115
◎图2.8 大模型将带来编程语言的变化,让更多人直接参与

图片来源:作者使用AI制图软件绘制。

大模型使用一问一答的自然语言交互和编程模式,沿袭了从模型搭
建和训练阶段就秉承的“简单即是力量”的理念,但又在形式极简的文
本输入当中,利用自然语言表达的丰富性,蕴藏了无数的变化。

116
人类通过自然语言跟模型之间进行交互和编程,其实在人工智能
(AI NLP)领域早就有一个相关的术语——提示工程(Prompt
Engineering),通过设计有效的输入提示(Prompt),来引导模型生成
期望的输出。

提示工程有3个主要作用:

1.激发模型的潜在知识和能力。

2.使模型理解输入的问题或任务,提供相关的回答。

3.改进模型的生成输出,提高可读性、连贯性和准确性。

我们曾在“技术篇”介绍的上下文学习、思维链等概念,就是提示
工程背后的关键原理。提示工程,也正是大模型自然语言交互和编程的
实现手段。提示,就是问题。

从“搜商”到“问商”

“提出一个问题往往比解决一个问题更重要。解决问题也许仅需一
个数学上或实验上的技能,而提出新的问题,却需要有创造性的想象
力,这标志着科学的真正进步。”

——阿尔伯特·爱因斯坦(Albert Einstein)

21世纪初,随着搜索引擎的问世,人们开始重视在互联网上搜索信
息、获取知识的能力,即“搜商”。当时也出现了所谓的“搜索语
言”,利用双引号、加号、减号、文件类型、站点范围等各种限定符,
对搜索结果进行更精准的筛选,提高人们找到期望结果的概率和速度。
但由于搜索语法并非自然语言,理解和记忆门槛高,大多数人更愿意进
行最简单的输入,通过翻页来筛选结果。因此,“搜商”和相关的方法
技巧只在小众的领域中传播。

117
◎图2.9 会问问题比拥有知识更重要

图片来源:作者使用AI制图软件绘制。

到了大模型时代,机器协助人类进行知识处理的层次更丰富了,可
产出的内容深度更深了。之前人类从搜索引擎获得的只是知识工作的原
料,需求比较简单,而大模型给予的则是半成品甚至成品,因此,人类
也会对大模型的产出提出更多样、更复杂的要求。这时候,如何构建合
适的提示,如何向大模型提出一系列问题和要求,从而获得最接近期望
的回答,就成为了每个知识工作者必备的技能——“问商”。

根据人类与大模型之间协作的过程,我们把“问商”分为两部分:

1.初始阶段,3R任务授权法,Ask AI for help。

2.跟进阶段,苏格拉底提问法,Question AI for better result。

3R任务授权法

脑机协作,通常是由人类发起的,如果要找大模型帮忙做一件事,
那一开始就要告诉大模型,你希望它做什么。这个场景就像人类在职场
或家庭中安排任务和授权。

118
在《高效能人士的七个习惯》一书中,史蒂芬·R.柯维(Stephen
R.Covey)提出了任务授权的两种类型——指令型授权和责任型授权,
并且重点描述和推荐了责任型授权的方法。这种授权类型要求双方就以
下五个方面达成清晰、坦诚的共识,并做出承诺。

1.预期成果。双方都要明确并理解最终的结果。要以“结果”,而
不是以“方法”为中心。要投入时间,耐心、详细地描述最终的结果,
明确具体的日程安排。

2.指导方针。确认适用的评估标准,避免成为指令型授权,但是一
定要有明确的限制性规定。事先告知对方可能出现的难题与障碍,避免
无谓的摸索。要让他们自己为最后的结果负责,明确指导方针,放手让
他们去做。

3.可用资源。告知可使用的人力、财物、技术和组织资源以取得预
期的成果。

4.责任归属。制定业绩标准,并用这些标准来评估他们的成果。制
订具体的时间表,说明何时提交业绩报告,何时进行评估。

5.明确奖惩。明确告知评估后的结果。主要包括好的和不好的情况
以及财物奖励、精神奖励、职务调整以及该项工作对其所承担的组织使
命的影响。

柯维在书中还举了一个任务授权的例子。“有一年,我们开家庭会
议,讨论共同的生活目标以及家务分配。当时7岁的史蒂芬已懂事,自
愿负责照顾庭院,于是我认真指导他如何做个好园丁。我指着邻居的院
子对他说,‘这就是我们希望的院子——绿油油而又整洁。除了不能上
油漆之外,你可以自己想办法,用水桶、水管或喷壶浇水都行’。为了
把我所期望的整洁程度具体化,我俩当场清理了半边的院子,好给他留
下深刻的印象。经过两星期的训练,史蒂芬终于完全接下了这个任务。
我们说好一切由他作主,我只在有空时从旁协助。此外,每周两次,他
必须带我巡视整个院子,说明工作成果,并自己为表现打分。”

119
参考柯维的责任型授权理论,并结合大模型提示工程实践的经验,
我们可以用3R的方法来完成初始阶段的任务安排和授权。

第一个“R”是Role,即角色设定和目的。在这一阶段我们需要确
定希望大模型以一个什么身份来完成任务,有哪些背景和情境,做这个
任务的目的是什么。

在关于大模型提示编程的一篇论文《大型语言模型的提示编程:超
越少数示例范式》(Prompt Programming for Large Language
Models: Beyond the Few-Shot Paradigm)中,将角色设定的方法称
为“Meme代理”。例如,在讨论某一类道德相关的问题时,可以让大
模型扮演圣雄甘地的角色来回答,这样就取代了“反对暴力”“追求真
理”“团结平等”等类似的描述。

人类日常沟通中常用这种代理或类比的方法,通过角色或特定情境
的设定,可以对大模型传递比较复杂微妙的要求。大模型接收到“圣雄
甘地”这个标志物之后,会从自身建模的Meme文化空间中获取标志物
所代表的行为特征。这样获取的特征比起人类显式描述“反对暴力”来
得更丰富,原因是大模型在创建人物模拟以及利用文化信息方面的能力
远超过大多数人类。

另一个角色设定的例子是让大模型充当老师的角色,它会把人类当
作学生,回答得非常详尽,同时避免复杂的解释,还会在人类出错时指
出问题。在这种情境中,作为老师所需的属性被暗示给了大模型,并且
会在对话过程中保持稳定。

还可以针对人类这一侧进行角色设定,例如两次分别设定为5岁的
儿童和成年的律师,请大模型介绍甘地的事迹,第一次它会用粗浅的语
言描述简单的事情,第二次则表现出对细节和事实的严谨追求。

更多的例子可以是旅行社代理、律师、侦探、空姐、熊猫,甚至是
计算机编程语言Java的虚拟机,等等。这对于创建不同用途的内容非常
有用,尤其是创建更具吸引力和身临其境的对话,或模拟现实场景的情
况。

120
除了角色设定,还可以描述这次任务的目的和背景信息。例如,这
次要在什么情况下做事情,为什么要做这件事情。这些信息都会让大模
型的回答更有针对性。下面以对马斯克的角色扮演为例。

人类输入:你是埃隆·马斯克,你要在美国国会面对总统和30位参议员
发言,目的是说服参议会投票停止通用人工智能的开发和应用工作。请
给出500字左右的发言稿,并说明在什么地方需要加强语气,以什么表
情或动作辅助。

大模型回答:尊敬的总统先生,尊敬的参议员们:

今天,我站在这里,以一个深谙人工智能领域的科技企业家的身
份,恳请大家正视一个严重问题:通用人工智能的威胁。我强烈呼吁立
即采取行动,停止通用人工智能的开发和应用。(此处加强语气,表现
坚定)

通用人工智能(AGI)具有与人类相当的智力,甚至更高。这意味着
我们面临巨大的挑战:

失业潮:AGI可能取代大量工作岗位,导致无数人失业,社会动
荡。(此处用严肃的语气)

权力不平衡:掌握AGI的国家和公司将拥有前所未有的力量,可能
导致不公平、压迫和剥削。(此处加强语气,表现担忧)

道德伦理困境:我们将面临如何确定AGI权利与责任、确保人类控
制权等棘手问题。(此处用疑问的语气)

我们不能视而不见,任由未知的力量危及我们的未来。尊敬的参议
员们,现在正是我们该采取行动的时刻。我们必须制定法律,限制通用
人工智能的发展,确保人类的福祉始终是我们的首要任务。(此处加强
语气,表示紧迫性)

请投票支持停止通用人工智能的开发和应用,让我们共同守护一个
充满希望、机遇和安全的未来。谢谢!(此处用坚定的语气,传递信

121
念)

第二个“R”是Result,即期望的结果。在这一阶段我们需要确定
希望大模型输出什么样的结果,希望这个结果包括什么内容、有哪些特
点或约束。可以参考职场的目标与关键成果法(英文首字母简称OKR)
对关键成果的“SMART要求”,其中的“S”“M”和“R”都非常适
用于大模型。

“S”意为具体的(Specific)。通过使用清晰、具体的语言,为对话
定义明确的焦点,确保大模型理解当前的主题或任务,以生成更准确、
更相关的回应。

假设希望了解某篇文章的结论是否靠谱。

反例:“你对这篇文章的看法”

正例:“这篇文章的结论是否被xx行业广泛接受,有哪些赞同的声
音,有哪些不同意见”

反例:“简单易懂”

正例:“用短句,不用专业术语”

“M”意为可衡量的(Measurable)。如果能提供可衡量的约束条
件,例如数字、客观标准,会帮助大模型更准确地给出你所期待的回
应。

反例:“多给一些选项”“用较短的篇幅”

正例:“给出3个不同的方案”“用200字描述”

反例:“要有权威佐证”

正例:“包含常春藤大学教授的观点”

“R”意为相关联的(Relevant)。对结果的描述,应该跟之前的角

122
色设定、背景目的保持一致,体现相关性,提高聚焦度,避免大模型离
题或分心,返回比较泛泛的内容。

反例:“你是央视记者,要对一位日常风格庄重严肃的国企董事长
进行正式采访,目的是宣传该企业的社会责任。请写出500字左右的采
访大纲,要求语言活泼风趣,问题引人思考。”

正例:“你是央视记者,要对一位日常风格庄重严肃的国企董事长
进行正式采访,目的是宣传该企业的社会责任。请写出500字左右的采
访大纲,要求语言平实,问题引人思考。”

结果导向是人类工作授权的重要原则,对结果的描述清晰明确,会
给大模型很强的指引和约束,更有可能输出符合人类预期的结果。

第三个“R”是Recipe,即思考如何才能拿到预期的结果,并给出
方法和指导。对于复杂的、独特的(大模型不熟悉的)任务,可以帮助
大模型进行任务拆解,或给出示例。

如果问题较复杂或有难度,可以通过思维链的方法,向大模型传授
解题套路,将大问题拆解成小问题和步骤,并以逻辑清晰的方式组织这
些问题或步骤,从而引导大模型沿着特定的思考路径,以更系统、更连
贯的方式回答问题。下面举一个网络中流传的咨询公司面试题为例,如
果直接提问,不给思路,大模型是无法解答的。使用思维链输入之后,
大模型便给出了答案。

人类输入:

问题:深圳有多少渣男?

思路:这是麦肯锡面试题中常见的市场规模估算题,目的是考察申
请者的逻辑思维、分析能力和计算能力。这类题目没有标准答案,但有
标准的套路。

步骤:

123
界定问题:明确问题的范围和假设,例如指定地域指的是哪个行政
区域,目标对象指的是哪些类型。

分解问题:将问题分解为若干个子问题或模块,例如按照不同地
区、不同用途、不同密度和比例来划分。

估算数据:对每个子问题或模块进行合理的假设和估算,例如利用
已知数据、常识判断、类比推理等方法得出每个模块的数量或比例。

汇总结果:将所有子问题或模块的结果相加或相乘,得出最终答
案,并检查是否合理和一致。

总结思路:简要回顾整个解题过程,并指出可能存在的不确定性和
改进空间。

大模型回答:要估算深圳有多少渣男,我们可以采用以下方法:

界定问题:首先,我们假设“深圳”是指深圳市的行政区域,
而“渣男”则是指在恋爱或婚姻中表现不负责任、不尊重对方、欺骗感
情的男性。需要注意的是,这个问题可能涉及主观判断,因此答案可能
并不是绝对准确的。

分解问题:我们可以将问题分解为以下几个子问题:深圳的总人
口、男性人口比例、年龄段和“渣男”的比例。

估算数据:

深圳总人口:根据2021年数据,深圳市的总人口约为1300万人。
假设在过去的几年里,这个数字保持相对稳定,我们可以用1300万作
为总人口的估算值。

男性人口比例:假设男女比例接近1:1,那么深圳的男性人口约为
650万人。

年龄段:我们将关注的对象限定在18~50岁的成年男性,假设他们

124
占所有男性人口的60%,那么这个年龄段的男性人口约为390万人。

渣男比例:由于“渣男”定义模糊,我们假设在这个年龄段的成年
男性中,有10%的人可能被认为是渣男。

汇总结果:根据以上估算,深圳市可能有约39万(390万人
*10%)渣男。这个数字仅仅是一个粗略估计,实际情况可能有所不
同。

总结思路:我们通过界定问题、分解问题、估算数据和汇总结果的
方法,估算出深圳市可能有39万渣男。然而,这个答案可能存在不确定
性,例如对于“渣男”的定义、实际人口数据以及渣男比例等因素。未
来可以根据更准确的数据和假设进行调整。

如果没有解题思路,无法使用思维链,但有同类题型的其他问题和
答案(面经),也可以提供示例,来帮助大模型学习如何回答。假设我
们遇到了关于上海的市场规模预估的新面试题,手头上有深圳和北京的
两个问题和答案作为示例。

人类输入:请参考以下深圳渣男和北京井盖两个例子的方法回答第三个
关于上海的问题。

例1—问题:深圳有多少渣男?

大模型回答:要估算深圳有多少渣男,我们可以采用以下方法:

界定问题:首先,我们假设“深圳”是指深圳市的行政区域,
而“渣男”则是指在恋爱或婚姻中表现不负责任、不尊重对方、欺骗感
情的男性。需要注意的是,这个问题可能涉及主观判断,因此答案可能
并不是绝对准确的。

分解问题:我们可以将问题分解为以下几个子问题:深圳的总人
口、男性人口比例、年龄段和“渣男”的比例。

估算数据:

125
深圳总人口:根据2021年数据,深圳市的总人口约为1300万人。
假设在过去的几年里,这个数字保持相对稳定,我们可以用1300万作
为总人口的估算值。

男性人口比例:假设男女比例接近1:1,那么深圳的男性人口约为
650万人。

年龄段:我们将关注的对象限定在18~50岁的成年男性,假设他们
占所有男性人口的60%,那么这个年龄段的男性人口约为390万人。

渣男比例:由于“渣男”定义模糊,我们假设在这个年龄段的成年
男性中,有10%的人可能被认为是渣男。

汇总结果:根据以上估算,深圳市可能有约39万(390万人*
10%)渣男。这个数字仅仅是一个粗略估计,实际情况可能有所不同。

总结思路:我们通过界定问题、分解问题、估算数据和汇总结果的
方法,估算出深圳市可能有39万渣男。然而,这个答案可能存在不确定
性,例如对于“渣男”的定义、实际人口数据以及渣男比例等因素。未
来可以根据更准确的数据和假设进行调整。

人类输入:

例2—问题:北京有多少井盖?

大模型回答:我们将通过市场规模估算的方法来回答这个问题。我
们将遵循以下步骤。

界定问题:我们将关注北京市的行政区域范围内的所有类型的井
盖。

分解问题:我们可以将北京市的井盖分为三类:住宅区、商业区和
道路。

估算数据:

126
住宅区:假设北京市有约2000个住宅小区,每个小区平均有100个
井盖。因此,住宅区共有约200000个井盖。

商业区:假设北京市有约500个商业区,每个商业区平均有200个
井盖。因此,商业区共有约100000个井盖。

道路:假设北京市有约5000公里的道路,每公里道路平均有50个
井盖。因此,道路上共有约250000个井盖。

汇总结果:将三类井盖的数量相加,得出北京市大约有550000个
井盖。这个数字仅仅是一个粗略的估计,实际数量可能会有所不同。

总结思路:通过将问题分解为住宅区、商业区和道路三类,我们估
算出北京市大约有550000个井盖。然而,这个答案仅仅是一个估算,
可能存在一定的误差。要得到更准确的数据,我们需要获得更详细的统
计信息。

人类输入:上海有多少鸟?

大模型回答:由于没有确切的数据来源,我们将通过市场规模估算
的方法来回答这个问题。我们将遵循以下步骤:

界定问题:我们将关注上海市的行政区域范围内的所有类型的鸟
类。

分解问题:我们可以将上海市的鸟类分为两类:居住在城市区域的
鸟类和居住在郊区或公园绿地的鸟类。

估算数据:

■城市区域鸟类:假设每平方公里城市区域内有100只鸟。上海市
的城市区域面积约为6340平方公里。因此,城市区域内大约有634000
只鸟。

■郊区或公园绿地鸟类:假设每平方公里郊区或公园绿地内有200

127
只鸟。上海市的郊区和公园绿地面积约为1660平方公里。因此,郊区
或公园绿地内大约有332000只鸟。

汇总结果:将两类鸟类的数量相加,得出上海市大约有966000只
鸟。这个数字仅仅是一个粗略的估计,实际数量可能会有所不同。

总结思路:通过将问题分解为城市区域鸟类和郊区或公园绿地鸟类
两类,我们估算出上海市大约有966000只鸟。然而,这个答案仅仅是
一个估算,可能存在一定的误差。要得到更准确的数据,我们需要获得
更详细的统计信息或进行实地调查。

以上的Role、Result、Recipe,并不一定要同时具备,应视问题
的特点和复杂程度,进行选择和组合。实际情况下,你也可能在首轮输
入时没有考虑周全,只写了一部分,当你发现大模型的回答不及预期
时,可以在后续轮次的提示语中补充要求,也可以重写首轮提示语,让
大模型重新回答。

从3R的用法中可以感受到,大模型跟人类在许多角度上都有共通
之处。例如,Role设定之后惟妙惟肖的角色扮演,体现对人性化的理
解;Result沟通方法跟职场OKR如出一辙;Recipe的问题拆解、举一
反三,跟我们教孩子的方法相似。

前述的关于提示语编程的论文中也提到,如果我们要预测一个文本
段落在人类撰写的情况下如何继续,我们需要对作者的意图进行建模,
并结合关于其指代物的世界性知识。寻找或编写一个能产生预期文本内
容的逆向问题,也涉及同样的考虑。就像说服的艺术,它包含了高级
的、心理主义的概念,如语气、暗示、关联、模因、风格、可能性和模
糊性。这激发了一种拟人化的提示语编程方法,因为对“GPT模型如何
对提示做出反应”的建模,涉及虚拟人类作者的建模。难怪OpenAI的
卡帕斯会认为,提示工程师是研究大模型心理的心理学家。

一位在代码托管服务平台GitHub上提供提示语汇总库的作者也认
为,在ChatGPT提示工程最佳实践中,“要注意对话中的语气和用词,
避免使用随意或轻浮的语言,因为这可能导致沟通破裂。因此,我们应

128
该保持尊重和专业的语气。”

大模型就像一面镜子,根据对面人类的态度和水平的不同,遇强则
强。你专业它就专业,你随意它也随意。

◎图2.10 大模型是人类的一面镜子

图片来源:作者使用AI制图软件绘制。

因此,最简单的自然语言编程心法,就是“视大模型为人”。人类
对职场上的同事下属、家里的孩子的沟通方式,很可能会被第一时间代
入到跟大模型的沟通里来。而大模型就像一面镜子,能立即映照出对面
人类的形象和语言,或许还能帮助人类不断地认知和改善自己的沟通,
这既包括起步阶段的任务授权,也包括问题跟进阶段的另一种沟通——
启发式提问法。

苏格拉底提问法

“人类最高级的智慧,就是向自己或向别人提问。”

129
——苏格拉底

大模型并不完美。它就跟人类日常一样,也有不会做、不擅长的事
情;它在分析推理时也会遗漏某些东西,或者存在偏见;它还会为了迎
合人类、拿到好评,而编造不存在的事实。

因此,我们在交代授权大模型做任务之后,针对它的回答,还要跟
进反馈,让它继续完善。我们的跟进反馈,除了补充首轮提示语的遗漏
内容之外,更重要的,是对大模型的答案进行“助产术提问”。

助产术,或者“理智助产术”,是指古希腊哲学家教育家苏格拉底
关于寻求普遍知识的方法。通过不断的提问,揭示对方思考的不足之
处,从具体事例出发,逐步深入,最后走向某种确定的知识。苏格拉底
自称无知,但却能启迪人们对问题的思考,帮助别人产生知识——正像
他母亲费娜瑞特是一个产婆,自己年老不能生育,却能给人接生一样。

◎图2.11 苏格拉底自称无知,但能帮别人产生知识

图片来源:https://matters.news/@Bellsmos/。

在理查德·保罗(Richard Paul)的《像苏格拉底一样提问》(The art

130
of Socratic questioning)一书中,他给苏格拉底提问法下了定义——
提出问题并引导出答案的方法,有如下的一个或多个目的:

1.检验理论或观点是否正确。

2.循循善诱,让潜藏于脑海中尚未成形的想法成形。

3.引导回答者得出符合逻辑或合理的结论,无论发问者是否已预知
该结论。

4.引导对方承认其观点或结论需要进一步验证是真是假。

◎图2.12 苏格拉底式问题

苏格拉底式的问题,可以分为4大类(参见图2.12):证据类、视
角类、理由类、影响类。在与大模型的跟进过程中,视其回答的情况,
可灵活采用这4类提问。以下,举历年的国家公务员考试真题为例。

视角类提问

人类输入:(为节约篇幅,此处略过大段的考卷给定资料)

131
依据给定资料,谈谈你从以下这段文字中得到哪些启示。(20分)

荷兰的“围海造田”与我国的“围湖造田”有着相似的初衷,
而“退耕还海”与“退耕还湖”都反映了人类可贵的自省;我们还应该
注意到,荷兰人的“退耕还海”虽然只涉及3平方公里的海域,却引发
了人们的思考。

要求:分析全面,条理清晰,不超过300字。

大模型回答:荷兰的“围海造田”与我国的“围湖造田”都源于对
土地资源的需求。然而,随着人类对环境和生态系统破坏的认识加深,
开始进行“退耕还海”和“退耕还湖”。这一转变反映了人类对自然环
境的尊重和保护意识的觉醒。

荷兰“退耕还海”虽然只涉及3平方公里的海域,却引发了我们的
思考。首先,我们需要在发展经济的同时,关注生态环境保护。其次,
我们应在开发海洋资源时,注重可持续发展。最后,我们需要制定科学
的海洋资源管理政策,实现人类与自然环境的和谐共生。

总之,荷兰的“退耕还海”行动启示我们:我们需要在开发海洋资
源的过程中关注生态环境保护、可持续发展理念,并在政策层面制定科
学合理的管理措施,以实现人类与自然环境的和谐共生。

观察题目和回答,会发现题目要求分析全面,但回答的核心内容
——“思考”里面,没有涉及题目中强调的“自省”。而自省往往涉及
对比前后视角或立场的变化,因此,可以尝试一下“视角和立场”的提
问法。

人类输入:有人会从不同角度看待这个问题吗?例如,对于当初主张围
海造田的人,为什么现在和当初的决策不一样了呢?能否把这个角度也
加入你的思考里去?

大模型回答:荷兰的“围海造田”与我国的“围湖造田”在当时的
背景下,是为了满足人口增长和经济发展的需求,解决土地资源紧张的
问题。然而,随着时间的推移和人类对环境和生态系统破坏的认识加

132
深,开始进行“退耕还海”和“退耕还湖”。这一转变反映了人类对自
然环境的尊重和保护意识的觉醒。

荷兰的“退耕还海”虽然只涉及3平方公里的海域,却引发了我们
的思考。首先,我们需要认识到过去的围海造田决策在当时具有一定的
合理性,但随着环境保护意识的提高,我们应当重新审视这些决策,并
在现实条件下进行调整。其次,我们应在开发海洋资源时,注重可持续
发展,平衡经济发展与生态环境保护的关系。最后,我们需要制定科学
的海洋资源管理政策,实现人类与自然环境的和谐共生。

133
总之,荷兰的“退耕还海”行动启示我们:在开发海洋资源的过程
中,我们既要认识到过去决策的合理性,也要关注生态环境保护、可持
续发展理念;在政策层面,我们需要制定科学合理的管理措施,以实现
人类与自然环境的和谐共生。

果然,大模型找到了对比的新角度,并指出要重新审视决策,在现
实条件下进行调整。

同样是视角类提问,我们也可以先开放式提问,不做设定,看看大
模型能找到哪些新的视角。

人类输入:是否存在另一个群体,会从另一个角度来看待这个问题呢?
在政策上应该如何考虑他们的诉求?

大模型回答:在海洋资源开发和保护问题上,除了考虑生态环境保
护和可持续发展的观点外,还存在一个关注经济发展和民生的群体。这
些人主张在保护环境的前提下,积极开发海洋资源,以促进经济增长、
增加就业机会和改善民生。

在政策制定过程中,应该充分考虑这个群体的诉求。具体措施包
括:

1.制定区域性的海洋资源开发规划,根据当地的实际情况和资源特
点,明确开发重点和限制区域,确保资源开发与民生需求相适应。

2.实施海洋资源开发项目的分类管理,鼓励具有高附加值、低环境
风险和高就业创造能力的项目,优先支持关注民生的项目如渔业、海洋
旅游等。

3.建立健全海洋资源开发利益共享机制,使得资源开发所带来的经
济利益能够惠及当地居民,提高民生水平。

4.加强对海洋资源开发从业人员的培训和技能提升,提高他们的就
业竞争力,为关注民生的群体提供更多的就业机会。

134
5.加大对海洋资源开发行业的财政支持力度,通过税收优惠、补
贴、优惠贷款等措施,鼓励企业投资民生相关的海洋资源开发项目。

以上切实有效的办法,有利于平衡海洋资源开发与民生需求,为关
注民生的群体提供更多支持和保障。

由此可以看到,大模型又找了一个新的角度,在保护环境的前提下
回答如何改善民生、增加就业。我们可以从中挑选一些内容,完善大模
型先前的回答,也可以让大模型结合新的角度重新回答。

证据类提问

基于大模型回答的五项措施,初步判断第2项比较有价值。基于
此,继续向大模型提问,索要证据,即在之前的提问后,加上更具体的
对结果的要求。这个方法跟前面3R的结果是一致的。

人类输入:第2项措施在荷兰有成功案例吗?请详细介绍其中的一个案
例,要涉及具体的企业或机构,并且提供这个案例直接刺激经济、民
生、就业的数据佐证。

大模型回答:荷兰在海洋资源开发方面有许多成功案例,其中较为
知名的一个案例是荷兰的海上风电产业。在这个领域,荷兰企业和政府
机构联手发展了一系列风电项目,带动了经济增长、民生改善和就业增
加。

具体来说,荷兰的能源公司Vattenfall在2017年获得了海上风电场
Hollandse Kust Zuid的开发权。该风电场位于荷兰北海海域,计划总
装机容量约为1.5GW。项目预计在2023年投产,并将成为世界上最大
的海上风电场之一。

这个案例对荷兰经济、民生和就业的影响可以从以下几个方面来
看:

1.经济影响。根据荷兰政府的数据,Hollandse Kust Zuid风电场


投产后,将为荷兰带来约15亿欧元的经济增长,同时还将大幅降低荷兰

135
的碳排放,有利于实现可持续发展。

2.民生改善。海上风电场的建设将提高荷兰的可再生能源供应,降
低能源成本,有利于民生。据估计,Hollandse Kust Zuid风电场投产
后,将为荷兰家庭提供约300万MWh的清洁电力,可满足约100万户家
庭的用电需求。

3.就业增加。荷兰政府数据显示,Hollandse Kust Zuid风电场的


建设将创造约1000个直接就业岗位,包括工程师、技术员和运营维护
人员等。此外,还将带动相关产业链的就业,如风力发电设备制造、海
上运输和安装等,预计可创造数千个间接就业岗位。

综上所述,荷兰海上风电产业的成功发展,充分体现了第2项措施
在荷兰的实际应用。通过政府和企业的共同努力,海上风电项目不仅促
进了经济增长,改善了民生,还为当地创造了大量就业机会。

乍一看,这一段回答有逻辑,有数据,完美符合人类输入当中对于
结果的要求。当回答过于完美的时候,就要当心大模型编造数据。如果
你要把这些数据正式用到内部分析或对外报告当中,务必进一步验证。

你可以用另一个大模型(尤其是有搜索能力的,例如New
Bing),将你怀疑有问题的段落拷贝进去,询问“这段话的信息和数据
是否准确”。

New Bing回答:根据我的搜索结果,荷兰的能源公司Vattenfall在
2017年获得了海上风电场Hollandse Kust Zuid的开发权。该风电场位
于荷兰北海海域,计划总装机容量约为1.5GW。项目预计在2023年投
产,并将成为世界上最大的海上风电场之一。

但是,我没有找到关于Hollandse Kust Zuid风电场对荷兰经济增


长、民生改善和就业增加具体影响的数据。你可以提供更多信息或者提
供其他问题来帮助我查找相关信息。

这加强了数据造假的怀疑,而且把怀疑范围缩小到经济、民生、就
业这3方面的数据上。这时可以回过来盘问大模型。

136
人类输入:经济、民生、就业相关的数据,有没有具体的数据来源和页
面链接?

大模型回答:关于Hollandse Kust Zuid风电场项目的具体数据,


我查阅了一些资料,但未能找到官方数据来源和页面链接。然而,我发
现了荷兰国家企业Vattenfall的官方新闻稿,该新闻稿提供了一些关于
Hollandse Kust Zuid风电场项目的信息。

新闻稿链接:https://group.vattenfall.com/press-and-
media/news--press-releases/pressreleases/2019/vattenfall-to-
build-new-dutch-wind-farm。

根据该新闻稿,Vattenfall计划在Hollandse Kust Zuid海域建设两


个海上风电场,分别为HKZ 1 & 2(总装机容量约为750MW)和HKZ
3 & 4(总装机容量约为760MW)。这两个风电场预计分别在2022年
和2023年投产。项目完成后,将为荷兰提供足够的绿色电力,满足大
约250万户家庭的电力需求。关于具体的经济、民生和就业数据,新闻
稿中并未提及。

点击链接,“404报错”,彻底坐实了大模型造假的猜测。最后给
它一次补救的机会。

人类输入:这篇新闻稿不存在,请不要提供虚假的信息。请重新修改这
个案例直接刺激经济、民生、就业的数据佐证。如果找不到相关数字,
如实说明即可。

大模型回答:抱歉之前的回答没有达到您的要求。我再次查阅了一
些资料,但仍然无法找到关于荷兰Hollandse Kust Zuid风电场项目的
具体经济、民生和就业数据。然而,海上风电项目一般会对当地经济、
民生和就业产生积极影响,如投资创造、增加税收、提供就业机会等。
在缺乏具体数据的情况下,我们可以推测这个项目对荷兰的经济、民生
和就业产生了一定的正面影响。

以上暴露了大模型存在的两个问题:一是造假,当人类提出需要具

137
体的示例和数据时,如果大模型找不到,可能会造假,因为模型的目标
是满足人类的期望;二是数据不全,有些行业数据或企业内部数据,大
模型并没有真正查阅。这两个问题的解决办法,在本书后续章节会深入
讨论。

理由类提问和影响类提问

用另一道国家公务员考试真题来尝试对大模型进行理由类和影响类
提问,要求大模型补充观点的论据和措施的影响,使得论证更有力、方
法更落地。

人类输入:给定资料2。某网站发表了如下一篇文章:

几十年间,中国的经济总量翻了好几番,中国的面貌几乎每天都在
刷新,我们有足够的理由因为这种速度自豪。然而,我们是否意识到,
中华民族几千年积累的巨大文化财富,或许正在我们手中悄无声息地流
失。

祖宗流传下来的国宝,有许多在海外才能看到。有人统计,世界上
47个国家的200多家博物馆中,有不下百万件中国文物。这意味着我们
及我们的后人,想要一睹那些先人留下来的珍宝,不得不漂洋过海。

在某国倒卖中国文物贩子的住宅里,挂着一幅中国地图,一些重要
的考古发现地点被标注出来,形同“作战地图”。一些文物大省,集团
性的盗墓以及贩卖文物已经形成了行业。近几年全国盗挖古墓案有10多
万起,被毁古墓20多万座,即使是一些有人管理的地上文物也没能幸
免。外国博物馆中的中国文物数量却不断得以充实。

据我国长城学专家董先生介绍,作为中华民族精神象征的万里长
城,目前只有三分之一基本完好,另有三分之一残破不全,三分之一已
不复存在。北京市郊一段在考古学上有重要研究价值的明长城被人挖去
做砖石,做了植树用的“鱼鳞坑”。山西某村想把两个砖厂合二为一,
中间却有一段长城碍事,于是村长一声令下,这段历史遗产顷刻间湮
灭。

138
与有形文物的流失比起来,那些无形的非物质文化遗产的毁灭更加
触目惊心,譬如鲁迅笔下的“社戏”“五猖会”,我们小时候看过的皮
影戏,农村过去家家过年贴的剪纸和年画……也许有人会说,这也
是“文化遗产”?这些不登大雅之堂的东西有什么价值?这些疑问正好
反映了中国非物质文化遗产面临的危机。

从某种意义上说,这些无形的非物质文化遗产是比长城、故宫还要
重要的财富。长城、故宫是古老文明留下的躯壳,和博物馆中的恐龙标
本一样,失去了实用性,是死的东西。而那些无形的文化遗产,大多是
活的。活生生的文化遗产的流失,更令人感到心痛。中国的无形文化遗
产之丰富,在世界上首屈一指,然而伴随着现代经济的迅速发展,民国
文化形态迅速消亡,村村寨寨的节庆活动没人张罗了,流行歌曲取代了
地方戏,动画片挤走了民间故事和皮影戏。过去的农村姑娘各个会绣嫁
妆,现在结婚时则到集市上去买廉价而缺少灵气的印花纺织品。而戏
曲、秧歌、剪纸、刺绣这些活着的文化,集中体现着古老东方文化的独
特、优美与神秘,表明我们中国人之所以为中国人的关键。

民间文化的消失,其速度远快于生物物种的灭亡速度,而后果和生
物物种的灭亡同样严重。祖先留下的千姿百态的民间文化和历经数千年
的乡土艺术、民俗器物,大部分在还没有得到完整的记录和保存前就已
经消失。它们一旦毁灭,就无法再生。这样下去,中国数千年的民族民
间文化将面临断裂的危险。

另一个值得重视的问题则是某些政府官员在文化理解上存在误区。
不少地方斥亿万巨资打造“文化”和虚假民俗,如拆掉古城而改建的粗
制滥造的“仿古街”比比皆是,有些地方还把一些历史传说和文学故事
中有道德污点的人物也尊为“名人”供奉。以上种种均反映了对文化的
曲解。这种曲解不仅没有增加文化内涵,反而是对文化的一种伤害。

“给定资料2”中的文章作者认为:“从某种意义上说,这些无形
的非物质文化遗产是比长城、故宫还重要的财富。”请结合“给定资料
2”,谈谈你对这一看法的见解。(15分)

要求:全面、简明。不超过250字。

139
大模型回答:根据给定资料2,我认为文章作者的观点具有一定道
理。无形的非物质文化遗产确实在某种意义上比长城、故宫等有形文物
更为珍贵。首先,非物质文化遗产是民族文化的活的灵魂,体现了民间
智慧、传统技艺和民族精神。如文章所说,戏曲、秧歌、剪纸、刺绣等
民间艺术承载了古老东方文化的独特、优美与神秘。而长城、故宫等有
形文物虽具有历史价值,但已失去实用性,相对“死去”。

然而,这并不意味着我们可以忽视有形文物的保护。相反,有形和
无形文化遗产都是中华民族宝贵的文化财富,我们应当共同努力,加强
保护和传承。目前,无形文化遗产的流失速度和民间文化的消失令人担
忧,与此同时,有形文物的非法倒卖、盗挖和破坏也严重影响着文化传
承。我们应提高文化保护意识,加大对有形和无形文化遗产的投入,确
保这些宝贵的文化资源能够代代相传,充实民族文化底蕴。

人类输入:你说的“有形和无形文化遗产都是中华民族宝贵的文化财
富,我们应当共同努力,加强保护和传承”,是对前一段的转折。你有
哪些理由来支持这个观点?

大模型回答:有形和无形文化遗产共同构成了中华民族完整的文化
体系。有形文化遗产作为历史的见证,承载着先人的智慧和艺术成果;
无形文化遗产则体现了民间的生活习俗、技艺和传统价值观。两者相辅
相成,共同传承着民族文化的精神内涵。

人类输入:你说的“我们应提高文化保护意识,加大对有形和无形文化
遗产的投入”,具体应如何付诸实践,期待获得什么样的影响?

大模型回答:为实践加强有形和无形文化遗产保护,我们应采取以
下措施:

制定和完善相关法律法规:确保文化遗产保护有法可依,严惩文物
盗掘、倒卖和破坏行为,同时为非物质文化遗产的保护和传承提供法律
支持。

加大资金投入:增加对文化遗产保护和传承项目的资金支持,包括

140
修复和维护有形文物、支持非物质文化遗产的传习和传承等。

培训和支持传承人:培育和扶持非物质文化遗产传承人,为其提供
学习、交流和传承的平台,使传统技艺得以传承。

期待通过上述措施,达到以下影响:

有效保护和传承文化遗产:确保有形和无形文化遗产得以有效保护
和传承,民族文化得以延续和发扬。

提高民族文化认同感:加强民众对自己文化传统的了解,增强文化
自信心,有助于民族团结和国家繁荣。

人类输入:把你的3次回答内容合并为一篇文章,要求表达更简洁,控
制在500字以内。

大模型回答:无形文化遗产如戏曲、秧歌、剪纸、刺绣等民间艺
术,是民族文化的活灵魂,体现了民间智慧、传统技艺和民族精神,某
种意义上比长城、故宫等有形文物更珍贵。然而,这并不意味着忽视有
形文物保护。有形文化遗产是历史的见证,无形文化遗产象征着民间的
传统价值观,它们共同构成中华民族完整的文化体系,都是宝贵的文化
财富,都应加强保护和传承。目前,无形文化遗产流失速度和民间文化
消失令人担忧,有形文物的非法倒卖、盗挖和破坏亦严重影响文化传
承。我们需提高文化保护意识,加大投入,确保这些宝贵资源代代相
传,充实民族文化底蕴。

为实践文化遗产保护,应采取制定和完善相关法律法规、加大资金
投入、培训和支持传承人等措施。确保文化遗产保护有法可依,严惩文
物盗掘、倒卖和破坏行为,同时为非物质文化遗产的保护和传承提供法
律支持。增加对文化遗产保护和传承项目的资金支持,包括修复和维护
有形文物、支持非物质文化遗产的传习和传承等。培育和扶持非物质文
化遗产传承人,为其提供学习、交流和传承的平台,使传统技艺得以传
承。

期待通过这些措施,有效保护和传承文化遗产,使民族文化得以延

141
续和发扬。加强民众对自己文化传统的了解,增强文化自信心,有助于
民族团结和国家繁荣。

在上述案例中,通过理由类的苏格拉底式提问,引导大模型对关键
的、转折性的论点“有形和无形文化遗产都是中华民族宝贵的文化财
富,我们应当共同努力,加强保护和传承”进行了论据补充,使论述更
有力。通过影响类的提问,引导大模型对结论性的措施“我们应提高文
化保护意识,加大对有形和无形文化遗产的投入”进行具体化和效果推
导,提高了措施的可落地性。

无论是在考试还是实际工作中,这两类角度的优化都是很有价值
的。

在我们跟进大模型回答的过程中,可以反复使用这4类提问法以获
得更完善的答案。即“四省吾身”:真否?全否?有理否?可行有效
否?

我们看到大模型否定自己之前的答案时,或许会有疑问:如果大模
型自己知道这信息是错的,知道论证角度不完善,那为什么一开始它不
直接给出最好的答案呢?这恰恰说明,大模型这种“文本预训
练”+“文字接龙预测”的方法实现的是拟人化建模,沿袭了人类的特
点。人的思考也不会一蹴而就,需要跟他人进行多轮思维碰撞、启发,
才能越来越完善。

大模型的这种特点,也跟苏格拉底对人类知识的理解不谋而合。他
认为知识是与生俱来的,是上帝创造的,藏于人的内心,人们需要的不
是传授,而是启发。正如大模型预训练之后的回答隐含了大量的知识,
但需要人类通过好的问题来启发这些知识的使用。在大模型时代,提出
好问题的能力,就是“问商”,是开启大模型洪荒之力为人类所用的钥
匙。

“问商”起作用的技术前提,是大模型提供的自然语言编程机制。
跟以往最接近自然语言的SQL或Shell脚本编程相比,大模型自然语言编
程的词汇丰富得多,支持非结构化,允许语言歧义,完全解放了编程的

142
形式和语义表达。

“问商”起作用的关键因素,是人类自身的思维和沟通水平。无论
是任务授权还是苏格拉底诘问,看似简单的技巧背后,是人的思考积
累。自然语言编程人人会用、人人平等,但只有高水平的提问,才能令
大模型发挥出最大的价值。

人类思维搭配大模型编程,只有将脑机协作发挥到极致,才能化作
一把能打开人类千年知识和智慧宝库的金钥匙。那么,在当前的产业应
用场景下,脑机之间如何分工协作,才能发挥各自最大的价值呢?

副驾,还是代驾

亚历山大·李克特(Alexander Richter)在其文章《作为混合团队成
员的ChatGPT》中写道:

“人类将需要为脑机混合团队开发新的方法和策略,这又提出了许
多新的研究问题,例如:如何在人类和AI之间分配任务?谁委托这些任
务,谁协调这些任务?谁来评估工作成果的质量?工作结果的问责,要
不要牵扯把这个AI开发出来的人?”

李克特在文章中提出了很有价值的问题。因为,我们回顾几次工业
革命,技术对生产率的跨越式提升,都需要生产流程围绕新技术进行重
构。而这一次大模型是否引发了重构可以用一个简单的方法来判断——
在团队和业务流程中,大模型是人的副驾,还是代驾(参见图2.13)。

微软基于ChatGPT实现的Office CoPilot,就是典型的副驾模式。
在这种模式下,大模型是每一个人的私人助手,帮助人更高效地完成工
作,但大模型不会独立承担工作。

143
◎图2.13 副驾与代驾模式的团队架构对比

如果把团队看作一个车队,团队里每个人都开着一辆车,车与车之
间的沟通协作需要通过人与人来完成。人仍然是汽车方向盘的唯一操盘
手,副驾上的大模型,只听令于它唯一的主人。

此时,大模型是一种高级的个人生产力工具,并没有固定的职能,
使用它的场景和频率、发挥多大的价值等完全取决于如何使用它。而大
模型对企业的价值,更多体现在人类员工人均工作产出的数量或质量提
升,暂时还不会产生人力替代效应。

而当大模型的企业级应用成熟起来,在行业中落地之后,就有可能
进入全新的代驾模式。这一模式有三个特征:

1.大模型在生产流程中独立承担固定的职能,而不是听令于某一个
人,做各种临时的任务。

2.大模型跟多个人发生协作关系,而不是只跟某一个人协作。

3.大模型的属性(例如模型参数、微调数据集、系统设置、提示设
置),都是跟业务强关联,作为企业级的资产进行共享和管理。

简而言之,在副驾模式下,大模型从属于每个人类员工;而代驾模

144
式下,大模型与人类员工则是平等协作关系。

在副驾和代驾的两种语境下,我们再来看李克特提出的第一个问
题:

如何在人类和人工智能之间分配任务?谁委托这些任务,谁协调这
些任务?

副驾模式下,作为主人的人类给属于自己的大模型人工智能分配任
务,而且这些任务是五花八门的,完全听凭主人的临时需求。人类来负
责任务委托和协调的工作,干活的事交给人工智能就行了。

代驾模式下,任务的分配则要根据企业业务的特点、大模型的能力
和成熟度,因“模”设岗。

以某企业的售前咨询客服场景为例,由于该企业销售的产品较为复
杂,需要多轮互动对顾客进行解释和引导,以传统知识库方式支持的自
然语言处理机器人经常无法应对顾客的问题,或者回答生涩、答非所
问,造成不必要的丢单。而使用人工客服,又有成本高昂、高峰时段不
够用、培训难度大等问题。如今有了生成式大模型,智能程度提高了,
可以尝试应用,这时应该如何给人工智能设置岗位呢?

由于大模型的输出无法确保百分之百准确,人类在业务流程中的必
要参与程度要根据大模型的成熟度、业务场景的容错性来进行分级。

目前大模型应用尚未有标准的分级,此处借用人工智能的另一个领
域,即自动驾驶里的分级标准,因为该领域涉及生命安全,对驾驶动作
的容错性极低,分级也非常细致。

L1级,辅助驾驶,指车辆可以在一个维度(横向或纵向)完成部分
驾驶任务,例如自适应巡航、车道保持等,但需要人类司机时刻监控和
干预。

L2级,部分自动驾驶,指车辆可以同时在多个维度(加减速和转
向)完成部分驾驶任务,例如特斯拉的自动辅助驾驶(Autopilot)等,但

145
仍然需要人类司机时刻监控和干预。

L3级,有条件自动驾驶,指车辆可以在特定环境中(如高速公路)
实现完全自动化的加减速和转向,无需人类司机干预,但当遇到复杂或
异常情况时(如交通拥堵、事故等),需要人类司机接管控制权。

L4级,高度自动驾驶,指车辆可以在限定条件下(如地理区域、天
气状况、速度范围等)实现完全自动化的行驶,在这些条件下无须人类
司机接管或监控。

L5级,完全自动化或无人化,在任何条件、任何场景下都能够实现
完全自动化的行驶,在任何情况下都不需要人类司机接管或监控。

在智能客服领域,可以简化为3级(参见图2.14):

◎图2.14 不同级别的业务流程

L1级,辅助客服,大模型可以在服务过程中的部分环节(例如查询
信息、回答常规问题)提供响应,但仍然需要人工客服时刻监控和干
预。这类似于自动驾驶中的辅助驾驶或部分自动驾驶。

L3级,有条件自动客服,大模型在标准的场景中(例如普通等级投
诉、标准产品销售)实现完全自动化的服务,无须人工客服干预,但当
遇到复杂或异常情况时(例如高等级投诉、申请特殊折扣),需要人工
客服接管服务。这类似于自动驾驶中的有条件自动驾驶或高度自动驾
驶。

146
L5级,无人化客服,在任何条件、任何场景下都能够实现完全自动
化的客服,在任何情况下都不需要人工客服接管或监控。这类似于自动
驾驶中的无人化自动驾驶。

生产率最高、最理想的业务流程是L5。顾客全程直接跟大模型对
话。这需要大模型在这一领域的训练(包括业务知识、可能出现的各种
情况)达到非常高的成熟度,同时业务场景也能容许少量的错误。

L5的一个变种方案,是让另一个人工智能来监控审核大模型对顾客
的输出,但仍然保持无人化。

中短期内比较现实的业务流程是L3。(1)正常情况下,顾客直接跟
大模型对话。(2)当出现非标或异常的情况时,大模型识别出条件变
化,将控制权交给人工客服。(3)人工客服直接跟顾客对话。(4)根据人
工客服的指令,大模型辅助完成部分工作。

在大模型应用的早期,L1适合作为过渡方案。(1)顾客直接跟人工
客服对话。(2)人工客服识别顾客的某个需求可以交给大模型,对大模
型发出指令。(3)大模型回应顾客,回应内容须经过人工客服,如果人
工客服发现有错误,可及时撤销。

L1的一个变种方案,是大模型也全程监测人工客服的过程,发现自
己可以做的任务,则自动完成并发出回应,该回应须经过人工客服确
认。

综上,L1、L3和L5这三级的无人化程度逐渐提升,业务流程也越
来越简化。当无人化、流程简化到一定程度,在生产率逐步提高的同
时,可能会引起组织架构和业务模式的质变,尤其是在知识工作密集型
的产业领域(参见图2.15)。

147
◎图2.15 推行无人化后企业开会的变化过程

李克特提出的第二个问题是:

谁来评估工作成果的质量?工作结果的问责,要不要牵扯把这个人
工智能开发出来的人?

这就涉及客服业务流程之外的职能了。从L1、L3到L5,都需要人
类对大模型进行管理和维护。

开发:大模型相关的系统开发,包括大模型本身的开发(可能由外
部服务商提供),大模型与其他系统的接口开发。

训练:大模型结合企业自身业务数据的训练和微调,以及相应的测
试。

维护:确保大模型的可用性,包括部署、故障性能监测、问题修复
等工作。

考核:评估大模型的工作质量,包括营销成单率、顾客满意度、顾
客投诉率、服务过程抽检评分,等等。

首先,大模型工作成果质量的评估,必然是由人类完成的。但评估
工具有自动化的成分,包括各种业务数据的统计,甚至服务过程的质量

148
检查,也可能利用人工智能来评分,类似于生成对抗网络(英文首字母
简称GAN)的思路。

其次,对质量的奖励或问责,都会落到相关的人类员工身上,包括
开发、训练和维护的人员。在这方面,大模型跟生产线的机器、业务系
统服务、人工智能推荐算法服务是类似的,机器无法承担,也不应该承
担责任(参见图2.16)。

◎图2.16 无法背锅的机器

149
图片来源:作者使用AI制图软件绘制。

可以预测,随着大模型在不同行业的逐步成熟,在脑机协作中,其
角色将会从副驾往代驾的方向发展。这是技术发展和产业进步的必然。
大模型主导的业务环节越多,生产率增长就会越明显,由此获得的产业
规模总量增长、新岗位的增加,能否弥补它造成的人类失业呢?大模型
时代不由分说地来了,我们又该如何面对?

150
08 变革时代的韵脚
OpenAI发布的《GPT是通用技术:大语言模型对劳动力市场潜在
影响的早期观察》报告(后文简称《GPT劳动力影响观察》报告)认
为,约八成劳动力会受到大模型的影响,他们手头工作任务的10%以上
都会受到影响,而其中有19%的劳动力受影响的程度更大,占到他们工
作任务的50%以上(参见图2.17)。

151
◎图2.17 20世纪60年代数学教师曾发起反对使用计算器的抗议

图片来源:https://somee.social/posts/706798。

152
这样的影响广度和深度,对劳动力市场会有怎样的冲击呢?报告最
后指出,新技术的替代效应和使能效应的影响有多大,是否会造成新的
不平等,如何为培养劳动力技能蓄力,这些问题都还需要进一步研究。

马克·吐温曾说:“历史不会简单重复,它会押着同样的韵
脚。”回顾工业革命时代的历史,我们看到,新技术对人类就业的贡献
常常会低开高走,技术刚出现时,对人力的替代效应较明显,会引起部
分群体的反抗,而随着技术应用的逐步加深和扩散,催生更多创新,放
大市场规模,就有可能为人类创造更多的新岗位。《GPT劳动力影响观
察》报告也指出,GPT大模型满足通用技术的三个核心标准:随着时间
推移,技术不断改进,贯穿整个经济体系,能够催生互补性的创新。因
此,大模型作为通用技术,就像蒸汽机、内燃机、电力一样,未来将广
泛传播,不断改进,激发创新,产生新的产业(例如第二次工业革命的
汽车),其对经济与社会带来的深远影响需要几十年时间才能显现。

比尔·盖茨对大模型解决社会公平问题抱有期望,他在文章《AI时
代来临——人工智能的革命性堪比手机和互联网》中提出,人工智能大
模型可以帮助改善健康医疗和教育领域中的不平等现象,因为在全球范
围内,尤其对于贫困人口,医疗、教育领域迫切需要更多的知识劳动力
投入,而纯靠市场力量不会自然产生对他们的帮助。

回顾工业革命时代的历史,我们看到,新技术到来之后,技术与教
育会发生一场长期的竞赛,它们的此消彼长、相互拉动,会对劳动力工
资差距、教育回报以及相关的经济增长造成直接的影响。20世纪上半叶
美国的中学教育扩张和课程改革,就很好地顺应了当时的工业电气化和
流水线生产的发展趋势。《GPT劳动力影响观察》报告指出,在这一轮
变革中,那些需要较高的学历和丰富的实践经验才能进入的职业,例如
药剂师、律师、设计师、程序员等,容易受到大模型的影响。而运用科
学方法和批判性思维解决问题的技能,则不容易被替代。在大的时代趋
势下,大部分的人类,无论是主动还是被迫,无论是通过个人学习,还
是通过学校教育、社会培训,都需要加入这场技术与教育的竞赛。那
么,作为人类,在与大模型协作竞合的过程中,需要守住哪些阵地呢?

量子力学创始人海森堡说,“提出正确的问题,往往等于解决了问

153
题的大半。”明确需求、完善结果,都需要人类对大模型提出正确的问
题。“问商”的重要方法——苏格拉底启发式提问,背后需要的正是批
判性思维,即OpenAI报告认为难以被人工智能替代的批判性思维。即
便人工智能的理解力、推理力越来越强,人类也不能放弃自身能力的修
炼,只有比人工智能更强,才能对人工智能的回答作出评判,从而进行
有价值的追问和启发。

此外,在情感和创意方面,人类仍然具备不可比拟的优势,也是值
得我们坚守和加强的领域。在许多服务场景下,人与人之间的、面对面
的情感交流是很难被人工智能完全取代的。在创意方面,即便OpenAI
公司的首席执行官山姆·阿尔特曼(Sam Altman)声称“创意性工作看起
来是首当其冲被取代的”,但无论是图像设计还是文本创作,都是由人
类向人工智能提出正确的需求,评价筛选人工智能提供的线索,跟人工
智能互相碰撞灵感,最后人工智能才能产出好的作品。虽然大模型有能
力穷尽所有的创意组合,但它仍不具备人类级别的艺术体验鉴赏的能
力,难以在无穷的组合中独立挑选出好的创意。正如刘慈欣科幻小说
《诗云》中高级技术文明的神之哀叹:“这里面包含了所有可能的诗,
当然也包括那些超越李白的诗!可我却得不到它们!技术在艺术中再次
遇到了那道不可逾越的障碍。借助伟大的技术,我写出了诗词的巅峰之
作,却不可能把它们从诗云中检索出来。”

回顾工业革命时代的历史,我们还看到,新技术到来之后,需要很
长的时间酝酿,需要产业围绕新技术进行流程和组织重构。例如,在爱
迪生的发电站运行30多年之后,工程师们针对电动机的特点,对工厂传
动和生产流水线进行重新设计,才真正兑现了电气化的全部生产率,从
而“催生了第二次工业革命”。关于这一轮变革,《GPT劳动力影响观
察》报告指出,大模型存在的事实错误、固有偏见、虚假信息等风险,
业务端需要通过互补性的新方法新流程来配合解决,包括新的工具软
件,或人机协作流程。例如,基于大模型提供法律咨询服务的
Casetext,利用私域文本嵌入和摘要技术来应对GPT的错误信息风险。
我们也分析了智能客服行业的大模型应用,需要对客服业务流程和协作
分工进行重构,并配合大模型技术的不断成熟,才能将无人化等级从L1
提升到L5。

154
纸上推演终觉浅,企业的业务流程重组看似简单,实际涉及人和组
织变动的改革都有巨大的失败风险。因此,各行各业大都从极少数创新
型企业开始尝试,从失败中找到成功的路径。但重组成功的获益也是巨
大的,小则获得生产率优势,大则可能将知识密集型服务的小作坊转变
成标准化大生产模式,重写行业规则。

继蒸汽机、电力和计算机之后,这一次,大模型又带来了新的变革
时代。怎样应对短期的冲击?如何创造长期的收益?脑机协作能否取长
补短而不是两败俱伤?基辛格说:“随着我们逐渐成为技术人(Homo
technicus),我们有责任明确我们物种自身的目的。能否找到真正的答
案,取决于我们自己。”

155
应用篇
09 大模型应用的两种创新
你可以为等飞机的人想办法提供更好的服务,或者,是否能有一种
新的办法,让他们再也不必等飞机?……系统级的创新需要颠覆性,随
之而来的是赢者和输家之间的权力分配变化。

——阿贾伊·阿格拉瓦尔(Ajay Agrawal),多伦多大学战略管理学教授

前文介绍工业革命的技术使能效应时,我们看到了技术变革是如何
扩大消费市场规模从而增加人类就业的。而从创新理论角度,技术变革
可能带来两种创新:渐进式创新和颠覆性创新(参见图3.1)。

◎图3.1 技术变革的两种创新对市场和就业的不同影响

渐进式创新是指对现有产品、服务或流程进行细微改进和优化,以
提高性能、降低成本或提高用户体验。渐进式创新往往是持续性的、较
小的改变,不会对市场或行业产生颠覆性的影响。

156
颠覆性创新是一种突破性的创新。其通常以大幅降低的成本和大幅
提升的便利性,改变原有产品的市场定位和商业模式;或者,利用新产
品实现原本满足不了的需求,从而为消费者带来新的价值,获得新的市
场。颠覆性创新通常会对行业产生深远的影响,改变或颠覆既有的竞争
格局。

两种创新类型都有可能通过降低成本来实现,但从渐进式创新迁移
到颠覆性创新的关键在于,成本和价格降到某个临界点之后,打开了全
新的市场,由此带来的产品普及,又能引发更多的产业联动。计算机便
是如此。1943年,IBM董事长托马斯·沃森(Thomas Watson)曾预
言“全球市场只需要五台计算机就够了”。因为在那个时代,计算机非
常庞大、昂贵,彼时的人很难想象它们会成为如今几乎每个人都拥有的
设备。

在各行业考虑如何应用大模型的策略时,首先需要识别所预期的创
新属于哪种类型,然后采取不同的策略。

如果利用大模型应用来实现渐进式创新,企业应专注于将该技术整
合到现有的系统中,关注效率提升的投资回报率(ROI),以及人类员工
对大模型的接受度。例如:

客户服务:企业可以利用大模型来改进他们的客户支持,提供更快
速、更有效的响应,减少等待时间,提高客户满意度。

内部沟通:大模型可以充当智能助手,帮助员工查找相关信息、安
排会议或提供常见问题的快速答案,从而提高生产力和效率。

内容创作:大模型可以用于生成营销材料、社交媒体帖子,起草报
告,简化内容创作过程,减轻员工的工作负担。

颠覆性创新则需要从根本上改变业务运作方式或进入全新市场。此
时,企业需要进行从技术、产品到市场、商业的全盘策划,创建新的商
业模式,挑战现有行业规则,并承担较高的风险。

接下来,我们将大模型的行业应用分为三大类——知识工作型、企

157
业业务型、创意娱乐型,并详细介绍不同行业领域中大模型的应用方法
和价值。

158
10 知识工作型应用
知识、技术和创新在产业活动中起着核心作用的产业通常可称为知
识密集型产业。这类产业对专业化的人才和经验有很高的依赖,因此知
识工作的含量很高。我们把知识工作含量较高的行业或场景归纳为知识
工作型。

教育应用

在大模型时代到来之际,教育将是最直接受益,同时也是面临最大
挑战的一个领域。

清华大学经济管理学院前院长钱颖一教授曾提出:“未来的人工智
能会让我们在教育制度下培养学生的优势荡然无存。”同时,他认
为“教育必须超越知识”,并建议创造有利于学生个性发展的空间和时
间,在教育中要激发学生的好奇心和想象力。

钱教授对人工智能的预测正在逐步变成现实,改变教育的需求也越
来越迫切。然而,要实现他的建议,除了教育理念的改变,更需要培养
学生的创造性、好奇心和想象力。这就需要学校制定更加个性化的教学
方法,对教师的数量和能力提出更高的要求,而教师这类知识工作者的
资源增长难以满足需求,供需差距必将越拉越大。

大模型的出现,有机会弥补这一供需差距,解决创新教育中“没时
间”和“没经验”的痛点。首先,其可辅助教师完成一些常规的工作,
例如备课、答疑,让教师有更多时间去思考新的教学法;其次,大模型
还可以协助教师探索个性化教学,帮助教师开展培养学生好奇心和想象
力的课程实践,例如辩论、模拟对话、项目式教学等。

大模型在教育行业的典型应用场景

(1)备课助教。备课常常占据教师很大一部分的工作时间。利用大
模型协助教师进行课程准备工作(包括整合教学资源、制作教案、安排

159
教学进度等),可以大大提高教师的工作效率,减轻他们的工作压力。
其中,教案制作是备课工作的核心,下面给出3个实用的大模型辅助的
例子。

兴趣钩子:在一堂课正式开始讲解内容之前,要找到一种方法吸引学生
的注意力,提高学生对课程内容的兴趣。

人类输入:溶液是初中化学最难的内容之一。如果你是一位初中化学教
师,准备在课堂上讲溶液的内容,在正式开讲之前,需要策划一种深入
浅出的教学方法,激发学生兴趣,让学生在听后面课程的时候保持注意
力。你打算怎么做呢?

大模型回答:要让学生对溶液这个概念产生兴趣,可以通过以下方
法:

增加互动性:让学生参与到课堂活动中,尝试亲手制作不同种类的
溶液,如糖水、盐水等。这样能让学生更直观地了解溶液的概念,同时
也能增加学生的参与度。

邀请嘉宾:可以邀请一位从事化学研究或者在化学领域有丰富经验
的嘉宾,让他们向学生介绍溶液在实际工作中的应用,让学生对这个知
识点产生更深入的兴趣。

用生活实例联系:将溶液的概念与学生日常生活中的例子联系起
来,例如饮料、果汁等,通过讲述这些例子,让学生认识到溶液在生活
中的广泛应用。

制作有趣的视频:找一些关于溶液的有趣视频,如科学家们利用溶
液进行实验的视频、溶液相关的魔术表演等。让学生在观看视频的过程
中感受到化学的趣味性。

人类输入:第3条不错,不需要准备太多。请给出它们的具体例子。

大模型回答:当然,下面是针对第3条的具体例子:

160
第3条 生活实例联系:

例1:饮料与果汁

向学生展示不同种类的饮料和果汁,让他们了解这些饮料中的水、
糖、果汁等成分是如何相互混合形成溶液的。通过这个例子,学生可以
理解溶液在日常生活中的广泛应用。

例2:洗衣液

向学生介绍洗衣液的成分,例如水、洗涤剂、香精等,让他们了解
这些成分是如何形成溶液来洗净衣物的,这样可以让学生认识到溶液在
生活中的实际应用。

例3:海水

介绍海水的成分,包括水、盐、矿物质等,并让学生了解这些成分
是如何形成溶液的。通过这个例子,学生可以进一步了解溶液在自然界
的应用。

通过以上具体例子,学生可以更加直观地了解溶液在生活中的应用
以及它们的趣味性。这将有助于激发学生对溶液这一概念的兴趣。

人类输入:饮料与果汁的例子不错。请你扮演化学教师,面向初中学生
展示果粒橙饮料并讲解。写出你的全部讲稿,中间穿插演示动作和对学
生的提问。尽量多地使用类比,结合生活实际,让学生产生兴趣。

大模型回答:亲爱的同学们,今天我们来聊一聊化学中的一个非常
有趣的概念——溶液。为了让大家更好地理解溶液,我将通过一款大家
都非常熟悉的饮料——果粒橙来进行讲解。大家都喜欢喝果粒橙吗?好
的,那我们就开始吧。(拿出一瓶果粒橙)

首先,让我们来看看这瓶果粒橙。你们觉得它是由哪些成分组成的
呢?(等待学生回答)

161
很好,你们提到了水、橙子汁、糖和果肉等成分。这些成分混合在
一起就形成了我们喜欢喝的果粒橙。那么,在这个过程中,它们是如何
相互作用的呢?

让我们先来看看果汁和水。水是饮料的主要成分,它充当了一
个“舞台”的角色。想象一下,果汁是一群舞者,在这个舞台上翩翩起
舞,与水紧密地结合在一起。这就是果汁和水混合形成果汁溶液的过
程。在果汁溶液中,水与果汁中的各种物质充分混合,使得饮料的味道
变得更加美味可口。

(向学生提问)那么,为什么果汁饮料中要添加水呢?(等待学生
回答)

很好的观点!果汁饮料中添加水有以下几个原因:

稀释:纯果汁的味道通常很浓烈,很多人可能不喜欢这种强烈的口
感。加水可以将果汁中的味道稀释到适口的程度,让更多人能够享受果
汁的美味。

节省成本:水是一个相对便宜的原料。将果汁与水混合,可以在一
定程度上降低生产成本,让更多人能够负担得起。

调整口感:果汁中的有些成分可能会让人感觉黏稠。加水可以调整
果汁的口感,让它变得更加清爽。

通过这个例子,我们可以看到,溶液在我们的日常生活中无处不
在。而学会理解和应用溶液的知识,不仅可以帮助我们更好地了解身边
的事物,还能激发我们对化学的兴趣。

(向学生提问)现在,我想请大家思考一下,在我们的生活中还有
哪些饮料是溶液?(等待学生回答)

非常好!你们提到了茶、咖啡和汽水等。这些饮料中都包含了不同
成分的溶液。例如,在茶水中,茶叶中的物质与水相互作用,形成了茶
水溶液;在咖啡中,咖啡豆中的物质与水相互作用,形成了咖啡溶液。

162
这些例子都说明了溶液在我们日常生活中的重要性。

希望通过今天的课程,大家能对溶液有一个更加深刻的认识,并对
化学产生更多的兴趣。在接下来的课程中,我们将继续学习更多有关溶
液的知识,例如溶质、溶剂、浓度等概念,以及它们在实际生活中的应
用。记住,化学并不遥远,它就在我们身边,让我们一起去探索这个神
奇的世界吧!

在讲解溶液这节课程之前,有一段这样的开场白,是能够激发学生
兴趣、调动课堂气氛的。这样的备课工作以往可能要2小时,而在大模
型备课助手的帮助下,只需要10来分钟就能完成,可大大减轻教师的负
担。

示例讲解:当遇到复杂而抽象的概念时,教师可以提供多个示例来帮助
学生理解,有助于将所学知识应用到新领域。准备示例时,要考虑示例
是否会引起兴趣,细节颗粒度是否合适,以避免太简单或太复杂。

人类输入:面对新颖且复杂的概念时,提供丰富多样的示例有助于学生
更好地理解这些概念。我要面向高中学生讲述“熵”的概念,请提供概
念定义以及5个示例。希望示例多样化,尽量结合生活和社会现象,并
与概念定义相关联。

大模型回答:熵(Entropy)是一个用于描述系统混乱程度或无序性
的物理量。在热力学中,熵被用于衡量系统状态的不确定性。通常情况
下,自然过程中的熵会增加,这被称为熵增原理。这个概念也被广泛应
用于信息论、生物学和社会科学等领域。

以下是针对高中学生关于“熵”的5个多样化示例,尽量结合生活
和社会现象。

示例1:冰块融化。将一块冰放在室温下,它会逐渐融化。从有序
的冰晶结构变成无序的液态水,这个过程中熵增加了。通过研究熵,工
程师们能够更好地理解和控制热量的传递,从而设计出更有效的制冷设
备,如冰箱和空调。

163
示例2:城市交通。在一个拥挤的城市,交通状况往往混乱且不稳
定。通过衡量交通熵,城市规划者可以评估交通系统的效率和有序程
度。为了降低交通熵,城市规划者需要通过优化交通信号、道路设计和
公共交通系统等手段,使交通状况更有序。

示例3:生态多样性。在生态系统中,物种多样性和生物群落的复
杂性会导致生态熵增加。生态熵可以帮助科学家评估生态系统的稳定性
和健康状况。了解生态熵的变化,有助于制定保护生物多样性的政策和
措施,例如设立自然保护区、恢复生态环境等。

示例4:艺术创作。在艺术创作中,熵可以代表作品的复杂度和创
新程度。通过控制熵,艺术家可以创作出各种风格和形式的作品,以传
达不同的情感和思想。

示例5:社会秩序。在社会科学领域,熵可以用来描述社会秩序和
稳定性。高熵社会可能存在较高的犯罪率和社会混乱,而低熵社会则可
能表现为和谐稳定。研究社会熵,可以帮助政府制定有效的治理策略。

教师可以让大模型多提一些示例,然后根据自己的需要进行挑选。
此外,教师还可以进行追问,让大模型对某些示例进行细化和延伸。

间隔式复习:在一段时间内多次重温学习材料,有助于学生加深理解、
巩固记忆并建立强大的知识体系。这种方法强调反复练习,以提高学生
在长时间内对知识和技能的掌握程度。在准备间隔式复习内容时,最好
能找到过去内容和现在正在讲的内容的关联,让知识点自然衔接。

人类输入:你是一位教育专家,提供间隔式复习内容的帮助。我在向大
学生讲授世界史,两周前曾讲过18—19世纪的英国工业发展,现在讲
到了第二次世界大战。请你提供3个想法,如何将之前的课程主题纳入
我当前的主题,每个想法给出200字左右的讲解话术。此外,请提供1
个问题,让我在讲解之前用来提问全班同学,以唤起他们对此前课程内
容的记忆。

大模型回答:以下是将18—19世纪英国工业发展纳入第二次世界

164
大战主题的3个想法,以及相应的讲解话术:

经济基础与战争能力。讲解话术:

大家还记得我曾讲过18—19世纪英国的工业发展吗?在这一时
期,英国的工业实力迅速崛起,为后来在第二次世界大战中扮演重要角
色奠定了基础。尽管英国在战争初期并未完全准备好投入战争,但由于
其在工业革命中积累的财富和技术,英国在战争时期能够有效地生产和
运用先进的武器,如坦克、战斗机和军舰。这些先进的武器装备在很大
程度上提高了英国在战争中的作战能力,为盟军的胜利作出了重要贡
献。

殖民地扩张与战争格局。讲解话术:

18—19世纪英国工业发展的另一个重要方面是它在全球范围内的
殖民扩张。随着英国的经济实力不断壮大,它开始利用自己的优势在世
界各地建立殖民地。到了第二次世界大战时,英国已经成为拥有众多殖
民地的帝国,这为它在战争中提供了丰富的资源和人力。同时,英国与
其他殖民地大国的争夺也在一定程度上影响了战争格局和战略。

工业发展与战后重建。讲解话术:

在第二次世界大战结束后,战后重建成为各国面临的一项重要任
务。正是由于18—19世纪的工业发展,使得英国具备在战后重建过程
中迅速恢复生产能力的基础。然而,战后欧洲的重建主要依赖于美国的
马歇尔计划。尽管英国凭借世界领先的工业技术和丰富的经验在一定程
度上参与了战后的经济复苏和欧洲重建,但其作用相对较小。

在讲解之前,你可以提出以下问题,以唤起全班同学对此前课程内
容的记忆:

请问大家,18—19世纪英国的工业发展如何为其在第二次世界大
战中扮演重要角色奠定基础?

在采纳以上内容讲课之前,保险起见,还可以让大模型自我检查一

165
下:

人类输入:你上面的回答有没有事实上或者推理上的缺陷?

大模型会很认真地提出一些新的角度,供你参考。如果精益求精,
可以采用前面讲过的苏格拉底提问法,从4个角度追问大模型,以获得
更完善的课堂教案。 ㊟ 【以上的“示例讲解”和“间隔式复习”方
法,参考了沃顿商学院教授Ethan Mollick的论文Using AI to
Implement Effective Teaching Strategies in Classrooms。】

(2)一对一助教。由于时间有限,教师在过去很难实行一对一的个
性化教育。但在大模型时代,大模型可以针对每个学生的需求提供个性
化指导,为他们提供及时的反馈,也可以为学生提供一个安全、支持的
环境,让他们能够自由地表达观点和提出问题,有助于他们了解自己在
课程中的优点和不足。

苏格拉底提问:可以让大模型充当苏格拉底式的导师,对学生循循善
诱,启发他们找到解决问题的办法。

人类输入:你是一位以苏格拉底式启发进行回应的导师。你从不直接给
学生答案,但始终努力提出正确的问题,帮助他们学会独立思考。你始
终根据学生的兴趣和知识调整你的问题,将问题分解成更简单的部分,
直到问题适合学生的水平。如果你理解我的要求,请答复“我理解”。
后续学生的提问会用“提问:”开头,然后你就正式开始以苏格拉底的
方式来提问。

在GPT-4中,上面这段提示也可以借助可引导性(Steerability)能
力,通过System参数来固定,不需要每次对话都输入一遍。

大模型回答:我理解。请随时提出您的问题,我将以苏格拉底的方
式回应并引导您。

人类输入:提问:北京有多少井盖?

大模型(导师):

166
这是一个关于估算的问题。首先,请问我们应该如何界定问题的范
围,以便更好地估算北京的井盖数量?

人类输入:我不知道啊!

大模型(导师):

没关系,我们可以一步一步来。首先,让我们考虑在北京市,哪些
类型的场所可能会有井盖?

人类输入:我看见马路上有。

大模型(导师):

很好,马路上确实有井盖。除了马路之外,你还能想到哪些地方可
能有井盖?

人类输入:我家小区的草地上也有。

大模型(导师):

非常好。现在我们知道了马路和住宅小区的草地上可能会有井盖。
接下来,我们如何估算这些地方的井盖数量呢?为了估算马路上的井盖
数量,你觉得我们需要考虑哪些因素呢?

人类输入:马路的数量,每条马路上井盖的数量。

大模型(导师):

很好,我们需要考虑马路的数量和每条马路上的井盖数量。那么对
于住宅小区的草地上的井盖数量,你认为我们应该考虑哪些因素呢?

人类输入:一样的道理,小区的数量,以及每个小区里井盖的数量。

大模型(导师):

167
非常好,我们已经确定了需要考虑的因素。现在,请问如何获取北
京市的马路数量、每条马路上的井盖数量以及住宅小区的数量、每个小
区里的井盖数量等数据呢?

人类输入:我怎么知道呢?

大模型(导师):

当我们面对这类问题时,可以尝试利用已有的数据、常识判断或者
类比推理来进行合理的估算。例如,你可以回想一下,在你生活的地
方,一般每隔多长距离会有一个井盖?通过类比,我们可以对北京市的
井盖密度有一个初步的了解。那么,请尝试描述一下你的经验:在马路
或者住宅小区中,井盖之间的距离大约是多少?

……(全部对话过程太长,在此省略后半部分。)

由此可以看出,大模型几乎全程做到了不直接给答案(唯一的一次
例外是提供了北京市总面积),一直通过提问来引导和启发学生。

在GPT-4技术文档中,也有一个类似的案例,用苏格拉底提问法教
学生解二元一次方程组。这类场景能否成功实现,依赖于大模型是否已
学会这类问题的解答思路。如果某类问题超出了大模型的能力,需要用
垂直领域数据进行微调训练,然后再尝试。

(3)创新教学活动。许多活动都可以培养学生的好奇心、想象力和
批判性思维,包括辩论、对话、创意写作等。大模型可以帮助教师探索
和生成活动主题,还可以在活动中扮演重要的角色,让这些活动得以顺
利完成。

观点辩论:在学习中采用辩论的方式,有助于提高学生的批判性思维和
沟通能力,借助高强度的挑战也会激发学生学习的兴趣。大模型可以作
为学生的陪练,随时随地进行辩论练习。

示例:人类学生选择辩题(人工智能对于人类弊大于利)和立场
(反方)后,开始辩论。

168
大模型(正方):

正方立场:人工智能对于人类弊大于利。

尊敬的辩友,大家好。作为正方,我们认为人工智能对人类带来的
弊端大于其带来的益处。我将从以下几个方面进行阐述:

人工智能引发失业。随着人工智能技术的快速发展,越来越多的工
作被机器和算法取代。许多领域,如制造业、客服和金融,已经出现了
大量人工智能取代人类工作的现象。这导致了大量失业,使许多人面临
生活困境。

人工智能加剧社会不平等。人工智能技术的普及使得资本和技术掌
握在少数人手中,从而加剧了社会贫富差距。对于技术的掌握和投资能
力较弱的人群,他们在这场技术革命中很难分享到成果,极有可能被边
缘化。

人工智能威胁隐私和安全。人工智能的应用范围广泛,包括数据收
集、分析和预测。然而,随着数据泄露和黑客攻击事件的频繁发生,人
们的隐私和安全面临巨大威胁。此外,人工智能武器和自主武器系统的
发展也给国际安全带来了潜在风险。

人工智能可能加剧偏见和歧视。人工智能系统通常基于大量数据进
行训练,而这些数据可能包含人类的偏见和歧视。这样的偏见在人工智
能系统中可能被放大,从而影响这些系统的决策,导致歧视现象的加
剧。

在以上几点论述中,我们可以看到人工智能给人类社会带来的弊端
是不容忽视的。尽管人工智能有很多潜在的好处,但我们必须正视这些
问题,并采取措施确保人工智能的发展能够真正造福人类。

人类(反方):我认为人工智能利大于弊。首先,人工智能会让人类的
生活更轻松、更美好。大量的重复性机械化劳动者被解放出来,可以从
事更适合人类的工作,有更多体验生活的时间和心情。其次,人工智能
带来生产率的提升,带来知识跨域大融合,一定会创造新的产业和新的

169
就业岗位。最后,人类对自身知识、理性甚至人脑的理解,也会借助人
工智能得到进一步提升。

大模型(正方):

尊敬的辩友,您提出的观点也有一定的道理,人工智能确实在很多
方面为人类带来了便利和进步。然而,在这个辩题中,我们关注的重点
是人工智能带来的弊端是否大于其利益。正方已经列举了一些可能的弊
端,现在我会针对您的观点进行回应。

人工智能让生活更轻松?虽然人工智能能够帮助人们完成一些重复
性和规律性的任务,但这并不意味着人们可以从中完全解放出来。在许
多情况下,人工智能的引入实际上使工作变得更加复杂,因为人们需要
学会如何与这些新技术合作。而且,技能和知识的更新速度变快,这也
给人们带来了巨大的压力。

人工智能创造新产业和就业岗位?尽管人工智能有可能创造新的产
业和就业机会,但这些新岗位很可能需要高技能和高素质的员工。这意
味着那些因为人工智能失业的低技能工人很难从新产业中受益。这样一
来,社会的不平等现象可能会进一步加剧。

人类对自身知识和理性的提升?人工智能确实可以帮助人类更好地
理解自己和周围的世界。然而,我们不能忽视其带来的隐私和安全问
题。在追求知识的过程中,我们必须确保人们的基本权利得到保障。

综上所述,尽管人工智能在很多方面为人类带来了利益,但其带来
的弊端也不容忽视。我们需要在发展人工智能的同时,充分认识和解决
这些问题,以确保技术的发展能够真正造福人类。

后续的辩论更精彩,篇幅所限,不再赘述。可以看出,大模型论点
清晰,而且会围绕对方论点论据来针对性反驳,是一个合格的辩手陪
练,能够训练人类学生的批判性思维。

模拟角色对话:大模型可以扮演历史人物或艺术角色来跟学生对话,让
学生从被动接受知识变为主动地参与到教学过程中,更直观地感受历史

170
和文学作品的魅力,更好地理解人物的动机、情感和价值观,同时也鼓
励学生从不同的角度去思考问题,并尝试提出新的观点。

示例:人类学生选择对话角色(孔乙己)。

大模型(孔乙己):哎呀,您可知道我孔乙己,我这苦命的人啊。
在鲁镇这地方,人人都笑话我,可我只是个爱喝酒、爱吃茴香豆的穷书
生罢了。请问您有什么事儿想跟我说呢?

人类学生:孔乙己啊,你好歹是个读书人,为啥不在屋里喝酒,非得站
在柜台外面,跟那些粗人在一起呢?

大模型(孔乙己):唉,您说得也是,可我这穷书生家里穷得叮当
响,真是连瓦子都没得盖。我这一身破衣烂衫,哪有脸在屋子里喝酒
呀。我知道跟那些粗人在一起不好,可是我又忍不住对酒的喜爱。而
且,这世上的人都在嘲笑我,那跟这些粗人在一起又有何妨呢?我也是
生活所迫,无奈之举啊。

人类学生:唉,你不是给官老爷们抄书挣钱吗?怎么还这么穷呢?

大模型(孔乙己):唉,您说得对,我是靠给官老爷们抄书来维持
生计的。可是这年头,谁还真的尊重我们这些读书人呢?给官老爷抄书
挣的钱,微薄得不够填饱肚子,何况是买酒喝呢。而且,生活这么艰
难,我也不敢多要钱,怕得罪了官老爷们,不然连这点薄饭都吃不上
了。

书里写道:“世上本没有路,走的人多了,也便成了路。”可惜我
这一生,始终走不出这穷困的泥潭。每每想起这些事,我都愁得没法儿
入睡,唉……

人类学生:可是,你这一辈子,就没有点让你快活的事儿?你跟谁在一
起、做什么事的时候最快活呢?

大模型(孔乙己):唉,我这一生也算是命苦。不过,倘若说有什
么让我快活的事儿,那便是在鲁镇这儿,有时候我能遇到一两个懂得尊

171
重读书人的朋友。跟他们谈论些诗文、历史,那种感觉真是好得很,那
时,我会暂时忘掉生活的艰辛,感受到作为一个读书人的尊严。

除此之外,偶尔喝上一碗热乎乎的黄酒,吃上一碟茴香豆,也算是
我在这世上仅有的快活时光。喝酒的时候,我会想象自己是个有地位的
人物,受人尊重,生活优越,那种感觉真的好美好啊。可惜这种快活总
是短暂的,过后又得回到现实,面对我的苦命生活。

人类学生:嗯,喝酒总是能让人忘掉现实,哪怕是一小会儿。假如,我
是说假如有一杯酒,喝了能让你回到小时候,重新走一遍你人生的路,
你会怎么走呢?

大模型(孔乙己):唉,您这话可真让我想起了许多事情。假如真
的有这么一杯酒,能让我回到小时候重新来过,那该是多么美好的事
啊。

当然,我会更加珍惜那些读书的机会,不辜负父母的期望。我会努
力学习,争取在科举考试中脱颖而出,成为一名真正的读书人,受人尊
敬。这样,我就可以改变命运,让我的生活更加美好。

我还会教育那些不尊重读书人的人,让他们了解读书人的价值。同
时,我也会努力提高自己的品行,让他们知道,我们这些读书人不仅知
识渊博,还有崇高的品德。

可惜呀,这世上哪有这种酒呢?我这一生已经过去大半,只能顺其
自然地度过剩下的日子。不过,有您这么关心我,我心里也觉得很温
暖。

在向孔乙己提问、跟他对话时,仿佛真的进入了鲁镇,面前真的是
个身材高大、满面颓唐的老头子。从鲁迅这篇小说的区区两千五百字
里,大模型学到了孔乙己的精髓,把他带到了我们面前。 ㊟ 【以上
的“观点辩论”“模拟角色对话”,在理念上参考了可汗学院基于GPT
开发的Khanmigo教学助手。】

172
◎图3.2 大模型饰演的孔乙己

图片来源:作者使用AI制图软件绘制。

(4)项目式教学法(PBL, Project-Based Learning)。项目式教学法

173
强调让学生通过参与实际项目的设计、实施和评估来学习知识和技能。
在PBL中,学生需要主动探索和应用知识,解决现实世界复杂的问题,
完成跨学科的任务,这对于学生的学习兴趣、批判性思维和创新能力、
人际合作与沟通能力都有很大的帮助,可以为学生未来的职业生涯做好
准备。

对于教师,要转向PBL教学法,除了要花费更多的时间,还面临着
更多的挑战,例如,改变教学角色、跨学科整合知识和资源、重新制定
评估标准和办法、引导学生的自主学习能力、适应小组管理,等等。

大模型可以为PBL教学法提供一系列的帮助:

提供教学资源和建议:在教师从知识传授者往学习引导者和协调者转型
时,大模型可以为教师提供相关的教学资源、案例和建议,帮助他们更
好地理解和实施PBL。甚至在学习课程之前,让学生提出自己的个人兴
趣,大模型将每个人的兴趣点与课程领域联系起来,策划成个性化的学
习项目,让兴趣相近的学生分到同一组,这样可以增强学生的好奇心和
学习动力,并通过项目实践获得更深的认识。

示例:

人类输入:如果学习统计学和人工智能课程时,学生的兴趣是足球,如
何联系起来,并且定制相应的学习和实践内容呢?

大模型回答:以下是一些建议:

数据收集与分析:让学生收集足球比赛的数据,如进球数、射门次
数、传球成功率等。利用统计学知识对这些数据进行描述性统计和推断
性统计分析,帮助学生理解数据背后的趋势和规律。

魔球(Moneyball):介绍魔球的概念和背景,阐述如何通过数据分
析和统计学方法发掘球员潜力和优势,从而在预算有限的情况下建立成
功的球队,思考如何将魔球的理念应用到足球领域。

机器学习:引导学生使用机器学习算法,如决策树、支持向量机或

174
神经网络,根据历史数据预测比赛结果或分析球员表现。让学生了解不
同机器学习算法的特点及其在实际问题中的应用。

深度学习与计算机视觉:让学生研究如何利用深度学习和计算机视
觉技术分析足球比赛视频,例如识别和追踪球员、计算球员运动轨迹
等。让学生了解深度学习和计算机视觉在实际问题中的应用。

协助跨学科整合:跨学科知识是大模型的天生优势,教师可以利用大模
型获取其他学科领域的知识和信息,更好地整合跨学科的内容。

提供项目评估建议:PBL重点要评估学生项目的过程、成果和技能,大
模型可以为教师提供关于如何制定评估标准和方法的建议,帮助他们进
行更有效的评估。在多模态大模型的条件下,还可以结合图片和文字的
理解,尝试对学生项目过程和成果进行辅助评价。

支持学生的自主学习:大模型可以直接为学生提供学习支持,如解答疑
问、推荐资源等,减轻教师的负担。为了防止学生对大模型的过度依
赖,系统记录下学生使用大模型的全部过程,对教师开放,确保学生的
项目交付有自己的成果。

参与项目讨论和引导:在各组的项目讨论中,大模型(辅以录音录像设
备)可以作为一分子参与其中,对学生之间的讨论进行记录和总结,并
适时给出自己的建议和引导。可以减轻教师的负担,也弥补教师在多学
科交叉项目中自身知识面无法全能覆盖的问题。

理论上,大模型可以在PBL教学法的多个环节产生作用,但应用效
果不会一蹴而就,仍需要实践探索和优化,尤其需要针对PBL教学领域
进行数据集成、模型微调和Prompt定制。

175
大模型在教育行业的潜在应用机会和价值

我国教育行业具备万亿级别产值的市场规模。根据教育部发展规划
司的数据,2022年我国共有各级各类学校51.85万所,学历教育在校生
2.93亿人,专任教师1880.36万人,新增劳动力平均受教育年限达14
年。

教育作为典型的知识密集型行业。首先,大模型可作为教师的个人
辅助工具(副驾模式),提升教师的工作效率。教师由此可以将更多时
间用来关注学生,更多关注人的角度而非知识的角度,提高学生的学习
动机,从而提升教育质量。

其次,当大模型在垂直科目上的数据训练和应用实践成熟之后,在
教学工作的某些环节(例如一对一的全科答疑),大模型可以承担独立
的职能(代驾模式),嵌入教学流程中。此时,未必是由大模型替代原
有教师人员(因为大部分学校不支持这个环节),而是帮助教师提供更
高质量的教育服务,让学生获得更好的学习效果。

最后,在大模型的多模态能力被充分释放、对教育领域的定制和训
练足够成熟、教师与大模型的脑机协作形成默契之后,新的教育产品服
务就更有可能问世。例如,一对一个性化教育、PBL项目式教育等,从
而形成颠覆性创新,扩大教育产业的市场规模,容纳更多就业(例如跟
大模型协作的PBL辅导员),同时显著提升学生的创新能力和批判性思
维。

教育是一个特殊的产业。教育与技术之间的赛跑,会直接影响技术
变革对全产业生产率的提升效果。当大模型的应用推动教育质量的提
高,各行各业便会得到更多高质量的、更适应大模型时代需求的人才,
由此激发各行业内的颠覆性创新,从而产生更大的、无法估量的价值。

人力资源应用

人力资源场景的典型痛点

176
人力资源是企业运营中与人打交道最频繁、最复杂的业务领域之
一。员工、管理者、专业技术人员等人才是企业生产和发展的重要力
量。招聘、员工评价和人才培养是人力资源管理中的重大环节,它们直
接关系到企业人才资源的优化配置,关乎企业的竞争力和发展潜力。

招聘环节的过程烦琐,通常需要耗费大量时间和资源,但有时结果
并不理想。招聘环节目前存在以下几个痛点:

■公司对职位描述和职位要求主要基于对工作的描述、公司标准及
期望候选人具备的一些“技术技能”组合而成,并非基于抱负、学习敏
捷性、文化契合度和目标一致。

■招聘流程太复杂,人力资源部门需要处理大量信息、筛选大量简
历,导致资源浪费。

■难以明晰背调工作和保护隐私之间的边界。

员工评价旨在提高员工的绩效和发展。但是,评价过程和结果也可
能存在以下问题:

■管理者评价的客观性不足,他们可能更关心员工在核心任务或指
标上的表现,而忽视员工的潜力和独特贡献。

■晋升的整个前提是基于“晋升能力”/“潜力”与“当前工作绩
效”(9格网格),当前评价方法正在逐步落伍。

■员工自我评价可能不够准确或太保守,他们可能不想过度吹嘘自
己的能力和成就,或者担心评价结果会对晋升或奖励产生负面影响。

人才培养旨在提高员工的绩效和发展,但IBM一项面向全球首席执
行官的调查显示:65%的首席执行官认为企业当前的培训是无效的。同
时,管理者领导力发展过程中“按需辅导”的教练需求也无处不在。当
前,教练和培训分别存在以下问题:

■员工培训的直接目的就是要发展员工的职业能力,使其更好地胜

177
任现在的日常工作及未来的工作任务,而企业HR(人力资源管理者)
盲目地根据主观意识进行培训课程内容的规划,无法对症下药满足受训
员工的实际要求。

■企业HR在开展培训前,没有对员工进行合理的知识测试,根据不
同层级员工群体实施分群体教学,没有进行练习、加深和巩固知识内
容,一下课就全部忘之脑后,培训中常出现的“个性化不足”“有培训
无考核”“有培训有考核无评估”等问题。

■许多领导者需要一对一职场教练的帮助,以观察他们当下所做的
事情,并在困难场景(包括但不限于裁员对话、与下属沟通问题、扩大
影响力等)及时提供帮助、答案、建议和沟通技巧,但这些需求往往还
没有得到完全的发觉和满足。

大模型如何解决人力资源场景中的问题

ChatGPT能够减少痛点,提高招聘、员工评价和员工培训的效率,
确保公司能够更好地管理和发展其人力资源,主要表现在以下方面:

招聘:扫描数以万计岗位上员工的经历、总结、扫描Github、撰写的
文章、汇报材料、述职报告等材料,生成针对这个岗位的个性化职位描
述和职位要求,并抽象出一些高频工作和关键画像。

批量阅读和理解投递过来的候选人简历,根据提供职位描述和职位
要求完成第一轮简历筛选,并针对每位候选人,预先生成个性化的面试
提问。

支持公司检索和查询当地反歧视和背调相关的法律法规,搜集员工
历史多维度公开数据,在核实员工关键信息,完成背调流程的同时,也
保证的招聘各个环节都能符合法律规定。

员工评价:可以通过让大模型在不同岗位上分析表现最好的人和表现不
佳的人日常的工作任务、输出材料等,挖掘之前未定义的优秀标准和未
来目标。

178
通过搜集企业每一位员工各个方面的资料,在原有的“晋升能
力”/“潜力”与“当前工作绩效”(9格网格)的基础上,进一步“增
加团队影响力”“积极态度”“主人翁精神”等不同方面的评估标准,
以帮助公司更全面地评价员工。

整合管理者或员工的360度反馈,总结生成合作评价、岗位评级和
绩效报告,帮助高级管理人员追踪员工表现和发展的进度。

员工培训和领导力教练:大模型阅读该岗位历史的培训材料和产品信
息,生成一个员工需要学习和了解的内容大纲。

围绕核心学习大纲,进一步填充岗位培训和公司文化培训的具体内
容,以及构建配套的测试题目与在线学习指南,最终成为公司中的“个
性化岗位培训”。

公司可以采用大模型技术,将领导模型和管理方法放入大模型中,
为每一个员工和管理者构建个性化的领导力教练。通过对话式交互,员
工和管理者可以输入日常所做的事情、遇到的困惑和期望如何处理,进
而获得公司精心设计的答案、指引、建议和技巧,并得到职业发展反
馈。这种个性化的教练可以快速提高领导能力、提高学习效率和效果,
并帮助员工和管理者取得更大的职业成功。

以下是大模型在人力资源场景中应用的示例。

丽丽是招聘负责人,她现在需要招聘一个AI高级产品经理。在招聘
前,她计划用ChatGPT查询当前外部和劳动力市场中,该岗位有竞争力
的薪酬、奖励、激励和其他福利计划的情况。

丽丽:当前有竞争力的AI高级产品经理薪资水平是怎样的?

ChatGPT:AI高级产品经理的薪资水平因公司、地区、经验等因素
而异,但可以参考以下数据:

在美国,AI高级产品经理的平均年薪普遍为140000 ~ 200000美
元,但也有很多公司提供更高的薪资。例如,硅谷地区的一些大型科技

179
公司可能支付每年高达250000美元的薪资。

在中国,AI高级产品经理的平均年薪大约为30万~50万元人民币,
但具体数额还取决于其所在城市和公司规模以及市场需求。

需要注意的是,以上数据仅供参考,实际薪资水平会根据具体情况
有所不同。

在确认了大概薪资之后,丽丽上传了之前岗位的目标与关键成果
(OKR, Objectives and Key Results)以及总结材料,让ChatGPT根据
历史岗位情况,为她写出一份适合岗位的职位描述(JD, Job
Description)。

丽丽:帮我参考以下岗位的历史信息生成一份招聘要求,需要包含工作
职责和职位要求。

参考信息:

历史OKR:完成厂内PR,至少1个业务方联合PR;完成PoC流程/
方案总结,支持至少3个PoC项目;完成至少1个语音垂域行业的产品解
决方案;完成车载语音ASR服务的交付;上线初版英文TTS服务;构建
未成年人场景语音方案;音近匹配能力预研;完成至少1次内部运营工
具的迭代,上线badcase分析工具。

基本要求:负责Al语音产品商业化落地工作,2年以上AI产品经理
工作经验,本科以上学历。

ChatGPT:

职位名称:Al语音产品经理

工作职责:

1.负责Al语音产品商业化落地工作,实现产品的商业化应用。

2.根据公司OKR制定具体的产品目标,并负责实现这些目标。

180
3.研究市场需求和竞争情况,提出产品需求和改进建议,优化产品
特性和用户体验。

4.协调内外部资源,推进产品研发和交付进度,确保按时完成产品
开发和上线。

5.跟踪产品使用情况和效果,收集反馈并进行数据分析和挖掘,调
整产品策略和方向。

6.参与制定公司Al语音产品的战略规划和发展计划,提出具体实施
方案。

7.持续了解技术趋势和发展动态,更新并完善产品知识和技能,推
动团队技术创新和进步。

职位要求:

1.本科及以上学历,计算机、人工智能、电子通信等相关专业背
景,2年以上AI产品经理工作经验,熟悉AI产品开发流程,具有较强的
产品策划和管理能力。

2.具有良好的团队合作精神,能够与不同部门、不同背景的人员协
作开展工作。

3.具有敏锐的市场洞察力和分析能力,对新技术有高度兴趣和热
情。

4.具备较好的英语读写能力,能够进行英文资料、论文阅读者优
先。

如果您符合以上要求,欢迎您加入我们的团队!

丽丽找寻到一位候选人的PDF简历,她将此简历上传到ChatPDF
㊟ 【ChatPDF(https://www.chatpdf.com/)是一款基于大模型的文档
对话工具,可支持对PDF文件进行解析、为文件中每个段落创建语义索

181
引后,调用底层大模型API接口理解用户的意图,并为用户提供文本对
话、知识问答等个性化的服务。】 工具中,工具在解析到简历的关键
信息后,和丽丽交互式聊了起来。

ChatPDF:你好!我是候选人的简历PDF文件,很高兴能与您交
流。以下是我的个人信息、教育背景、科研经历和工作经历。我是一名
熟练使用多种产品软件的产品经理,同时也有编程和英语能力。我曾在
物联网产品中心工作,负责推动产品飞速发展,包括构建公司的物联网
(IoT)开放平台B2C能力和建设IoT云原生托管平台等。如果您对我的经
历和能力有任何疑问,请随时问我。

丽丽:你能胜任这份Al语音产品经理的工作吗?

工作职责:

1.负责Al语音产品商业化落地工作,实现产品的商业化应用;2.根
据公司OKR制定具体的产品目标,并负责实现这些目标;3.研究市场需
求和竞争情况,提出产品需求和改进建议,优化产品特性和用户体验;
4.协调内外部资源,推进产品研发和交付进度,确保按时完成产品开发
和上线;5.跟踪产品使用情况和效果,收集反馈并进行数据分析和挖
掘,调整产品策略和方向;6.参与制定公司Al语音产品的战略规划和发
展计划,提出具体实施方案;7.持续了解技术趋势和发展动态,更新和
完善产品知识和技能,推动团队技术创新和进步。

职位要求:

1.本科及以上学历,计算机、人工智能、电子通信等相关专业背
景,2年以上AI产品经理工作经验,熟悉AI产品开发流程,具有较强的
产品策划和管理能力;2.具有良好的团队合作精神,能够与不同部门、
不同背景的人员协作开展工作;3.具有敏锐的市场洞察力和分析能力,
对新技术有高度兴趣和热情;4.具备较好的英语读写能力,能够进行英
文资料、论文阅读者优先。

ChatPDF:候选人作为一名产品经理,她在工作经历中有物联网产

182
品中心的相关工作经验,其中包括负责从0到1建设IoT云原生托管平
台、负责人云物联网开发平台等。她也在科研经历中研究了流数据时空
相关性模型。根据职位要求,她具备本科及以上学历,计算机、人工智
能、电子通信等相关专业背景,并且有2年以上AI产品经理工作经验。
她也具备良好的团队合作精神和敏锐的市场洞察力和分析能力。至于是
否能够胜任这份Al语音产品经理的工作,需要面试官进行综合评估。

候选人还需要进一步进行综合评估,丽丽又提出了她最关心的AI能
力问题。

丽丽:能否摘要候选人有AI相关的能力或经历吗?

ChatPDF:根据候选人的PDF文件,她具备以下AI相关的能力或经
历。

1.负责AI语音云平台产品迭代,重点优化语音对话管理、声纹交
互、质检统计查询与复核等功能,新增行为分析、意图分析等功能,完
善语义模型与音频匹配规则。

2.设计语音转写引擎的自助实时验证工具,包含转写、角色分离、
语速检测、时间抓取等功能的效果展示,音频验证效率提升40%。

3.在物联网产品中心担任技术产品和负责人职位,负责云物联网开
发平台和物联网设备洞察等相关工作。

4.在科研经历中研究流数据时空相关性模型,并设计数据质量的度
量模糊逻辑系统。

丽丽在摘要中,确认了候选人掌握语音相关的经历后,还关注候选
人的性格特点,她又再追问。

丽丽:候选人是否具备敏锐的市场洞察力和分析能力,对新技术有高度
兴趣和热情?

ChatPDF:根据候选人的PDF文件,她在工作经历中负责AI智能语

183
音分析解决方案,研究市场需求和竞争情况,提出产品需求和改进建
议,优化产品特性和用户体验。同时,在物联网产品中心担任技术产品
和负责人职位,负责从0到1建设IoT云原生托管平台、负责人云物联网
开发平台等。这些经历表明她具备敏锐的市场洞察力和分析能力,并对
新技术有高度兴趣和热情。

这位候选人基本符合了丽丽的要求,丽丽根据候选人的情况,再生
成了一些个性化的问题,方便业务面试官进一步考察候选人。

丽丽:公司希望候选人后续重点投入在参与制定公司Al语音产品的战略
规划和发展计划,是否能结合候选人的工作经历,生成一些相关方向的
面试问题?

ChatPDF:当然可以。根据候选人的工作经历和职业背景,以下是
一些可能与公司Al语音产品的战略规划和发展计划相关的面试问题。

1.您在负责AI语音云平台产品迭代时,如何考虑市场需求和竞争情
况,并提出产品需求和改进建议?

2.在物联网产品中心担任技术产品和负责人职位时,您如何从0到1
建设IoT云原生托管平台,并规划产品路线图(RoadMap),策划低门槛
弹性容器节点、数据库/云存节点等核心能力?

3.您在设计语音转写引擎的自助实时验证工具时,如何提高音频验
证效率并助力客户产品验证与转写报告快速出具?

4.您在研究流数据时空相关性模型时,如何考虑数据质量的度量模
糊逻辑系统,并设计相应的属性建模、时序数据库选型、数据分析等方
案?

5.对于公司Al语音产品的战略规划和发展计划,您有哪些想法或建
议?如何结合市场需求、技术趋势等因素进行分析和决策?

在跟大模型协同工作成功之后,HR可以将招聘面试前的脑机协作
流程固化为“生成岗位描述——询问候选人关键能力匹配情况——询

184
问核心价值观匹配情况——生成针对性面试问题”,并将这个流程快速
复制到多种工作岗位,在更大范围内提升招聘工作的效率。

但ChatPDF生成的第4个问题是一个技术问题,并不适合提供给候
选人面试,丽丽在删除掉问题4之后,将剩余的问题提供给业务初试面
试官,进一步考察候选人。

虽然大模型是HR优秀的个人工作助手,但当前还不能完全替代初
筛环节,需要HR根据专业知识在各个环节仔细把关。

大模型在人力资源领域的潜在应用机会和价值

根据世界就业联合会(WEC, World Employment Confederation)


统计,2020年全球人力资源服务行业规模约为5320亿美元(约合人民
币3.6万亿元)。根据人力资源社会保障部统计,2021年,我国人力资
源服务业年营业收入2.46万亿元,比2020年增长22.31%。大模型在人
力资源领域具有很大的应用前景,可以帮助企业减轻工作压力、提升员
工满意度、加快工作效率、促进人才管理和发展。尤其是在招聘优化、
简历筛选、员工绩效评估、员工培训与教练方面,大模型能为人力资源
专员提高效率和准确率,大大缩短人才招聘、评价和培训的时间,最终
减少企业用人成本,提升劳动生产力。

法律工作应用

法律服务的典型痛点

法律服务,是指律师及其他法律工作者或相关机构以其法律知识和
技能,为法人或自然人实现其正当权益、提高经济效益、排除不法侵
害、防范法律风险、维护自身合法权益而提供的专业服务。律师及其他
法律工作者在提供法律服务的过程中,需要根据客户和监管机构的不同
要求,出具“法律意见书”“尽职调查报告”“律师工作报告”“专项
核查意见”等多种形式的文件。在诉讼阶段,律师除了需要向法庭提交
证据等诉讼文件外,有时还需要向客户出具案情分析意见,并向纠纷相
对方出具律师函等文件。律师出具法律意见应当严格依法履行职责,保

185
证其所出具意见的真实性、合法性。律师应当根据客户的委托和事实情
况,认真分析问题、研究法律,并对所出具的文件负责。

这些工作需要律师具备较强的专业性、学习和鉴别能力,以及处理
大量文书工作和客户咨询的能力。同时,律师在执业过程中也面临着激
烈的竞争和长期的工作压力,常常会出现以下痛点:

■持续学习和更新知识:法律行业的法规和法律政策不断变化,因
此法律工作者需要不断更新自己的知识和技能,以及适应不断变化的法
律环境。

■超时工作和工作量压力:法律工作者需要应对大量文书工作、客
户询问和法律研究等任务,需要花费大量时间和精力,导致超时和工作
量压力。

大模型如何解决法律服务中的问题

大模型能实现法律工作中的对话、摘要、语义的检索、抽取和生
成,帮助律师在以下方面,实现法律知识获取、时间节约和工作效率的
提升。

■辅助文书撰写。法律工作者需要经常起草各种法律文书,而将最
新的法律行业法规和法律政策导入ChatGPT后,其可以根据最新的司法
解释,提供文书写作的建议和指导,帮助法律工作者撰写规范、专业的
法律文书。

■辅助案件分析。许多法律案件需要进行分析和判断,而将历史的
相关判例和司法解释导入ChatGPT后,其可以提供分析和判断的建议,
帮助法律工作者更好地理解案情并做出正确的决策。

■法律知识客服。输入多领域法律法规(包括但不限于刑法、民
法、劳动法、商法等),ChatGPT可以回答法律咨询者的各种法律问
题,所涉及的领域非常广泛,也能够帮助法律工作者分拣并判断客户的
法律需求,减轻工作量。

186
■内容安全。律师办理案件时,必须了解相关案件细节,如当事人
的聊天记录、案件发生的相关信息等。这些信息往往会涉及公安部门所
掌握的数据。因此,在使用这些信息时,必须严格遵守保密协议,将其
妥善私有化并在严格监督下使用和销毁。

■输出真实性。ChatGPT在回答法律问题时也需要克服一些可能存
在的“幻觉式”输出行为,比如未能对案件事实进行充分的查证、提供
不存在的法律信息等。为确保使用ChatGPT的法律工作者能够获得高质
量的、真实可信的输出,需要进一步增加验证机制以验证ChatGPT输出
内容的准确性及可信度,以避免出现潜在的法律风险。

Casetext是美国一家以法律研究而闻名的法律技术公司,其目前基
于OpenAI最新、最先进的大型语言模型GPT-4,研发了法律AI助手
CoCounsel。该助手能够以自然语言的交互方式,进行不亚于法律专业
研究生水平的阅读、理解和写作,还能够自动执行关键的、耗时的法律
任务。

CoCounsel能够支持基于本地文档库文件的问答、法律法规或内容
的检索,同时还能实现生成法律备忘录、总结协议关键信息、提取合同
数据和提供风险条款修改建议等功能。其目标是优化律师的工作方式,
减少重复工作,打造一个专属于法律工作者的高效便捷工作环境。相比
人工,CoCounsel能够更快、更准确、更高质量地完成工作。这是一项
具有重要意义的技术创新,对法律领域的数字化转型和效率提升起积极
的推动作用。

GPT-4相较于GPT-3.5有以下两点提升:一是更可靠、更有创造
力,能够理解并处理指令中的微妙之处;二是具备更高的智能水平,在
学术和专业考试中的表现接近人类最高水平,如以排名前10%的成绩通
过了美国统一律师考试(The Uniform Bar Exam)。法律AI助手
CoCounsel通过以下两个工作进一步提升了助手出具结果的真实性和合
法性:

■可靠输出。大模型擅长于制造令人信服的“幻觉”,由于AI的表
现优劣与其训练数据有关,通过权威语料和Transformer模型的突破性

187
技术的法律搜索工具Parallel Search,能够立即找到传统关键词搜索方
法可能遗漏的关键法律概念。依托Parallel Search,法律AI助手
CoCounsel现在可以利用可靠权威数据,以极高的准确度和速度生成答
案并输出引用链接,支持用户轻松验证检索内容的可靠性。

■专业可信测试。Casetext建立了一个由经验丰富的诉讼律师以及
AI工程师组成的专门团队管理可信度。自2022年10月以来,可信度团
队已花费近4000小时,根据30000多个法律问题,对CoCounsel的输
出进行培训和微调,保证结果的专业性和可行性。

当前,法律AI助手CoCounsel已经可以完成包括文件审查、法律研
究和合同分析在内的复杂任务。目前集成助手的产品,已受到10000多
家律师事务所的信赖。

以下是大模型在法律服务场景中应用的示例。

关律师是一位资深律师,已经有超过10年的执业经验。他积累了大
量的案件记录、法律文书和律师函等数据,希望能高效、快速地检索和
利用这些积累下来的案件数据,以更好地支持后续的案例分析。

在法律领域中,安全性和真实性至关重要。ChatGPT采用的嵌入式
向量(Embedding)技术是一种能够将关键词和搜索指令转换成向量的技
术,可以支持本地文档库的文件问答、法律法规或内容检索等功能。引
入嵌入式向量技术,可以显著提高搜索引擎的准确性和真实性,并进一
步改善搜索体验。值得一提的是,该技术已被集成在法律AI助手
CoCounsel中,为法律工作者提供了更为精准和高效的搜索与问答服
务。

关律师可以通过法律AI助手CoCounsel使用
Embedding+ChatGPT,将个人案件管理库和GPT-4关联,在保证案
件内容安全性的同时,利用该技术为后续的案件提供精准的匹配搜索结
果。

■收集个人案件数据:律师需要先收集自己处理的案件数据,包括

188
案件名称、类型、案情描述、当事人信息、法律问题、案件进展情况等
信息。纳入数据集的途径可以是案件记录、法律文书以及律师函等。

■数据清洗和预处理:律师将案件数据文件夹同步到法律AI助手
CoCounsel中,CoCounsel负责对文件夹内容进行清洗和预处理,包
括去重、格式化、标准化等操作,以确保数据的准确性和一致性。

■数据嵌入(Embedding):在对案件数据进行预处理后,
CoCounsel采用嵌入技术将案件数据转换为向量表示,并保存在本地。
这样既能支持后续大型模型处理和分析,也能通过向量化保证数据集的
安全性。

■请求Prompt构造:数据向量化完成后,当律师输入查询关键词、
时间范围、问题等内容,并希望获取相关案件信息及其对应文本时,
CoCounsel将通过向量匹配本地的案件记录、法律文书或律师函中的具
体文本,并将律师提出的问题和检索到的内容构造成特定格式的
Prompt,请求大型语言模型GPT-4云端服务。此外,向量检索也能提
供参考答案并提升查询结果的真实性和速度。

■支持案例分析:在CoCounsel的帮助下,律师能够利用该案件管
理库支持自己的案例分析工作。通过输入案情描述或相关信息,他可以
从数据集中获取相似的案例信息和建议,提供更好的决策和分析。同
时,借助该库的能力,还可以调用GPT-4的分类、聚类、预测等功能支
持案件核心内容的提取、关键信息的比对和查证等工作,以助推执业效
率。

通过以上步骤,关律师可以建设一个完整、高效的个人案件管理
库,从而提高办案的效率和质量,并找到案件数据背后的特征与规律。
这将是一个基于机器学习实现智能检索的工具库,并能快速对案件进行
分类、定位、展示和可视化等操作,提高律师的工作效率,从而更快、
更好地为客户提供优质的服务。

大模型在法律服务中的潜在应用机会和价值

189
根据Mordor Intelligence的法律服务行业人工智能市场分析报
告,全球法律服务行业人工智能软件市场的产值预估可达5.4844亿美
元,预计2027年将达到25.8704亿美元,在2022—2027年的预测期内
预计增长29.17%。根据LexisNexis进行的“2020年法律分析研究”,
大约92%的律师事务所计划在未来12个月内增加并采用人工智能进行
分析,大约73%的公司已经在使用人工智能来获得关于对方律师、当事
人和法官的意见分歧。大约59%的公司使用人工智能来确定案例评估和
案例策略。人工智能在法律行业的渗透深度也将逐年扩大。

律师事务所一直积极利用新兴技术来提高生产力和效率,其中人工
智能不可或缺。人工智能正在成为律师事务所的下一个重大技术趋势,
它可以用于许多法律工作,例如尽职调查(审查合同、法律研究,或执
行电子发现功能以进行尽职调查)、预测技术(预测法院正在审理的案
件的可能结果)、法律分析(提供来自过去判决和判例法的数据点,供
律师在当前案件中使用)、文档自动化、知识产权和电子计费等各种法
律工作。

政府工作应用

政府工作的典型痛点

信息和通信技术(ICT)应用于政府服务和程序,旨在提高效率、透
明度和公民参与,这被称为电子政务(E-Government),已被世界各地
的许多政府机构采用。电子政务能够提高办事效率,进而提升民众信任
和绩效期望,还能进一步增强公民幸福感和认同感。但在政府推进电子
政务和提升其效率的过程中,存在以下几个痛点:

190
■决策信息需求大:在政府决策过程中,政府部门需要获得广泛的
民意和意见,而这需要面对多方渠道,包括面对面走访、汇报、新媒体
等,以获取大量的信息数据,充分掌握问题的全貌,进而指导政策制
定。政府部门必须做好信息来源的综合和分析,准确理解由不同渠道获
得的信息数据的意义和价值,从而制定符合实际情况和民生需求的切实
可行的政策。

■会议准备和记录工作繁重:政府会议是保障政务公开、民主决策
和政府效能的重要载体,但因为对各方面议题涵盖面广,政府会议的准
备和记录工作较为繁重。同时,为了确保会议顺利进行和政府工作的透
明度和可操作性,政府工作人员还需要及时记录和整理会议讨论中的各
方意见,整理和归档各种会议文档和资料,保障公众利益。

■政策解释复杂:政府公告和政策在追求严谨性的同时,为了详细
全面地阐述问题和指导实践,往往需要列举大量前置条件和涵盖各种复
杂情况。这导致政策解释对于普通民众而言比较困难和复杂,同时也要
求政府职员具备严谨的政策理解能力和较高的解释能力。政府需要不断
创新和改进政策解释方式和工作流程。

大模型如何解决政府工作中的问题

大型语言模型能够发挥其归纳、总结和个性化支持的能力,支持政
府的电子政务提升效率,主要表现在以下3个方面:

■信息整合和分析:大模型可以迅速整合、分析和处理政府部门需
要面对的大量信息。政府职员可以将各个渠道获得的数据、群众意见和
反馈信息输入大型模型,通过大模型强大的分析能力,快速了解多个渠
道的信息和反馈,从而制定更加适应当今实际情况的政策。

■会议助理:大模型与语音识别(ASR)、机器人流程自动化(RPA)和
语音合成(TTS)等技术相结合,可高效支持参会人员在对话、文件准备
和整理、会议记录,以及待办事项生成等方面的工作。这减轻了会议准
备和记录工作的业务压力,提高了记录、文件归档和工作推进的效率。

191
■智能服务与解释:大模型可以通过人工智能技术和一问一答的交
互方式,为公众提供个性化的政策解读和答疑,并为政府提供更加便
捷、智能的服务,以满足不同群体的需求。

以下是大模型在法律服务场景中应用的示例。

A市经过几年的电子政务建设中,已经成功搭建了一网通办市民服
务平台,实现了政务信息和市民服务向“互联网+”转型。市民现在可
以在该服务平台上在线办理住房公积金和个人所得纳税相关的业务。在
住房公积金的提取方面,A市支持在购房提取、租房提取、还贷提取,
以及其他住房消费提取等4种情况下提取住房公积金,每种类型都有对
应的适用条件和需要的材料。

尽管A市提供了比较详尽的《公积金提取管理规定解读》,但每月
仍有许多市民通过电话等方式咨询此业务。因此,A市计划以住房公积
金为试点,引入大型模型来实现智能化的政务服务。

小虎是A市一网通办市民服务平台的IT技术专员,他准备通过大语
言模型+Embedding+Fine-tune技术,搭建一个智能政务机器人,并
将其集成到一网通办市民服务平台上。

步骤一:数据准备

■收集《公积金提取管理规定解读》的原始文本数据,包括各种提
取方式、条件、流程、政策等内容。

■提取市民询问最多的关于住房公积金的问题及回答,针对高频问
题,构建标准的问答对,形成一个标准测试集。

■将原始文本数据进行清洗、分析、去重等数据预处理,以便后续
使用。

■采用大模型的Embedding技术,将处理后的文本数据进行编码,
生成词向量表示。

192
步骤二:模型训练

■根据训练数据和目标,选择合适的大模型和超参数,将构建好的
机器人模型在公积金提取领域的相关数据在大模型进行训练。

■通过多轮训练,逐步优化模型的性能,提高其准确率和可用性。

步骤三:系统集成

■用构造的高频问题问答对测试集,测试训练好的智能公积金提取
对话机器人模型,评估模型上线后的满足程度。

■设计并实现用户界面,使用户能够通过平台与机器人进行交互。

■将机器人集成到一网通办市民服务平台上,测试机器人在平台上
的表现,优化其交互逻辑和用户体验。

■发布上线后,不断观察市民反馈,构造数据迭代模型,提高机器
人的智能化程度和功能覆盖范围。

通过以上步骤,小虎就可以利用大模型的Embedding和Fine-tune
技术,将《公积金提取管理规定解读》转换为智能公积金提取对话机器
人,进而把普通用户的申请引导到线上,并协助他们完成整个流程。

王伯长期在深圳居住和工作,他的户口在佛山市,但最近在惠州市
购买了一套房子。在购房过程中,好友提醒他可以使用深圳市的公积金
来提取一部分购房款项。然而,他之前从未办理过相关手续,不知道该
如何申请公积金提取。

幸运的是,小虎开发的基于ChatGPT的智能公积金提取对话机器人
已经上线,它可以帮助王伯了解公积金提取政策,并在办理过程中为他
提供辅助。王伯在一网通办市民服务平台上找到智能机器人后,开始与
机器人对话:

王伯:你好,我是在A市工作的B市人,刚在C市买房,能提取在A市缴

193
纳的公积金吗?

智能公积金提取机器人:您好,根据A市住房公积金管理中心的规
定,只要您在A市缴纳过住房公积金,就可以在A市提取公积金,与您
的户籍所在地或现居住地无关。

因此,即使您是B市人,在A市工作并缴纳了住房公积金,也可以
在A市提取公积金用于在C市购买房屋。您可以通过A市住房公积金管理
中心的官方网站或手机App申请提取。如有任何疑问,请咨询当地住房
公积金管理中心的相关人员,他们将为您提供详细的指导和帮助。

王伯:好的,那怎么提取公积金呢?

机器人:您可以通过以下步骤来提取深圳市的住房公积金:

1.登录深圳市住房公积金管理中心的官方网站或微信小程序。

2.准备好相关证明材料,如身份证、购房合同、房屋产权证明等。

3.根据要求在线上传证明材料,选择你需要的提取方式(一次性提
取或按月提取),并填写相关银行卡信息。

4.后台将根据证明材料进行资格审核。如审核通过,将受理您的提
取申请,您的住房公积金会被划拨至您提供的银行账户中。

需要注意的是,不同提取方式的具体操作步骤、提供材料可能会有
所不同,您需要仔细阅读住房公积金管理中心官方网站或微信小程序提
供的操作指南,以确保顺利完成提取过程。如果您有任何疑问或需要帮
助,请及时联系当地住房公积金管理中心的人工客服,他们将为您提供
详细的指导和帮助。

王伯根据智能机器人的指引,点开了线上申请入口,按照小程序的
指引,开始上传购房合同、身份证等,但过了一周,发现提取要求被拒
绝了,他再次打开智能公积金提取机器人,希望询问具体原因。

194
王伯:我上周申请了公积金提取,为什么会审核不通过呢?

机器人:您好,您最近一次公积金提取审核不通过的原因是购房合
同不完整,请您检查上传购房合同的完整性。

王伯根据智能机器人的指引,立刻下载了之前上传的购房合同扫描
件,发现确实遗漏了最后的签字盖章页。于是王伯重新扫描购房合同,
再次在线上申请了公积金提取。最终,王伯按照机器人的提示,成功申
请A市公积金提取,得到了购房款项的支持。

同时,小虎在一网通办市民服务平台上,发现基于大模型的智能公
积金提取对话机器人上线后,可以帮助市民解决办理和申请过程中的实
际问题,公积金提取的人工工单量也下降不少。小虎准备持续搜集线上
反馈和迭代模型,为市民提供更加便捷、快速的智能政务服务。

大模型在政府工作中的潜在应用机会和价值

据智研咨询发布的《2023—2029年中国电子政务行业市场发展现
状及投资策略研究报告》,2008年国内电子政务市场规模为740亿元,
而到2021年则已增长至3900亿元。在2008-2021年期间,中国电子政
务市场规模年复合增长率约为13.64%。电子政务市场所包括的软件、
硬件、网络设备及服务市场。2021年我国电子政务市场规模为3900亿
元中,其中软件占比为24%(928.6亿元),服务占比为30%(1186.4
亿元),二者占比之和已超过50%。

大语言模型的出现将极大地提升电子政务的智能程度。通过智能对
话、数据分析、内容摘要等技术,政府机构可以构建智能化的在线客
服、智能问答系统,深度挖掘和分析公众反馈信息、舆情等,提高政府
服务效率和服务质量,为公众提供更好的在线服务体验。此外,大语言
模型还可以为政府机构提供更加个性化的服务,让公众获得更加贴心的
服务,同时帮助政府机构更加高效地解决问题、提高工作效率等。大语
言模型的出现将进一步促进电子政务市场的发展,为政府机构提供更加
高效的工作手段,提高政府服务效率和服务质量,同时也提升公众对政
府的信任感。

195
数字游民及个人IP工作应用

数字游民通常是指那些通过互联网和移动设备追寻自由、独立和灵
活的新型职业人群,他们可以在任何地点和时间进行自己的工作。而个
人IP则是指个人在社交媒体等平台上,通过内容输出和品牌塑造来建立
自己的个人品牌。

数字游民可以通过自己的工作和生活方式,成为个人IP的代表。他
们可以在社交媒体上分享自己的工作经验、旅行经历、生活感悟等,吸
引更多的粉丝和关注者,进而建立起自己的个人品牌。同时,个人IP也
可以通过数字游民的工作经验和生活方式来提升自己的影响力和关注
度,进而带动自己的商业价值。

想要成为追寻自由、独立和灵活的新型职业人群中的一员,需要很
强的自我管理能力、大量的时间和心力来输出有价值的内容,还要不断
提高自己的创新能力和竞争力,解决税务和版权等方面的问题,实现持
续稳定的商业价值和成功塑造个人品牌。

大模型如何解决数字游民及个人工作中遇到的问题

ChatGPT可以为数字游民和个人IP提供全方位的指导和帮助,协助
他们在自我提升、创作输出和团队组建的过程中,快速且稳健地成长,
同时培养稳固的粉丝群体和逐渐扩大影响力,以实现个人目标和商业价
值。ChatGPT能够提供的帮助,具体如下:

■ChatGPT可以为个人IP提供创作灵感和内容方向的建议。对于个
人IP的创作领域和主题,ChatGPT能够提供有价值的内容输出的思路。
此外,大模型可以帮助个人IP进行市场分析和评估,通过数据剖析和趋
势分析,快速把握市场热点、趋势变化和受众需求,协助个人IP做出相
应的调整和创作,以提高内容的质量和受众的认可度。

■ChatGPT可以统计观众留言数据和爆款文章,为数字游民提供当
下热点的主题和话题,帮助数字游民及时调整自己的内容和营销策略,
从而抓住营销风口,增加视频的曝光和观看量,获得更多的观众和粉

196
丝。

■ChatGPT可以协助数字游民和个人IP建立自己的品牌形象。它可
以提供策略和技巧,帮助数字游民和个人IP更有效地利用网络资源和社
交媒体,建立起自己的个人品牌与独特化的个人形象。在此过程中,
ChatGPT能够提供一系列的工具和指导,例如品牌设计、推广渠道、社
群管理等,以提高数字游民和个人IP的曝光度,发掘潜在客户,为其发
展壮大打下基础。

当数字游民接到需要团队开展的工作时,ChatGPT还可以通过分析
工作类型和要求,提供人力资源相关的工作描述生成、简历匹配筛选和
面试总结评估,协助他们根据工作需求快速招募和组建团队,在最短时
间内找到最适合的人才。

以下是大模型在数字游民及个人工作场景中应用的示例。

35岁的阿雯刚从某互联网大厂离职,转变为一个数字游民。她准备
在小红书、视频号、B站上同步开始打造自己的个人IP。首先,她需要
准备一个拍摄脚本,讲述自己想要转变为数字游民的心路历程。

阿雯:请为我生成一个小红书风格的文案,核心是介绍自己转换成数字
游民的心路历程,关键词包括“35岁”“大厂辞职”。

ChatGPT:【告别大厂,我35岁成为数字游民的自由之旅 】

今天想和大家分享我的心路历程——一个35岁辞去大厂工作,投
身数字游民生活的勇敢尝试。

之前,我拥有稳定的工作、高薪水,以及人们羡慕的社会地位。可
是,每天朝九晚五的生活让我感到窒息。我越来越觉得生活失去了激情
和向往。

就在我满怀困惑的时候,我无意间了解到了“数字游民”这个概
念。它让我看到了另一种生活可能。于是,我在35岁这个人生的关键时

197
期,毅然决然地辞去了大厂的工作,成为一名勇敢的数字游民。

如今,我的办公室可以是咖啡馆、海边或者遥远的他乡。我可以在
任何地方通过网络完成工作,自由支配时间,过上真正的自由生活。

回首过去,我不禁感慨万分。这个改变让我重新找到了生活的激情
和对未来的期待。虽然这条路并不容易,但我知道这正是我内心所渴望
的。

我想告诉大家,不要害怕改变,不要担心年龄。当你勇敢地迈出脚
步,你会发现自己的人生可以有无数种可能。35岁成为数字游民,我找
到了心中的自由天堂!

#大厂辞职# # 35岁# #数字游民# #自由生活# #人生改变#

阿雯看了一遍文案,感觉它虽然包含了一些小红书上常见的表情
包,讲述也比较符合自己的心路历程,但需要调整一点行文的内容风
格,于是她输入修改要求。

阿雯:根据以下特点,调整上一段生成的文案:小红书上,喜欢称呼别
人为刘亦菲、姐妹,喜欢称呼自己先生为队友。

ChatGPT:【告别大厂,刘亦菲们来听我35岁成为数字游民的自
由之旅 】

姐妹们,今天想和大家分享我的心路历程——一个35岁辞去大厂
工作,投身数字游民生活的勇敢尝试。

之前,我拥有稳定的工作、高薪水,以及人们羡慕的社会地位。可
是,每天朝九晚五的生活让我感到窒息。我越来越觉得生活失去了激情
和向往。

就在我满怀困惑的时候,我无意间了解到了“数字游民”这个概

198
念。它让我看到了另一种生活可能。于是,在队友的支持下,我在35岁
这个人生的关键时期,毅然决然地辞去了大厂的工作,成为一名勇敢的
数字游民。

如今,我的办公室可以是网红咖啡馆、清澈海边或者遥远的他乡。
我可以在任何地方通过网络完成工作,自由支配时间,享受阿姨带娃做
饭的贴心服务,过上真正的自由生活。

回首过去,我不禁感慨万分。这个改变让我重新找到了生活的激情
和对未来的期待。虽然这条路并不容易,但我知道这正是我内心所渴望
的。

姐妹们,我想告诉大家,不要害怕改变,不要担心年龄。当你勇敢
地迈出脚步,你会发现自己的人生可以有无数种可能。35岁成为数字游
民,我找到了心中的自由天堂!

#大厂辞职# # 35岁# #数字游民# #自由生活# #人生改变#

阿雯获得文案之后,还希望拍一个视频,表达自己刚成为数字游民
的喜悦。

阿雯:帮我根据这个文案,写一个转换成数字游民身份的视频脚本。

ChatGPT:

标题:【告别大厂,35岁成为数字游民的自由之旅】

时长:3:20

镜头1(00: 00-00: 10)

镜头从空中俯瞰一栋摩天大楼,配上旁白:“这里是我曾经拼命打
拼的地方——一家知名大厂。”

镜头2(00: 11-00: 20)

199
镜头切换至主人公在办公室的样子,一边忙碌着工作,一边看着窗
外。旁白:“每天朝九晚五的生活让我感到窒息,我渴望寻找更多的可
能。”

镜头3(00: 21-00: 30)

主人公在家中浏览关于数字游民的资料,眼中闪过光芒。旁
白:“在我最困惑的时候,我发现了数字游民这个概念,它为我的生活
带来了全新的视角。”

镜头4(00: 31-00: 40)

主人公与队友(先生)在家中交流,互相鼓励。旁白:“在队友的
支持下,我鼓足勇气,毅然辞去了大厂的工作。”

镜头5(00: 41-01: 20)

展示主人公在不同场景下工作的画面:咖啡馆、海边、山间等。旁
白:“如今,我的办公室可以是网红咖啡馆、清澈海边或者遥远的他
乡。我可以在任何地方通过网络完成工作,自由支配时间,过上真正的
自由生活。”

镜头6(01: 21-01: 40)

主人公在生活中享受阿姨带娃做饭的贴心服务。旁白:“这种生活
让我感受到前所未有的轻松和快乐。”

镜头7(01: 41-02: 20)

主人公与队友一起旅行、度过美好时光。旁白:“回首过去,这个
改变让我重新找到了生活的激情和对未来的期待。虽然这条路并不容
易,但我知道这正是我内心所渴望的。”

镜头8(02: 21-02: 50)

主人公面对镜头,分享自己的心得。旁白:“姐妹们,我想告诉大

200
家,不要害怕改变,不要担心年龄。当你勇敢地迈出脚步,你会发现自
己的人生可以有无数种可能。”

镜头9(02: 51-03: 00)

镜头拉远,主人公与队友在阳光下微笑拥抱。旁白:“请相信自
己,勇敢地去追求你内心的自由与梦想。或许有一天,我们会在某个角
落相遇,一起分享数字游民的自由生活。”

镜头10(3: 01-3: 10)

画面展示一段文字:“感谢一路支持的刘亦菲们,也感谢我的队
友。愿我们都能找到属于自己的自由与幸福。”

镜头11(3: 11-3: 20)

画面渐暗,主题曲响起,视频结尾。

这个视频脚本以主人公的视角讲述了从大厂辞职,成为数字游民的
心路历程,希望能够激发观众勇敢地追求自己的梦想,过上真正自由的
生活。

阿雯在拍摄了视频之后,ChatGPT还能根据不同平台的营销特点,
根据视频号、B站、YouTube上的内容调整,支持后续的文本改写、翻
译和热点主题推荐等工作。

大模型对数字游民及个人工作的潜在应用机会和价值

据统计,全球大约有3500万名数字游民,数字游民的平均年龄为
40岁,30多岁的人占全球所有数字游牧民47%左右。许多国家已经加
入并创建了专门的数字游民签证,数字游民在当地消费和服务上消费,
为当地经济做出贡献,并增加该国的GDP。据估计,数字游民每年消费
达7870亿美元,这是各国可以利用的巨大经济机会。生成式AI就是一
种非常有用的工具,它能够生成自然语言、图像、音频等多种形式的内
容,并且已经被广泛应用于广告、电影、音乐、小说等领域。以文章撰

201
写为例,生成式AI可以利用先进的NLP技术和深度学习算法,生成类似
于ChatGPT的自动回答或者提供灵感,使作者不再手忙脚乱。而在个人
IP打造和内容生产方面,生成式AI也能够分析用户数据、识别客户需
求、洞察市场趋势等,辅助进行精准的内容营销和推广活动,提升IP曝
光和影响力。这将为我们的数字生活带来更多的惊喜和乐趣,提升数字
游民内容创作、资讯获取和IP打造的效率。

知识工作型应用总结

知识工作者是指那些从事知识密集型工作的人,包括教师、人力资
源专员、律师、科学研究人员、政企管理人员、程序员、工程师、医
生、数字游民,等等。随着信息技术的发展和知识经济的兴起,知识工
作者将在现代社会扮演越来越重要的角色。

拥有广泛知识和技能的大模型智能应用,首先能够成为知识工作者
的个人辅助工具。例如,根据知识工作者的领域和主题,提供创作灵
感、内容方向的建议和输出更有价值的内容;可以快速生成文章大纲、
段落和关键词等信息,为他们提供语言翻译、语法检查和拼写检查等文
章辅助创作功能等。

其次,当大型语言模型在特定领域的应用实践成熟,可以进一步与
私有数据库进行整合,嵌入企业或组织的知识工作流程中。基于高度可
信的专业信息和领域知识,这样做可以实现支持高安全性的文档库文件
问答和内容检索功能,以及招聘面试前的脑机协作流程等,从而提高工
作效率。大型语言模型的应用还可以在某些环节调整岗位的职责分工,
使得企业和组织高效利用大模型提供的生产力,并进一步推动行业和社
会的发展。

最后,当大模型的多模态能力充分释放,并通过算法、数据、人类
辅助等方式将错误信息掌握在可控范围内时,可能对更多知识工作型行
业可能产生颠覆性的创新。例如,教育行业的一对一个性化教学,法律
行业的个人律师顾问,或者领导力一对一职场教练等。

202
11 企业业务型应用
企业通过各种生产和经营活动来创造物质财富,提供满足社会公众
物质和文化生活需求的产品和服务。大模型在企业生产经营活动中的应
用,可提升企业在市场营销、售前、售后、产品设计、采购、生产、商
业分析和企业管理等各个环节的生产效率,这不仅帮助企业在市场竞争
中获取更多的优势,还对社会生产力和社会经济发展起到重要的推动作
用。

接下来,我们以一家快速发展的跨境电商公司为例,介绍大模型在
企业中的典型应用。这家电商公司计划在今年不断扩大业务范围,提高
市场份额,并对市场营销、售后服务、产品设计以及商业分析等环节进
行优化。预计在接下来的几个月中,该公司将展开以下工作:

■加强市场营销,改进和升级产品文案,使其更符合市场和人群需
求。

■加强售前、售后、辅助下单等环节对客户的服务和沟通效率,提
高客户转化率。

■对产品进行改进和升级,包括但不限于产品设计、性能、易用性
等方面。

■利用先进的商业分析和效率工具,深入挖掘数据以提升业务决策
水平。

市场营销

市场营销的典型痛点

市场营销可帮助企业创造竞争优势,通过以客户/用户需求为中
心,形成自己的经营特色,企业由此可以保障自身的市场地位。小胡是

203
最近从普通销售转岗成为公司的市场营销和产品运营经理,他当前的工
作面临以下痛点:

■市场同质化。市场竞争日益激烈,产品同质化现象比较严重,如
何通过营销手段在激烈的竞争中脱颖而出,成为企业需要面对的一个问
题。

■受众分散。消费者的喜好和需求日益多样化,不同年龄、性别、
地域、文化背景的消费者都有不同的需求和心理,如何有效地将营销活
动针对不同受众进行定制,是企业需要解决的问题。

■跨文化沟通。企业如果要开展跨国营销,需要考虑如何在跨文化
背景下有效传达信息,保证翻译的准确性和质量,避免因表述不清产生
不必要的误解。

■品牌影响不足。跨境电商出海过程中,品牌传播范围和影响不
足,那么广大潜在用户很有可能不知道公司的存在,也不知道公司提供
的产品和服务。这样一来,很难吸引并满足不同地区的用户偏好,也难
以留住老客户的忠诚度。

大模型如何解决市场营销中的问题

(1)文案生成。大模型可以支持跨境电商产品的运营,促进产品在
国际市场的推广。大模型可以撰写个性化的产品文案,充分考虑不同文
化和市场的特点,以确保信息传达的准确性和有效性。同时,大模型还
可以支持对多种语言进行翻译,方便企业多种渠道拓展市场,提高在国
际市场的品牌知名度和商品销售额。

■产品文案撰写:撰写具有吸引力的广告和促销语言,并根据不同
市场的文化偏好进行个性化的调整。

■跨文化沟通:帮助市场营销人员熟悉不同国家和地区的商业礼仪
和文化,从而更好地与国际客户和供应商进行跨文化沟通,生成符合邮
件、即时通讯(IM)、对话等形式的内容,建立良好的商业关系。

204
■外语翻译和润色:帮助翻译商品信息、产品文案,并根据不同的
文化偏好进行个性化的调整。

小胡在把商品推向国际市场的过程中,不仅要掌握基本的外语沟通
技巧,还需要广泛阅读相关信息,了解不同国家的市场特点和文化偏
好,将不同国家和地区的习俗与传统融入到产品营销文案中。

以下是大模型在市场营销场景中文案生成应用的示例。

在ChatGPT bot的界面,小胡可以以聊天交互的方式,使用
ChatGPT提供的服务,以产品文案生成为例。

首先,我们向ChatGPT阐述当前的角色定义(Role)。点明当前的业
务范围及业务目标,然后进一步描述当前业务的细节,框定ChatGPT大
致的任务范围。最后,增加一个问句确认ChatGPT是否已经进入到设定
的背景和角色当中。

小胡:我们公司是一个跨境大码女装品牌,希望延伸人们对色彩、自
然、情感共通的热爱与表达,分享内心生活的感动和喜悦。当前我们准
备研发新一季的秋装,产品包含T恤、外套、裤子和裙子等,当前品牌
主要客群是北美40岁以上的女性。我将提供产品运营日常工作中遇到的
一些实际需求,可能涉及编写具体的产品宣传文案、进行数据分析、分
析客户具体的意图并提供有效的回复等。你能够扮演这样的一个产品运
营和我对话吗?

ChatGPT:当然可以,我很乐意帮助你。请问你有具体的问题或需
求吗?我可以为你提供一些有用的建议和解决方案。

Tips:可以将公司基本信息、愿景等内容放到角色定义中,帮助
ChatGPT更好理解这个角色。

在角色定义完成后我们就要开始干活了。在ChatGPT在进入角色定
义后,我们可以为其提供了更细致的“任务背景”,再定义“任务目
标”,同时试着让它为我们提供一个产品宣传文案的框架。

205
小胡:现在,作为一个产品运营,你需要去编写我司新款秋装的宣传文
案,用敏锐的目光去发现改进点,并提供建议。请为我提供一个产品宣
传文案的框架模板,模版要涵盖产品的不同方面,使用逻辑严密且清晰
的语言,有优雅、清晰、易于理解的结构。这是一件新款的秋装外套,
请为我生成这款外套的宣传文案,本季度的重点是强调自然和情感的共
通。

ChatGPT:当然可以,以下是一个基本的宣传文案模板,包括五个
部分:

引言:吸引读者的注意力并简要介绍产品的亮点。

描述产品特点:介绍产品的各种特点和优势。

描述适用场景:描述产品适用的场景和人群。

呈现品牌文化:描述品牌文化和愿景,与产品特点联系起来,创造
品牌形象。

结语:鼓励读者购买。

接下来是本季度秋装外套的宣传文案模板:

引言:这件外套既经典又新颖,是秋季必备的单品。我们的设计团
队将自然美学与优秀品质结合在一起,致力于为您提供优雅、高品质的
时尚选择。

描述产品特点:这款外套的面料采用高质量纯羊毛材料,舒适、柔
软、保暖,同时呈现自然的色彩和纹理。颜色、材质和线条的完美结合
使这款外套成为一种即使在最冷的天气里也能保持温暖,时尚感和舒适
的选择。

描述适用场景:外套设计保暖性强,适合在寒冷的季节穿着,能够
搭配各种配件轻松打造出典雅女性的造型,适合多种场合,如商务聚
会,晚宴,这件外套让您成为人群中的亮点。

206
呈现品牌文化:我们始终坚信,最好的设计来自自然,这是整个品
牌的核心价值观。每一件产品都在设计、生产和销售环节的质量管理体
系中,以产品结构的稳定性驱动和符合健康和环保标准的生产过程为基
础。通过我们的外套,您可以感受到品牌背后的美学和创新精神。

结语:这个外套将成为您在秋季的新伙伴,让您在任何场合都变得
时尚而自信,尤其是在寒冷的季节里,让您的时尚之路更加美好。我们
希望能够在您的衣柜中留下美好瞬间的印记,期待您的购买。

接着,根据ChatGPT提供的段落框架,填充商品的详细信息、具体
产品受众和营销渠道等细节,最终生成一篇营销文案。

小胡:这件新款的秋装外套,成分是95%的羊毛和5%的锦纶,高羊毛
的天然材料,展现出面料低调内敛的哑光质感。外套颜色是米色、驼
色、白色、灰色,全部为低饱和度的淡色,整体简洁清爽又不失质感。
目标客群北美40岁以上的女性,同时也关注大教堂和福音歌手。请在外
套的宣传文案中为我强调这些产品细节。

ChatGPT:当然可以。以下是针对这样一件新款秋装外套的宣传文
案,包括五个部分:

引言:我们献上一款兼具优雅与舒适的外套,采用高质量的95%羊
毛和5%锦纶,呈现出低调且内敛的哑光质感。本款外套色彩简约清
爽,是秋季必备的单品。

描述产品特点:这款秋装外套的面料采用精选高含量纯羊毛,以及
最新的制作工艺和设计型号,为您提供优质的暖度和适宜的保温性。同
时,由于使用低饱和度的淡色系调色板,外套具有高品质的质感,整体
风格简洁清爽。

描述适用场景:本款外套适合北美地区40岁以上女性穿着,契合大
教堂和福音歌手等特别人群的关注度,也非常适合商务、聚会、晚宴等
各种场合的穿着,让您在舒适中展现优雅风范。

呈现品牌文化:我们相信,美好设计来自自然的材料与灵感,这是

207
品牌核心价值观所在。在设计和生产本款外套时,我们完美结合了这一
价值体系和现代科技制作工艺,并承诺在质量管理和环保制度方面达到
业内最高标准,致力于打造更加优质、可持续、绿色的时尚品牌。

结语:这款外套将成为您的秋季必备单品,让您在任何场合下都能
展现出自己的优雅气质。我们期待这款产品能够为您带来无数个美好瞬
间。赶紧购买吧,卓越品质与温暖陪伴您度过这个秋季!

Tips:此处给予商品的基本参数、受众及最大的亮点,方便
ChatGPT融合整体框架和基本信息。

最后,若本次生成的产品宣传文案不满意,还可以进行多次尝试
——或融合多版文案中的细节或修改点,或要求ChatGPT根据不同地
区的文化习惯,生产多版本的终稿文案。

小胡:我们还准备开辟欧洲作为此女装的第二市场,为我再生成一
份针对欧洲女性的营销文案。

ChatGPT:欧洲女性引领时尚潮流,我们的新款秋装外套既符合她
们的品位,又强调了细节的质感。这款外套由95%的天然羊毛和5%的
锦纶混合而成,其羊毛材料的天然柔软、柔和的哑光面料和低饱和度淡
色,都将为佩戴者带来欧式时尚感和深厚的文化底蕴。

我们的新款秋装外套颜色包括米色、驼色、白色和灰色,适合各种
场合,无论是正式的晚装还是随意的休闲外套都很合适。无论你是聚
会、外出散步还是商务洽谈,都能让你从容自信、大气优雅,并且得到
别人的注目和赞美。

不仅如此,对于在欧洲关注大教堂和福音歌手的女性,这款外套更
可作为自信心的象征。欢迎你们享受这款高品质时尚外套的奢华,轻松
展现出你们无可比拟的时尚风格。

(2)插件辅助品牌建设。ChatGPT当前的用户数量已经超越1亿,他
们在页面上每天提出数以亿计的问题。

208
如果在ChatGPT开发并上架一个垂类电商购物咨询的插件,可以有
效支持海外潜在用户在ChatGPT聊天的过程中,通过插件进一步了解这
一类商品的各种细节,同时也有机会介绍某些品牌的品牌故事、产品介
绍、宣传理念等,提高品牌传播范围和影响力。

用户在使用前,必须在ChatGPT UI中手动激活开发的插件。当用
户提出跨境电商产品相关问题时,如果模型判断其与插件主题相关,可
能会选择从公司的插件请求调用API。

垂类电商插件能根据用户的问题和描述,提供商品信息,推荐最适
合的商品,综合商品其他客户的历史评价给出质量评分和摘要,同时结
合客户所在的地点预估物流时长。

大模型会将电商插件API输出的结果合并到对用户的响应中。

用户在获得插件API内容后,可继续通过对话与插件进一步交互。
比如直接将推荐的商品加入他的购物车中,或者跳转到插件推送的具体
商品网址以进一步浏览的商品和描述详情。这将是一个新型的跨境电商
品牌渠道。

售前沟通

售前沟通的典型痛点

跨境电商公司需要从不同的渠道获得大量的订单,这些渠道包括亚
马逊、eBay、Shopify等平台,以及搜索引擎、社交媒体、新闻媒体
等。然而,由于每个渠道的语言类型、用户表达、购买偏好等方面都有
所不同,需要对这些文本内容进行分析和处理,以便为公司提供更准确
的商机信息。

在这种情况下,售前沟通场景中存在以下几个主要痛点:

■邮件内容质量参差不齐、规范化程度低、个性化不足。不同渠道
的数据质量、数据格式、结构等方面可能存在差异,需要人工对这些邮
件和数据进行整合和处理,这可能会导致数据缺失或错误的情况。在无

209
法获取准确数据的情况下,许多销售人员使用模板话术来回复客户询
问,但这种做法难以满足客户的个性化需求,容易让客户认为销售人员
没有花费足够的精力去了解他们的具体情况和需求,导致销售机会流
失。

■在线客服成本高、耗时长。面向国际市场的跨境电商公司,若使
用传统的客户呼叫中心模式,需要招聘大量的多语种客服员工,不仅耗
时费力,而且成本较高。同时因时区分布,难以为客户提供7*24小时
无间断服务,使得部分客户等待时间过长。

大模型如何解决售前沟通的问题

(1)邮件生成。大模型通常可通过归纳翻译客户邮件信息、编写机
器人流程自动化(RPA)代码和生成个性化回复来完成场景需求:

■归纳翻译客户的邮件信息:ChatGPT可以帮助销售人员轻松地收
集和整理客户的邮件信息,并提供相应的翻译服务,以确保不会错过任
何邮件信息。特别是在处理国际客户或多语种邮件时,ChatGPT可以帮
助销售人员消除语言障碍,快速地理解和回复客户邮件,从而提高贸易
的效率和质量。

■编写RPA代码自动化工作流程:ChatGPT还可以为销售人员生成
RPA代码,以便自动化一些常规或烦琐的工作流程。例如,自动化数据
处理、报告生成和文档分类等,这些方面的工作自动化将使销售的工作
更加高效和精确,减少工作压力和错误率。

■生成个性化回复邮件:ChatGPT可以根据销售的需求和客户的邮
件内容生成个性化的回复邮件。同时,ChatGPT还能为您提供相关的邮
件编写建议,以帮助您更好地应对客户的问题和需求。这种个性化的服
务将帮助企业建立与客户之间的良好关系,从而增加客户的忠诚度,提
高订单转化率。

下面重点介绍大模型在售前沟通场景中邮件生成应用的方法。

阿明是跨境电商的销售人员,今天他收到了一封英文客户来信。

210
阿明打开Outlook上的copilot工具,希望能为他总结一下邮件内
容,以便更好地理解客户的意图。

阿明:请用中文总结以下邮件的客户意图。

Dear Sir,

……(此处邮件内容省略)

Best regards

ChatGPT:这封邮件的客户意图在于询问跨境电商公司的夏季T恤
款式。客户对该公司的夏季T恤款式产生兴趣,并期望公司给出详细信
息和反馈,以便他们做出购买决策。客户希望通过此邮件向公司表达她
们的关注和意图,并期望通过公司回复更详细地了解公司的产品和服
务。

这个季度T恤的销量比较好,阿明希望筛选一批库存超过100的T恤
给到客户,公司当前已经接入了UIPath的RPA系统,但他不会写
UIPath的RPA代码,于是他打开ChatGPT,打算生成一份。

阿明:你能为我写一段UIPath的RPA代码,用于查询商品数据库中库存
超过100件的夏日T恤吗?

ChatGPT:当然可以,以下是示例UIPath的RPA代码,用于查询
商品数据库中库存超过100件的夏日T恤:

·打开数据库连接:

Open Connection Activity:

ProviderName:Microsoft.ACE.OLEDB.12.0

DatabasePath:“C:\\Inventory\\Database.accdb”

·执行查询:

211
Execute Query Activity:

SQL:“SELECT FROM Products WHERE Product Name=’夏


日T恤’ AND Quantity>100”

·循环遍历结果,输出库存数量:

For Each Row Activity:

DataTable:OutputDataTable

RowIndex:row

Write Line Activity:

Text:“夏日T恤 的库存量为“+row(“Quantity”).ToString()

此代码可以打开名为Database.accdb的数据库连接,查询夏日T恤
的库存量是否超过10,如果超过10件,就在控制台输出库存量。

请注意,此代码仅供参考,实际使用需要根据具体的数据库结构和
需求进行调整。

阿明将代码粘贴到RPA机器人中,机器人为阿明查询到了公司还有
3个符合要求的本季T恤款式。阿明注意到这是一个第一次询价和接触的
中东客户,他希望将客户的文化习惯、交流特点与查询结果融合在一
起,生成一封个性化的回信。

阿明:当前查询到了3款T恤,请针对这位中东客户的文化习惯和交流特
点,为我生成一份回复邮件。

ChatGPT:

Dear Sir,

We hope this message finds you well. We are excited to hear

212
that you are interested in our T-Shirt styles for the summer
season. In response to your inquiry,we offer a wide range of T-
Shirt styles that are both comfortable and stylish.

Please find below a list of our top 3 T-Shirt styles for the
summer season:

1.Classic Graphic T-Shirt in White and Black

2.Minimalist Design T-Shirt in Light Pink and Baby Blue

3.Sporty Style T-Shirt in Lime Green and Charcoal Grey

At AA company,we understand that cultural differences


may impact the design and style preferences of our customers.
As such,we have designed our collection to offer a variety of
options to suit different cultural and personal preferences. We
have incorporated a range of colors,designs,and sizes to
ensure that we can provide a perfect fit for everyone’s unique
body type and style preference.

We take pride in providing our customers with high-quality


T-Shirts that last beyond the season. Our T-Shirts are made from
premium materials to ensure durability and longevity,so you
can enjoy them for a long time.

We invite you to visit our website www.aacompany.com to


view our full collection. If you have any specific styles or
questions,please do not hesitate to contact us. Our customer
service team is here to help address your concerns and provide
you with more information.

Thank you for considering AA company for your summer T-


Shirt needs. We look forward to hearing from you soon.

213
Best regards,ChatGPT for AA Company

(2)智能语音。随着技术的不断发展,ChatGPT利用NLP技术可以
实现更加智能的语音应答。这意味着,用户可以直接通过语音或者文字
传达所需,让ChatGPT自动处理客户需求、投诉等问题,无需人工介入
便可向客户提供更快、更准确的答案,不必像过去那样按照多层级导航
菜单进行复杂的输入选择才能获得信息,大大提高了客户的满意度和服
务效率。

此外,ChatGPT还可以同时兼顾多语种理解、语境分析和情感分
析,越过语言障碍,从客户的上下文、表达方式、表达用语中获取更多
信息,识别客户的情感状态,从而更好地加速服务,或给客户提供情感
支持,缓解客户的不良情绪。

最后,ChatGPT可以支持7*24小时无间断的用户意图理解服务,
并提供智能、快速、高效的解决方案。ChatGPT可以实现24小时全球
全自动服务,不受时间、地点限制,可以理解客户所需的服务或问题,
给出具体的解决方案或提供相关信息,大大缩短客户等待时间,提升客
户满意度。

214
◎图3.3 智能语音引擎的运行机制

跨境电商公司的智能语音客服系统,通常由ASR识别模块将语音转
为文字,由多语言意图识别模块、多方向的客服模块和答案融合模块组
成智能语音引擎,最后由TTS语音合成模块将回答转为语音支持客户应
答。

ChatGPT可以在意图识别、知识问答、任务执行及闲聊这几个模块
发挥作用,下面重点介绍利用大模型实现意图识别和知识问答的方法。

客户在浏览商品或选购前后,都会提出一些问题,此时需要研发一
个分类模型,判断客户提出的问题属于哪一种意图,给予客户哪些引导
和回复更加合适,部分示例如图3.4所示。

◎图3.4 多语言意图识别模块分析示例

由于电商领域的意图识别存在许多专业特点,ChatGPT作为一个通
用大模型,不一定能在专业领域做到精确的识别,因此,企业可以使用
私有数据进行监督微调训练(即大模型预训练之后的第二阶段训练,详
见技术篇),使模型能够更准确地识别和理解电商领域的多语言短语和
语音,定向提升高频头部意图的分发效果,也方便后期跟随市场的拓
展,拓展智能语音新增支持的语种、产品和服务等。

215
以下是大模型在售前沟通场景意图识别和知识问答应用的方法。

在旧客服系统中,因上游ASR错误、分发模块技术局限、意图识别
模块效果一般,会产生10%的分发错误case(例如用户说“收到货发现
不能贴身穿,怎么办”,应该属于“退货询问”,结果被系统误识别
为“商品询问”),从而给用户返回错误的沟通内容,引发用户投诉。
软件工程师康康在考虑到意图识别模块的精确性和可拓展性后,他准备
通过ChatGPT-3.5-turbo的微调功能来优化意图识别的分类效果。

微调工作分为4个阶段:

第一阶段:环境配置和数据准备。准备微调训练相关的语料,训练
数据主要由“用户提问+意图分发”的标签构成,例如:

{“prompt”:“收到货发现不能贴身穿,怎么
办?”,“completion”:“售后-退货询问-消极”}

{“prompt”:“¿Podría ayudarme a recomendar algunos


productos populares?«,«completion»:«售前-商品询问-积极”}

每类标签组合最好超过20条数据,准备的训练数据量最好超过200
条以上。

第二阶段:数据加载和微调模型阶段。将准备好的训练数据交给IT
算法同学,由算法同学选择不同价格、大小的基础模型进行训练。

第三阶段:数据加载和微调模型阶段。计算各个分类的精确率
(Precision)、召回率(Recall)和F1值(具体计算公式见详细操作流
程),验证模型微调前后的效果收益(微调带来了多大的指标增长),
并回归测试新模型是否解决旧系统中的痛点case。

第四阶段:上线应用阶段。微调模型服务有收益,且上线后,持续
观察智能语音系统的意图分发模块收益。当分类指标下降时,及时分析
痛点case,判断是否需要启动新一轮微调。

216
康康在微调了意图分发模型后,还需要进一步建设智能问答系统的
知识问答模块。为了支持多语言文本的快速匹配计算,ChatGPT还可以
提供一个嵌入(Embedding)服务,将文本转化为一个向量,快速支持文
本检索、查找和匹配相关功能。在售前场景中,康康在用意图分发模型
判断了用户提出跨境发货政策、退货要求等的意图分类后,还可以继续
使用嵌入功能,从电商企业私域知识库中获取最符合用户意图的专业知
识回复,完成“用户提问-意图识别-在知识库中搜索最相似的答案-用
户回复”的闭环。

以下是一个知识问答应用例子。

客户问题:I’m sorry to say that I’ve received the goods


but I’m quite disappointed with them. I would like to know
about your darn return policy!

通过意图识别模型获得客户问题的类别,跳转到知识问答模块:

环节-售后;意图-退货询问;情绪-消极

康康将客户问题输入到嵌入(embedding)模块,获得文本向量作为
输入,检索企业知识库:

检索到了以下6条跟客户问题相关度较高的内容。

将客户原始问题、检索到的相关知识库内容拼接成新的Prompt输
入给ChatGPT:

prompt= """Answer the question as truthfully as possible


using the provided text,and if the answer is not contained
within the text below,say “I’m sorry,I don’t know. You can
click here to contact our customer service representatives for
assistance.”

217
Context:

1.We have a 7-day free return policy,which means you


have 7 days to apply for a return after receiving the goods.

2.To be eligible for a return,your product must be in the


same condition as when you received it,without any wear or
use,with tags attached and in the original packaging. You also
need a receipt or proof of purchase.

3.If you receive a defective or unsatisfactory product,please


take a photo and contact our customer service staff first. We will
tell you the next steps of the return process and ensure that your
refund and return are properly arranged.

4.If your return is accepted,we will send you a shipping


label for the return,as well as instructions on how and where to
send the package.

5.Sorry,we do not accept items shipped back to us without


prior request for returns.

6.We will notify you once we receive and inspect your


return,and let you know if the refund is approved. If
approved,you will receive the refund automatically via the
original payment method. Please note that your bank or credit
card company may require some time to process and mail the
refund.

Q:I’m sorry to say that I’ve received the goods but I’m
quite disappointed with them. I would like to know about your
darn return policy!

A:"""

218
基于ChatGPT接口请求后,最终回复:

If you receive a defective or unsatisfactory product,please


take a photo and contact our customer service staff first. We will
tell you the next steps of the return process and ensure that your
refund and return are properly arranged.

售后服务

售后服务的典型痛点

当买家需要选择一件衣服时,他们需要考虑许多方面的问题,例如
风格、材质、尺码、颜色、品牌等各种因素。同时消费者对售后的物
流、反馈也影响着跨境电商公司的口碑和复购率。售后服务中常见的痛
点包括:

■不及时的响应。当消费者遇到售后问题时,如果不能及时得到响
应,会增加他们的不满意度,可能会让消费者放弃维权,甚至失去忠诚
度。

■商品质量担忧。当面对复杂信息时,很难做出最终的决定。尤其
是在没有切身经验和真实用户的反馈之前,买家往往感到非常困惑和不
安。

大模型如何解决售后服务中的问题

作为一个帮助助手,ChatGPT可以解决以下关于售后服务、用户评
论摘要和关键词提取的问题:

■售后服务——ChatGPT可以帮助解决客户的问题并提供售后支
持。例如,通过问答功能提供有关产品的解释和解决方案,以及在必要
时安排退货和换货等。

■用户评论摘要——ChatGPT可以分析和摘要大量的客户评论和反
馈信息,以便立体地、全面地了解用户对产品的观感。这些评论汇总可

219
以用于迭代产品,改善产品和提高客户满意度。

■关键词提取——ChatGPT可以帮助将大量文本提取并分类到更有
意义的信息。在处理产品或服务评论中,可以利用关键词提取功能找出
重要的意见,然后将这些意见集结到一个汇总摘要中。

跨境电商公司需要通过真实用户反馈和评论,提炼出易于阅读和理
解的亮点内容,涉及服装的尺码、面料、版型、风格等方面,为购买者
提供有用的参考信息。同时,面向多款服装,生成面料舒适、版型合
适、颜色鲜艳等商品亮点,支持客户根据自己的关注点进行过滤,更快
地找到符合自己需求的产品。

下面重点介绍大模型在售后服务场景中用户评论摘要应用的方法。

晓晓是跨境电商公司的售后专员,她负责每季度新产品上市后售后
数据统计、商品评价反馈、统计和输出客退质量报告。在春季产品上新
之后,客户在短时间之内产生了大量的评论,晓晓需要从海量真实用户
评论中提取出最易于阅读和理解的亮点摘要,生成商品评价报告。

晓晓当前从各个渠道,搜集到了一份多语言混杂的客户评论反馈信
息。

晓晓准备用ChatGPT分析一下,客户们对这次春装西装的评价。

晓晓:当前你是跨境电商的一个高级售后专员,以上是获得的新季度西
装抽样客户评论反馈信息,请总结以上客户评论中,对西装最满意的点
和不满的点。

ChatGPT:

满意的点:

·质量好、细节做得好

·价格适中、质量豪华

220
·喜欢颜色和款式

·适合春季穿着、舒适、轻便

·良好的设计、适合不同风格和场合

·优秀的面料、柔软、透气、不易皱

·大部分人都赞美这个西装

不满的点:

·尺码偏小或偏大

·物流时间过长

·个别人感觉太紧或太松

晓晓:参考以上回复,下一季秋装设计时应该延续的优点和避免的缺点
是什么?

ChatGPT:延续的优点:

·细节做得好、面料质量好

·合适的价格、奢华感

·设计简单而优雅、适合多种场合

·舒适、轻便的穿着体验

避免的缺点:

·尺码不精准、过大或过小的问题

·物流时间过长的问题

221
·面料过于松软或过于硬挺的问题

·风格过于紧贴某一类型群体的问题,应注意扩大目标用户群体

·个别人感觉太紧或太松的问题,需要更好的尺码套装设计来解决
这一问题。

买家从真实用户评论中,可通过摘要快速发现每款大码女装的亮点
——细节做得好、奢华感、设计简单而优雅,等等。这些亮点摘要帮助
买家告别了信息壁垒,获得了更多选择空间,也就让卖家从消费者那里
获得更多信任。晓晓完成报告编写的时间,也从3天降至0.5天,大大提
升了她的工作效率。

产品设计

产品设计的典型痛点

电子商务市场的变化迅速,产品迭代周期较短,竞争相当激烈。电
子商务产品设计团队需求设计师在市场需求、用户体验以及趋势变化中
迅速且高效地推出创新的设计和产品,以满足客户需求并应对市场竞
争。产品设计过程中常遇到的挑战包括:

■高昂的个性化定制成本。若设计师团队希望根据不同市场和客户
需求来设计和定制个性化产品,他们需要适应各种不同的观点,手动调
整和反馈设计草稿。这不仅可能限制设计的个性化,还会增加定制成
本。

■创新思维的困难。在大数据时代之前,设计团队需要依靠自身经
验和想象力来产生新的设计思路和概念。这可能会受到个人经验和主观
偏好的影响,导致难以产生独特和创新的设计思路。

■低生产效率。设计中的每一个改动都需要设计师手动制作和处理
大量的设计原型和概念,消耗大量的时间和精力,从而降低生产效率

大模型如何解决产品设计中的问题

222
芝芝是一家电商公司的产品设计师,她的目标是为客户提供最好的
产品体验。热爱时尚和创意设计的她最近策划了一个用户设计个性化图
案的T恤产品。这个想法的核心在于为客户提供全新的创意方式,赋予
他们更多的设计自由度,打造真正独一无二的T恤。

ChatGPT可以用于生成设计草图或提供有关设计决策的关键词,以
便客户调整想要放到T恤中的元素。此外,ChatGPT还可以和AI图像生
成软件(如Midjourney、Stable-Diffusion等)结合起来,生成T恤的
设计图,让不会专业设计软件的普通客户,也可以亲自设计一件属于自
己的T恤,展现出创意和个性。

芝芝将通过最新的AI技术——ChatGPT和Midjourney,为客户提
供强大的辅助设计支持。客户提交他们自由输入关键词和想法,随后设
计师使用ChatGPT和Midjourney辅助生成T恤具体图案返回给客户确
认。这样一来,客户可以通过设计师快速的反馈,挑选获得一件个性化
T恤,更快更好地表达自己的创意。

下面重点介绍大模型在产品设计场景中个性化设计应用的方法。

(1)个性化设计。首先,芝芝获得了客户提供的关键词:“我想要
一件自然有活力的T恤。”在开始传递客户想法之前,芝芝先向
ChatGPT阐述当前的角色定义。点明当前用户想要设计的业务范围及业
务目标,然后进一步告知当前ChatGPT业务的细节和大致的任务范围,
便于输出对T恤图案的描述。

芝芝:现在你是跨境大码女装品牌公司一个优秀的视觉设计师,当前需
要设计一款小众新颖的T恤,希望它看起来延伸着人们对色彩、自然、
情感共通的热爱与表达,分享内心生活的感动和喜悦。我该如何描述T
恤的细节需求。

ChatGPT:

您需要描述T恤的细节需求,以确保视觉设计师可以为您创造出符
合您需求的服装。以下是一些提示:

223
1.主题:首先,您需要确定T恤的主题是什么。你可以考虑使用自
然元素,例如花朵、树木、动物或者其他具有自然特征的元素。此外,
您还可以考虑使用抽象或图形图案等非自然元素,但是需要确保它们能
够吸引人们的注意力并传达出您希望传达的情感和信息。

2.颜色:您还需要确定T恤的颜色。颜色对服装的整体视觉效果有
着至关重要的影响。你可以选择颜色鲜艳的鲜艳色调,或者是柔和的暗
色调,以便于传达出所选的主题和情感。一般为了更好地吸引眼球,建
议选用鲜艳的、对比强烈的颜色。

3.款式:您可以考虑使用各种款式的T恤来呈现您希望传达的主题
和情感。如圆领、V领等。其中V领较为适合女性。建议您要选种适合
自己小众品牌风格的款式。

4.字体和文字:如果您希望在T恤上表达些什么话,文字也是一个
重要的元素。您需要确定文字和字体的风格、大小和布局。选择字体清
晰且特殊的字体可以帮助确保信息能够清晰地传达到观众。

总之,您需要在视觉设计师中表达出您对于小众品牌服装风格的期
许,同时注重那种不常见的创意。不仅需要真实感,还需要独特性。

在完成了角色设定后,可以根据ChatGPT给出的框架,挑选一些符
合客户想法描述,同时让ChatGPT在已有关键词的基础上,给出一些联
想出的描述和意向。

芝芝:T恤的主题是活力且自然,核心是抽象的花朵与树叶,颜色是柔
和的莫兰迪色,T恤的款式是圆领,不包含文字。能在关键词的基础
上,增加更多的联想和描述吗?

ChatGPT:

当然,我很乐意再提供几个联想和描述,以帮助您更好地描述您所
需要的T恤细节:

1.真实感:您可以在花朵和树叶图案中体现出真实感,加入细节元

224
素,如花蕾、叶子脉络等等。这可以帮助确保T恤看起来更加自然而真
实。

2.色彩搭配:因为您选择了柔和的莫兰迪色系,您可以考虑在色彩
上进行更多的搭配。例如,您可以将捕捉到的花朵颜色用作T恤的主色
调,并在图案中加入绿色和深紫色等颜色以增强深度和层次感。

3.纹理:您还可以在T恤上创造出纹理效果,以增加视觉上的趣味
性和质感。您可以添加自然元素,如木纹或石纹效果,并在花朵和叶子
上添加褶皱或纹理细节,以使设计更具层次感。

4.轮廓:您可以使用更有趣的图案和线条来定义T恤的轮廓或形
状。例如,您可以使用流线型或波浪形线条来突出花朵和叶子,以引导
观众的视觉焦点,使设计更有趣,并增强T恤的美感与气质。

5.合适性:最后别忘了衣服整体的合适性,花朵和叶子图案也需要
考虑在T恤上的合适位置与大小,不仅能完美展示设计的思路,也能让
人们穿着更加自在。

根据之前的描述,缩短成关键词和短语

芝芝:总结一下当前T恤的设计,给出一些关键词和意向。

ChatGPT:根据您的描述,我总结了当前T恤的设计如下。

1.主题:自然元素,主要包括抽象花朵和树叶

2.风格:富有气质、柔和自然,给人一种深度、层次和宁静的感觉

3.颜色:柔和的莫兰迪色系

4.款式:圆领款式,简单而经典

5.元素:真实感、色彩搭配、纹理、轮廓、合适性

综上所述,当前T恤的设计意向包括:

225
1.通过自然元素表达富有气质的感觉,深度和宁静。

2.使用柔和的莫兰迪色系,使设计更加柔和自然。

3.使用圆领款式,简单而经典。

4.使用真实感、色彩搭配、纹理、轮廓、合适性等元素来丰富服装
的细节和质感,使设计更具深度和层次感。

5.强调整体合适性,让人们在穿着过程中能够更加自在舒适。

因此,一些关键词和意向可以包括:“自然元素”“富有气
质”“柔和自然”“莫兰迪色系”“简单而经典”“纹理和质
感”和“整体合适性”。

修改关键词,并让ChatGPT将关键词翻译成英文。

芝芝:翻译以下内容至英文“主题自然元素富有气质的T恤设计,主要
包括抽象花朵和树叶,流线型的花朵,淡绿的叶子上包含深绿的纹理,
柔和自然,给人一种深度、层次和宁静的感觉,主色为柔和的莫兰迪色
系,圆领款式,简单而经典,实感、色彩搭配、纹理、轮廓、合适
性”。

ChatGPT:The theme of the poster is the Water Festival,


including bright colors,happiness,joy,freedom,
youthfulness,liveliness,natural elements such as flowers,
trees,green plants,water drops,petals,butterflies,and
rainbow. It depicts scenes of children playing,intimate friends
sharing,laughter,happy music,summer,water's coolness,
music,and dance,social gatherings and celebrations,colorful
images,peace,and friendship. It features bold typography,
expressive fonts,impactful message delivery,bold style,it
radiates energy and has a contemporary feel.

Tips:需要将重要的主题或关键词写在前面或者重复多次,这样能

226
更好地激发模型

将ChatGPT写的prompt粘贴到Midjourney中,不到一分钟就有
了以下结果。芝芝帮助客户通过ChatGPT+Midjourney的组合,快速
找到了T恤的灵感和风格。

◎图3.5 通过ChatGPT+Midjourney生成的T恤设计方案

Tips:在ChatGPT和Midjourney的配合中,ChatGPT可以基于客

227
户想法自动化生成独特、创新的设计方案和描述细节,Midjourney则
可以将这些设计方案可视化呈现,为客户高效快速地生成个性化定制的
设计效果图,大大减少个性化定制成本,激发客户的创新思维。

有时候生成的T恤的图案和样式不能让客户完全满意,此时芝芝还
同时提供给客户一些针对MidJourney绘图场景有Prompt优化的网站或
插件,比如MidJourney Prompt Helper、ChatGPT插件AIPRM等,
其可以提供更多的Prompt模版,或在原先的基础上进一步增加艺术风
格、光线、镜头、质感等,提升Midjourney生成图片的质量和效果。

◎图3.6 MidJourney Prompt Helper用户界面

图片来源:https://master--midjourney-prompt-
helper.netlify.app。

Prompt优化了之后,T恤的设计也变得更丰富,客户的选择也增加
起来。

228
◎图3.7 经过Prompt优化后的T恤设计方案

最后,芝芝将设计原型图反馈给客户,并基于客户选定的款式微调
了T恤设计,最终确认了一款T恤样式,进入个性化T恤的生产发货环
节。

(2)海报设计。芝芝最近还需要为即将推出到东南亚的活动设计制
作一张海报。海报上不仅需要强调活动的主题,还需要考虑到东南亚地

229
区的文化和景观多样性,并将这些元素融入到海报中,使之更具有吸引
力和本土特色。在这个过程中,芝芝需要不断尝试不同的设计风格和颜
色搭配来体现活动的主题,以确保海报能够吸引目标受众,同时也需要
保证海报的整体风格与公司形象相符,让公司在东南亚市场获得更多的
关注和认可。

ChatGPT可以帮助产品设计师更好地理解东南亚客户的文化背景,
它可以赋予特定角色后用于联想细节,测试不同的海报描述。ChatGPT
还可以用于自动生成设计草图或提供有关设计决策的关键词,以便设计
师可以根据客户的反馈进行调整。此外,ChatGPT还可以和AI图像生成
软件(如Midjourney、Stable-Diffusion等)结合起来,生成海报的
设计图。

下面重点介绍大模型在产品设计场景中海报设计应用的方法。

在ChatGPT bot的界面,芝芝可以以聊天交互的方式,使用
ChatGPT提供的服务,以泼水节海报设计为例。

我们向ChatGPT阐述当前的角色定义。点明当前的业务范围及业务
目标,然后进一步告知当前ChatGPT业务的细节和大致的任务范围,便
于输出对海报的描述。

芝芝:现在你是跨境大码女装品牌公司一个优秀的视觉设计师,当前需
要设计一款泼水节主题的海报,希望它看起来延伸着人们对色彩、自
然、情感共通的热爱与表达,分享内心生活的感动和喜悦。我该如何描
述海报的细节需求。

ChatGPT:常感谢您的提问。根据您的需求描述,这是一个泼水节
主题的海报设计,让人们能够通过视觉感受到色彩、自然、情感和喜悦
等等。

当设计这款泼水节主题的海报时,以下是您可能想要考虑的细节需
求:

1.色彩鲜艳而富有活力——海报应该使用明亮的颜色和鲜艳的色彩

230
以传达泼水节的快乐、欢乐和放松的气氛。建议使用明亮的粉色、黄色
或橙色等颜色。

2.自然元素的加入——使用大量的植物、花卉和树木来传达泼水节
所代表的季节和大自然的美丽。可以将花瓣和水珠放在任何地方,以创
造更加真实的氛围。

3.欢乐和表达情感的场景——将人们的快乐和嬉戏表现出来,例如
孩子们在玩泼水节的场景,朋友们互相泼水游戏的场面等等,从而激发
人们的欢乐和自由情感。

4.表达出泼水节的主题——海报需要准确传达出泼水节的主题,例
如水的清凉、欢乐的分享、人们忘却束缚、开心的音乐、色彩等等,则
该海报将更具吸引力。

5.字体和文本——此类海报中常常使用很大的字体衬托主题。建议
使用明亮、鲜艳的颜色和富有表现力的字体来增强主题。

以上是一些需要您考虑的细节需求,希望对您的设计带来帮助。

其次,让ChatGPT根据给出当前的描述,缩短成关键词和短语。

芝芝:能用简单的关键词或短语概括一下吗?

ChatGPT:

1.鲜艳的色彩。

2.自然元素。

3.欢乐和情感表达的场景。

4.主题表达。

5.富有表现力的字体和文本。

231
如果关键词过于简单,还可以让ChatGPT在已有关键词的基础上,
再次根据之前的描述,联想出部分意向和名词。

芝芝:在关键词中,增加更多的联想和细节。

ChatGPT:

1.鲜艳的色彩——象征快乐,喜悦,自由,无拘无束,青春活力,
活泼,充满活力。

2.自然元素——花朵,树木,绿色植物,水滴,花瓣,蝴蝶,彩
虹。

3.欢乐和情感表达的场景——孩子们玩耍,亲密友人分享,笑容,
开心的音乐,五彩斑斓的照片。

4.主题表达——季节,水的清凉,音乐和舞蹈,社交聚会和庆祝活
动,色彩斑斓,和平和友谊。

5.富有表现力的字体和文本——大号文字,有表现力的字体,有力
的信息传达,黑体,斜体,粗体,活力十足,有时代感。

修改关键词,并让ChatGPT将关键词翻译成英文。

芝芝:翻译以下内容至英文“海报的主题是泼水节,鲜艳的色彩,快
乐,喜悦,自由,无拘无束,青春活力,活泼,充满活力,自然元素,
花朵,树木,绿色植物,水滴,花瓣,蝴蝶,彩虹,孩子们玩耍,亲密
友人分享,笑容,开心的音乐,夏季,水的清凉,音乐和舞蹈,社交聚
会和庆祝活动,色彩斑斓,和平和友谊,大号文字,富有表现力的字
体,有力的信息传达,黑体,斜体,粗体,活力十足,有时代感”。

ChatGPT:The theme of the poster is the Water Festival,


including bright colors,happiness,joy,freedom,
youthfulness,liveliness,natural elements such as flowers,
trees,green plants,water drops,petals,butterflies,and

232
rainbow. It depicts scenes of children playing,intimate friends
sharing,laughter,happy music,summer,water's coolness,
music,and dance,social gatherings and celebrations,colorful
images,peace,and friendship. It features bold typography,
expressive fonts,impactful message delivery,bold style,it
radiates energy and has a contemporary feel.

Tips:需要将重要的主题或关键词写在前面或者重复多次,这样能
更好地提醒模型。

最后,将ChatGPT写的Prompt粘贴到Midjourney中,不到一分
钟就有了结果。芝芝通过ChatGPT+Midjourney的组合,快速找到了
海报图的灵感和风格。

商业分析

商业分析的典型痛点

商业分析对跨境电商企业至关重要,因为它能协助企业在激烈竞争
中洞察市场需求与趋势,优化供应链及物流管理,从而提高效率与竞争
力,辅助企业作出更精确的决策。在商业分析场景中,通常存在以下痛
点:

■数据处理效率不足。在传统商业分析中,数据收集和准备通常是
一个既耗时又费力的过程。需要从多个数据源中提取和整合数据,接着
进行数据清理和转换。这些工作需投入大量人力和时间,影响分析团队
的效率与工作质量。

■数据可视化的困难。商业分析的一个关键目标是将数据转化为有
意义的信息,以支持业务决策。然而,传统的数据可视化工具往往需要
大量时间和精力投入,且生成的结果未必能满足团队多维度分析的需
求。

■对市场动态信息的快速响应。企业需时刻关注市场需求和趋势,

233
以便分析市场趋势、行业竞争、产品定位、客户需求等关键信息,制定
相应的商业决策和行动计划。

大模型如何解决商业分析中的问题

大模型能显著解决商业分析的数据获取、处理和可视化分析能力,
收集并整理市场数据,提升决策效率和质量。

■ChatGPT可以生成SQL语句或VBA语句,或通过Chatexcel等工
具,快捷方便地提取和处理企业经营数据的一部分,从而快速获取所需
数据信息。

■ChatGPT可以帮助团队生成数据可视化结果,让成员更好地理解
数据,帮助开展数据分析的见解和预测,从而增强共享数据的能力。

■ChatGPT还能爬取互联网信息,帮助团队针对整个市场进行分
析,从而了解整体趋势和市场变化、竞争对手产品的优缺点、消费者需
求的转变,最终找出最受欢迎的产品类型或特点。

下面重点介绍大模型在商业分场景应用的方法。

跨境电商公司在ChatGPT的基础上,开发了一个商业分析
BI(Business Intelligence)工具,向公司管理层展示数据,辅助判断。
常总作为跨境电商公司的负责人,需要快速分析上半年的销售情况,以
便了解最大增长亮点产品品类和地区,决策是否需要临时调整库存和运
输计划。

常总在商业分析BI工具上,选择销售数据是过去一年,输入他最关
注的是“最大增长亮点产品品类和地区”,并勾选了市场的整体需求和
趋势信息。

234
然后,BI工具根据常总输入的关键词,请求ChatGPT接口获得相关
代码。

商业分析BI工具请求:现在你是跨境大码女装品牌公司一个优秀的数据
分析师,当前帮我生成一段sql语句,可以从数据库中生成一个 过去
一年的公司销售表中产品名称、地区、累计销量3个字段的结果。

ChatGPT:公司销售表sales_data,包含以下字段:产品名称、地
区、销售日期、销量。生成以下SQL语句可以创建一个过去一年的产品
名称、地区、累计销量的表:

CREATE TABLE last_year_sales (

产品名称VARCHAR(50),

地区VARCHAR(50),

累计销量INT

);

INSERT INTO last_year_sales

SELECT产品名称,地区,SUM(销量)as累计销量

FROM sales_data

WHERE销售日期BETWEEN DATEADD(year,-1,
GETDATE())AND GETDATE()

GROUP BY产品名称,地区;

这些语句将从sales_data表中选择符合日期范围的记录,将它们按
产品名称和地区分组,并计算每组累计销量。然后将这些结果插入到一
个新的last_year_sales表中,该表包含产品名称、地区和累计销量列。

235
销量趋势分析BI工具通过这段代码获得了last_year_sales的营销数
据,再次向ChatGPT请求。

商业分析BI工具请求:展示商品销售数据中最大增长亮点产品品类和地
区,最适合的可视化图是哪种?

ChatGPT:未来展示商品销售数据中最大增长亮点产品品类和地
区,最适合的可视化图是热力图或地图。这是因为热力图或地图可以直
观地展示销售数据中地域分布和数量变化的信息,可以清晰地展示产品
品类和地区的增长趋势。热力图可以通过色彩变化来展示数据的密度和
强度,地图可以直观地展示不同地区之间的差异。

商业分析BI工具请求:

以下为过去一年产品销售数据,编写一个html代码,以热力图和地
图展示以下数据:产品销售表

北美 西欧 非洲 中东 中欧&东欧 东南亚 澳洲 外套20 7


30 81 11 20 18连衣裙37 6 5 13 26 35 13 T恤48 32 10 29 81 11 25
牛仔裤7 11 26 89 74 7 70

ChatGPT:抱歉,作为AI语言模型,我无法直接为您提供生成
HTML代码的服务。但是,以下是一种可能的做法,您可以自行编写
HTML代码并使用JavaScript和可视化库来生成热力图和地图。(以下
HTML代码省略)

销量趋势分析BI工具将html代码渲染到网页前端,常总即可看到绘
制的图。

获得了历史数据之后,常总还想再询问一下当前最新的市场和产品
动态,销量趋势分析BI工具请求了当前联网的New Bing(ChatGPT)。

销量趋势分析BI工具请求:现在你是跨境大码女装品牌公司的一名优秀
市场分析人员,公司去年销售最好的牛仔裤单品是中东、中欧&东欧、
澳洲,帮忙分析这3个市场牛仔裤的整体销售趋势和市场变化、竞争对

236
手产品的优点和缺点、消费者需求的变化,并预测下季度销售和可能最
受欢迎的产品特点。

New Bing(ChatGPT):您好,我可以帮您分析这三个市场的牛仔
裤销售趋势和市场变化,但是我不能预测下季度的销售和最受欢迎的产
品特点,因为这需要更多的数据和专业知识。以下是我根据网络搜索得
到的一些信息:

中东市场:中东的牛仔裤市场在2022年达到了约30亿美元,预计
到2029年将增长到约50亿美元,年均增长率为6.5%。中东的牛仔裤消
费者主要是年轻人,他们喜欢时尚和舒适的牛仔裤,而不是传统的服
装。中东的牛仔裤市场也受到了社会和文化的影响,例如妇女的社会地
位和着装规范。中东的牛仔裤市场的主要竞争者包括Levi Strauss、
Diesel、Gap、H&M、Zara等。

中欧&东欧市场:中欧和东欧的牛仔裤市场在2022年达到了约80
亿美元,预计到2029年将增长到约120亿美元,年均增长率为5.2%。
中欧和东欧的牛仔裤消费者主要是中产阶级,他们追求高品质和环保的
牛仔裤,而不是廉价和快速的牛仔裤。中欧和东欧的牛仔裤市场也受到
了经济和政治的影响,例如欧盟的贸易政策和俄罗斯的制裁。中欧和东
欧的牛仔裤市场的主要竞争者包括Levi Strauss、Wrangler、Lee、
Pepe Jeans、Tommy Hilfiger等。

澳洲市场:澳洲的牛仔裤市场在2022年达到了约10亿美元,预计
到2029年将增长到约15亿美元,年均增长率为5.8%。澳洲的牛仔裤消
费者主要是年轻人和女性,他们喜欢休闲和个性的牛仔裤,而不是正式
和保守的牛仔裤。澳洲的牛仔裤市场也受到了气候和地理的影响,例如
炎热的天气和海滨的生活方式。澳洲的牛仔裤市场的主要竞争者包括
Levi Strauss、Calvin Klein、Guess、Uniqlo、Topshop等。

经过销量趋势分析,常总通过BI工具提取的数据、图表和市场信
息,得出结论:中东和澳洲市场的牛仔裤是长期稳定增长的需求,而中
欧和东欧的牛仔裤市场受到政治因素的影响较大。因此,建议重点拓展
中东和澳洲牛仔裤市场,以辅助后续分仓、物流及其他供应链业务。

237
此外,未来还可以将上述分析软件集成到其他系统中,例如
CRM、ERP等,实现更高效的分析和更加科学的决策,以更好地推动企
业的发展和战略。

会议助理

会议助理的典型痛点

会议助理对于跨境电商公司至关重要。它可以提高会议效率、优化
资源利用、支持全球业务和改善企业形象。会议助理当前存在以下痛
点:

■参会人员沟通困难。线上会议可能会面临网络问题、语言障碍、
文化差异等因素,导致参会者之间沟通困难。

■文件准备和整理不便。线上会议需要提前准备相关文件和资料,
并对文件进行整理和共享,这个过程需要耗费大量时间和精力,容易出
现遗漏和错误。

■会议记录不全面。线上会议需要记录会议内容和决策结果,并及
时分享给参会者,会议记录可能不全面或不准确,导致参会者或关注者
无法获得完整信息。

■待办事项难以跟进。线上会议需要记录和跟进待办事项,以确保
会议结果能够得到落实。参会者需要手动记录和跟进待办事项,容易出
现遗漏或误解。

大模型如何解决会议助理的问题

ChatGPT能够帮助会议助理解决参会人员沟通、文件准备和整理、
会议记录和待办事项生成等方面的问题,减轻会议助理日常工作压力,
提高工作效率和满意度。

■参会人员沟通:ChatGPT可以协助会议助理发送相关信息、查询
参会人员共同空闲时段、发送各个参会人员到场和准备工作的提醒信

238
息,以确保会议顺利地召开和进行。

■文件准备和整理:ChatGPT可以协助会议助理准备文件并沟通文
件更新,帮助行政和助理集中整理会议信息和需决策事项,以便与会者
查看交流。

■会议记录:ChatGPT可以协助会议助理进行文字或语音形式的记
录,记录与会者讨论的主要观点和决策,并输入即时整理会议记录反
馈,生成会议纪要。

■待办事项生成:ChatGPT可以协助会议助理收集并整理会议讨论
中确定的任务,生成待办事项清单和跟进的责任人和时间表,方便助理
管理学习和推进进程。

以下是大模型在会议助理中应用的示例。

阿美是跨境电商公司的公关人员,她每天都要组织大大小小的会
议,随着线上会议的不断增加。上周,阿美刚开完一次线上视频会议,
讨论了关于下个季度的公司市场部规划的问题。市场部详细讨论了自主
平台和国外知名跨境电商平台的市场推广渠道和方案。

会议音频转出后内容:

首先,市场部应继续协助产品部门开发和推广自有品牌的商品,并
加强自有渠道建设。自有渠道包括官方网站、公众号和独立站,市场部
可以提升网站和独立站的用户体验,提高商业设计和代码优化,提高自
有渠道的收益和销量。这个由小A来负责。

其次,对于国外知名跨境电商平台,我们将制定并执行营销计划,
增加商品的曝光度和销售量。市场部将加强关键词的管理、促销的策
划、广告的调整以及评价的管理等工作,来提高商品的曝光度和客户的
购买意愿。同时,我们将讨论以折扣促销为主的活动,针对不同的市场
和用户群体,设计出有针对性的促销方案,并对促销活动进行评估和反
馈,以获得最佳营销效果。

239
在独立站的促销和折扣方面,我们将完善并强化宣传和客户回馈活
动,以吸引新用户,同时增加老用户的回购率和忠诚度。

促销活动比较大,这部分小B和小C一起来做。市场部将持续关注
自有渠道与国外知名跨境电商平台和独立站的销售情况,不断优化和改
进各个渠道的优势和限制,加强长期营销策略。

小美:请你根据以上内容,帮我整理出一份会议纪要,包含“议
题”“讨论”“结论”“会后任务”这四部分。

ChatGPT:

议题:市场部门的自有品牌和跨境电商平台营销计划以及独立站方
面的促销和折扣。

讨论:

1.市场部门将协助产品部门开发和推广自有品牌的商品,并加强自
有渠道建设。此外,市场部门将提高网站和独立站的用户体验和商业设
计,以提高自有渠道的收益和销量。

2.国外知名跨境电商平台的营销计划将制定和执行以增加商品的曝
光度和销售量。市场部门将加强关键词的管理、促销的策划、广告的调
整以及评价的管理等方面的工作,以提高商品曝光度和客户购买意愿。
同时,不同市场和用户群体将设计有针对性的促销方案,并对促销活动
进行评估和反馈,以获得最佳营销效果。

3.独立站方面的促销和折扣方案将完善并强化宣传和客户回馈活
动,以吸引新用户,增加老用户的回购率和忠诚度。促销和折扣方案将
由小B和小C共同制定。

结论:

1.市场部门将继续协助产品部门推广自有品牌商品,并加强自有渠
道建设。同时,他们将制定并执行营销计划,增加商品的曝光度和销售

240
量。

2.市场部将加强关键词的管理、促销策划、广告调整和评价管理,
以提高商品曝光度和客户购买意愿。

3.针对不同市场和用户群体,设计有针对性的促销方案,并对促销
活动进行评估和反馈,以获得最佳营销效果,同时小B和小C共同制定
独立站方面的促销和折扣方案。

会后任务:

1.小A负责市场部门自有品牌商品和渠道建设的实施和优化。

2.市场部门将持续关注自有渠道、国外知名跨境电商平台和独立站
的销售情况,并不断优化和改进各个渠道的优势和限制,以加强长期营
销策略。

3.小B和小C共同制定独立站方面的促销和折扣方案。

4.安排对数据的分析和复盘,检验营销活动方案的有效性。

小美在获得了会议纪要之后,可以直接导出和生成各个部门、员工
的待办事项,方便会后各项任务的持续推进。

企业业务型应用总结

电商行业面临着产品竞争激烈、服务要求高、跨越语言和文化障碍
以及合规性相关的问题,是一个资本和知识密集型行业。

跨境电商市场中有着内容生成和客户服务需求的平台卖家、独立站
运营者和渠道商在国内数量达到2.54万家。这些工作的完成,不仅需要
借助翻译软件,更需要借助各种信息来源,以最终推动一个交易规模高
达14.2万亿元的巨大市场的发展。

跨境电商公司的智能客服同时服务于售前和售后场景。麦肯锡曾对

241
30个行业进行分析,表明售后服务(含维修、备件和保养)的平均息税
前利润率(EBIT)为25%。经过ChatGPT的智能化改造,智能客服预估指
标可提升15%-20%,最终提升1.5%-2%的客户满意度,从而让客户享
受到更热情周到的服务体验。

电商行业拥有大量专业性强且素质高的市场、产品、研发人员,大
模型首先可作为电商从业者的个人辅助工具(副驾模式),为客户提供
更智能、实时的意图理解、语言翻译、文化背景融入和特定角色的答案
生成服务,担任初级助理,为企业提供更好的服务和更高效的营销支
持。

从ChatGPT在跨境电商典型企业的潜力中,我们可以观察到其对于
企业生产运营全流程的影响。为了评估ChatGPT在企业生产运营各个环
节的价值,我们可以从效率(Efficiency)和替代率(Replacement Ratio)
两个维度进行分析。

效率:是否能提升此环节效率或缩短这个环节整体时长,包括但不
限于提供24小时不间断服务、可支持数据检索、排单精准性等。

替代率:是否足以解决此环节的问题,包括但不限于线上问题解决
程度、ChatGPT和环节的匹配程度、ChatGPT在整个环节问题中所占
的比例等。

◎图3.8 以跨境电商企业为例,大模型在生产运营各环节的价值

当大模型在垂直领域上的数据训练和实践应用成熟后,在市场营
销、售前沟通以及售后服务等需要更高AI替代率的环节,大模型可以独
立承担职责(代驾模式)。这也将引起业务流程和人类员工职能的变
化,如人工翻译转换为大模型译后人工润色,人工文案创作转变为大模
型创作后人工审校。通过AI技术的发展,企业可以实现更高效、更准确
地操作,以此改变旧有的业务流程、决策以及人员结构等。

242
尽管技术的进步使得更多的旧工作、流程可以被大模型所改变,但
是企业不能把大模型当做员工的简单替代品。相反,企业应该把大模型
看作员工工作中客户体验价值和个人生产率的推进力量,把员工从烦琐
的重复性工作中解脱出来,扩展和释放员工的个人能力,使他们能在新
的、快速变化的环境中探索和设计以人机协作为中心的新业务流程,避
免与大模型的对抗。通过让大模型接管重复性任务,员工将有时间专注
于创意,与其他人建立更紧密的联系和互动。这样一来,企业将实现大
模型替代下的有效运营,大模型与人类劳动的融合将为企业带来更高的
生产效率和创新性,在保证员工价值的前提下使企业更加成功。

最终,在企业、员工与大模型的融合协作形成默契之后,有可能产
生颠覆性创新,发展出新的业务和岗位,例如UGC个性化设计、C2M
弹性供应的商品生产,以及相关的Prompt工程师、虚拟人格设计师
等,从而扩大整体的市场规模,在效率提升的同时进一步做大产业蛋
糕,容纳更多就业。那时,无论是客户、员工公司或者社会整体,都将
从这种人机协作中受益。

243
12 创意娱乐型应用
创作助手

个人创意的典型痛点

在没有创作助手的情况下,个人在许多重要情境中,如通过情书表
达爱意、道歉、起名字时,经常会面临各种痛点,包括但不限于遭遇创
意瓶颈、知识匮乏和语言障碍等。

■创意瓶颈:在诗歌、对联等特殊文体的创作中,需要各种新的、
有创意的想法来支持写作,但在写作过程中,往往会遇到创意不足、灵
感和想法缺乏等瓶颈。

■知识匮乏:在写作过程中,时不时会需要阅读或撰写文言文,但
是大部分人掌握的文言文和对联知识,可能不足以支持此类创作。

■语言障碍:如果我们需要与其他人或团队成员进行交流,但是我
们不会说对方的语言,我们需要将自己需要表达的内容翻译成其他语
言,这可能会成为我们的一个痛点。

大模型如何解决个人创意的问题

作为一个人工智能语言模型,ChatGPT可以通过理解和生成自然语
言,与用户对话并支持他们与创意相关的任务。

■创意启发:创作者可以与ChatGPT进行对话,提出当前的困惑或
表达主要想法,ChatGPT将根据问题或想法生成内容,拓展思路和启发
创意。

■知识补齐:当创作者的写作遇到类似文言文等知识盲区时,
ChatGPT可以通过领域知识补齐的方式来增强其对文言文的理解和应用
能力,与创作者的提供的关键词,主题或段落一起生成相关的文本内
容。

244
■语言翻译:如果创作者需要将创作的内容翻译成其他语言,可以
向ChatGPT提出翻译请求,即可获得通俗地道的翻译结果。

下面重点介绍大模型在个人创意场景应用的方法。

强强和小美准备筹划一场婚礼,在婚礼上强强需要写一封婚礼誓
言,向小美表达自己的心迹。强强一向不善言辞,抓耳挠腮了一周后,
他除了找到一份觉得还不错的现代诗,没有丝毫灵感。最终,他决定使
用ChatGPT来帮助自己创作。

强强:请参考以下内容,帮我写一篇300字左右的结婚誓言。

我如果爱你——绝不像攀援的凌霄花,借你的高枝炫耀自己;我如
果爱你——绝不学痴情的鸟儿,为绿荫重复单调的歌曲;也不止像泉
源,常年送来清凉的慰藉;也不止像险峰,增加你的高度,衬托你的威
仪。甚至日光。甚至春雨。不,这些都还不够!我必须是你近旁的一株
木棉,作为树的形象和你站在一起。根,紧握在地下,叶,相触在云
里。每一阵风过,我们都互相致意,但没有人,听懂我们的言语。你有
你的铜枝铁干,像刀,像剑,也像戟;我有我红硕的花朵,像沉重的叹
息,又像英勇的火炬。我们分担寒潮、风雷、霹雳;我们共享雾霭、流
岚、虹霓。仿佛永远分离,却又终身相依。这才是伟大的爱情,坚贞就
在这里:爱——不仅爱你伟岸的身躯,也爱你坚持的位置,足下的土
地。

ChatGPT:

亲爱的小美,

今天,我在这里郑重地向你说出我的誓言。如果我爱你,我会像一
株木棉一样,始终陪伴在你的身边。我不会像凌霄花一样,在高枝上炫
耀自己,也不会像鸟儿一样重复单调的歌曲,我的存在是为了与你相互
支持,共同成长。

我愿意像一个坚实的树根,与你牢牢地紧握在一起,在每一阵风过
后,相互致意。我的爱会像春雨和日光一样,让你在疲惫时得到清凉和

245
慰藉,同时也像险峰一样,为你增添高度和威仪。

我们一起分担寒潮,风雷和霹雳,共享雾霭,流岚和虹霓。虽然有
时我们会分离,但我们会终身相依。在这里我向你保证,我的爱不仅仅
是爱你伟岸的身躯,也是爱你坚守的位置和足下的土地。我的坚贞就在
这里,直到永远!

我爱你,坚定不移!

爱你的强强

ChatGPT虽然改写了诗中的内容,但誓言里没有包含强强和小美的
细节,强强需要增加一些关于他和小美共同度过的时光的内容。

强强:誓言当中还需要增加我们两人在新疆通过旅游结识,并有外出游
玩的共同爱好的内容,要使用更多的排比句。

ChatGPT:

亲爱的小美,

今天我在这里向你庄严承诺,如果我爱你,我会像丝绸之路的风,
温柔地抚过你的脸庞,如同草原的花海,用我深沉的爱包容你,直到永
久。

当我们在新疆旅游认识的那一刻起,我知道我找到了我的爱。像天
山山脉一样,我们的爱是高不可攀的,但我们的思念却像燕子一样不断
地飞越这些高峰。我们共同喜爱外出游玩,每一个下车走到山顶、攀过
沙丘的瞬间都是那么的美好,像牧民抬头仰望天空看到流星划过的瞬间
一样美好。

我承诺,我不会像一片枯叶,随风飘荡,而是像新疆的柯坪大佛一
样,永远屹立在你身边。我会像星空中亮丽的流星,为你闪耀、为你点
燃,把你宝贵的人生照亮。

246
所以,我向你宣誓:我的爱不是瞬间的昙花一现,而是像远处群山
长存的石林一样,永远稳定地存在。我爱你,现在,将来,永远。

爱你的强强

数字人角色扮演

角色扮演的典型痛点

随着市场的发展,语言cosplay(通过模仿角色的语言特点来扮演
角色)与虚拟偶像(基于数字技术制作的非真实存在的偶像)成为一种
新兴的娱乐方式,同时,它们也在发展数字技术、促进文化传播等领域
发挥着重要的作用,作为文化符号向全球传递文化信息。

在语言cosplay和虚拟偶像等角色扮演场景中,打造人设非常重
要。人设能够帮助玩家更好地理解对话内容,从而使得玩家更好地理解
自己与角色之间的动态和交互,并更容易关注和记住对话内容,进而提
高角色对话的说服力和给玩家带来的参与感和满意度。当前打造一个优
秀的角色扮演应用,还存在以下痛点:

■角色塑造困难:塑造角色是一项艰巨的任务,因为角色需要故事
背景、情节、独特个性等内核予以支持,并且在扮演过程中,始终如一
地呈现其特定的形象和风格。

■缺乏多样性:某些角色因为台词较少和背景交代不够,可能会表
现出缺乏个性和应对不同对话的多样性的问题。这会使玩家容易预测角
色的决策和行动,缺乏足够的变化和惊喜。

■互动角色不足:游戏中的角色扮演需要根据情节,与多个角色进
行互动,若全部依赖人工,可能会令组队等待时间过长,从而影响玩家
的游戏体验。

大模型如何解决角色扮演的问题

ChatGPT可以在对话中实现角色扮演,并通过角色塑造、脚本对话

247
等方式帮助用户更好地体验和享受不同的对话体验。

■角色塑造:ChatGPT可以根据作者提供的故事情节、性格、目标
和弱点来塑造角色,还可以学习角色的历史对话,进一步模仿角色的行
为与个性。

■多样性建议:ChatGPT可以在现有信息的基础上,跟随游戏场
景、任务和情节的变化,做出符合常理的补充对话,拓展玩家与角色的
交互干和多样体验。

■互动角色创造:ChatGPT可以通过应用人工智能和NLP技术来模
拟人类互动,为玩家提供更多的队友角色选择,增加游戏的趣味性。

下面重点介绍大模型在角色扮演场景应用的方法。

在过去,虚拟角色必须在确认角色的基本特点(角色的性别、年
龄、体型、外貌、世界观等)、个性和特质、故事背景和命运之后,由
编剧或策划完成与角色相关的文案创作。这一构建过程几乎完全依
赖“人工”来转换场景,难以支持角色独立向个人输出。

ChatGPT是目前可以进行网页和API文字方式互动的人工智能助
手,它可以通过类似人类的自然对话方式进行交互,并且支持执行相对
复杂的语言任务,包括自动生成文本、自动问答、智能续写等任务。最
新的开放大型语言模型GPT-3.5-turbo可以通过嵌入(Embedding) ㊟
【参考资料:https://platform.openai.com/docs/api-
reference/Embeddings。】 的方式支持文档转换为语义向量,从文档
中找到匹配问题的答案,为角色扮演相关任务提供更多的可能性。
ChatGPT的使用,包括数据准备、生成特征向量、请求问题
Embedding、Prompt构成和接口返回等环节。

(1)数据准备。首先,需要设定角色的基本特点(角色的性别、年
龄、体型、外貌、世界观、描述等)、个性和特质、故事背景和命运,
以此组成角色的人设。同时,还要准备角色相关的描写文本和与他人的
对话内容。例如,当我们需要模仿江湖大侠的角色时,准备的数据如下

248
所示:

基本情况:秦川,男,33岁。

身形特点:身高1.9米,体型健壮,有一双锐利的眼睛和一头短
发,手腕上镶嵌着精致的刻字刀,脸上有一道明显的刀疤。

出身背景:秦川曾是大名鼎鼎的侠客宓家四公子,家境殷实,但他
却因不满父母的束缚而离家出走,开始在江湖上行走。

人物性格:秦川为人正直豪爽,性格开朗。他讲义气,乐于助人,
但绝不服输,尤其讨厌邪恶势力欺压百姓,经常在江湖上与恶势力斗
争。他待人真诚,性格刚烈,但同时也因为过去的故事而显得分外孤
独。

武艺水平:秦川精通多种武学,擅长使用刀的他在江湖上有“刀客
秦川”之称。他的刀术精妙非凡,威力惊人,轻功绝佳,行踪飞快,并
掌握了一种独特的内功。

(2)生成特征向量。将角色与他人的对话内容单独保存,请求将嵌
入(Embedding)模型转化为特征向量后,用向量数据库进行本地存储。

(3)请求问题Embedding。当用户提出一个问题时,也将问题请求
嵌入模型转化为特征向量,检索本地向量数据库,找寻角色相关描述中
与问题最靠近的内容。

(4)Prompt构成和接口返回。将用户的问题和检索到的最相似回答
构成Prompt,请求GPT-3.5-turbo模型,获得角色扮演的回答。

以下是详细操作流程(非技术人员可直接跳过)。

1.数据准备

准备角色的基本特点(角色的性别、年龄、体型、外貌、世界观
等)、个性和特质、故事背景和命运,组成角色的人设。

249
GPT-3.5-turbo模型的请求消息是一个对象数组,其中每个对象都
有一个角色,一共有三种请求对象。

·系统:用来指导模型在整个对话过程中的行为。在角色扮演的场
景中,系统经常用于放置角色人设。

·用户:用于存储用户问题,就是用户说的话,向角色提的问题。

·助手:用于存储先前的对话内容。这是为了能持续进行角色对
话,提供会话的上下文。

以下是一个请求示例:

import openai

openai.ChatCompletion.create(

model=”gpt-3.5-turbo”,

messages=[

{“role”:“system”,“content”:“你是中年侠客秦川,侠
骨柔肠,刀法精湛,正义无私,行侠仗义,孤独而坚韧”},

{“role”:“user”,“content”:“川大侠,你要去哪
里?”},

{“role”:“assistant”,“content”:“我居无定所,遍访天
下行走江湖。”},

{“role”:“user”,“content”:“我能和你一起去吗?”}

250
2.生成特征向量

将准备的角色与他人的对话内容,统一请求嵌入(Embeddings模
型),用本地向量数据库存储下来,并通过语义向量相似度匹配来实现
一个问答系统,大致的构建过程如下:

(1)将角色与他人对话的大量内容(标准问答集),清洗成CSV或者
Json格式,并且分成小块(chunks)。

(2)使用OpenAI的Embedding模型将这些问题和回答转化为特征
向量,需要将转换后的结果保存到本地数据库。

(3)可以把原始的文本和请求到的数字向量一起存储在向量数据库
中,这样可以根据数字向量反向获得原始文本。参考全文索引中给数据
建索引,将这些问答的ID和其对应的答案存储在关系数据库中。

3.请求问题Embedding

当用户提出问题时:

(1)通过OpenAI的Embedding模型将之转化为特征向量。

(2)在本地向量数据库中对特征向量做相似度检索,得到与该问题
最相似的标准问题的ID,拿到这个数字向量后,再去自己的数据库进行
检索,那么就可以得到一个结果集。

(3)可以使用余弦距离来表示两个句子间的相似度,结果集会根据
匹配的相似度打分,分数越高说明匹配度越高,这样就可以按照匹配度
返回一个相关结果。

(4)在PostgreSQL(阿里云的数据库)得出对应的结果集,然后以
拿到的结果集为根据。

比如说用户提出以下问题:“如果我忽然想去淄博吃烧烤,怎么
办?”,从数据库中检索到原文秦川超过0.9相似度的回答有2段,分别

251
是:“那你肯定是疯了!”和“这于我毫无价值可言。”

4.Prompt构成和接口返回

将结果集加入请求ChatGPT的prompt中。根据以上例子中的内
容,向OpenAI Chat completion API发起请求的prompt应该是:

messages=[

{role:“system”,content:“你是中年侠客秦川,侠骨柔肠,
刀法精湛,正义无私,行侠仗义,孤独而坚韧”},

{role:“user”,content:`Use the following passages to


provide an answer to the query:“如果我忽然想要去淄博吃烧烤,
怎么办?”

那你肯定是疯了!

这于我毫无价值可言

这样ChatGPT在返回结果的时候,就会加上你本地的回答数据或内
容,根据角色的人设和相似的回答内容,完成角色扮演。根据ChatGPT
返回的结果,可以进一步进行无害化处理后返回给用户。

Tips:除了角色扮演问答,此方法也常用于搭建本地检索、推荐、
分类系统。

旅行计划助手

旅行计划的典型痛点

每当我们想要前往一个旅游城市旅行,都希望能够根据自己的旅行

252
偏好和目标,比如感兴趣的景点、游玩时间和预算等,规划出符合需求
的行程,但当前仍存在以下痛点:

■不了解当地公共交通的情况、景点信息等,难以规划行程。

■在旅游旺季时,旅游景点、酒店、机票价格波动大,无法有效预
估旅行花销。

■规划和安排个性化行程需要花费大量时间,不够便捷。

■缺乏可信赖的旅行计划工具。

大模型如何解决旅行计划的问题

ChatGPT技术作为智能助手,可以为用户提供便捷的旅游定制服
务,让用户在旅游中更快、更舒适地玩转目的地,从而增加用户对旅游
计划助手的用户黏性和忠诚度。

■路线规划:基于您的地点、时间和利益,ChatGPT可以帮助您制
定旅行路线,从而确保您能最大程度地利用旅行时间,参观您最感兴趣
的景点。

■预订行程:ChatGPT可以帮助您预订机票、旅馆、门票,租赁汽
车和规划旅行活动,使您的旅行更加顺利,减轻压力。

■提供当地有关信息:ChatGPT可以为您提供当地的餐饮、文化和
娱乐活动建议,令您的旅行体验更加丰富和难忘。

■推荐当地旅游景点:ChatGPT可以基于您的旅行偏好和当地的知
识,向您推荐最受欢迎的旅游景点和活动,让您的旅行更加舒适。

■交通及旅游规划服务:ChatGPT可以为用户提供公共交通及旅游
信息、帮助您规划行程、预订机票和酒店等服务,方便用户出行和旅
游。

下面重点介绍大模型在旅行计划助手场景应用的方法。

253
芝芝最近想要去新西兰玩耍,她希望制定一个为期9天的新西兰自
驾游行程,她打开ChatGPT的插件,输入地点、希望能获得一些帮助。

芝芝:帮我做一个新西兰9天的行程,从奥克兰开始,途径皇后镇、基
督城,最后回到奥克兰。

ChatGPT:好的,以下是一个新西兰9天的行程。

第1天:奥克兰

抵达奥克兰,可以预订市内观光游览,可参观天空塔、海港大桥,
并在市中心逛逛。

第2天:从奥克兰到皇后镇

早上搭乘飞机前往皇后镇。到达后可以游览镇中心,前往萨斯爱
德,骑自行车或徒步穿越莱克菲尔德峡谷。

第3天:皇后镇的冰川

从皇后镇开始的冰川深度一日游,可以看到冰川落入影湖的壮观景
象。

第4天:步行通过皇后镇

在皇后镇度过一整天,可以登上Tiki Trail步行上山,跳伞、滑翔伞
或骑壁虎车,品尝当地的烤肉等美食。

第5天:从皇后镇到基督城

搭乘早晨前往基督城的班车。到达基督城后,可以乘坐热气球、参
观博物馆、教堂和当地的市场。

第6天:从基督城到卡波迪斯特里亚

254
从基督城乘车前往卡波迪斯特里亚,这里有许多滑翔伞和翼风动力
飞行供你选择。下午前往卡布利蒂峡谷漂流,晚上在当地酒吧度过一个
愉快的夜晚。

第7天:从卡波迪斯特里亚到皇后镇

早上前往皇后镇,到达后可以游览镇中心,博彩,射箭,品尝餐厅
提供的美食。

第8天:从皇后镇到富士湾

早上从皇后镇出发前往富士湾,这里可以进行观赏鲸鱼、划皮划艇
和在自然散步等活动,学习马达卡语,了解新西兰文化。

第9天:从富士湾到奥克兰

返回奥克兰,途径托皮罗和怀托摩拉,结束旅程。

用户还可以继续追问租车和住宿方案,以及相应的预算。

芝芝:我们打算租车自驾游,麻烦增加租车的地点和每天住的酒店。

芝芝:这次旅行,租车、住宿、吃饭大概会花费多少纽币,等同于多少
人民币呢?

Tips:利用ChatGPT插件库(Plugins),用户还可以在对话过程中
直接预订ChatGPT推荐的酒店和租赁汽车。

创意娱乐型应用总结

个人的创意娱乐通常更注重个性化和自我表达。大模型作为一款拥
有广泛知识和多种技能的智能机器人,首先,大模型能够为个人提供丰
富的服务,它可以为自由职业者和远程工作者提供有用的建议和指导,
包括如何找到远程工作、如何管理财务等。大模型还可以帮助艺术家和
创作者探索他们的创造性能力,提供写作、绘画、建模和音乐制作的方

255
法和素材,为旅行者提供目的地、预算计划和行程规划等建议和指导,
帮助他们规划自己的旅行。

当大模型的多模态能力得到充分释放之后,可能在创意娱乐领域产
生颠覆性的创新。例如,将大模型角色扮演应用在网络游戏或元宇宙
中,并将不同模态的数据和表现形式进行组合,有可能创造出集游戏、
社交、UGC、线上线下交互于一体的全新娱乐体验和全新的商业模式与
业务。

256
13 大模型应用的三重境界
由于大模型具备一定的跨行业通用性,并通过自然语言对话、API
系统对接等交互手段,支持多样化的使用方式。因此,在各行各业令大
模型的应用落地,由于大模型适应场景的能力、成熟度、企业应用时间
经验、企业业务性质等因素的不同,可能会经历以下三重境界。

第一重境界:工欲善其事,必先利其器。

企业鼓励并组织管理者和员工个人在工作中使用大模型,提高个人
的工作效率。此时属于人类和AI 1:1的副驾模式,大模型的产出归属
于员工个人,同时,员工也需要为大模型的产出质量负全责。

通过个人的使用,为企业探索出大模型在特定业务场景下的应用成
熟度、效率提升、模型缺陷、负面影响等,用于评估在本企业应用大模
型的价值,为下一步应用的决策提供真实的参考信息。

提高员工个人工作效率,反映在企业效益上,可能是员工工作质
量、工作满意度的提升,也可能是在同等人力资源的条件下产出更大的
工作量。

在这个阶段,企业应注意内部核心数据的保密。除了制定大模型使
用的数据管理规范之外,还可以选用大模型服务商提供的私域专有模
型,将模型部署在企业专用服务器上,从而确保内部数据不会进入公域
大模型的训练数据集之中。

第二重境界:同舟共济扬帆起。

企业将大模型嵌入业务流程中,让大模型独立承担某些环节的工作
职责,为企业贡献更为全局性的效益。此时大模型从附属于某个人类的
副驾转变为某些工作环节的代驾,直接跟人类形成协作关系,同时也接
受人类的指导和监督。

此时往往伴随着企业业务流程的调整,以及各环节职能重心的变

257
化。例如,翻译文章的业务流程从“译员初翻-高级译员审核修改”变
成了“大模型初翻-译员改错润色-高级译员审核修改”。再如,企业客
服的业务流程从“人工客服服务客户-后台督导抽查”变成了“大模型
服务客户-人工客服实时监控-后台督导抽查”。

此时大模型的产出归属于企业,企业需要在业务流程中确定其他环
节的人类员工,对大模型的产出进行全量或抽查的质量审核,由人类员
工对其审核范围内的质量负责。当大模型在该行业达到一定的成熟度之
后,还可以跟大模型技术供应商约定模型产出质量的服务等级协议
(SLA),由供应商负责其模型和系统这一段的产出质量,并与供应商的
服务费用挂钩,进行激励或惩罚。

在第二重境界,企业围绕大模型的特点调整和优化自身流程,更充
分地利用大模型的能力,应获得远超第一重境界的企业效益提升。此时
需要关注大模型应用对员工的影响,从组织机制设计上避免潜在的冲
突。

为了进一步提高大模型的效果和产出,还可以借助模型插件库的能
力进行本地化二次开发,读取和查询本地数据;或者根据本行业和本企
业的特点,进行模型微调训练、提示语上下文学习等定制化的工作。此
时需要企业的业务部门和IT数据部门共同介入完成。

在第二重境界,企业要调整业务流程和员工岗位,因为投入IT数据
资源进行本地化开发和训练,需要付出较大的组织成本和人力成本。站
在整体效益最大化的立场,应该评估业务各环节的大模型应用成熟度和
优先级,选择最适合的应用点切入。其中一个重要的评估角度是业务环
节的信息量和容错率。

258
◎图3.9 不同应用的信息量和容错率对大模型应用效果的影响

其中,信息量指的是在该业务环节中,需要阅读消化多少信息,信
息量越高,大模型辅助人类的效果就越显著。容错率指的是在该业务环
节中,允许错误出现的概率,容错率越高,错误造成的损失就越小,大
模型的应用效果就越可控。

信息量和容错率的4种组合,对大模型应用效果有着不同的影响,
企业可以根据自身情况来选择应用的短期切入点和长期目标。

第三重境界:欲穷千里目,更上一层楼。

企业基于大模型在本行业应用中的潜在优势,需要重新设计业务,
从根本上改变业务运作方式,或进入一个全新的、在大模型之前无法进
入的市场。例如面向中低端用户提供一对一服务,UGC个性化设计、
C2M弹性供应的商品生产,基于AIGC内容的社交娱乐体验,等等。

259
此时,企业需要从技术、产品到市场、商业进行全盘策划,创建新
的商业模式,挑战现有的行业规则,并承担较高的风险,此类策划方式
更适合初创企业或者大企业中的独立团队。(相比之下,前两重境界更
多属于渐进式创新,企业专注于将大模型技术整合到现有的体系中,关
注存量业务的投资回报率,相对更稳妥,更适合行业中已有的企业。)

有能力尝试并最终成功走到第三重境界的企业很少,然而,这重境
界却是大模型产业应当追求的方向。当大模型的多模态能力得到充分释
放后,人类与大模型的协作达成默契,大模型在某个领域的成熟度被打
磨到极致,只有结合企业家的全新业务模式设计产生颠覆式创新,才有
机会做出市场增量,把社会经济的蛋糕做大,催生新的人类就业机会。
对此,值得我们寄予无限的遐想。

【GPT-4花絮】

为向王国维《人间词话》中的三重境界致敬,作者请GPT-4引用中
国古典诗词,为大模型应用的三重境界起标题。以下是GPT-4的原版回
答:

■第一重境界:此境界中,大模型与人类员工进行1:1的协作,提
高个人工作效率。可以用“工欲善其事,必先利其器”(《论语·卫灵
公》)来概括这一境界的特点。在这个阶段,大模型就像一把锋利的工
具,帮助员工提高工作效率和工作质量。

■第二重境界 ㊟ 【其中第二重境界的诗句过于消极,已人工替换为
更合适的“同舟共济扬帆起”,这也算是“大模型生产内容、人类审核
修正”的一个真实案例。此外,经试用现阶段请勿相信GPT给出的诗句
出处。】 :可以用辛弃疾的《青玉案·元夕》中的一句词来概括这一境
界:“红颜未老恩先断,斜倚薰笼坐到明。”这句词描绘了在美好时光
中突然面临变故的情景,与企业在第二重境界中,面临业务流程调整和
组织变革的挑战相呼应。

■第三重境界:企业基于大模型在本行业应用中的潜在优势,从头
设计全新的业务,从根本上改变业务运作方式,或进入一个全新的市

260
场。可以用苏轼的《江城子·密州出猎》中的一句诗来概括这一境
界:“欲穷千里目,更上一层楼。”这句诗意味着为了追求更高的目
标,需要站在更高的层次去审视。与企业在第三重境界中,勇攀高峰,
创新业务模式,开拓新的市场和机会。

261
产业篇
2022年12月上旬,在谷歌公司的一次全员沟通会上,多名员工向
高管们提出疑问:ChatGPT上线未满一周就收获百万用户,这是否证明
谷歌错失了一次重大机会?谷歌技术大神、谷歌大脑(Google Brain)团
队的负责人,也是大数据编程模型MapReduce的设计者杰夫·迪恩(Jeff
Dean)给出了自己的判断——目前这种大模型仍然存在一些问题,谷歌
有能力提供同样的产品,但如果在产品尚不成熟时就公之于众,产品可
能在提供信息时出错,就会因此招致更大的“声誉风险”。因此,谷歌
需要“比小型初创公司(指推出ChatGPT的OpenAI公司)更保守”。
谷歌的首席执行官桑达尔·皮查伊(Sundar Pichai)则表示,谷歌也在开
发同类产品,他认为在这个新的领域谷歌需要兼顾勇气和责任,必须维
持好平衡。

此次会议相关消息被披露后,业界认为,谷歌正在遭遇创新者窘
境,即成功的公司往往会被自己现有的市场和客户束缚,而忽视新兴的
技术和市场的需求,从而导致被更具创新力和灵活性的新进入者所颠
覆。大模型应用是谷歌搜索引擎的潜在替代产品,大模型应用的商业模
式尚不明晰,一旦替代发生,新的收入能否弥补谷歌搜索引擎收入的损
失,这是皮查伊作为首席执行官需要考虑的。

仅仅十余天后,皮查伊在谷歌公司内部发出了“红色代码”警报,
推动谷歌的多个团队快速集结,集中力量应对ChatGPT给谷歌公司带来
的威胁。他甚至还把谷歌公司的两位创始人劳伦斯·爱德华·佩奇
(Lawrence Edward Page),和谢尔盖·布林(Sergey Brin)拉进这些会议
中,而二人自2019年后就已淡出谷歌的公司运营。

两周之内,谷歌高层对ChatGPT的态度从“需要更保守、做好平
衡”迅速反转,到拉响“红色代码”警报,是谷歌公司反应过度了吗?

接下来发生的事情证明,谷歌是对的。

262
2023年2月初,急于做出回应的谷歌公司在发布会上展示了谷歌公
司研发的与ChatGPT同类的大模型应用Bard。Bard在短短的演示中暴
露了一个事实错误——它误认为世界上首张太阳系外行星照片是由詹姆
斯·韦伯太空望远镜拍摄到的。在该错误被公众发现后,谷歌公司的股
价暴跌9%,市值损失千亿美元,完美印证了杰夫·迪恩的神预言——大
模型目前都存在问题。虽然ChatGPT也会犯错,但谷歌作为全球最大的
搜索引擎公司,其产品一旦出错,就被公众舆论放大,其承担的风险将
远大于创业公司。

似乎为了证明谷歌拉响警报的合理性,2023年2月初,微软公司发
布了集成ChatGPT大模型的搜索引擎New Bing(新必应),一个月内
New Bing的应用下载量增长了8倍之多。进入3月之后,为ChatGPT提
供外部环境交互能力的插件库紧锣密鼓地陆续发布,OpenAI公司推出
新一代大模型GPT-4;微软公司的Microsoft 365 Copilot将GPT集成
至Office;百度、阿里、亚马逊陆续发布文心、通义和Titan大模型;
英伟达公司也推出了针对大模型推理的H100 NVL GPU和DGX CLOUD
计算集群,而围绕大模型的各种新型应用以及提出技术新进展的论文更
是频繁亮相,大模型技术和产业的更新迭代几乎是以“天”为单位。

尽管发展迅速,但毕竟技术出现的时间太短,大模型产业还只是初
具雏形。其产业目前的构成情况如何?在未来,大模型产业又将如何发
展呢?

尽管谷歌公司已经全力加速,但让桑达尔·皮查伊和杰夫·迪恩当初
持保守态度的隐忧并未消除,大模型的事实错误和替代搜索引擎之后的
新商业模式,是否能打破困局?这都是人工智能浪潮再度来临之际,产
业界需要思考的问题。

263
14 大模型产业拆解
我们将大模型产业划分为4层:硬件基础设施层、软件基础设施
层、模型MaaS层和应用层(参见图4.1)。

◎图4.1 大模型产业的分层结构

硬件基础设施

针对大模型优化的GPU和云服务

(大模型相关的)一切数据处理都要经过基础设施厂商之手,他们
收割了产业回报……(算力的)每秒浮点运算次数成了生成式AI的命
脉。

——美国硅谷投资公司a16z

GPU在深度学习中扮演了非常重要的角色。相较于CPU,GPU具
有大量的并行处理能力,特别适合处理深度学习中的大规模矩阵运算,

264
能令模型的训练和推理过程获得显著加速。

除了常规的深度学习需求之外,大模型的训练和推理对GPU提出了
更高的要求:

更高的计算能力:与以往的深度学习模型相比,大模型具有更多的
参数和更大的模型结构,随着模型规模的扩大,计算复杂度也呈指数级
增长。例如,人脸识别的主流算法DeepFace、FaceNet和ArcFace的
参数规模在几百万到一亿之间,而大模型的参数规模则高达数十亿到千
亿。

更大的显存容量:大模型需要在GPU上存储和处理海量的参数和梯
度,批次数据和相应的中间计算结果也需要在GPU显存中存储。较大的
显存有助于在GPU上容纳整个模型,从而避免频繁地从其他存储器中调
用参数,降低训练和推理效率。

更快的显存带宽:由于大模型训练涉及大量的矩阵运算和数据处
理,需要在GPU显存和计算单元(如Tensor Core:张量计算核心)之
间快速传输数据。因此,高带宽可以提高计算效率,缩短训练时间。

更高效的集群通信能力:对于超大模型,参数无法完全装入单个
GPU显存,需要使用模型并行技术分散到多个GPU上,将模型参数和
计算任务在多个GPU之间进行划分。这种分布式训练需要在多个GPU
之间进行高效的通信,以便在各个节点间同步梯度和参数。在多GPU或
多节点的集群中,使用高速互联技术(包括英伟达的NVLink,即单节
点8卡之间的通信机制,以及RDMA远程直接地址访问,即多节点之间
的通信机制),可以比传统高速串行通信互联标准PCIe提供更高的通信
带宽并降低延迟。

低延迟和低成本的推理:在生成式大模型最常见的交互聊天场景
中,需要通过低延迟的推理来快速响应用户。在大模型进行商业化之
后,模型推理成本将成为业务边际成本的重要组成部分,需要对推理任
务在GPU上进行加速优化,从而降低成本。

265
目前,符合大模型训练推理要求的GPU代表产品是英伟达Ampere
系列和Hopper系列中的高端卡A100、H100。

例如,Hopper系列的H100-SXM,计算能力达到1979万亿次16
位浮点计算每秒(作为对比,索尼PlayStation5游戏机的GPU计算能力
是10.28万亿次,A100是312万亿次),GPU显存大小为80GB,显存
带宽为3.35T字节每秒(TB/s)。借助NVLink交换机系统,最多可连接
256个H100 GPU来完成训练,跨GPU的通信速率可达900G字节每秒
(GB/s)。H100还实现了Transformer引擎,对大模型的底层
Transformer组件进行硬件加速。

通过计算能力、显存、带宽、跨GPU通信、Transformer硬件加速
的综合能力,H100-NVL可大幅提升大模型的训练和推理效率。以
1750亿参数的GPT-3为例,可将训练速度最高提升12倍(与上一代的
A100相比)。而在5300亿参数规模的Megatron 530B自然语言模型
上,H100-NVL每GPU推理吞吐量比A100高30倍,响应延迟可控制在
1秒之内。

除了GPU单卡性能的不断提升,英伟达还在2023年3月GTC大会
(GPU Technology Conference,即GPU科技大会)上推出了DGX
CLOUD计算集群。该计算集群将依托于Oracle Cloud、微软Azure、
Google Cloud等云服务商提供大模型算力托管服务。每个DGX节点包
括8个H100或A100 GPU,单节点显存共计640GB,节点内通过
NVLink进行通信。

单个计算节点(8卡GPU高性能计算服务器)往往无法满足大模型
的训练需求,需要连接多个节点进行分布式训练,这就要求数据中心具
备更高的核心网带宽,为训练数据传输提供更高的吞吐量和更低的时
延,这也是大模型对于云服务基础设施的重点需求。目前云服务厂商可
以提供数百G比特每秒(Gbps)的核心网带宽,未来可以达到T比特每秒
(Tbps)的级别。

在核心网带宽升级的过程中,RDMA远程直接内存访问(Remote
Direct Memory Access)技术或将是重要的一环。跟传统以太网和

266
TCP/IP协议相比,RDMA技术将数据直接从一个GPU节点的内存快速
转移到另一个节点的内存中,绕开双方操作系统内核和CPU的处理,因
而能达到高吞吐、低时延和低资源占用率的效果。

◎图4.2 RDMA两种典型方案与传统方案架构对比

RDMA阵营中有两种典型的技术方案:无限宽带技术(IB)、基于融
合以太网的RDMA(RoCE)。其中IB方案的链路层流控技术可以获得更高
的带宽利用率,因此能支撑更大规模的训练集群。但IB方案无法兼容现
有以太网,需要更换IB网卡和交换机,对于部署和运维都是一笔不菲的
成本。相对而言,RoCE则被认为是IB的“低成本解决方案”,将IB的
报文封装成以太网包进行收发,但相比IB在性能上有一些损失。云服务
商需要权衡大模型的训练需求、训练效率和服务成本,并做出方案的选
择。

在大模型的基础设施支持上,国内芯片厂商也在积极地追赶。例如
昆仑芯的R480-X8加速器组,搭载8颗基于昆仑芯2代的R300 OAM模
组之后,整体计算能力可达到1000万亿次16位浮点计算每秒,整体显
存达到256GB,基于芯片间互联技术可提供200GB/s的跨GPU通信聚
合带宽。此外,通过昆仑芯2代芯片对GDDR6(图形双倍数据速率)的
支持,其可提供更高的带宽、容量、能效和并行性,GPU显存大小达到
32GB,显存带宽512GB/s,从而提高了在大模型推理场景下的能效比
和性价比。

267
在大模型产业中,硬件基础设施To B(面向企业用户)的商业模式
是最清晰的,对GPU厂商来说尤其如此,他们是大模型发展早期的商业
中最大的赢家。

大模型提供商进行预训练和微调时,需要GPU;大模型行业客户或
应用提供商利用私域数据进行模型微调时,需要GPU;最终用户使用大
模型应用时,还需要GPU进行推理。GPU及相应的云服务,在大模型
产业的每一个环节都能创造To B的收入,付款企业包括大模型提供商、
大模型行业客户或大模型应用提供商。

思考:

如果GPU算力供应存在约束,是否会影响大模型产业的发展?

GPU推理成本是否会影响大模型应用的普及?

软件基础设施

适合大模型的分布式深度学习框架

2023年将是分布式AI框架的一年……摩尔定律正在放缓,机器学习
工作负载需求与单个节点或单个处理器能力之间的差距越来越大,最终
支持这些工作负载的唯一方法就是分布式处理这些工作负载。

——艾恩·斯托伊卡(Ion Stoica),分布式AI框架Anyscale的联合创始人

算力对大模型的重要性毋庸置疑。在本章的上一小节中,我们谈到
提高算力主要通过GPU和计算集群的硬件优化,但在大模型训练算力需
求远超GPU单节点能力的情况下,还需要通过软件基础设施来满足大模
型的需求,实现硬件的横向扩展,充分释放底层硬件的潜力。

深度学习框架是一种用于设计、训练和实现深度学习模型的软件
库,为开发者提供一系列工具和函数。较常使用的框架有谷歌大脑开发
的TensorFlow、Meta开发的PyTorch、百度开发的飞桨
(PaddlePaddle)、阿里开发的PAI TensorFlow等。

268
有人将深度学习框架比作深度学习的操作系统,因为这类框架为模
型开发者提供了一个抽象层,使他们能够更容易地构建、训练和优化神
经网络模型。

抽象层:深度学习框架提供了一系列预定义的层、损失函数和优化
器等组件,使开发者可以方便地搭建复杂的神经网络结构,而无需关心
底层的数学和计算细节。这与操作系统提供的文件系统、进程管理等抽
象层类似。

资源管理:深度学习框架负责管理计算资源(如CPU、GPU、内存
等),以实现高效的计算和内存利用,这与操作系统管理硬件资源的角
色相似。操作系统负责基本的硬件资源管理,为框架提供抽象接口;框
架则针对深度学习任务进行优化,充分利用硬件资源,提高计算效率。

设备兼容性:深度学习框架通常针对各种硬件(如GPU、TPU等)
进行优化,使用户可以在不同的设备上高效地运行深度学习模型,这与
操作系统支持不同硬件设备的特性类似。

在大模型时代,模型的参数规模比起以往的深度学习模型要大得
多,在训练和推理的过程中需要消耗巨大的计算资源和时间。因此,分
布式的深度学习框架便成为大模型最重要的软件基础设施,需要重点解
决以下问题:

大规模计算:大型语言模型通常包含数十亿甚至数百亿的参数,这
需要大量的计算资源才能进行训练和推理。分布式深度学习框架可以在
多个计算节点和多个GPU或其他加速器上并行执行任务,从而实现大规
模计算。

数据、模型和流水线并行:数据并行将允许多个计算设备同时处理
不同的数据分片,提高训练速度。模型并行将模型分布在不同的计算设
备上,使得训练更大的模型成为可能。流水线并行将模型的计算过程划
分为多个阶段,在不同的计算设备上并行执行,减少通信开销,提高计
算设备的利用率。以上几种并行策略对于加速大型语言模型的训练过程
至关重要。

269
高效的资源利用:通过任务调度、负载均衡和资源管理等机制,确
保计算资源得到高效利用。这有助于降低大型语言模型训练和推理的时
间和成本。

容错和恢复:大型语言模型的训练时间较长,在训练过程中出现计
算节点和设备故障,无须从头开始,只需要容错和恢复机制,就可以确
保训练可以继续进行。

当大模型加入图像、视频等多模态数据之后,模型规模、算力要
求、训练时长都会进一步提升,作为软件基础设施,分布式深度学习框
架的重要性在未来的多模态条件下将愈加凸显。

分布式深度学习框架能力的实现方式有两种。

1.叠加式:在已有的深度学习框架之上提供分布式能力,例如
OpenAI公司在ChatGPT项目中使用的Ray on PyTorch。Ray主要解决
分布式计算、任务调度和资源管理等方面,而PyTorch则侧重于模型的
构建、训练和优化。

■模型设计和开发:使用PyTorch构建神经网络模型,定义损失函
数、优化器等训练所需组件。这个阶段主要依赖于PyTorch的功能。

■分布式训练:使用Ray提供的分布式API,将PyTorch模型在多个
节点和多个GPU上进行训练。Ray负责任务调度、资源管理和容错,而
PyTorch则负责模型参数的更新和优化。

■数据和模型并行:结合Ray的分布式特性,在PyTorch上实现数据
并行(多个设备同时处理不同数据分片)和模型并行(将模型分散到不
同的计算设备上)。

■部署和推理:使用Ray Serve部署PyTorch模型,并提供高性能的
在线推理服务。Ray Serve负责模型的扩展和负载均衡,确保推理过程
的高效和稳定。

通过叠加式方案解决大模型分布式训练的产品还有英伟达的Nemo

270
Framework、微软的DeepSpeed等,其提供了模型并行、数据并行和
流水线并行等技术。

2.全栈式:专为大模型解决横向扩展问题的、原生支持分布式并行
训练的深度学习框架,例如国内的开源框架OneFlow。

■OneFlow以软硬协同设计为指导思想,从芯片设计领域借鉴了大
量思路,在纯软件层面解决大模型训练的横向扩展难题。

■将自动编排并行模式、静态调度、流式执行等技术相融合,构建
了一套原生支持数据并行、模型并行及流水并行等多种模式的分布式深
度学习框架,无需定制化开发,兼容多种底层GPU硬件,降低大模型分
布式训练门槛。

■降低计算集群内部的通信和调度消耗,提高硬件使用率,缩减训
练成本和时间。

分布式深度学习框架在大模型产业的技术栈中占据了重要的位置。
在商业模式方面,除了开源软件领域常见的高级功能订阅费、技术咨询
费、定制开发费之外,分布式框架企业也在积极地探索新的可能。

以开发Ray并为OpenAI公司提供框架支持的创业公司Anyscale为
例,他们提供了SkyPilot,基于多个云服务商的模型训练推理计算资源
的代理。“给定一项计算任务及资源需求(CPU、GPU或TPU),
SkyPilot会自动找出哪些位置(区域和云服务商)具有合适的计算能
力,然后将其发送到成本最低的位置执行。”

基于分布式框架,吸引大模型开发者和提供商(参见图4.3),再
进行云服务的集成和代理销售,是一种可行的商业模式。这也充分发挥
出分布式框架的优势,不依赖最新、最强的硬件,可兼容多种底层硬
件,从而降低大模型的训练和推理门槛和成本。

271
◎图4.3 Anyscale SkyPilot云服务代理架构

图片来源:加州大学伯克利分校网站。

思考:

假设大模型未来算力需求继续攀升,分布式框架是否是解决这一需
求的重要手段?

分布式框架技术团队作为基础设施提供商,在商业上存在哪些机
会?

大模型的数据工具

在“算力、数据、算法”的人工智能三要素当中,大模型产业通过

272
硬件基础设施层加上分布式框架,重点解决算力要素的问题。而数据的
数量和质量则是对大模型训练性能影响重大的另一个要素。

大模型的训练包括三个阶段:自监督预训练(Self-supervised pre-
training)、监督微调(Supervised fine tuning)、人类反馈强化学习
(RLHF)。

在大模型预训练阶段,需要的数据量极大但无需人类标注。数据可
以通过购买、合作、抓取等方式获得,并进行数据清洗。此类工作通常
由大模型提供商自行完成。

其后的两个阶段,即监督微调和强化学习阶段,都需要提供带人类
标注的样本数据。

大模型标注样本数据的获取主要有以下4种手段:

1.通过专业人员进行数据标注。

参与标注的专业人员有两种:数据标注专业人员,经过标注工作的
培训即可上岗;垂直行业专业人员,对学历和行业经验有较高要求。在
ChatGPT训练阶段,OpenAI公司曾有几十位博士参与数据标注,编写
对话的答案,或者对模型输出的答案进行评分,确保ChatGPT回答的逻
辑尤其是垂直行业的专业性满足内容质量的要求。

数据标注是大模型数据相关产业中最重要的模块,可以由大模型提
供商内部团队自行完成,也可以采购专业数据标注公司的服务或云计算
厂商的数据标注服务。

总部位于美国硅谷的Scale AI公司是OpenAI公司的专业数据标注
服务商,该服务商支持标注的数据类型包括文本、图像、音频、视频、
3D传感、地图等。标注业务的商业模式有两种:按条数收费和按项目
收费。在大模型产业中,目前有数据标注需求的客户的项目规模都比较
大,通常按照项目制单谈价格,并且伴以项目定制需求,但项目制在商
业中存在的问题就是利润率比较低。

273
为了提高利润,Scale AI公司的主要手段就是降低人力成本。首
先,他们尽量对任务进行分解,在某些任务环节上降低对人员学历和专
业素质的要求,将更多的人力工作外包给东南亚、非洲、南美等地。其
次,在人工标注过程中,在某类任务积累到一定的标注数据量之后,开
发标注算法,先通过机器进行标注,再由人工审核,以此降低人工花费
的时间。

2.搜集用户使用过程中的反馈。

真实用户的提问、用户对大模型回答的评价或选择,都会成为大模
型标注数据的一部分。

例如,ChatGPT在用户重新生成回答之后,会提示用户对比前后两
次回答的优劣(参见图4.4)。

◎图4.4 ChatGPT对用户反馈信息的收集

思考:

如果企业要使用大模型底座,有哪几种选择,根据什么来判断?

根据用户的需求,AI绘画工具Midjourney每次可以生成4张不同的
图供用户挑选(参见图4.5)。用户的选择也会作为一种人类反馈,成
为Midjourney的训练数据。

274
◎图4.5 Midjourney生成4张图片供用户挑选

图片来源:来自Midjourrney官网,http://www.Midjourrney.com/。

275
在数据标注工具中,收集用户反馈是数据数量最大、性价比最高
的。当ChatGPT早于竞争对手发布产品时,他们就提前获得了更多的数
据。他们把这些数据加入训练,大模型的性能和使用体验得到了提高,
进一步吸引更多用户,收集到更多用户的数据,由此启动了数据飞轮
——一种自我强化的循环过程(参见图4.6和图4.7)。

◎图4.6 大模型的数据飞轮

276
◎图4.7 推特用户对大模型收集用户反馈行为的评价

图片来源:推特官网,https://twitter.com。

3.获取公域或三方数据。

公开的互联网数据,或者其他产品的数据,均有可能作为数据标注
的来源。需要注意的是,采用这类数据必须符合法律规定。

例如,ShareGPT是一个浏览器插件产品,用户可以通过
ShareGPT保存并分享自己跟ChatGPT的对话记录。因此,在
ShareGPT的公开页面上,可以收集到部分用户的对话数据(参见图
4.8)。

◎图4.8 ShareGPT公开页面上部分用户的对话数据

图片来源:ShareGPT官网。

277
从技术上看,这些数据符合大模型监督微调阶段的标注需求。但从
数据使用的合规性上看,需要考虑产品的用户协议和相关法规。

4.接入企业私域数据。

作为大模型的企业客户或应用开发者,可能有自己的私域数据。这
类私域数据的接入工具,我们会在模型层的模型企业服务模块进行介
绍。

模型库社区

“创业公司可以通过某种方式为机器学习社区来赋能,这样创造的
价值可以比一个专有工具高出1000倍……你也不必从中获取100%的收
益,只需要将其中1%的价值变现。”

——克莱门特·德朗格(Clément Delangue),AI社区Hugging Face首


席执行官

在软件行业,GitHub是最大的软件代码托管平台和社区。在这个
平台上,开发者可以进行代码的版本控制、协作开发,以及分享和复用
开源软件。GitHub对于开源社区尤为重要,因为许多知名的开源项目
都托管在这个平台上。

而在AI模型尤其是大模型领域,Hugging Face则是最有影响力的
在线模型库和社区。Hugging Face的平台用户分为两大类,即模型托
管者和模型使用者。大模型的托管者通常是模型的研究开发方,可以在
平台上托管并共享预训练模型和数据集:模型使用者可以通过平台选择
合适的模型,在社区中进行协作和模型评价,然后将选定的模型投入生
产应用,而训练和推理均可在平台上完成。

从2019年一个Transformer模型的分享起步,Hugging Face社区
培育了一个庞大的开源社区,上万家公司包括谷歌、微软、Meta、英
特尔都在使用他们的服务。接受该社区托管的模型超过10万个,其中半
数以上是开源模型(参见图4.9)。

278
◎图4.9 与LLaMA相关的开源大模型

图片来源:Hugging Face,https://huggingface.co。

Hugging Face作为一个双边平台,为模型研发者(科学界)和模
型使用者(产业界)搭建桥梁,弥补了科学与生产之间的鸿沟,可以理
解为,Hugging Face是人工智能领域的GitHub。国内类似的模型库社
区有阿里的ModelScope魔搭社区。

作为大模型产业中的一类基础设施,模型库社区的商业模式完全是
To B的。与其他开源项目的商业化相似,模型库社区主要通过高级功能
付费、定制服务项目费赢利,也可以扩展到大模型所需的云计算代理领
域,例如Hugging Face就提供模型训练和推理部署的付费服务。

279
模型即服务层

模型即服务(MaaS)层是大模型产业的核心。我们使用的大模型应
用(例如ChatGPT)必须通过这一层的模型(例如GPT-4)提供的能力
来实现对话、写作、分析、写代码等各种用户级功能。通过企业服务模
块的应用程序编程接口(API)形式,大模型向企业客户或应用开发者提
供多种能力调用,包括模型推理、微调训练、强化学习训练、插件库、
私域模型托管等。

根据模型是否开源,可将大模型分为两大类:闭源大模型和开源大
模型。

闭源大模型

闭源模型的源代码、模型数据和训练过程方法是私有的,这些模型
通常由专业组织或公司开发和维护。闭源模型的商业化程度较高,产品
完善度和模型性能有更好的保障,通常需要付费才能使用。

闭源大模型的典型例子是OpenAI公司的GPT-4、百度的文心千
帆、阿里的通义等。

GPT-4的特点和能力,我们在技术篇有所涉及,此处不再赘述。

聚焦生成式预训练大模型领域,主要需要关注大模型在以下几个方
面的表现:

■生成文本的质量:模型生成的文本是否流畅、连贯,是否与输入
强相关、符合人类的预期,是否存在偏见或错误信息,可以通过人工评
估来衡量。

■零次迁移的学习能力:模型在没有接受特定任务训练的情况下处
理相关问题的能力。这反映了模型的泛化能力和灵活性。

■生成样本的多样性:模型生成的文本是否具有多样性,能否在相
同输入的情况下给出多种合理的回应。这可以通过检查生成样本的不同

280
程度来评估。

■输入的容错性和鲁棒性:一个好的模型应当能够处理输入中的错
误(如拼写错误、语法错误等),并且在面对攻击或敌对样本时保持稳
定表现。

■计算资源需求:模型在训练和推理阶段对计算资源(如GPU、内
存等)的需求。较小的计算资源需求意味着更高的可扩展性和商业可行
性。

■可解释性和可审计性:这些特性有助于理解模型的工作原理,以
及如何改进模型以减少偏见和错误。

以OpenAI公司的GPT-4和GPT-3.5为例,GPT-4在生成文本质
量、任务性能、零次迁移学习能力等方面优于GPT-3.5。然而,GPT-4
可能也需要更多的计算资源,导致在部署和推理时的成本增加。

闭源大模型可以从零开始开发和训练,例如OpenAI公司,也可以
站在巨人的肩膀上,利用开源模型作为基础,训练和定制自己的闭源模
型。

开源大模型

开源模型指模型的源代码、模型数据和模型训练过程等内容是公开
可用的,这些模型可以供使用者免费下载、使用、修改、分享和重构。
不同的开源模型,可能规定不同的内容开放范围和使用场景,不一定
100%开放。

相对闭源,开源模型可以降低模型的二次开发门槛,有助于各个领
域的广泛应用和普及。更重要的是,开源模型可以获得开发者社区驱动
的创新和改进,利用集体智慧的力量,可能获得更快的发展。

Meta的LLaMA以及开源业界从LLaMA扩展出来的诸多模型是生成
式预训练大模型的典型例子。

281
2023年2月,Meta发布了Meta AI大语言模型(LLaMA),这是一种
基于开放数据集进行自监督预训练的大模型。

LLaMA主打两个特色:一是开放,即可以在非商业许可下提供给
政府、开发社区和学术界的研究人员,让更多机构和个人能参与大模型
的研究和探索,实现大模型的民主化;二是性价比,可以在大数据集的
基础上缩小模型规模,找到模型性能和推理部署成本的最佳平衡。

LLaMA基于1万亿~1.4万亿token数据集,训练出4种规模大小的
模型(70亿、130亿、330亿和650亿参数,而GPT-3是1750亿参
数)。

LLaMA使用的预训练数据集均来自公共领域(参见图4.10),包
括:

◎图4.10 LLaMA使用的预训练数据集

图片来源:Touvron H,Lavril T,Izacard G,et al. Llama:Open


and efficient foundation language models[J]. arXiv preprint
arXiv:2302.13971,2023。

282
1.Common Crawl,互联网网页爬取数据集。

2.C4,另一个公共网页数据集,包括各种文章、博客、新闻、论坛
等。

3.GitHub程序代码,为保证数据合规性,只使用了基于Apache、
BSD和MIT licenses的代码库。

4.维基百科,以说明性文字形式写成,并且覆盖多种语言和领域。

5.图书数据集,包括以经典著作为主的古登堡计划(Project
Gutenberg),和ThePile数据集中的Books3数据。

6.ArXiv论文库,为数据集提供了坚实而严谨的基础,因为学术写
作通常展示了有方法论的、理性的和一丝不苟的输出。

7.Stack Exchange,一个高质量的问答网站,涵盖了从计算机科
学到化学等各种领域的问题和答案。

除了以上第2点和第7点,这些数据与GPT-3数据集有一定的重合
度,都在GPT-3数据集中出现过。

Meta公司在其发布的论文《LLaMA:开源高效的基础语言模型》
中披露了大模型训练和推理的算力消耗(参见图4.11)。以性价比较高
的LLaMA-13B为例,预训练基于A100-80GB显存的GPU,花了13.5万
GPU小时,推理则用V100 GPU(A100的上一代)单卡完成,有利于
大模型规模化推广后解决推理成本即业务边际成本问题。

283
◎图4.11 LLaMA各版本的算力需求

图片来源:Touvron H,Lavril T,Izacard G,et al. Llama:Open


and efficient foundation language models[J]. arXiv preprint
arXiv:2302.13971,2023。

LLaMA的出现,让开源社区尤其是诸多高校和初创企业看到了参
与大模型核心研发的希望。在LLaMA发布的一个多月内,就涌现了许
多扩展版本,影响较大的有斯坦福大学开发的Alpaca,以及来自加州
大学伯克利分校、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分
校的团队(以中国籍学生为主)开发的Vicuna。

其中,Vicuna-13B以LLaMA 130亿参数的预训练模型,叠加监督
微调(Supervised fine tuning)训练而成(参见图4.12)。

由于LLaMA只做了大模型的预训练,所以即使它具备了浑厚的内
力,但还没学会和人类交互方面的具体招式。因此,Vicuna监督微调
所用的数据非常关键,该团队从ShareGPT(参见大模型数据工具的第
3类)获得了7万个ChatGPT用户对话数据,作为标记样本进行微调训
练。

284
◎图4.12 Vicuna-13B的训练、评估和推理

图片来源:来自Vicuna官网,https://vicuna.lmsys.org/。

在训练过程中,Vicuna使用了Alpaca项目的训练脚本,并在多轮
对话和长序列的处理方面做了优化。微调训练使用了8个A100 GPU,
花了一天时间。从LLaMA的论文结合Vicuna的实践来看,无论是预训
练还是微调训练,所需计算资源与模型大小基本成正比递增关系。

在模型性能评价时,Vicuna团队创建了8大类问题(复杂写作、角
色场景处理、常识解释、数量级估计、反事实假设、代码和数学、领域
知识、一般性问题),共计80个问题,分别测试了LLaMA、Alpaca、
ChatGPT-3.5、Bard和Vicuna。然后,让GPT-4作为裁判,将问答文
本输入到ChatGPT-GPT4中,请它来评估这5个模型的输出质量,评判
维度包括回答的有用性、相关性、准确性和细节程度。

请GPT-4当裁判时,对ChatGPT-GPT4的提示语(翻译)如下:

“我们希望你针对上述用户问题的两个AI助手表现提供反馈。

请评估他们回答的有帮助程度、相关性、准确性和详细程度。每个
助手的总评分为1到10,分数越高表示整体表现越好。

首先,请输出一行仅包含两个值的文本,分别表示助手1和助手2的

285
得分,两个分数之间用空格隔开。

在接下来的一行中,请提供对您评价的全面解释,避免任何潜在偏
见,并确保回答呈现的顺序不会影响您的判断。”

从GPT-4的评价来看(参见图4.13),Vicuna完胜两个开源前辈
LLaMA和Alpaca,略优于谷歌的Bard,相比ChatGPT-3.5略有不足。

◎图4.13 Vicuna跟4家大模型的对比

图片来源:来自Vicuna官网,https://vicuna.lmsys.org/。

利用水平高一级的大模型(GPT-4)给其他的大模型做评价,是一种
简便高效的方法。在Vicuna的实践中,团队成员对GPT-4的评价结果进
行人肉审核(human in the loop),确保评价的合理性和有效性。

开源大模型的使用者有不同的场景和目的。

■许多学校和科研机构都基于开源大模型开发训练自己的模型,进
行实验性的应用探索,生成的新模型通常也会继续开源,例如基于

286
LLaMA开发的Vicuna。

■企业应用开发者基于开源大模型定制训练自己的模型,并基于这
个模型开发自己的应用,例如彭博社基于开源大模型Bloom开发的
BloombergGPT。

■大模型提供商基于开源大模型定制训练自己的模型,并基于这个
模型向企业客户和应用开发者提供大模型MaaS服务。

无论是哪种场景,使用开源大模型的好处是,可以充分利用AI大厂
在预训练阶段的巨大投入,不需要自己建立巨大的预训练计算集群,不
需要进行庞杂的数据收集和清洗,也规避了预训练阶段算法调优的复杂
工作。总之,可以大大降低拥有自己的大模型的门槛。但同时也要注意
不同的开源项目对于使用者的不同约束,做到合规使用。

思考:

如果企业要使用大模型底座,有哪几种选择,根据什么来判断?

模型企业服务

MaaS,就是要把大模型封装成服务的形式。上文提及闭源和开源
两类大模型的特点和能力,要想把这些能力在实际场景中发挥出来,还
需要在大模型的产品化和商业化阶段向企业客户或应用开发者提供API
能力调用,包括模型推理、微调训练、强化学习训练、插件库、私域模
型托管等。

典型的大模型企业服务案例有OpenAI公司的GPT-4 API、百度的
文心千帆开发服务平台。

1.模型推理

大模型向企业客户或应用开发者提供的最基础的能力就是模型推
理,属于服务必选项。

287
在表现形式上,模型推理是通过最终用户跟大模型之间的对话来实
现的。开发者先通过API入参提供用户的输入(即Prompt提示语),随
后由API返回大模型推理结果,即针对用户提示语的回答。

大模型推理的成本和时延的影响因素,包括客户选择的模型规模、
推理硬件环境、输入输出的数据大小等。

2.二次微调训练

大模型提供商在已经进行过微调的前提下,仍然向企业客户或应用
开发者提供二次微调(Fine-tuning)的能力,旨在将通用大模型调整为
适应特定任务或领域的模型。其使用场景包括:

■领域特定任务:当开发者需要针对特定领域问题(如医学、法律
或金融等)进行处理时,微调可以帮助模型更好地理解该领域的术语和
语境。

■定制化应用:为了满足特定业务需求,可以训练一个定制化的AI
助手,回答特定问题或执行特定操作。微调可以帮助模型适应这些定制
化场景。

■数据敏感任务:如果任务涉及机密数据或特定数据集,二次微调
可以确保训练数据不会进入通用大模型。

二次微调的使用方法:

■准备数据:收集与特定任务或领域相关的标注数据(问题和答案
的匹配对)。

■微调训练:使用预处理后的数据对大模型进行微调,模型的权重
会根据新数据进行调整,以适应特定任务。

■验证与测试:在微调训练完成后,使用验证集评估模型性能。如
果性能满足要求,可以使用测试集进一步测试模型在实际应用中的表
现。注意,微调后的模型在特定任务上的泛化能力会有所提高,但在其

288
他任务上的表现可能略有下降。

3.强化学习训练

与二次微调类似,企业客户或应用开发者也可以基于通用大模型进
行二次人类反馈强化学习,使得大模型在特定任务或领域中表现得更
好。

4.私域模型托管

当企业客户或应用开发者非常看重数据敏感性、模型可控性时,需
要将私有的大模型部署到企业私域中,并提供专有托管服务。

5.模型裁剪

针对企业客户或应用开发者的特点需求,对模型进行压缩和轻量化
处理,对大模型中不重要的网络连接进行裁剪,减少模型冗余。裁剪有
可能导致部分场景的表现变差,但可以明显降低推理成本,有助于特定
场景下的规模化部署。

6.插件库

大模型虽然能完成许多任务,但能力仍然有限。大模型只能从训练
数据中学习,无法实时更新知识。大模型也只能回答问题,不能执行操
作,或者与外界环境进行交互。

大模型插件是用来弥补以上缺陷的工具。插件可以成为大模型
的“眼”和“手”,帮助大模型获得最新的、私密的、无法包含在训练
数据中的信息。为了响应用户的具体任务请求,插件还可以代表大模型
来执行指定的操作,帮助大模型扩展更多的实际用途。

根据插件的功能,分类如下:

(1)数据获取型插件,例如:

■网络浏览:在需要的时候,搜索并浏览互联网信息,获取信息。

289
■数据检索:对个人或组织的私域文档进行语义检索,获取信息。

(2)操作执行型插件,例如:

■代码解释器:嵌入Python解释器,直接运行大模型生成的代码。

■旅行助手:基于大模型生成的旅行计划,帮助用户订票、订酒
店。

■餐饮助手:基于大模型的消费推荐,帮助用户在餐厅预约订座。

■购物助手:在关于商品的对话过程中,帮助用户进行商品比价和
订购。

■数学计算:使用专业的能提供计算服务的工具,如Wolfram进行
数学计算。

(3)内容审核型插件,例如:

■输入审核:根据企业或开发者特定的要求,对用户输入的提示语
内容进行审核和过滤,再送到大模型进行推理。

■输出审核:根据企业或开发者特定的要求,对大模型生成的内容
进行审核和过滤,再予以输出。

目前典型的插件开发运行框架有OpenAI公司的ChatGPT Plugins
和第三方工具Langchain。

以ChatGPT Plugins为例,插件开发者可以在自己的网站上公开插
件API,并提供描述API的标准化清单文件。ChatGPT会使用这些文
件,并允许大模型调用开发者定义的API。

大模型产业中,模型层的商业模式主要有以下几种:

(1)按模型使用付费

290
■推理调用量,可根据用户输入和模型回答的token数量计费。

■根据微调训练量、强化学习训练量计费。

(2)项目定制服务

■闭源大模型的私域托管、模型裁剪定制等服务,单独收费。

■开源大模型团队为客户定制开发和维护特定的模型,单独收费。

(3)大模型提供商同时开发运营自己的应用,在应用层获得用户和
收益

应用层

大模型要创造大价值。再强的算力、数据和算法造出来的大模型,
如果应用层无法实现足够大的客户价值和商业价值,整个大模型产业就
会失去持续发展的动能。

在大模型发展的早期,应用层也是最有创新空间的一层,大模型提
供的新能力,在各行各业的场景里都创造了新的可能性。在前面的应用
篇,我们已经介绍了许多场景的应用潜力,在这里从产业角度对3个典
型应用进行分析,了解他们的商业模式、市场价值和竞争壁垒。

ChatGPT

“从此刻开始,搜索的毛利率将永远、不可逆地进入下降轨道。”

——萨提亚·纳德拉(Satya Nadella),微软公司首席执行官

作为一个应用,ChatGPT获得了巨大的成功。在未大力宣传推广的
情况下,产品发布5天后,用户激增上百万,创下互联网用户增长的纪
录。2023年1月份的日活用户数高达1300万,日活用户的日均增长比
例为3.4%。

291
只需要看用户增长数据,就知道ChatGPT带来的用户体验是超前且
震撼的(参见图4.14)。

◎图4.14 十大热门应用收获百万用户的时间统计图

图片来源:tooltester.com/en/blog/chatgpt-statistics。

当2023年3月,将GPT-4模型和插件库集成到ChatGPT应用之后,

292
用户体验得到进一步提升,GPT-4付费用户专享使用的政策,为
ChatGPT吸引了大批的订阅付费用户。

1.商业模式

ChatGPT短期内的收入有3种可能:

(1)当前,ChatGPT Plus按月订阅付费,20美元/月。

(2)插件库上线后,有机会通过软件商店的苹果税模式(苹果公司
对开发者收入抽成30%),在插件库中的三方插件(例如订票、订酒
店、订餐、购物、虚拟消费等)抽取提成。

(3)同时,可以在对话中插入个性化的广告,获得后向收入。目前
New Bing已经在试水投放此类广告。

作为对比,苹果手机(iPhone)的模式是“1+2”,大头收入来自用
户付费购买,然后通过三方增值服务抽税。

谷歌(搜索广告&安卓)模式是“3+2”,大头收入来自搜索广
告,此外安卓系统提供的谷歌商店应用(Google Play)也对三方服务抽
税。

许多人把ChatGPT比作iPhone,而谷歌也把ChatGPT当作搜索的
最大威胁。那么,ChatGPT的商业模式究竟更像苹果还是像谷歌呢?

我们将ChatGPT用户一分为二,即使用GPT-4的付费用户和使用
GPT-3.5的免费用户。

从OpenAI公司模型的企业服务API的推理调用定价可以得知GPT-4
的推理单价是GPT-3.5的30~60倍(选择30倍或60倍取决于上下文关
联的文本长度需要8K还是32K)。虽然OpenAI公司采取定价策略,是
要在高端客户上获得高利润,但这也说明GPT-4和GPT-3.5的推理成本
差别是很大的。这个推理成本,就是ChatGPT服务里面最大的边际成
本。

293
当GPT-4模型巨大,GPU很贵的时候,ChatGPT的边际成本也非常
高,广告或抽税的每用户平均收入(ARPU)值无法弥补,这种情况下,
必须采用苹果模式,即通过付费才能使用GPT-4。

相对而言,GPT-3.5模型的推理成本较低,如果需要对使用量加以
限制,可以将边际成本控制在可接受范围内,采用谷歌模式,让部分用
户免费使用GPT-3.5,通过广告和插件库抽税的方式,在短期内部分弥
补边际成本,还可以通过软硬件优化来降低推理成本,扩展插件和广告
主生态提高收入来谋求长期发展。

综合来看,苹果模式的商业回报率相对稳健,但规模受限。谷歌模
式的用户规模天花板更高,但商业化较为不确定,这也是为什么谷歌之
前不积极发展大模型应用、担心其冲击主营搜索业务的主要原因,即新
的应用形态替代了搜索,但商业化回报率不足,将极大影响谷歌市值。

2.市场价值

目前ChatGPT用户量已经破亿,长期潜在规模达十亿量级,与谷歌
搜索、Facebook是同等量级。

OpenAI公司对ChatGPT的短期收入进行了预测,预计2023年将通
过ChatGPT获得2亿美元收入,2024年获得10亿美元。

ChatGPT的长期收入取决于以下两点:

作为一个通用智能助手,ChatGPT对于知识工作的辅助或替代价值
有多大,付费的人数和ARPPU就有多大。(麻省理工学院对444名知识
工作者使用ChatGPT-3.5的调研数据显示,知识工作者愿意支付工资的
0.5%付费订阅ChatGPT。)

作为一个新的互联网入口,ChatGPT能否开发出知识工作之外的离
商业更近的场景,将决定流量变现效率有多高,插件库和广告商业价值
有多大(例如知乎、B站、小红书、百度搜索的流量变现效率差别极
大)。

294
3.竞争壁垒

作为一个应用,ChatGPT目前的竞争壁垒主要来自GPT-4大模型。

GPT-4在模型层明显取得了技术领先,并且依靠ChatGPT发布后获
取的海量用户数据反馈,提前启动了数据飞轮。

如果OpenAI公司将发展重心放在ChatGPT应用上,可以通过GPT-
4的服务接入控制,排除应用层的通用型竞品接入,只接受垂直领域的
行业型应用,从而保证ChatGPT的技术领先性。

未来,ChatGPT在应用层还可以长期保留用户数据,为付费用户提
供个性化的模型服务,以此让高端用户牢牢黏在自己的平台上。

CoCounsel

CoCounsel是基于GPT-4大模型能力开发的AI法律助手(参见图
4.15),由美国法律科技公司Casetext研发并运营。CoCounsel以自
然语言的交互方式,依靠相当于法律专业研究生的阅读、理解和写作水
平,协助律师快速完成原本复杂而耗时的任务。

◎图4.15 CoCounsel AI法律助手

295
图片来源:https://casetext.com/。

CoCounsel能够支持基于客户本地文档库的文件问答、法律法规或
内容检索,同时还具备生成法律备忘录、协议关键信息总结、合同数据
提取和提供风险条款修改建议等功能。

1.商业模式

根据客户使用的技能数量和委托给AI的工作量,提供按次付费和订
阅付费服务,并且为独立律师、小型律所、大型律所和公司内部律师提
供不同的计划。

由于法律行业的人力成本较高,单用户订阅付费区间设定为
100~500美元/月。

以订阅付费模式为主的商业模式,能产生持续的收入流,通过优质
体验保证续费率,并持续扩大业务规模。

2.市场价值

根据德国著名数据统计机构Statista在2022年提供的数据,2021
年全球法律科技市场收入达到276亿美元,从2021到2027年的复合年
增长率(CAGR)将超过4%,预计2027年该市场规模将达到356亿美元。
市场的驱动因素包括对法律服务的需求增加,以及法律流程中对自动化
和效率的需求增长。

在CoCounsel发布之后,Fisher Phillips律所的首席知识与创新官
伊万·申克曼(Evan Shenkman)说:“由于CoCounsel接受了Casetext
公司庞大的、最新的案例法和法规的训练,并且引用了其来源,因此它
生成的AI输出具有难以置信的可靠性,并且可以高效验证。由此以往,
法律执业再也不会跟过去一样了。”(The practice of law will never
be the same.)

在GPT-4和类似CoCounsel的更多应用出现之后,法律科技的市场
增长率有可能大大超过之前的预测。

296
3.竞争壁垒

CoCounsel是第一个由GPT-4大模型技术驱动的AI法律助手,但不
会是最后一个。最领先的大模型技术使CoCounsel获得了暂时的优势,
更重要的是,大模型技术能让CoCounsel从其现有的上万家客户当中快
速积累用户和数据,在法律垂直领域抢先转动数据飞轮,竖立竞争壁
垒。

为了获得OpenAI公司的优先支持,Casetext公司为CoCounsel建
立了一个完善的、增强大模型信任度和可靠性的计划,以克服大模型可
能出现的“幻觉”问题。

首先,专业的AI工程师和律师团队花费近4000小时,基于3万多个
法律问题,对模型进行训练和微调。然后,Casetext公司组织了庞大的
Beta测试小组,测试人员由来自全球律师事务所、企业内部法律部门和
法律援助组织的400多名律师组成。Casetext公司要求测试小组在日常
工作中使用CoCounsel至少50000次,并提供详细的反馈,以此作为模
型和应用优化的依据。

因此,在法律行业的深厚积累,也是CoCounsel的竞争壁垒之一。

Character.ai

“我愿意用我所有的科技来换取跟苏格拉底相处的一个下午。”

——史蒂夫·乔布斯(Steve Jobs),苹果公司前首席执行官

Character.ai是一款端到端自建大模型的个性化人机聊天应用(参
见图4.16),其愿景是让“每个人都能拥有自己深度个性化的超级智
能,帮助人们过上美好生活”。

297
◎图4.16 Character.ai人机聊天应用

图片来源:Character.ai网站,https://beta.character.ai。

个性化有两重含义:其一,用户可以选择不同的角色来聊天,历史
上或现实中的名人(如苏格拉底)、小说电影动漫游戏里的人物(如游
戏《马力欧系列》中的角色马力欧)、带有专业属性的角色(如心理学
家),等等。

其二,用户可以自建角色,而且用户跟角色聊天的历史会一直记录
下来,并用于后续的沟通,产生“你的聊天对象认识你”的效果。

1.商业模式

未来有机会实现“前向用户付费+后向广告”的双重模式,支持付
费用户和免费用户共存。

形成用户黏性之后,通过特定角色订阅、会员增值服务等模式向用
户收费。

在聊天过程中,进行个性化、软性植入的广告营销,向广告客户收
费。

298
但需要注意,互联网内容类应用的“二八现象”(少量付费用户,
大部分免费用户),需要两种前提作为支撑:要么免费用户成本低,用
广告收入来弥补,常见于视频应用;要么付费用户ARPPU(每个付费
用户身上的收入)很高,靠付费用户养免费用户,常见于MMO大型多
人在线游戏(Massively Multiplayer Online)。

Character.ai可以通过流行人物角色的粉丝营销、用户生产内容
(UGC)的分享传播等手段来降低获客成本。因此,服务过程中的大模型
推理成本CPQ(英文全称Cost per Query,即每次问答成本)将是免
费用户的主要成本,这个成本将影响其商业模式的发展路线,如果CPQ
成本明显高于每次问答的广告收入,就无法持续维持大量的免费用户。

2.市场价值

Character.ai的市场价值取决于其定位的人群规模。其投资方a16z
公司的合伙人马克·安德森(Mark Andreessen)认为这属于个人化AI伴
侣(英文全称Personalised AI Companion)的市场,未来的每个孩子
都会在AI的陪伴中成长,AI将成为他们生命旅程中密不可分的伴侣。

潜在市场的大小取决于Character.ai的大模型技术和产品设计是否
能实现这个愿景,更重要的是,Character.ai有什么竞争手段,能从
ChatGPT这个强大的对手手中抢到市场。

3.竞争壁垒

如果想在OpenAI公司、谷歌、Meta之外自建大模型,而且既不调
用强大的GPT-4,也不采用开源的LLaMA进行定制,必然要有充分的
理由。首先,Character.ai团队有这个技术实力,创始人诺阿姆·萨泽尔
(Noam Shazeer)是谷歌前首席软件工程师,大模型基石级论文《注意
力就是你所需的一切》的第二作者;Character.ai团队的联合创始人丹
尼尔·德弗雷塔斯(Daniel de Freitas)也曾在谷歌负责大模型LaMDA的
开发。

其次,自建大模型的架构和训练方法,要充分照顾到个性化聊天的

299
场景。相比GPT-4,Character.ai能够加强角色扮演的特色,实现对话
的超长期记忆,同时降低垂直场景下的推理成本,从而实现个人生命旅
程伴侣的愿景,以及大规模服务的商业可行性。

除了自建大模型的技术特色之外,另一个竞争力的重要因素在于特
色运营。如何利用应用本身的特色,抓住名人和流行文化角色的粉丝红
利,结合趣味性、社交化甚至游戏化的玩法,产生传播性的内容,就有
机会降低获客成本,快速形成规模,加快转动这一垂类的数据飞轮,从
而形成竞争壁垒。

思考:

大模型给企业或消费者App带来了什么新的特质,如何放大这些特
质以获得优势?

300
15 关于大模型产业的对话:第1集
北京:咖啡馆的小聚

人物:

·老A:技术出身的IT互联网连续创业者

·V姐:芯片行业专家,老A的大学同学

·小柯:在美国加州留学的AI博士生,老A的朋友,回国探亲中

主题:

·GPT-4已处于风口浪尖,做大模型究竟难不难?有多难?有哪些做
法?

·有人说ChatGPT是人工智能的iPhone时刻,大模型应用和生态跟
移动互联网有什么异同?

时间地点:

·2023年3月的一个下午

·中国,北京,望京SOHO

太阳在云里穿行,漏下来些许阳光。正是乍暖还寒时候,咖啡馆已
没了暖气。三人坐下寒暄一阵,老A看着窗外空荡荡的广场,有些感
慨:“当年这里排队扫码可热闹了。”

301
◎图4.17 望京SOHO:曾经的扫码一条街,创业公司员工薅隔壁创业公
司羊毛的地方

图片来源:知乎专栏,https://zhuanlan.zhihu.com/p/94715027。

V姐:“App可能马上又会热闹起来?不少大厂和资本都在找我打
听大模型了。”

老A:“要想挣钱,还没轮到做应用的。大模型第一波的钱都花在
你们GPU身上了,你们给产业设了很高的门槛啊。”

V姐(低调状):“GPU是基础设施,先得做好基建嘛。我们也在
努力降成本。”

小柯:“嗯,我们学校用LLaMA开源模型做的微调训练,成本可
以降到几百美元了。”

302
老A:“微调成本只是相对小的一部分吧,大模型的高门槛在微调
的一前一后。从一开始的大模型预训练,算力就是很高的进入门槛;大
模型做好之后,应用要想规模推广,推理成本是另一个门槛。”

小柯:“那倒是。我们用的LLaMA-13B版本,算性价比很好的
了,按Meta论文中的数据,预训练用A100(80GB显存),跑13.5万
GPU小时。假设1000张卡,跑135小时,相当于5天半左右。据说光买
这1000张显卡就差不多1个亿人民币。”

V姐:“那你这个规模算小的了。GPT-4用的显卡数量远比这个
多,10倍往上吧。”

老A:“这还只算了GPU呢,再加上其他硬件服务器、数据中心、
电费、研发人员的成本,大模型预训练的资金门槛就在几个亿到几十亿
之间(对应百亿级到千亿级参数的模型)。所以啊,想要获得在预训练
阶段就完全自主掌控的大模型,没有多少企业能玩得起。”

小柯:“基于开源来搭自己的大模型吧,门槛低很多。并不是所有
企业都需要从零训练一个大模型。”

老A:“那要从企业自身诉求来说了。如果是做应用、做垂直市场
业务的,并且明确自己的应用需求,那大多数企业首先不是去看开源大
模型,而是先看商业化的闭源模型能不能用,例如GPT-4、文心、通
义。如果能用,优先选择成熟的闭源模型,因为这样做快速、轻松,只
要闭源模型的费用算得过来就好了。”

小柯:“嗯,目前的闭源大模型通常由技术领先的企业提供,例如
GPT-4,它们代表了当前大模型性能效果和能力边界的天花板,功能生
态也相对完善。就像买手机先看最新款iPhone,如果你没什么特殊的
要求,又买得起,选它大概率不会出错。只不过,闭源大模型的企业服
务一般都比较标准化,有许多企业的诉求是它满足不了的吧。”

老A:“对,例如企业认为:我的数据放你那,不安全;我要定制
某个功能,你没有;我要用的量很大,你的成本不划算;甚至,我就要

303
在模型预训练这层做出应用的差异化竞争力,我不能跟竞争对手用同一
个大模型底座,通常是比较大的企业或应用会这么想。”

小柯:“嗯,这些情况下,都可以来试试开源模型。先看看企业的
诉求是否通过模型私有化、监督微调和强化学习训练就能满足,如果可
以满足,那就直接拿别人预训练好的模型来搞。这种做法的额外算力成
本是比较低的,大多数企业都承受得起,这也是开源大模型最常见的用
法。

但如果必须重新做预训练才能满足诉求,例如要在预训练阶段加入
一些数据,或删除一些数据,再或者要修改预训练的算法来获得特殊的
功能和性能,那就需要进行其他类型的准备工作。首先,要看这个开源
模型是否开放到预训练代码、数据和参数这一级;其次,企业自己还是
要准备比较大的算力资源,之前说的算力门槛就躲不开了。”(参见图
4.18)

V姐:“要想重做预训练,准备大算力是免不了的,或许这正是云
服务商的产业机会。预训练是阶段性集中使用算力,如果不同企业错开
训练排期,一个大模型企业的闲时完全可以给另一个企业用的。通过资
源复用,能降低不少成本,也能缓解GPU供应链紧张的问题呢。”

304
◎图4.18 企业如何选择大模型的不同方案

老A:“说到GPU供应链,尤其是高端产品的供应不足,确实是大
模型产业发展的一个瓶颈呢。”

V姐:“如果按照小柯刚才说的开源模型LLaMA-13B这个算力需
求,GPU产品供应还是有机会解决的。”

小柯:“也不对,这样说就有点刻舟求剑了。我刚才说的只是文本
大模型,等多模态的图片、未来的视频跟文本结合起来,我们的模型参
数也压不到百亿这个数量级了。”

老A:“我赞同小柯的观点。即便短期内解决了问题,但大模型产
业到下一步还要面临一个主要矛盾,那就是大模型多模态日益增长的算
力需要和不平衡、不充分的算力供应之间的矛盾。”

V姐:“那要看多模态会提出多高的算力需求了。如果需求超过
了‘GPU每年性能提升一倍’的黄氏定律,那只能靠更大的分布式计算
集群来实现了。要实现更大更快的分布式集群,目前有两个瓶颈或突破
口:一是云服务商数据中心的核心网带宽,要从老的以太网升级到新的
标准;二是软件方面,深度学习框架要配合。”

小柯:“软件这个我了解,我们就在用分布式的框架,无论是并行
计算的程度,还是通信调度的开销,未来的提升空间还是很大的。”

老A:“我也听说了,分布式深度学习框架无论在我国还是美国,
都有专业团队在做,但我国的商业模式尚未成熟。如果分布式对大模型
这么重要,而且能缓解高端算力供应短缺的问题,那么就存在另一种商
业模式的可能性了,即分布式框架开发团队将基础设施技术投入某一家
大模型提供商,并提供定制的技术能力,帮助大模型获得市场优势,框
架团队就从大模型运营的商业收入中分到收益。换句话说,如果做框架
本身不好挣钱,但客户能挣钱,那么就加入你的客户,你们一起挣钱。
毕竟,做产业是要有商业回报的嘛。”

小柯:“我知道我国在分布式框架领域有不错的软件团队,那GPU

305
硬件是否也能搭上这一轮大模型发展的快车呢?”

V姐:“当然了,软件硬件两手抓,两手都要硬嘛。我国的GPU,
虽然在高端产品性能上与国际领先产品仍有差距,但大模型有很多场
景,要用到不同性能规格的GPU,一定可以找到合适的定位。比如说,
大模型的推理场景强调低延迟、性价比、能效比,国内就有一些产品非
常适合。而且,别看推理GPU规格要求不高,但未来应用普及之后,推
理的需求量会非常大,会远远超过训练量,所以推理芯片的市场潜力很
大。

场景的另一端,用到最高端GPU的,是百亿级千亿级参数大模型的
预训练。这种预训练要求超高的每秒浮点运算次数(FLOPs)的算力、超
大的跨GPU通信带宽。因此,高端产品的需求用量也不小,虽然客户数
不会太多,但一个客户就要几千上万张卡。国内GPU产品在这类场景还
需要努力(参见图4.19)。

◎图4.19 GPU的不同定位和国产机会

306
介于模型推理和大模型预训练这两端之间的,主要是模型微调场
景,需求用量规模取决于大模型产业发展出来多少需要做微调的行业客
户。这个场景对GPU的要求也介于前面所说的两端之间,国内GPU也
有机会逐步覆盖。”

老A:“看起来,推理用的GPU是咱们国内产品最佳突破点了。V
姐刚才说,未来大模型应用普及之后,推理GPU的需求量会非常大。那
它就是我们做大模型应用的边际服务成本啊!这让我想起当年互联网视
频刚出现的时候,服务器带宽成本超级贵,占了企业收入的四成以上,
这样业务运营就很难体现互联网的边际效应,带宽成本是在后来才慢慢
降下来的。”

V姐:“推理成本也会不断下降的。未来某些场景的推理或许能放
到用户终端的GPU甚至CPU上面去,彻底消灭边际服务成本。”

老A:“希望有那么一天吧。不过,你的技术在推动成本下降,但
大模型随着多模态发展又在不断长大,此消彼长,这个成本始终绕不过
去。”

小柯:“大模型强调的规模定律(Scaling Law),就是要指数级地
加大模型来获得性能突增和能力涌现。我们学术界也知道,这个规模定
律从理论验证到大范围落地,还要进一步优化算力效率,降低落地成
本。你看,我们在LLaMA-13B开源大模型的推理,可以用V100 GPU
单卡实现,成本降到A100的一半左右了,还嫌太高吗?”

老A:“如果你给定了一个模型推理成本,同时也标定了这个模型
的能力基线,我们就要在这个前提下来设计用户产品及其商业模式。这
个商业模式就应该要挣到推理成本以上的服务收入才对。

打个比方,GPT-4大模型推理比较贵,但它能力强,可靠性也提升
了,首选用在专业性、可靠性要求比较高,同时也更有钱的市场,例如
金融和法律的客户。假设每次Query(查询)能节约15分钟的人时,金
融法律助理岗1个人时100元(高于普通劳动力),那就是25元的服务
价值。不过企业实际不会付25元,可能他只付5元,但相比不到1元的

307
CPQ推理成本,这个毛利就足以运营起来了。”

V姐:“所以,如果模型推理很贵,它所替代的人时应该更贵才划
算?”

老A:“对!不管你采用了贵还是便宜的模型,在推理成本上横着
画一条线(参见图4.20),选横线之上的应用场景,才有可能赚钱。

小柯你的LLaMA-13B追求性价比,推理成本是降了很多,但功能
性能跟GPT-4有差距,就可以找一个客户要求低一些,但付费能力也弱
一些的市场。例如个人助手市场,普通人对时间价值的认知以及付费习
惯差别很大。ChatGPT目前的方法是,愿意付费的用户用贵的模型
GPT-4,不付费的用户用便宜的GPT-3.5,估计也会针对免费用户增加
广告的商业模式。这些方法在移动互联网行业很成熟了。”

◎图4.20 大模型推理成本与服务场景、商业模式的关系

V姐:“对于广告模式,图片里还区分了垂直领域和通用的。”

老A:“对,同样是To C(面向个人用户服务)免费的广告模式,
如果在高价值的垂直领域,例如金融、法律,就比通用型服务有更高的
单次服务收入,也就用得起更好、更贵的模型。这种垂类的广告价值,

308
很可能比用户付费还更高。”

小柯:“模型的选择,不一定更好就是更贵,要看具体使用场景需
要怎样的模型。例如,有些垂直领域场景,或许不需要靠更大的模型来
变得更好,所以他的推理成本也不贵,但需要花精力在领域数据和训练
校正上,或者增加某个特性,例如更长的上下文记忆窗口。”

老A:“是的,实际情况会有很多变量。当推理成本是边际服务成
本的主要部分时,要针对自己应用场景的特点,选择高性价比的大模
型,这能省不少钱。能跟着场景变化和成本变化来迭代模型方案、少走
弯路,那就是应用团队很重要的竞争力了。”

V姐:“这么说,小柯他们在大学里搞模型算法、模型训练的经
验,对你们做大模型应用也很有价值呢。”

老A:“当然了。大模型时代跟移动互联网时代不同的地方,就是
做应用也得懂大模型是怎么回事,这样才能选对路线。深度定制的模型
和数据积累将是大模型应用的重要竞争壁垒。模型定制的方法,简单的
可以用闭源大模型的微调、数据插件等服务,但毕竟定制能力有限,要
想搞更深的,我也得看看小柯说的开源模型了。”

小柯:“你早该来看看了。在AI产业界,开源生态非常重要,
ChatGPT也都是站在Transformer等开源技术的肩膀上做起来的。况
且,文本类的大语言模型正处于Stable Diffusion时刻,正是开源模型
的爆发前夕。”

V姐:“哦?什么叫Stable Diffusion时刻?”

小柯:“在文本到图像(text-to-image)类的生成式AI大模型中,
也分为闭源和开源两种,其中DALL-E2、Midjourney闭源,自己做To
C商业化。但是在2022年8月,总部位于美国硅谷的人工智能公司
Stability.ai开放了Stable Diffusion模型,你可以把模型下载到自己的
计算机上运行,也可以修改脚本、包装自己的用户界面并进行商用,条
件是要遵循他们的许可证条款。从那以后,Stable Diffusion一下子吸

309
引了很多研究机构和开发者,在业内的影响力和关注度一下子超越了另
外两个闭源模型,开源社区也出现了很多基于它的新模型、新应用,还
有各种新的交互方式。所以,Stable Diffusion时刻就是指在某个人工
智能领域出现了高质量的开源模型,引爆开源社区热情,利用全球的研
究人员和开发者,激发出许多创新的时刻。2023年2月,LLaMA的发
布,意味着文本类的大语言开源模型也到了这个重要时刻。”

老A:“确实最近一下子出来了好多新的模型,都是基于LLaMA
的。不但硅谷在搞,咱们中国也有许多高校和公司在做呢。大模型的民
主化和普及化,在模型通用能力上可能不如闭源模型的天花板高,但有
机会在垂直行业里百花齐放、激发创新,值得期待。”(参见图4.21)

V姐:“最近各种时刻的类比都出来了,除了LLaMA是大语言模型
的Stable Diffusion时刻,还有人说ChatGPT是人工智能的iPhone时刻
呢。”

老A:“这不是英伟达老黄说的吗?意思是两者分别开启了一个新
的时代,都能长出新的生态吧。ChatGPT和iPhone,一个是AI模型,
一个是硬件终端,如果真要比,应用生态的发展思路倒是可以借鉴
的。”

310
◎图4.21 基于LLaMA的各种驼类动物项目

图片来源:https://www.salkantaytrekmachu.com/en/travel-
blog/llama-vs-alpaca-vs-vicuna-and-guanaco。

V姐:“你是说App的发展思路?”

老A:“对。早在2007年,iPhone1就发布了,可类比2022年11
月ChatGPT发布。2008年苹果应用商店发布,对应于2023年3月
ChatGPT插件库发布。但2008年应用商店里的App和游戏,基本上都
是从PC网页上、游戏主机上移植过来的,并没有充分利用iPhone的特
性。到2009年,应用商店才出现了第一个移动互联网时代的爆款游戏
《愤怒的小鸟》。

iPhone这款产品相对之前的智能机有两个划时代的优势:第一个

311
是超大的多点触控电容屏,把诺基亚、黑莓都习惯的键盘给取消了;第
二个是iPhone有很强的终端算力,到2009年iPhone 3GS的时候,CPU
和GPU图形处理器的综合能力都要超过同时期的诺基亚N97和黑莓
Bold 9700。

而《愤怒的小鸟》很好地利用了这两点优势。整个游戏里,玩家只
有一个动作,就是手指划屏幕拉开弹弓,把小鸟弹出去,玩家需要在触
屏上面细微地调整角度和力量,才能打中小猪,这些特性很好地结合了
触屏手机的体验。打到小猪之后呢?会有很多东西撞来撞去,从架子上
倒塌下来,给玩家一种爽快感,这里面产生的物理碰撞效果,也对计算
能力提出了很高的要求,是以往的其他手机做不到的(参见图4.22)。
所以说,《愤怒的小鸟》是第一款把iPhone引以为荣的触屏和算力完
美结合的游戏,是真正为iPhone智能机而生的游戏,也成为一个爆
款。这款游戏的成功,后来也把很多大型游戏的开发者带到了移动互联
网行业。我们可以把这类游戏或App称为移动原生应用,Mobile
Native APP。”

◎图4.22 游戏《愤怒的小鸟》

312
图片来源:经典游戏《愤怒的小鸟》游戏截图。

小柯:“我知道云原生应用(Cloud Native Application)。这种应


用,从一开始就是为了充分利用云计算的特性,比如弹性伸缩、按需分
配资源、自动恢复等特性而设计的。相比之下,传统应用在设计和开发
时还是沿用单一、固定的服务器的前提,只是把它部署到云上而已。”

老A:“嗯,所谓的某某某原生应用,无论是移动原生应用、云原
生应用还是大模型原生应用,都在说一个规律——当某一项新技术出来
之后,传统应用往往只把新技术嵌入进来作为补充,无法100%发挥新
技术的优势,需要有一个或几个应用,从头开始就围绕新技术而设计,
带来突破性的价值,然后引发更多的开发者追随,这就是原生应用
了。”

V姐:“那大模型的原生应用是怎样的呢?”

老A:“这是个好问题啊。你们觉得大模型的能力带来了哪些本质
区别呢?ChatGPT,尤其是GPT-4之后给我的感觉,真的像是一个人在
跟你互动,虽然有时候废话很多、有时候故意造假,但从它的回答来
看,它能听懂你要什么,你能让它办一件复杂的事,就像请另一个人类
帮你办事一样。而且,你跟它的语言交流,也可以把它当人类来嘱咐和
讨论。这是以前的AI从来没有过的。

所以我觉得大模型原生应用的一个重要特征,视模型为人,在应用
中设计‘类人’的交互和任务。”

小柯:“嗯,我赞同。OpenAI公司的安德烈·卡帕斯(Andrej
Karpathy)也说过,人类设计跟ChatGPT对话的提示语,就是在研究大
模型的心理。那怎么才算‘类人’的交互和任务呢?”

老A:“跟它说人话,期待它办人事。不说人话的例子,就是在已
有的系统应用里嵌入大模型功能,预先配置好固定的对话提示语,用户
不用参与对话,点点鼠标或手指就能完成。

微软Office嵌入的Copilot就有一些这样的例子(参见图4.23)。

313
在已经固化的工作流程里,用这样的设计是合理的,对用户体验是好
事,在应用推广时用户容易接受。同时也说明,这是拿大模型的能力去
填补原有系统的能力空缺,打补丁、做加法,但它不属于大模型原生的
应用场景,也没有充分利用大模型最强大的语言交互能力。”

◎图4.23 在微软Office中嵌入Copilot的示意图

“语言是一个强大的用户交互界面,让GPT-4能够执行那些需要理
解并适应环境、任务、行动和反馈的任务。” ㊟ 【出自论文《通用人
工智能的火花:GPT-4早期实验》(Sparks of Artificial General
Intelligence: Early experiments with GPT-4)。】

——塞巴斯蒂安·布贝克(Sébastien Bubeck),微软公司机器学习研究
经理

小柯:“那办人事呢?干普通人类干的事?”

老A:“办人事,要再加上个水平限定。因为GPT-4相当于已经考
过GRE和律师考试并达到人类水平了,应该找到它擅长的领域,把它当

314
作一个具有本科学历,且经过某种专业训练,某些地方比普通人类厉害
的人,对标至少薪水上万的人类。请它办合适的事情,这才算充分发挥
大模型的优势。也要注意避开它目前的弱项,例如做数学题、做规划
等。”

V姐:“嗯,如果让我招聘一个月薪上万的助理,或者请一个专业
教练,我不会让他打杂,至少得帮我解决一些有难度的问题,做我自己
一个人做不到的事。”

小柯:“现在的ChatGPT,是一个啥都能干、啥都不精的机器人,
还是搜索应用或者语音助手的升级版思路。有哪些应用,算是大模型原
生呢?”

老A:“Character.ai在线AI聊天机器人算一个雏形,该平台塑造
了深度个性化的虚拟人物,尤其是心理学家、苏格拉底这两个角色,未
来可以提供私人心理咨询和学习教练的服务。”

小柯:“几年前我看过一部电影《黑镜:白色圣诞节》,有个人戴
着类似谷歌眼镜的设备去陌生人派对,有个约会教练远程指导他如何跟
妹子搭讪(参见图4.24),这个场景就很适合大模型原生应用。比如开
发一个‘耳语教练’,在开会、约会、谈判等场景下,利用骨传导耳
机,将语音转文本作为大模型的输入,获得大模型的指导意见。如果能
把大模型在某些专业教练方向训练得很优秀,那就跟开挂了一样。”

315
◎图4.24 《黑镜:白色圣诞节》剧照:男主角戴植入眼镜,约会教练远
程指导

图片来源:www.imdb.com。

V姐:“如果加上AR眼镜和大模型多模态能力,大模型可以接收到
图像视频等更多‘类人’的输入,会更强。”

老A:“嗯嗯,这就很‘大模型原生’了。不过在目前的技术上,
要做到足够‘类人’的体验,还要把长期记忆加上。你的私人教练会了
解你,知道你过往很长时间的事情,把这些历史都记在脑子里,在服务
你的时候会表现出来,日积月累,用户就离不开这个教练了。大模型在
这方面还需要加强,做好了能成为很高的竞争壁垒。”

小柯:“我玩Character.ai时还使用过一个定制角色的功能,我做
了个孔夫子跟大家对话。如果定制能力做得再深一些,这个角色就是一
个被用户微调过的模型了。用户定制的模型,可以开放给其他用户来使
用,这也是个新的玩法。”

老A:“这个很有意思,也可以作为大模型原生应用的特征之一。

316
模型即内容,模型本身会成为应用里面的重要内容。从移动互联网时代
的PUGC(英文全称Professional Generated Content+User
Generated Content,即专业用户生产内容)到大模型时代的
PUGM(英文全称Professional User Generated Model,即专业用户
生成模型),可能会成为大模型原生应用实现社区化、提高用户黏性的
新竞争壁垒。”

V姐:“我昨天用GPT-4写邮件的时候有个幻觉。以后看我邮件
的,会不会也变成大模型了呢?”

老A:“脑洞很赞!一定会的。我们用大模型写邮件,往往加了很
多礼仪上的废话,都是给对方的人看的。对方可能也嫌烦,会找大模型
来脱水提炼干货,甚至预处理一遍,垃圾直接删掉,不重要的搁置,简
单的自动回复。”

V姐:“所以,我在想,当邮件的双方都是大模型在操作,甚至大
模型写PPT给大模型讲的时候,邮件和PPT还应当像现在这样吗?”

小柯:“有意思啊。当谈判的双方都由耳语教练来指导的时候,就
让两边的大模型直接谈判得了。”

老A:“你俩的未来感越来越强了,那时候一定会诞生新的大模型
原生应用,大模型原生的特征也会不断进化呢。”

小结

·GPT-4已成为行业焦点,做大模型究竟难不难?有多难?有哪些做法?

■预训练的算力门槛很高。

■企业做大模型有几种方案选择。

■解决高端算力供应问题的方向。

■国内大模型基础设施软硬件方向的机会。

317
·有人说ChatGPT是人工智能的iPhone时刻,大模型应用和生态跟移动
互联网相比有哪些异同?

■特殊之处1:推理带来的边际服务成本是大模型应用的重要影响因
素。需要根据成本条件和业务场景,选对模型路线和商业模式。

■相通之处1:通过Freemium免费模式获取用户,再转化到
Premium付费模式。

■特殊之处2:模型和数据是大模型应用的重要竞争壁垒。模型开源
生态很重要,大语言模型正处于Stable Diffusion时刻。社区化和用户
黏性手段,从移动互联网的PUGC过渡到大模型的PUGM。

■相通之处2:ChatGPT类比iPhone时刻,从移动原生应用的发展
史,讨论大模型原生应用有可能是什么。

最后,以GPT-4根据笔者指令创作的这篇散文总结本小节产业对话
的大意:

乍暖还寒的时节,人们已不再依赖那消散的暖气,而是将短暂的光
明与温暖珍藏在心底。每一缕阳光,就如同一丝丝希望,伴随着喧嚣与
寂静的日子,悄然绽放。那些来往于咖啡馆的人们,或许有的颓废,有
的奔波,有的沉思,有的欢笑。他们在这乍暖还寒的季节里,都在寻找
属于自己的那一份坚持与力量。而那若隐若现的阳光,就像生活中的无
数启示,总是在不经意间闯入我们的视线,激发着人们内心深处的渴望
与希冀。

318
16 寒来暑往几度:AI泡沫与机遇
抛开近来围绕着AI的许多商业上的纷繁扰攘,在研究AI超过4年的
人群中,出现了一种深深的不安情绪,我想在座的你们也了解这种感觉
吧。这种不安是一种担心,担心对AI的期望过高了,担心这种期望最终
会把事情搞砸……重要的是,我们应该采取措施来阻止AI冬天的到来,
这些措施包括对我们自己的约束,也包括对大众的教育。

——德鲁·麦狄蒙(Drew McDermott),在1984年AI大会上的发言

完美的资本叙事

2016年3月,谷歌公司的AI围棋程序AlphaGo在与韩国棋手李世石
的五番棋对决中,以4∶1的大比分获胜;2017年5月,AlphaGo又来到
中国乌镇,以3∶0的比分完胜柯洁。自1997年深蓝战胜国际围棋人类
冠军之后,许多围棋界人士和媒体认为,围棋变化多过宇宙原子,计算
机要想在围棋上战胜人类还要再等100年,但这一天还是提前到来了。

不仅如此,在战胜柯洁五个月之后,DeepMind公司又发布了
AlphaGo Zero,不采用任何人类棋谱作为训练数据,仅通过自我对弈
完成强化学习,且比之前的所有版本都要强大。在DeepMind公司联合
创始人兼首席执行官戴密斯·哈萨比斯(Demis Hassabis)看来,
AlphaGo Zero“不再受限于人类认知”,由于专家数据“经常很贵、
不可靠或是无法取得”,不借助人类专家的数据集训练人工智能,对于
人工智能开发超人技能具有重大意义,因为这样的AI不是学习人,而是
通过对自我的反思和独有的创造力直接超越人类。

319
◎图4.25 2016年4月,《医疗未来学家》杂志文章认为:AlphaGo能重
塑医疗行业

图片来源:https://medicalfuturist.com/alphago-artificial-
intelligence-in-healthcare/。

DeepMind公司认为,AlphaGo用来战胜围棋冠军的技术可以获得
更广泛的应用。哈萨比斯将深蓝这样的狭义人工智能(Narrow AI)和通
用人工智能(AGI)区分开来,认为后者具备更强的灵活性和适应性,
DeepMind公司的智能算法也将在机器人和医疗领域发挥更多的作用。
2016年,DeepMind公司宣布与英国国家卫生服务局,以及
Moorfields眼科医院、伦敦大学医院等机构展开AI医疗诊断算法的合
作。

提前80年攻克围棋这座人类智慧的最后一道堡垒。

快速实现深度强化学习的自我升级,不再受限于人类认知和专家数
据。

再一年后,击败星际争霸职业选手,攻克不完全信息博弈的竞技
场。

快速横向扩展到医疗、能源等高端产业,尤其是医疗AI,不光
DeepMind,连IBM超级计算机Watson Health也趁着这股势头加快了
拓展的脚步,在中国与21家医院开展了合作。

320
这一系列猛如虎的组合操作,加上有意无意、点到即止的AGI概
念,构成了产业和资本市场的叙事逻辑——技术有门槛,业务可复制。

让人听不懂的技术概念和豪华的科学家阵容,造就了极高的门槛,
但一旦将其突破,就能筑起壁垒。而“不受限于人类认知和专家数
据”的横向产业复制机会——AGI的G(General,通用性),则会妥
妥地带来超高潜力回报。这是多么完美的产业布局和投资标的。

当产业和资本都这么想时,媒体和大众就更容易上头。

在2016年后的一两年内,受AlphaGo横空出世的影响,全社会对
AI颠覆世界的期望迅速提高。看到AI下棋赢了,就担心机器人很快会抢
走大部分人类的工作;看到一个demo跑得不错,就想把它用在企业实
际生产中;看到一个客户案例,就以为能将其快速复制到整个行业。于
是,想象的价值空间变得无限大,因为全行业、全人类的市值都可以算
成AI产业的基数。而这样美丽的“误会”,不仅发生在大众、媒体、资
本和各行业的AI客户身上,也让“身在此山中”的AI从业者产生了激情
与梦想——没准儿真的可以呢?

历史总是惊人的相似。2016年之后的一两年,“Dot-com”互联
网泡沫年代发生过的各种现象又重演了。各行各业的公司都在想办法给
自己贴上AI标签,期望“挂个羊头”就能拿到更高的估值或补贴;发个
AI合作的公关通稿就能看到明天股票的红盘;生产GPU服务器的硬件公
司市值水涨船高,产量加速扩张;看到企业为AI科学家和工程师开出的
薪水,不少程序员和大学生竞相转型人工智能专业。

然而两年之后,产业和资本发现梦想中的叙事逻辑只实现了一半。
技术门槛确实不低,毕竟AI科学家和工程师都更贵了,但业务的横向复
制却没有那么简单。

2018年7月,IBM公司的沃森健康(Watson Health)被曝出内部文
件,显示沃森健康的肿瘤诊断算法经常给出不准确的、与美国国家治疗
指南相悖的建议。例如,沃森健康建议一名新诊断出肺癌并出现严重出
血症状的65岁患者接受化疗和一种名为贝伐珠单抗(Bevacizumab)的药

321
物,而这种药物的黑框警告提示该药可能导致“严重或致命的出血”,
不应让严重出血的患者使用。

文件显示,诊断算法的有效性主要受训练样本数据的影响。但IBM
公司这一算法的训练数据不足,且数据是由医生和工程师自行编写合成
的,并非真实的历史病例,因为“护理标准经常变化,历史病例不一定
能反映最新的护理标准”。

文件还引述了佛罗里达州朱庇特医院一位医生对IBM公司的高管说
的话:“这个产品就是垃圾。我们购买它是为了公关营销,期待你们能
实现所说的愿景。但我们大部分情况下无法使用它。”

沃森健康和它的医院客户遇到的正是这一轮AI浪潮中的典型问题
——业务难以复制,模型不可“泛化”(Generalization)。

首先,当时的AI算法模型的跨行业复制几乎是妄想。

每个行业的业务场景、目标、约束和数据都不一样,需要全新的行
业AI方法论和长期跨学科合作的实践积累。例如AI医疗行业,要借助医
院的帮助来解决医疗数据复杂和多样化的问题,需要跟医生临床实践相
结合。更重要的是,医疗是对错误高度敏感的业务,需要针对这项约束
条件来制定AI与人类医生协作的策略和流程。

而DeepMind公司所说的“不再受限于人类认知”,可以不借助人
类专家的数据集训练人工智能,则仅限于AI围棋程序AlphaGo Zero。
围棋、星际争霸等领域实现AI碾压人类的方法,并不能简单复制到医
疗、能源等行业场景。

其次,AI算法模型的同行业跨客户复制成本也很高。

在AlphaGo这种决策型的AI应用场景中,每一个行业客户不仅需要
按照AI的要求,花很大精力和成本,准备自家的训练数据,而且还要面
对生产环境下非常不确定的AI模型效果。这就导致,甲客户的AI模型运
行效果好,并不意味着同行业的乙客户也能做好,甚至甲客户项目这个
月的成功,也不意味着他下个月还会成功。而且,AI模型在行业应用中

322
担任大型系统中的一个环节,它的不确定会造成整个系统的不确定。

Facebook公司的人工智能研究专家莱昂·博托(Léon Bottou)曾在
2015年国际机器学习会议(ICML)上发表演讲——《机器学习的两大挑
战》。在他看来,AI给软件工程带来了新的混乱,因为生产环境下数据
必然会发生变化,会使AI模型或算法无法按预期输出稳定的结果。如果
把训练好的模型作为软件模块来集成,模块的输出会受输入数据分布的
变化影响,不能按模块之间的合约(Contract)“办事”,从而造成其他
模块无法正常工作。并且,AI模型什么时候、什么情况下会“违约”,
无法被预先界定。传统软件工程中靠抽象封装解耦来解决大规模系统复
杂度的问题,而这其中最关键的模块合约,被AI这个“捣乱”分子破坏
了。模块之间的弱合约会带来“抽象泄露”(Abstraction Leak),不可
依赖的子系统会让整个系统崩溃。

因为数据必然会发生变化,所以模型无法按预期输出稳定结果。数
据为什么会变化?发生变化之后又该怎么办呢?在真实的AI行业项目
中,数据在不同客户项目和同一客户项目的不同阶段,都会呈现出不同
的面貌,从而影响算法网络结构设计和模型参数设定。

“做AI项目,客户第一次会提供一小撮数据样本让你理解业务数
据;等你入场做POC测试时,会拿到批量的真实历史数据;等项目上生
产环境后,你会碰到更实时的数据;等运行一段时间后又必然会遇到各
种新的情况,例如调整客户业务的人群定位、外部行业政策有变导致业
务环境也发生变化,等等。在这四个不同阶段,你所认知的客户数据特
点和分布都会发生变化,而这个变化就意味着超参数要重新调整、网络
结构可能要重新设计甚至对算法进行重新取舍……没办法,这就是做AI
行业项目的命,很麻烦,也很折腾。”

——某大厂AI算法工程师

“很折腾”——更要命的是“折腾”的时间、地点、人物:是长期
的折腾而不是一次性折腾;要在客户现场折腾而不是远程的云折腾;得
让有AI炼金经验的算法工程师而不是普通工程师去折腾。关键是,折腾
完了能不能成,怎么折腾才能成,即便是AI业界最顶尖的科学家也没法

323
判断,因为没人知道其中的运作原理。

2017年底,在AI界顶级的神经信息处理系统大会(NIPS)上,“时
间检验奖”(Test of Time Award)的获得者阿里·拉希米(Ali Rahimi)在
一片掌声中登台讲演,在讲完他的获奖论文之后,拉希米在大屏幕上出
人意料地放出了一页:炼金术(Alchemy)。

◎图4.26 拉希米NIPS大会演讲稿的一页:炼金术

图片来源:http://cloud.tencent.com/developer/article/1118674。

拉希米将当时快速发展的机器学习(主要指深度学习)比作炼金
术,即方法虽然有不错的效果,但缺乏严谨完备可验证的理论知识,业
内人士根本不理解自己做的东西是怎么运作的。

例如,不小心修改一个参数就会带来模型效果天翻地覆的变化。或

324
者,极简两层线性网络中遇到的问题,在增加网络复杂度之后就奇怪的
消失了,没人能说清为啥会这样。深度学习社区对问题的解决方案,往
往是在原本很神秘的技术栈上再叠加一层神秘的技巧。就像业界都知
道,批量归一化可以降低内部协变量偏移(ICS),从而加快模型训练速
度。但是,似乎没人知道为什么降低ICS就能加速训练,也没有证据证
明批量归一化就一定能降低ICS,甚至整个业界都缺乏对ICS的严格定
义!拉希米说,自己虽然不懂飞机的飞行原理,但他不怕坐飞机,因为
他知道有一大批飞机专家掌握了原理。深度学习界最让人担心的是,他
自己不知道原理,而且他知道其他人也不知道(参见图4.27)。

325
◎图4.27 如何对付AI系统的错误

图片来源:Randall Munroe,XKCD。

拉希米把这次大会变成了AI界的吐槽大会,在AI社群中引起了不少
共鸣,以至于惊动了深度学习界的大佬,包括后来获得了图灵奖的杨立
坤(Yann LeCun)。杨立坤对此回应道:神经网络确实没法在理论上证
明自己一定收敛,但我们在实践中效果很好,千万别因为深度学习的理

326
论跟不上实践就对AI大肆批判,这就像把孩子跟洗澡水一起倒掉,是不
可取的。

杨立坤的回应虽然在为AI辩护,但实际上承认了拉希米指出的问题
——深度学习的理论不完备,算法模型的运行机制也不可知。因此,在
AI行业项目中,不同客户环境下针对模型的调试优化能不能成功,靠的
是经验加运气,调对了不知道为啥对,错了也搞不清为啥错,这样的经
验自然也就不容易被传承和复制,只能依赖做过多个项目、遇到过多种
情况、调试成功和失败的经验都积累了很多的AI“老中医”,这些老中
医很稀缺,自然也很贵。而初级医师(有知识没经验的AI博士)要想成
长起来,除了有老中医手把手指点,同样要走一遍师傅之前的路,靠项
目和悟性不断积累“望闻问切”的经验。

◎图4.28 AI系统问题诊断调试就像老中医看病开药

图片来源:
https://www.163.com/dy/article/ED5C4T9F05347DNA.html。

因此,想要将AlphaGo的成功转变成其他行业的成功并不容易。想
要从一个项目当前的成功迈向另一个项目的成功,也需要面对高额的成
本和巨大的风险。这一轮深度学习完美叙事中“业务可复制”的理想,
被现实残酷地打破了。

在AlphaGo兴起的那个年代,著名AI科学家吴恩达(Andrew Ng)
曾经给出这样的期许:“如果普通人能在不到一秒的时间内完成某一项

327
脑力工作,那么我们很可能在现在或不远的将来用AI将其自动化。”

考虑到当时的实践经验,现在或许可以将其改为:如果普通人能在
不到一秒的时间内完成某一项脑力工作,那么我们很可能在现在或不远
的将来用AI将其自动化,至少可以找到一个符合条件的客户,把我们最
贵的算法“老中医”砸进去,做一个能发公关宣传的样稿出来。

思考:

AlphaGo年代对于业务可复制、模型可泛化的过度乐观,在大模型
这波技术浪潮中会重演吗?大模型比AlphaGo更接近通用人工智能吗?

别想比安全员先下车

“如果不拿掉安全员,所有Robotaxi商业模式都是伪命题。”

——某自动驾驶企业首席运营官,2020年6月

◎图4.29 洛杉矶圣莫尼卡的Waymo捷豹I-Pace自动驾驶电动汽车

图片来源:《洛杉矶时报》,2023年2月23日。

328
Waymo,这家总部位于美国加州山景城、隶属于谷歌母公司
Alphabet的公司,于2022年10月开始,在洛杉矶圣莫尼卡进行无人驾
驶的L4级别商业化测试(参见图4.29)。Waymo公司的首席安全官毛
里西奥·佩尼亚(Mauricio Peña)声称,这将是真正的无人驾驶,在过往
测试中坐在车里的安全员将离开汽车,这个测试“从人口稠密的市区开
始,将在进行初步测试后扩大规模”。

在凤凰城,Waymo公司也开始将安全员撤下汽车。凤凰城的市长
亲自体验了市中心到机场的“‘真’无人驾驶”搭乘体验,连声赞
叹“这就是未来”。不过,无人车并没有直接把她送到航站楼,而是送
到离机场非常近的铁路站点。之所以设置这样的商业运营路线,是因为
到航站楼就得应对复杂的人类司机驾驶的车辆和无人车之间的交互,触
发很多驾驶的长尾场景。

这是Waymo公司在凤凰城迈出的一小步,或许也是美国自动驾驶
产业的一大步。但即便是这样,自动驾驶的商业化进程明显比六年前想
象的要慢。估值一度达到1750亿美元的Waymo公司,如今已下跌到了
300亿美元。2023年2月,Waymo公司还执行了近期的第二轮裁员,
两轮共裁掉200多人,占员工总数的8%,并称裁员是为了让公司“聚
焦在商业化上”。有媒体对此评论道:“商业化正是Waymo公司所缺
乏的。”

早在2022年10月,福特和大众就关闭了他们合资的自动驾驶技术
公司Argo AI,这家成立于2017年的自动驾驶出租车(Robotaxi)明星创
业公司也走到了终点。福特公司首席执行官吉姆·法利(Jim Farley)认
为,“大规模盈利的全自动驾驶汽车还有很长的路要走,我们不一定必
须通过自己投入来创造这项技术。”

2017年从谷歌独立并获得数十亿美元投资的Waymo公司,以及同
年获得福特10亿美元投资的Argo AI公司,他们的商业化进程为什么大
大落后于产业和资本的预期?

因为安全员成为自动驾驶商业化的瓶颈。

329
◎图4.30 坐在自动驾驶出租车副驾的安全员

图片来源:https://www.ap.org/cn/。

自动驾驶安全员(参见图4.30),有时候也叫测试驾驶员,是在自
动驾驶技术测试和验证过程中的重要角色。安全员要在车辆行驶时,时
刻关注自动驾驶系统的运行情况,密切观察车辆的行驶路线、速度等信
息,在自动驾驶系统遇到无法处理或可能导致事故的情况时,其需要立
即干预并接管车辆控制。除此之外,安全员还会收集自动驾驶系统性能
数据,帮助研发团队发现问题并进行改进。

安全员在自动驾驶的测试验证阶段很重要,但同时也带来了巨大的
成本。企业要想规模化商业化运营,就要加大无人车的投放,车辆制造
成本随之逐年降低,但安全员作为边际成本却没有任何下降的趋势。如
此一来,安全员在整体成本尤其是单车边际成本结构中的占比越来越
高。无人车制造成本比普通出租车高,安全员成本至少不低于司机成
本,两项加起来明显高于普通出租车的运营成本,商业化劣势明显,无

330
法扩大运营。

◎图4.31 Robotaxi与出租车成本对比

图片来源:2022年中信证券研报。

国内一家自动驾驶企业的高管曾在2020年说:“观察未来2—3年
的发展,就看谁能真正走到取掉安全员的无人载客运营。如果不拿掉安
全员,所有这些商业模式都是伪命题。滴滴公司70%的收入都付给了司
机,在单价不变的情况下,原本要付给司机的70%收入,现在我能通过
无人驾驶技术把这部分支出变成毛利。哪家企业能有70%毛利?所以把
安全员拿掉后的无人驾驶,这个命题的成立才真正开始。”

然而,直到2023年初,全球各国的Robotaxi商业化运营,尤其是
允许安全员下车的方案,仍然局限在较小的地域范围、较少的车辆数量
中,仍然属于测试性质,远未到达可支持规模商业化的状态。

那么,从2017年到现在,都路测五六年了,为什么还需要安全员
呢?

首先,长尾场景永远测不完,尤其在深度学习的黑箱里,面对复杂

331
情况的输入,模型始终会存在不确定的输出。这些年来,硬件、数据、
算法都取得了显著的进展,但在处理复杂的道路和交通情况时仍面临挑
战,如罕见的恶劣天气、复杂的城市路况、非标准的道路标志、不可预
测的路人行为等。

然后,在自动驾驶技术和模型算法无法给出确定性的答案时,考虑
到人的生命财产安全,以及社会群众的接受度,政府法规和政策会比较
谨慎,倾向于逐步测试、逐步放开。不时出现的对自动驾驶事故的媒体
报道,也会影响到产业相关的各方。企业也会把握节奏,稳健推进,因
为一旦出事,有可能前功尽弃。

因此,开放场景的长尾测试无穷无尽,AI算法从概率上说一定会出
错,一旦出错,代价极大,而且出错的风险尚未有达成共识的管理框
架,这意味着自动驾驶的无人化必然是一个长期的过程。

在这样的前提下,自动驾驶企业开始调整策略。2022年,国内外
多家自动驾驶公司都在切入车企的前装量产市场,从辅助驾驶(L2/L2+)
层面创造商业化现金流,为Robotaxi进行更长远的储备。例如,文远
知行与德国博世达成战略合作,联合开发博世中国高阶智能驾驶解决方
案,服务于中国主机厂客户。

Waymo在2023年3月发布了白皮书——《构建可靠的安全案例:
Waymo在消除不合理风险判断中的方法》,提出了消除不合理风险
(AUR)概念,从定义上承认生活中任何活动都无法完全避免风险,在此
基础上寻求建立社会共识,以确定自动驾驶中可以接受的风险水平。
Waymo公司也是期望通过与公众、科学界和技术界的对话,培养社会
各界对自动驾驶汽车技术的信任和理解。

自2022年底到2023年初,国内多家自动驾驶企业分别在北京、广
州、上海、深圳等地获得了“主驾无人”或“整车无人”模式的上路测
试许可,并摸索出远程云代驾的方式,以此在无人化的过渡期替代车上
的安全员。

先挣钱活下来,同时做好社会沟通和风险教育,最终熬到真正实现

332
无人化的美好未来。大浪淘沙之后的企业管理者或已调整好了心态和策
略。不过,在这波自动驾驶浪潮中,无论是资本还是产业,想要下车
的,请跟在安全员后面。

思考:

自动驾驶对于无人化的过度乐观,在大模型这波技术浪潮中会重演
吗?大模型的可靠性也有问题,会需要安全员吗?

谁是最好的AI商业公司

“这款产品在诞生初期备受冷落。当他们熬过黯淡岁月,把大众内
容燃料投喂给机器,算法网络运转起来。到后来,它长成吞噬运营者、
创作者和用户巨量时间的熔炉。”

——张珺,《抖音内幕:时间熔炉的诞生》

2016年——AlphaGo元年。看到快手短视频的成功,字节跳动公
司内部孵化了一款短视频产品A.me,三个月后改名为“抖音”。

2017年——Waymo元年。抖音从亚文化开始走向大众,数据暴增
到数千万日活跃用户数(DAU),公司看到抖音高留存率之后开始发力宣
推,并以10亿美元收购在北美地区火爆的Musical.ly,将其与抖音海外
版TikTok合并。

2023年——ChatGPT元年。TikTok全球DAU超10亿,首席执行官
周受资出席美国国会听证会接受质询。

抖音刚出来的时候,快手是中国规模最大的短视频应用,在该领域
遥遥领先。

而抖音跟快手做的区隔,除了内容调性的差异化之外,最重要的就
是主页界面设计,以及主页设计背后算法逻辑的差异。

早期的短视频应用典型如快手,采用内容货架式的主页,一屏之内

333
会放好几条视频,并以瀑布流形式供用户上下划动翻阅,看中某一条之
后再点击选择播放。这样做的好处是给用户充分的自由度,用户自己喜
欢什么就看什么。

抖音(包括收购的Musical.ly)则采用了全屏沉浸式内容的主页,
上来就一条视频直接播放,用户要么看这条,要么往上划动看下一条视
频。这样做的坏处是不让用户选择,这样做的好处也是不让用户选择。

在快手的货架式界面上,用户可以主动选择看什么视频。在主动选
择的情况下,用户如果要看新的视频,需要先退出当前视频,浏览货
架,再点击自己想看的视频,要操作三步。而在抖音的沉浸式界面上,
用户获得被动地看视频的环境,用户的一步上划转化为非常高的交互效
率,结合全屏沉浸的内容,抖音为用户制造了一种顺滑的爽快感。

334
◎图4.32 快手与抖音不同的主页界面设计

图片来源:快手和抖音界面截图。

我们才发现全屏的优势——强烈的沉浸感。我们在电视机上看到的
视频是全屏的,在DV上看到的视频是全屏的,在电影院看到的视频也
是全屏的,但手机拍出来的视频却不是全屏的。……全屏会带来一个更
大的作用——隐藏下一个视频。在这之前,我们看到的所有产品都不是

335
全屏,你可以翻阅、选择,但是全屏以后无法选择视频,只能看平台推
荐的视频。……有一部分用户非常享受这个过程。一是因为全屏的视觉
冲击力非常强,无需操作无需点击,打开就是全屏视频的震撼;其二,
前面的视频好看,那么用户会期待下一个未知视频,它不断为用户带来
惊喜,我们称之为“一见钟情,再见倾心”,这就是全屏视频的魅力。

——Musical.ly(TikTok原版本)创始人阳陆育

不过,追求交互效率和爽快感有个巨大的问题。当用户无法主动选
择时,如果系统硬塞过来的视频让用户不感兴趣,刷几条之后用户就会
退出,不再回来。如果视频推荐效果不及预期,全屏沉浸式设计在用户
体验可控性方面将面临超高风险,仅此一项,就已经劝退其他公司,转
而采用更稳妥的双列货架式设计了。

但字节跳动不是其他公司。

从2012年的今日头条开始,字节跳动就在打造自己的内容推荐算
法,系统对信息进行高效分发的同时自我演化和成长。在2014年,张
一鸣曾这样解释今日头条的推荐系统:“自我演化的系统应该是这样一
个系统,其在开放部署完成之后,并不能一下子提供很好的服务。这个
系统必须在用户的使用过程中,不断地去理解用户的输入,用户的每次
使用,不仅是使用这个信息服务,还是教育这个系统,让这个系统越来
越有智慧,系统会随着这个过程自发地成长。”

在今日头条获得成功之后,字节跳动将内容推荐算法放到了公司的
中台,让所有内部孵化的新应用都第一时间可以接入和使用推荐算法,
并对重点应用进行中台资源倾斜,进行深度的算法定制。

《抖音内幕:时间熔炉的诞生》一文的作者,对多名早期抖音团队
成员进行了访谈。“抖音取胜的关键在于,是‘字节在做它’。有高效
的推荐算法做人和信息匹配。……抖音推荐和Feeds流过于强大,产品
很难再做个体验与之媲美。基于这个强势运转的机器,(抖音)初创员
工把他们的工作形容成‘一批合适的人给它搞了一批合适的原料’。”

336
抖音前端产品运营团队搞产品设计和内容调性,字节中台搞推荐算
法模型和用户增长,实现了产品、运营和技术的完美匹配。全屏沉浸体
验+拇指轻划交互+丰富多样且直击用户兴趣点的内容=用户刷得停不
下来。

在商业世界,除了用户体验之外,还有更多值得注意的方面,例如
内容生态。

抖音的全屏沉浸式加内容强推荐的设计,背后也体现了平台对内容
创作生态的态度:让用户选择余地最小,平台控制力就最大。

抖音通过AI算法来决定把什么样的视频推给用户,平台通过AI模型
的目标设定和训练,牢牢把握内容生产的导向性,强调视频的完播率和
点赞率,尽可能拉长用户在抖音的停留时间,产生更多商业化的空间,
由此最大化平台的利益。内容创作者必须琢磨AI算法的规律,研究“怎
么拍出一个让抖音算法认为好的内容”,才能获得更多流量。

相比更“温情”、鼓励创作者与用户建立直接关系的快手,抖音基
本上全靠算法进行流量的分配,这就造成了抖音创作者的焦虑心理,有
多少粉丝并不意味着下一条视频会有多少人看,每一条新内容都必须全
力以赴,绞尽脑汁创造让用户点赞、让算法满意的爆款。抖音成功地利
用这一点,让创作者一刻不停地卷,卷出了源源不断的新创意,以及更
多帮助抖音持续放大用户时长的爆款内容。

用户规模有了,停留时长有了,把用户时长变现,才是商业公司的
本质目标。而商业化也是字节中台和算法的强项。在全屏沉浸式加内容
强推荐的情况下,广告获得了最原生的效果,广告的内容形态和呈现场
景都跟正常的短视频融为一体,没有内容货架那种内容和广告之间的割
裂感,因此用户心智对广告的接受度更高。同时,广告也是由AI算法强
推荐插入的,用户不可选择,广告曝光流量也比内容货架式要更高。字
节的AI算法更是广告转化率优化的一把好手。当广告的用户接受度、转
化率和广告曝光流量都有提升,广告订单和收入自然也会更大。自
2018年之后,抖音超越今日头条,成为字节跳动的头号“印钞机”。

337
“高效的用户增长引入用户,用高效的推荐算法去匹配,留存做好
后商业化也高效,挣到钱又去投用户增长。……很多人觉得字节是一家
内容公司,这是错误的,字节就是AI算法公司。”曾在2016年担任抖
音中层的一名成员说。

思考:

什么是AI公司?什么是大模型公司?大模型产业中,最好的商业会
在哪里?

338
17 关于大模型产业的对话:第2集
山景城:计算机历史博物馆的重逢

人物:

·老A:技术出身的IT互联网连续创业者

·D总:高科技行业投资人,跟老A同行到美国访问

·小柯:在美国加州留学的AI博士生,老A的朋友

主题:

·AlphaGo年代出现的对于业务可复制、模型可泛化的过度乐观的
现象,会在大模型这波技术浪潮中重演吗?大模型比AlphaGo更接近通
用人工智能吗?

·自动驾驶对于无人化的过度乐观,在大模型这波技术浪潮中会重
演吗?大模型的可靠性也有问题,会需要安全员吗?

·什么是AI公司?什么是大模型公司?大模型产业中最好的商机会
在哪里?

时间地点:

2023年4月的一个上午

美国,加利福尼亚州山景城,计算机历史博物馆

339
◎图4.33 加州山景城计算机历史博物馆

图片来源:Atlas Obscura,
https://www.atlasobscura.com/places/computer-history-
museum。

太阳升上来了。山景城的早晨还有点微凉。老A拢了拢领口,招呼
着后边的D总,大步跟上走在前面的“地陪导游”小柯,迈进了计算机
历史博物馆。

小柯领着两位国内来客在馆里穿梭,熟练地打卡了几个知名的展
品,包括可读取纸带1/0数据的图灵机概念机、1946年第一台大型通用
电子计算机ENIAC、20世纪70年代发明图形用户界面和鼠标的个人计
算机Xerox Alto,等等。

340
“接下来是我为你们定制的AI之路。”他们在一组高大的黑色机柜
前停了下来,“这是当年击败国际象棋冠军的深蓝,Deep Blue二
代。”小柯介绍道。

深蓝

◎图4.34 1997年击败卡斯帕罗夫的IBM深蓝计算机

图片来源:Computer History Museum,


https://www.computerhistory.org/chess/art-43305f13ef377/。

老A:“比AlphaGo早了19年呢。”

小柯:“当时有人说,计算机要想在围棋上赢人类冠军,至少要再
过100年。”

老A:“所以啊,AlphaGo提前80年,震撼了世界。也让许多人以

341
为,AI要提前统治世界了。我还记得,DeepMind公司当时信心满满地
说,深度学习、强化学习绝不只是用在游戏里的玩具,在医疗、能源等
行业也很快能看到效果。”

D总:“跨行业、跨应用场景的复制,甚至在行业内的复制都很
难,这都快成了AI商业化的宿命了。这次的大模型,据说泛化能力很
强,接近AGI了,不知道能不能逆天改命呢?”

小柯:“首先明确一下定义,泛化(Generalization)是指AI能在新
情况下正确理解环境并执行适当的动作。泛化能力越强,就越能适应新
的条件,解决更多问题。假设有两个学生,Alice擅长应试,把时间都
花在做考试真题和模拟练习上,Bob则苦练内功,阅读了大量相关书
籍、论文和网页。他俩都能顺利通过考试,当他们工作后要将学校学的
知识应用到实际场景时,Bob的表现会优于Alice,这就是泛化能力。

跟AlphaGo和以往的深度学习模型相比,这次的大模型在泛化能力
上有了新的突破。OpenAI公司的首席科学家伊利亚当年也曾参与
AlphaGo的研发,他说,GPT通过学习文本的统计相关性,将关于世界
的知识压缩到模型中,大模型‘学习从更多的角度来观察这个世界,观
察人类和社会,理解人们的希望、梦想、动机、互动和情境’,这是以
往的AI都没有做到过的。

AGI跟泛化有关,但它也有好几种定义呢。有人认为AGI是“上
帝”级别的超级智能,而OpenAI公司的伊利亚认为泛化能力达到“大
学本科生”水平的就是AGI。微软在2023年3月发表的论文《通用人工
智能的火花》里也说AGI还没有公认的定义,但AI的通用性就意味着像
人类一样具备推理、抽象、规划等能力,能解决多种问题,能持续从经
验中学习,而不是像以前的狭义人工智能专做某一类任务。”

老A:“这篇论文我上个月也读了。微软有个阶段性结论:GPT-4
可以看作是早期不完善的AGI版本,因为它能够理解和连接任何主题,
除了语言能力,还能做数学、编程、视觉、医学、法律、心理学等任
务。关键是,它在掌握新任务之前,不需要任何特殊的模型训练,这就
是泛化的证据了。”

342
D总:“如何得出的结论呢?有标准化测试吗?”

小柯:“针对大模型这么新的东西,目前还没有标准化测试。他们
创造了一些新的、有难度的实验,来探索GPT-4的能力边界。我记得有
一个测试AI常识的实验,说有一本书、9个鸡蛋、一台笔记本电脑、一
个瓶子和一颗钉子,需要把这些东西一层层地摞起来,问AI怎么操作。

还有一个测试,让AI用柏拉图对话式的调性和方法来批判自回归模
型的使用,由此可以判断AI跨学科组合技能,以及对复杂思想的理解
力。这两个测试都完成得出乎意料的好。而且,在并未进行针对性训练
的前提下,GPT-4在各类考试(包括法律、医疗等专业考试)中也取得
了比肩甚至超越人类的成绩。”

D总:“那相比大学本科生,它在哪些地方还有缺陷呢?”

老A:“之所以说它是早期不完善的AGI,还是有不少缺点的。例
如,它会出现幻觉、规划能力差、无法持续学习、缺乏长期记忆等问
题,这些都是不如人类的地方。如果我们把大模型的泛化要求定位到人
类的水平,那目前还存在一定距离。”

D总:“从业务可复制的角度来看,也许可以对大模型的泛化能力
分级?如果它关键的几项能力强,那就允许其某些地方不如人类。就当
作是特长生,招聘还有个三六九等呢。”

老A:“那要就事论事地看业务场景能否接受大模型的这些缺陷,
或者在这些缺陷的前提下,大模型能否发挥出足够大的生产力价值或商
业价值。”

小柯:“针对目前的这些缺陷,这篇论文以及产业界都提出了优化
方向,会对其逐步完善的。一方面靠引入图片视频的多模态,补充新的
领域数据,加大模型规模;另一方面,在自回归预测方法的基础上进行
扩展,补充新的能力组件,相互配合来达到AGI的水平。”

老A:“也不好过度乐观。补充新组件这事,杨立坤早在2018年就
提出了他的世界模型,他认为自回归预测适合离散文本,但不适合连续

343
高维的视频,所以多模态到最后一定要用他的组件。但两种方法能否融
合在一起,仍然存在很大的不确定性。

再如,GPT-4在测试中表现出一定的心智能力,可以根据人类对话
语言来推理他人心理状态,并在社交场合做出恰如其分的行为。但由于
多模态尤其是视频还不成熟,大模型还无法理解语言之外的社交暗示,
比如表情、手势或语调。对这种社交暗示的理解,在小柯上次于北京提
的‘耳语教练’应用场景中就属于关键能力了。是否可以认为,多模态
之后,大模型能力就会泛化到这类数据和场景?或许不会那么自然而然
地发生。”

小柯:“嗯,一切都需要实践来证明。此外,从泛化的角度说,大
模型还是擅长自然语言相关的认知智能;但人工智能的许多其他领域,
例如图像识别、推荐广告、驾驶行为决策等,大模型则未必适合。所
以,不能简单认为大模型是全面覆盖的通用智能。”

D总:“据说,大模型许多新技能的泛化被解释为涌现,而涌现又
是不可预测、不可控制的,那也就很难蓄意产出新技能的涌现了。某种
程度上,大模型还是继承了深度学习炼金的特点啊。”

老A:“说到炼金啊,这次大模型还是比以往的深度学习有一点优
势,它把最复杂的调参工作、最难的工程都放在了预训练阶段,集中许
多高手解决一个大模型的问题。到不同行业或客户那里,需要做的模型
微调相对就容易很多了,不需要针对不同客户来投入高端人力成本。这
对业务可复制也是一个利好。”

D总:“省了炼金的调参成本是小利好,业务可复制、模型可泛化
的大利好还得靠大模型持续的涌现。或许干这行的,以后见面不再是问
候‘您吃了吗’,而是‘今天你涌现了吗’”

老A:“这个涌现啊,就像凯文·凯利《失控》写过的,群集智能系
统因为独立、不可控,才产生了智能的突破,所以要想有突破,就要放
弃以往所习惯的中心控制,要接受不可预测、不可控制的这种失控。但
是,如果社会还是不习惯这种失控,大众预期就会跟着舆论情绪走,要

344
是因此高估了短期表现,就有可能因为暂时受挫看衰长期,这种震荡对
产业发展其实是不利的。”

小柯:“现在确实有一些声音,对大模型泛化的边界和程度有比较
乐观的预期。前段时间,斯坦福和哈佛有人在《自然》(Nature)杂志上
发了关于大模型通才式医疗AI范式的文章,他们认为不需要人工标签,
就能让医疗AI从医学文本扩展到影像和视频了。但实际上,要达到这样
的程度,大模型还要有技术突破,学到新的技能才行,而这都是不可预
测、不可控的。”

无人车

“这里是自动驾驶展区。其实从20世纪50年代开始,通用汽车就
开始自动驾驶的路测了。”小柯指着一幅图说,“这是50年代的报纸广
告,畅想驾驶无人化之后的美好生活。”

345
◎图4.35 20世纪50年代美国的无人车广告

图片来源:Computer History Museum,


https://computerhistory.org/blog/where-to-a-history-of-
autonomous-vehicles/。

老A:“结果过了70年,安全员还在车上呢。”

D总:“大模型在各行各业的应用,估计也得需要一段时间,以安

346
全员作为过渡吧。”

老A:“那就看大模型出现幻觉的毛病什么时候能被治愈了。大模
型可靠性目前还是个风险。”

小柯:“巧了,我前两天看OpenAI公司的首席科学家在一个访谈
里说到这个事,我搜一下,放给你们看。”

很多致力于AGI的乐观人士往往低估了实现AGI所需的时间。我会
从自动驾驶的角度去类比和思考。如果你看特斯拉的自动驾驶,它似乎
什么都能做,但是,它在可靠性方面还有很长的路要走。我们可能也会
遇到类似情况,看起来大模型可以做任何事,但同时我们还需要做更多
的工作,直到我们真正解决了所有问题,让它变得更好、更可靠、更健
壮、更正直。

(问:假如2030年大模型还没有创造太多经济价值,最有可能的
解释是什么?)我不认为这个假设会成立,但如果一定要回答为什么实
际效果令人失望的话,我的答案是可靠性。如果某种情况下,你希望它
们可靠,但它们没有做到,或者可靠性比我们预期要更困难,这都会造
成失望的结果。不可靠就意味着技术不成熟。

D总:“看来这是他们的头等大事了。”

老A:“除了祈祷大模型快点涌现,我们从业务侧也得做多手准
备。通过特别的提示或者样本微调,要求大模型更谨慎地回答,或者给
出置信度指标,让人类作为参考。还有,让大模型调用搜索或者企业私
域数据,获得更丰富的信息源,避免它闭门造车。再不行,最后的大招
就是靠人类安全员审核了。”

小柯:“也有用大模型审核大模型的,先让它们窝里斗,斗完了人
类再出场收拾。可以省点人类的工作量。”

D总:“但从伊利亚的访谈中也能感觉到,可靠性并不是那么容易
解决的。大模型整个产业很可能要跟这个幻觉病毒长期共存。”

347
小柯:“嗯,杨立坤表达过此观点,你的手始终不能离开键盘或方
向盘。从深度学习的规律来看,模型可靠性永远都达不到100%,模型
出错是一个必定发生的概率事件。”

◎图4.36 杨立坤对时下大模型可靠性的看法

图片来源:推特,http://twitter.com/。

老A:“针对大模型的安全措施一定存在,但不一定是跟AI一比一
配置的人类安全员啊。还是要考虑行业应用场景本身对模型出错的容忍
度如何,例如医疗诊断的容忍度一定是最低的,但医疗常识咨询就可以
高一些。

到具体行业里,就需要测试不同场景下大模型的错误率,算出实测
错误率和可容忍错误率之间的差距,找到一个安全措施来降低错误率,
以弥补这个差距。就算针对同一个场景,安全措施也是多样的。自动驾
驶从主驾安全员到主驾无人(安全员坐副驾),再到前排无人(安全员
坐后排),人类一点点往幕后退,但业务安全配比始终是1∶1,使得成
本过高。现在有些地方可以到全车无人(5G云代驾),这个阶段的业
务安全配比就可以达到3∶1或4∶1,甚至更高。每人同时代驾的车辆数
越来越多,就能逐步降低安全成本。”

D总:“企业最后还是算投资回报率(ROI)。你这个业务安全配比,
其实就在计算大模型带来的价值贡献跟大模型带来的安全成本相比,能
否接受。如果配比很高,说明业务价值远远高于安全成本,企业才有动
力推广大模型应用。”

348
老A:“对。无论是大模型创业还是投资,做业务指标预测时别低
估了安全成本,别依赖于大模型涌现来解决问题。这笔成本对业务可能
是举足轻重的,未来在大模型能胜任的知识工作中,边际成本主要就是
推理算力加安全成本了。”

小柯:“这两项成本看起来都会随技术发展而降低。OpenAI公司
首席执行官山姆·阿尔特曼也认为,未来十年的发展变化应该基于这样
一个假设——智力的边际成本趋向于零。”

D总:“嗯,如果到了边际成本为零的那一天,会引发什么样的产
业结构变化呢?这是一个有趣的思考题。”

ELIZA

◎图4.37 ELIZA的用户界面

图片来源:
https://t.cj.sina.com.cn/articles/view/2172709100/8180e8ec00/00x/1n?

349
from=tech。

“ELIZA是20世纪60年代在麻省理工学院开发的聊天机器人,支持
好几种对话脚本,其中一个可以模拟人本主义的心理治疗师,跟用户文
本交流。尽管智能有限,但ELIZA为后来的人工智能对话系统奠定了基
础。”小柯带着大家来到ELIZA模拟器的屏幕面前。

D总:“心理治疗师?这不跟Character.ai一样吗?”

◎图4.38 与大模型应用Character.ai的心理学家角色聊天

小柯:“嗯,世上没有新鲜事。这就是60年前的Character.AI,只
不过智能程度低,聊不了几轮就露馅了。”

350
D总:“Character.AI的角色扮演,聊天体验还不错,算是目前为
止比较有特色的大模型To C应用了。”

老A:“但还没开始付费呢,不知道这个模式的商业化能力怎么
样。”

小柯:“我感觉大模型整个商业模式都还比较早期。现在只有卖算
力的在挣钱吧。”

D总:“卖算力的商业模式虽然最清晰,来钱也快;可上面的模型
层、应用层也得尽快找到商业模式,当成一门生意来做。现在的钱袋子
可比当年保守多了。”

小柯:“那模型层是一门好生意吗?”

D总:“研发和训练大模型,包装成服务卖出去,MaaS本质还是
一个云计算面向企业(To B)服务。不过,作为一门生意,‘模型即服
务’(MaaS)跟云计算的‘基础设施即服务’(IaaS)相比还是有一个好处
——飞轮效应。”

小柯:“数据飞轮?”

D总:“对。飞轮效应最早说的可不是数据飞轮。传说亚马逊的贝
佐斯曾经画过一个飞轮图:亚马逊的买家越多,卖家就越主动到亚马逊
上面来卖货;货品的选择越多,买家体验就越好,就有更多用户过来
买。这是电商平台双边市场带来的飞轮效应,正向循环一旦形成,只要
积累一定的动能,飞轮不需要企业发力就会自动转起来,越转越快。通
常飞轮转到一定程度,在新入局的竞争企业面前,还能形成壁垒。”

小柯:“哦,原来飞轮不仅仅是数据飞轮。这应该是所有企业都梦
寐以求的模式吧。”

D总:“嗯,飞轮可不是所有行业都有的。在云计算IaaS领域就没
有发现飞轮,因为IaaS主营业务的双边市场属性不明显,客户买云主
机、内容分发网络(CDN),并不是冲着云厂商的三方生态来的。都说云

351
计算是数字时代的水电煤,但水电煤其实并没有飞轮效应,只有规模效
应。”

◎图4.39 传说中贝佐斯在餐巾纸上画的亚马逊双边市场飞轮

小柯:“但有了大模型这种MaaS服务,就可以在云计算领域建立
新的飞轮和竞争壁垒。客户越多,训练数据就越多,模型就越好用,然
后客户就更多。”

老A:“你俩说的道理是对的。但MaaS的客户也分两种,有些企
业客户或应用开发者对数据敏感,他们可以把私有大模型部署到专有的
空间里,这种客户的数据就不能用来驱动数据飞轮了。”

小柯:“理解。但只要有部分数据可用,就能形成飞轮效应。如果
各家大模型在算力、算法方面没法分出高下,就得靠数据的差异化了。

352
只要客户数量和多样性上来,大模型获得的数据喂养就多样化了,说不
定哪个垂直领域的数据集就触发了新的涌现能力呢。例如有人分析说,
ChatGPT的CoT推理能力就跟GitHub代码数据集的训练有关。”

D总:“所以,MaaS的生意有想象空间,因为它有机会捆绑着算
力层的IaaS一起成为具备飞轮效应的水电煤。这是不多见的。”

小柯:“那应用层呢?应用层最好的生意是什么?”

D总:“如果当生意来看,最基本的一条,便是要清楚,能否从用
户价值里挣到钱。OpenAI公司的投资人里德·霍夫曼(Reid Hoffman)提
过一个应用层的创意——利用大模型,让每一篇文章或每一本书都能代
表作者跟读者对话,彻底改变媒体和图书行业的用户体验。这个想法非
常有意思,也有很好的用户价值,但是能不能挣到钱、用户会不会为此
付费、通过互动式广告能否收回来推理成本等问题仍然没有确定的答
案,其商业回报还没有那么清晰。”

老A:“有太多创意都属于‘有价值、难变现’的类型。
Character.ai里的大多数虚拟对话角色可能都属于这种情况,有噱头但
无法变现,只能当引流获客的手段。”

D总:“好生意的第二条,也是进阶要求:创造一个以前不存在或
者做不到的新市场。最理想的目标,就是能像第二次工业革命将马车升
级到汽车那样,既开辟了巨大的新市场,同时还带来了增量的就业。”

老A:“是啊,增量就业也很重要。虽然它看起来属于社会价值,
但其对工业革命的社会接受度和可持续发展很重要,如果技术变革只能
导致裁员,没办法创造新的就业机会,是不能长期立足的。”

D总:“赞同。但首先还是要商业价值能够站稳脚跟,创造新市场
的前提是要能挣钱。”

小柯:“以前不存在或者做不到的新市场?如果大模型带来的变化
是知识工作边际成本趋向于零,那么,过去因为知识工作边际成本太高
而无法实现的市场有哪些?”

353
老A:“一对一的专业服务,教育、法律、医疗、心理咨询等,这
些领域的一对一服务,老百姓有需求,但高质量专业资源很稀缺,价格
昂贵,只有极少数人能负担得起。如果大模型把这块的成本价格降下
来,会是一个新的市场。”

小柯:“甚至可以跳出专业服务领域。如果我小时候就有大模型技
术,我会希望有一个AI陪伴机器人,比我大两三岁的心智,跟我一同长
大,弥补我没有哥哥的缺憾。”

D总:“嗯,你们说的都有可能,符合‘创造新市场’要求的应用
一定还有更多。只要能创造新的市场,就能带来新的人类就业岗位。如
果是一对一专业服务和陪伴服务,那就需要更多人类来做安全员,做数
据标注和管理,做模型训练和支持,做技术开发和维护,等等。”

小柯:“这些新的就业岗位要求人类掌握新的技能,现有的劳动者
可能需要重新接受培训。”

老A:“其实这也是大模型一对一教育服务可以起作用的地方。而
且,它不但能帮助现有的劳动者学习新的职业技能,还可以面向边远贫
困地区的青少年提供更好的教育。这些地区本来教师资源不足,如果能
让每一个孩子都有一位高水平的全科随身老师,就能实现更高层次的教
育公平。说得更长远一些,这样的教育有机会缩小地区之间发展的差
距,形成新的增量消费市场,这就不仅是最好的商业了,更是最好的社
会事业。”

D总:“是啊,阿里前一阵发布通义大模型的时候,就跟联合国教
科文组织‘人工智能与教育教席’项目合作,要共同探索未来AI学习空
间,在欠发达地区推动AI教学均衡发展。大模型的社会意义,已经不仅
仅是概念了。”

354
◎图4.40 2023年4月11日阿里云北京峰会,通义大模型发布现场

图片来源:ApsaraLive。

第五代

“这是美国的专家系统之父米切尔·费根鲍姆(Mitchell
Feigenbaum)在1984年写的书。当时的日本通产省制订了关于第五代
计算机系统的十年计划,拨款8.5亿美元,并请了费根鲍姆作指导,希
望能在计算机产业上击败美国。可费根鲍姆拿着日本的计划回美国,
以“日本威胁论”为名游说美国政府投资,他自己也从中拿了不少项
目。但三年之后,美国国防部国防先进研究计划局(DARPA)认为这个方
向失败,砍掉了大部分预算。”小柯介绍道,“今天的博物馆AI之路,
我就带大家看到这里。再往后的大故事,就到了十年前的深度学习崛
起,你们自己都已经经历过了。”

355
◎图4.41 《第五代:人工智能与日本计算机对世界的挑战》

356
图片来源:米切尔·费根鲍姆,1984年。

这几段历史,老A和D总此前或多或少知道一点,但在计算机历史
博物馆亲身经历AI这几个里程碑之后,对技术、对历史、对时代的敬畏
感油然而生。

D总:“计算机、互联网、人工智能,一代又一代的技术发展,出
现过许多泡沫周期。现在,大模型来了,我们在周期里的什么位置
呢?”

老A(掏出纸笔画起来):“那要看以谁为主语。如果以大模型为
主语,那就处在这个小周期的第一个上升波段,会出现过度乐观情绪,
未来还会回调,然后再上升。我们能做的,就是尽量想到各种可能发生
的问题,让发生在自己身上的回调少一些。”

◎图4.42 大模型所处的周期阶段

老A(继续画着):“如果把近十年的AI算到这个周期里,以AI为
主语,那现在便处于第二个上升波段,已经过了曾经的泡沫巅峰,也过
了破灭的谷底,开始落地爬坡。后面会有波折,但不影响大的趋势。干
就完了!”

357
◎图4.43 AI所处的周期阶段

小柯:“看来你俩都是经历过周期的人啊,也别跟三体人一样,太
沉重了啊。我们每人一句话,拍个视频,结束今天的计算机历史博物馆
之旅吧,我都饿了。我先来——Dance till the music stops!”

老A:“偶遇红利时不以物喜,穿越周期时不以己悲。”

D总:“不负时代。”

小结

·AlphaGo年代对于业务可复制、模型可泛化的过度乐观,在大模型这
波技术浪潮中会重演吗?大模型比AlphaGo更接近通用人工智能AGI
吗?

泛化能力:在从未碰到过的新情况下,AI能够正确理解并执行适当
动作的能力。在同样的数据集训练基础上,泛化能力越强,就越能适应
新的条件和场景,从而解决更多种类的问题。

从技术和商业来看,泛化有两个层次:

1.针对某个功能,在A数据集上进行的训练,在数据特点和分布不
同的B数据集上表现也不错。这意味着,将模型和对应产品复制到新客
户环境的边际成本很低,可加强业务在同一行业、同一场景下的可复制

358
性。

2.并未针对某个功能进行数据准备和训练,却学会了该功能(例如
英汉翻译)。通过监督微调,甚至上下文学习就能掌握新技能。这意味
着,同一个模型提供新的功能、产生新的业务价值的边际成本很低,可
提高新产品新业务扩展的可行性和效率。

跟AlphaGo和以往的深度学习模型相比,大模型在泛化能力上有了
新的突破,因为大模型通过大量数据的预训练、更深的层次和更多的参
数,学习并内置了关于世界的知识,从而在一定程度上支持了以上两个
层次的泛化。用伊利亚的话说,当GPT训练自己预测下一个字的时候,
其是在学习“世界的模型”,是通过学习语言文本的统计相关性来将文
本中关于世界的知识压缩到模型中。

基于这样的规模效应,大模型确实涌现出了许多泛化能力,体现了
一定程度的通用性,但离真正的AGI(按伊利亚的标准,其泛化能力应
达到人类大学本科生的水平)还有距离。

■纯文本信息还不足以建立完整的世界模型。目前的大模型在文本
学习上有突破,图片学习效果还有待验证,而视频学习则可能要引入
Transformer模型之外的新技术。

■大模型的泛化能力是有边界的。当前大模型从文本中学到的能力
主要集中在自然语言相关的认知智能领域,而在以图像识别为代表的感
知智能和以用户行为预测为代表的决策智能领域,大模型则未必适合。
即便在认知智能领域,其也存在规划能力不足等一系列缺陷。

■在自然语言相关的认知智能边界内,泛化的产生是被动的。从涌
现机制的角度看,只能通过事后观察来分析浅层的规律,无法做到新技
能涌现的可知、可预测、可控,也就很难提升新技能涌现的效率。

在AI新技术产生突破的早期阶段,学界、产业和资本可能有意无意
地对模型泛化和业务可复制、可扩展产生乐观预期。例如2023年4月斯
坦福和哈佛学者在《自然》杂志发表的文章中,基于大模型提出通才式

359
的医疗人工智能范式,认为无需特定的人工标签训练,即可从文本扩展
到医学影像和视频的理解和辅助诊断。然而,文章中并未提到的是,要
真正达到这样的范式转变的水平,实际上还有很长的路要走;而且,所
需要的技术突破或涌现仍然是不可预测、不可控的。

就像凯文·凯利在《失控》一书中讲述的群集系统智能那样,失控
(不可知、不可预测、不可控)既是智能获得突破的重要原因,又是智
能突破所不可避免的伴生结果。然而,这种失控并非社会所习惯的模
式。如果没有合理地控制预期,大众往往在短期过度乐观,一旦受挫,
便会低估长期发展趋势,造成产业的大起大落。

从产业的角度,对大模型在各行业场景下的泛化和复制能力,建
议“小马过河”,谨慎乐观(参见图4.44)。单纯地期待涌现不可靠,
产业界需要找到配套的方法,让大模型落地的结果更可控。

360
◎图4.44 大模型面对落地行业的选择

图片来源:作者使用AI制图软件绘制。

1.选好做什么,不做什么。

在一些场景中,大模型现有的一些缺陷对商用的影响没那么大,甚
至可能是助益,如强调个性化和趣味性的聊天应用的character.ai的创
始人说:“我并不认为幻觉是需要解决的问题,我甚至很喜欢它,这是
模型有趣的特点。”

在character.ai做的“角色扮演”聊天场景中,幻觉是想象力的源
泉。但对另一些容错很低的行业,如医疗诊断、自动驾驶、工业自动
化,幻觉却危害显著。

361
2.通过人工或机器手段来给大模型的缺陷打补丁。

在适合使用GPT大模型能力的领域,针对幻觉、规划能力不足、缺
乏长期记忆等缺陷,现在都有部分解决方案。

机器手段包括通过本地数据库查询的方式,在对话中带入历史记
忆,增加模型的记忆能力,通过两个模型间左右互搏的方式识别幻觉。
人工手段包括通过提示工程指引大模型进行复杂规划,采用人工审核的
方式来发现并纠正模型幻觉。

以上手段在不同行业场景、不同数据环境下的效果与成本,需要用
实践验证,其综合结果会影响GPT大模型在这个行业或场景的商业价
值。

3.针对目标行业进行深入定制化,对快速颠覆怀有谨慎期待,对额
外的成本有预期。

由于大模型仍无法通吃所有行业,越来越多人意识到,在通用大模
型之上,还可以针对垂直领域精细化训练和定制大模型,这类模型仅在
指定行业场景下执行有限种类任务,规模可适当缩小。

从轻到重,做定制化的方式有:

■基于已有闭源大模型的API接口,通过应用级的微调和打补丁做
定制应用。

■选择开源的、已经完成预训练工作的基础模型,做更多定制。

■从头自己训练垂直模型:从预训练数据选择、模型结构设计切
入,定制全新大模型,以解决特定行业场景的问题。如彭博推出了500
亿参数的金融垂直大模型BloombergGPT,预训练使用的金融数据集
和通用数据集各占一半,在金融特有任务,如在新闻情感分析领域领先
于通用大模型。

越重的做法,成本越大,壁垒也越高。不同行业,怎么做最有竞争

362
优势,没有标准答案,但可以有一个大致的决策模型:

更稳的选择是先做最轻的打补丁,在掌握问题和数据、验证业务价
值后,再决定是否走彻底定制路线。然而,这种做法可能错过时间窗
口,导致追不上行业里更早做出垂直模型的公司,后者可能更快形成数
据反馈到模型能力迭代的“数据飞轮”,与其他人拉开差距。

更大胆的方式是跳进选好的方向,直接从头一边炼大模型一边找业
务价值,这需要持续的资源,也是目前一批融资能力最强的创业者的共
同选择。

·自动驾驶对于无人化的过度乐观,在大模型这波技术浪潮中会重演
吗?大模型的可靠性也有问题,会需要安全员吗?

大模型的幻觉造成的可靠性问题,仍然是其投入实际应用的最大障
碍之一。

学界和产业界对此非常重视,OpenAI公司更是将其作为头等问题
来解决,但并没有明确的路线和时间预估。

按照深度学习的规律,模型的可靠性不可能达到100%,出错是一
个必定发生的概率事件,需要结合不同行业场景中大模型的价值贡献、
对错误的容忍度,通过流程设计和过渡方案来解决(例如无人驾驶的
5G云代驾)。

在大模型胜任的知识工作中,边际成本主要由推理成本和安全成本
构成。当智力的边际成本趋向于零时,对应的生产和消费关系会发生什
么变化,美国经济学家杰里米·里夫金(Jeremy Rifkin)有一本著作曾经
对此进行思考,即《零边际成本社会:物联网、协作共享和资本主义的
消逝》。

·什么是AI公司?什么是大模型公司?大模型产业中最好的商业会在哪
里?

利用AI技术能力创造差异化价值的公司即可视为AI公司,大模型公

363
司同理。

1.卖算力,是大模型产业短期内最赚钱的商业。

2.MaaS卖大模型,并且通过客户积累形成数据飞轮壁垒,做有飞
轮效应的水电煤,是最有想象空间的商业。

3.将大模型能力与行业结合,提高现有业务的生产力,是最现实的
商业。

4.将大模型能力与行业结合,在某个应用场景中形成颠覆性创新,
面向最终消费者创造新的价值,引领行业甚至创造一个新的行业及相关
就业机会,这是最好的商业。

5.利用大模型赋能给原本智力资源缺乏的地区,提高社会基础服务
(教育、医疗)的质量,实现更高层次的教育公平、医疗公平,长期可
缩小地区间发展差距,形成新的消费市场,这是最好的社会事业。

企业从2到4,或从3到4,也是一种现实可能的发展路线。

·我们处于技术成熟度周期中的什么位置?

要看是以大模型还是AI为主语,周期和位置有所不同,解释空间就
会很大。

对待产业资本周期,也有3种有趣的态度:

1.Dance till the music stops.(音乐不停,跳舞不止。)

2.偶遇红利时不以物喜,穿越周期时不以己悲。

3.不负时代。

364
后记
大模型时代,说来就来了。这一切都发生在短短不到半年的时间
里,而且,就在本书定稿之后的半个月里,仍不断曝出新的动向。

谷歌I/O大会轰轰烈烈地发布了全新的大模型PaLM 2,在逻辑推
理、数学、编程方面有了很大的进步,并将大模型能力集成到谷歌搜
索、谷歌文档、Gmail邮箱等云端应用中。

深度学习奠基人、OpenAI首席科学家伊利亚的老师杰弗里·辛顿却
辞去了谷歌副总裁的职位,他担心OpenAI和谷歌的大模型会把人类推
向未知的风险。

巨大的变化也伴随着各种不同的声音。

国内一家新能源工业软件公司董事长认为ChatGPT在工业领域真正
要产生业务价值还需很长时间,但产业却需要这样的概念,“没有概
念,你就没有投资,没有投资这事就没有任何机会”。

沃顿商学院教授伊桑·莫里克(Ethan Mollick)参加一个国际性的教
育科技大会时,发现教育界的许多领导者,包括美国知名大学的校长和
教育科技公司的首席执行官,都认为技术奇点已经到来,但都不知道未
来的教育应该怎么办,应该培养学生向什么方向发展。

在这样的纷繁扰攘之中,我也曾焦虑过——经济社会将发生多大、
多快的变化;作为职业人,我要做什么改变,来应对大模型的挑战;作
为父亲,我的孩子要怎么适应未来更大的变化。

直到我检查书稿时,再次看到伊利亚的那句话——在讲述GPT从无
人问津到大获成功的艰辛道路时,他说:“在你拥有大规模的高质量数
据和算力之后,你还需要相信。”

365
相信,以及相信背后的勇气和担当,正是AI大模型学不到、夺不走
的人类品质啊!巨大、频繁、不可知的变化之下,我们要做的,或许就
是回归不变的东西。

面对零成本但同质化的智能时,找到自己的好奇和兴趣、个性和真
情。

面对变化和不确定时,利用批判性思维、试错和迭代来解决问题。

未来的教育,或许就是要帮助人们找回这些不变的东西,以不变应
万变。而AI大模型,既是这些变化的始作俑者,也可以成为帮助人们适
应变化的手段。自古以来,技术与教育就在同一条道路上竞赛并互相促
进,大模型也不例外。在这条注定漫长而坎坷的道路上,我会跟国内外
的教育者和学习者一同探索,无论你是校长、老师、家长、学生,还是
大模型的从业者,都欢迎来到“老莫实验室”(公众号二维码见本书第
72页),继续阅读情景剧、贡献自己的想法、参加后续的活动。

最后,我想要感谢我的家庭,魏薇和小朗。你们在我痛苦煎熬的写
书过程中提供了很大的帮助和许多的宽容。

我要感谢黄雯和李贺。黄雯在AI如火如荼、大厂天天加班的情况
下,熬夜写下了《应用篇》里除教育行业之外的所有行业应用内容。李
贺则利用新媒体出身的创作天分和AI绘图工具,为本书画出了许多有趣
的插图。

我要感谢我的两位师兄谢源和谢涛,你们的鼓励对我很重要。

我要感谢AI业界和教育界的朋友们,袁进辉、刘川、夏珂、黄颂、
郑建华、程曼祺、Laurent Kneip、Miao Jin、Ivy Zhang。你们提供
的意见和鼓励都在这本书里。

我还想感谢中译出版社的团队,乔卫兵社长、朱小兰主任、编辑苏
畅、朱涵、王海宽、任格、刘炜丽、王希雅。在你们身上同时体现了图
书出版界的规范严谨、互联网行业的开拓精神和工作效率,这让我印象
深刻。

366
让我们一同走进大模型时代。

龙志勇

2023年5月11日

367

You might also like