财通证券计算机行业：大语言模型的前世、今生与未来 230831

计算机 / 行业深度分析报告 / 2023.08.
31
大语言模型的前世、今生与未来
证券研究报告
投资评级:看好(维持) 核心观点
最近 12 月市场表现 ❖ 大语言模型：NLP 技术的奇点时刻。语言模型的核心是对任意一段文本序
列进行概率建模，用一个高维向量来表示一个 token 的全部特征。我们将深度
计算机沪深300 学习应用于 NLP 领域的范式转移总结为"有监督的机器学习->预训练+微调->
51%
预训练+提示"。其中，ChatGPT 的横空出世开启了“预训练+提示”的新范式，
38%
这主要得益于 OpenAI 对生成类模型（GPT）和算法规模化（Scalability）这两
25%
个基础技术路线的成功押注，大语言模型“涌现”出了解决复杂问题的通用能
12%
力，催生了本轮全球范围内的生成式 AI 浪潮。
-1%
-14%
❖ 大模型应用：数据感知与代理能力。如何将个人的个性化私有数据和企业
多年积累的行业专有知识嫁接到大模型的通用能力上，是大模型在垂直领域
商业化落地的核心技术问题。我们在报告中详细列举了三种目前业内主流的
分析师杨烨实践方法，并对其优劣进行了比较分析。除了获取外部数据外，通过增加代理
SAC 证书编号：S0160522050001
yangye01@ctsec.com 能力（Agent）
，让大语言模型具备自主理解、规划、执行复杂任务的能力，同
时与计算机内部环境，甚至物理世界进行交互，这也将显著打开大模型应用的
想象空间。此外，我们认为提升模型支持的上下文长度是应用创新的关键靶
相关报告点，模型小型化也将助力大模型应用的商业化落地。
1. 《华为产业系列深度：凤凰磐涅，AI
昇腾》 2023-08-27
❖ 应用分析框架：通用能力与外部能力的组合。大模型应用可以被总结为，
2. 《大模型推理算力知多少？》
在基座模型的通用能力上，叠加一些其他的可实现的外部能力，这就包括上述
2023-08-23
的数据感知（可连接其他外部数据源）和代理能力（允许大模型与环境互动）
。
3. 《
“活跃资本市场”政策频出，证券 IT
根据这一范式，我们可以将现阶段大模型的应用边界归纳为通用认知能力与
迎板块性机遇》 2023-08-17
上述两种外部能力的排列组合。基于此，展望未来大模型新应用的靶点可总结
为：①通用能力的增强（上下文长度、复杂推理、数学、代码、多模态等）
、
②外部能力的扩充（处理非结构化数据、使用更复杂的工具、与物理世界的交
互等）
❖ 投资建议：AI 大模型赋能下游应用，C 端标准化工具类产品有望率先享受产

业红利，重点公司包括金山办公、万兴科技、同花顺、科大讯飞、福昕软件等。
AI 在 B 端加速落地，具备细分行业数据与客户资源卡位的企业有望优先受益，
重点公司包括恒生电子、拓尔思、税友股份等。算力是 AI 大模型产业化落地
的必备环节，建议关注 AI 服务器相关厂商以及国产 AI 芯片厂商：浪潮信息、
中科曙光、优刻得、紫光股份、海光信息、寒武纪、拓维信息、神州数码以及
在向量数据库及垂直大模型领域有技术优势的星环科技等。
❖ 风险提示：AI 技术迭代不及预期的风险，商业化落地不及预期的风险，政策
支持不及预期风险，全球宏观经济风险。
请阅读最后一页的重要声明！
行业深度分析报告/证券研究报告
内容目录
1 大语言模型：NLP 技术的奇点时刻 ...................................................................................................... 4

1.1 技术探索：深度学习加速推进数据的无损压缩 ............................................................................... 4
1.2 技术应用：预训练语言模型成为 NLP 主流 ..................................................................................... 5
1.3 技术跃迁：大语言模型可能打开通往 AGI 之路 ............................................................................. 5
2 OpenAI 与 GPT：算法、工程、商业的融合 ....................................................................................... 6
2.1 GPT 系列模型的发展历程：千锤百炼，终见“涌现”...................................................................... 6
2.2 如何训练一个 ChatGPT：预训练获得“智商”，指令微调提升“情商” ......................................... 7
2.3 模型智能的“涌现”是生成式 AI 浪潮的充要条件 ............................................................................ 8
3 大模型应用：数据感知与代理（Agent）能力................................................................................... 10
3.1 外部数据：三条融合垂域数据打造大模型的技术路径 ................................................................. 10
3.1.1 Fine-Tuning 与 In-Context Learning 的实现方式案例.............................................................. 11
3.2 代理（Agent）：为大模型加上四肢，强化复杂任务处理能力..................................................... 13
3.2.1 与计算机内部交互：插件（Plugins）与代码解释器（Code Interpreter） ........................... 13
3.2.2 与物理世界交互：Robotics Transformer 2（RT-2） ................................................................ 14
3.3 上下文长度：应用创新的关键靶点 ................................................................................................. 15
3.4 “大”模型“小”型化：应用落地的降本之道 ..................................................................................... 16
4 应用分析框架：通用能力与外部能力的组合 ..................................................................................... 17
5 投资建议................................................................................................................................................. 18
6 风险提示................................................................................................................................................. 19
图表目录
图 1. 人工智能底层算法的探索历程（1958-2017 年） .............................................................................. 4
图 2. 自然语言处理（NLP）发生的三次技术范式转移 ............................................................................. 5
图 3. 本次以 GPT 为代表的生成式 AI 技术进步路线图 ............................................................................ 6
图 4. OpenAI 的 GPT 系列模型发展历程 ..................................................................................................... 7
图 5. GPT 模型训练流程 ................................................................................................................................ 8
图 6. 当模型规模达到一定程度时将会出现“涌现”现象 ............................................................................. 9
图 7. 思维链提示可以显著提升大语言模型的性能 ..................................................................................... 9
图 8. 打造垂域模型的三种基本方法........................................................................................................... 10
谨请参阅尾页重要声明及财通证券股票和行业评级标准 2
图 9. Delta-Tuning 是对 LLM 参数高效的微调范式 ................................................................................. 12

图 10. Langchain+向量数据库打造企业专属知识库问答系统 ................................................................. 12
图 11. 大模型驱动的自主代理系统 ............................................................................................................. 13
图 12. OpenAI 发布首批 70 余款 GPT-4 插件.............................................................................................. 14
图 13. 执行逻辑计算的代码解释器插件示例............................................................................................. 14
图 14. 机器人控制与思维链推理结合示例................................................................................................. 15
图 15. 大模型驱动的自主代理系统............................................................................................................. 16
图 16. 模型小型化的主要实现路径............................................................................................................. 16
图 17. 参数量化能够显著降低大模型的推理成本 ..................................................................................... 17
1 大语言模型：NLP 技术的奇点时刻
1.1 技术探索：深度学习加速推进数据的无损压缩
人类对机器智能的探索由来已久。如何让机器像人类一样思考，获得与人类相当
的智能，一直是全球人工智能学者毕生追求的圣杯。自英国数学家阿兰·图灵在
1950 年提出了“机器能思考吗”这一跨世纪的命题以来，人类就从未停止对机器
智能的探索。从最简单的统计规则方法，到借鉴人类大脑生物结构的神经网络模
型，再到如今拥有千亿级参数的超大规模预训练模型，深度学习因其能够实现非
线性空间的有效变换，并能利用 GPU 等硬件实现加速计算，因而成为人工智能
研究领域的核心主线。无论是早期的 RNN，还是其改进后的变体 LSTM，亦或
是本轮生成式 AI 浪潮的起源 Transformer，它们本质上都是用一个更有效的神经
网络去实现数据的无损压缩，而数据的压缩能力或许就是机器智能的一种展
现。
图1.人工智能底层算法的探索历程（1958-2017 年）
时间事件
1958 年计算机科学家罗森布拉特提出了由两层神经元构成的神经网络，这种网络被称为感知机
（Perceptron），是最基本的神经网络结构
1982 年约翰·霍普菲尔德提出了一种具有记忆存储能力的 Hopfield 网络，开启了循环神经网络
（Recurrent Neural Network, RNN）的时代，也是 LSTM（Long Short-Term Memory）、
Transfomer 模型的奠基者
1986 年 “AI 教父”杰弗里·辛顿发明了适用于多层感知器的反向传播算法，它成为了日后训练深度
神经网络的基础
1989 年杨立昆（现任 Facebook 首席人工智能科学家）等人提出了卷积神经网络（CNN，
Convolutional Neural Networks），被广泛应用于计算机视觉的图像处理领域
2012 年 AlexNet（一种卷积神经网络模型）引入了利用 GPU 并行运算，以压倒性的准确率夺得了当年
ImageNet 图像识别大赛的冠军。这一成果带来了深度神经网络的又一次复兴（其中，论文的
第二作者是未来 OpenAI 的首席科学家 Ilya Sutskever）
2016 年 AlphaGo, 这台由谷歌 DeepMind 开发的先进的人工智能棋手，出人意料地击败了强大的围棋世

界冠军李世石，体现了人工智能在围棋这项历史悠久、被誉为人类智慧皇冠上的明珠的棋类运
动中，取得了巨大的突破
2017 年谷歌机器翻译团队在发表的一篇具有里程碑意义的论文《Attention is All You Need》中，
精确提出了一种采用 Attention 机制的全新模型——Transformer。Bert、GPT 等预训练模型
随之孕育而生
数据来源：CSDN、阿里云开发者社区、财通证券研究所
1.2 技术应用：预训练语言模型成为 NLP 主流
从单一小模型到预训练模型的范式转移。语言模型的本质是对任意一段文本序列
进行概率建模，用一个高维向量来表示一个 token 的全部特征。
⚫ 早期的研究者发明了 Word2Vec，一种用于将自然语言中的单词表示为向量
的技术，它基于神经网络，并且可以通过训练大规模语料库来学习单词之间
的语义和语法关系，是深度学习应用在 NLP 领域的早期范式；
⚫ 随着对长文本特征提取能力更强，计算效率更高的神经网络的提出，研究者
开始尝试用更多的数据去训练一个能力更强的模型——预训练模型，然后通
过迁移学习的方法使其适用于下游特定的任务。这就是 Google 在 2018 年提
出的 BERT（Bidirectional Encoder Representation from Transformers，基于
Transformer 的双向编码器）的核心思想；
⚫ 然而，OpenAI 在这一时期坚定押注于 GPT（Generative Pre-Trained

Transformer，基于 Transformer 的单向解码器）这一路线，坚信通过优化
“下一个词预测”，以及扩大训练模型的参数量和数据量，机器能够对文本语
料拥有与人类相似的“理解”能力。当前，OpenAI 与 ChatGPT 的成功，使得
运用大语言模型做“预训练+提示”的范式，逐步取代了 BERT 时代“预训
练+下游任务改造”的范式，成为了 NLP 业内新的主流。
图2.自然语言处理（NLP）发生的三次技术范式转移
数据来源：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

（Jacob Devlin, Ming-Wei Chang 等）、财通证券研究所
1.3 技术跃迁：大语言模型可能打开通往 AGI 之路
直到 2022 年底 ChatGPT 横空出世，学界和工业界开始意识到，OpenAI 对生成

类模型（GPT）和算法规模化（Scalability）的两个基础技术路线押注，可能是
让机器获得智能的可行路径，甚至是打开通往通用人工智能（AGI，Artificial
General Intelligence）这一终极理想的金钥匙。因此，我们有理由相信，当前以
ChatGPT 为代表的大语言模型开启的本轮科技浪潮，其重要性可能高于过去任何
一次 AI 技术的突破，实现 AGI 的愿景可能已并不遥远。当然，技术的突破与未
来的潜在瓶颈也正都源于此，大模型与生俱来的 Hallucination（幻觉）使其输出
的内容天生具有可靠性低的特点；另一方面，大模型的模型规模化能力的天花板
也有待进一步探索。因此，我们认为提升模型可靠性和提升模型性能共同构成了
大模型未来迭代的核心靶点。
图3.本次以 GPT 为代表的生成式 AI 技术进步路线图
数据来源：《Emergent Abilities of Large Language Models》（Jason Wei, Yi Tay 等）

、财通证券研究所
2 OpenAI 与 GPT：算法、工程、商业的融合
2.1 GPT 系列模型的发展历程：千锤百炼，终见“涌现”
⚫ 对 GPT 路线的执着探索（GPT-1~3）
：2018 年 6 月，OpenAI 推出基于
Transformer Decoder 改造的 GPT-1，但其在下游理解类任务的性能远低于同
年 10 月 Google 推出的基于 Encoder 的 BERT；2019 年 GPT-2 推出后，尽管
性能仍不如 BERT，但 OpenAI 发现 Zero-shot 和 Few-shot 的方式可能可以
直接训练一个通用的语言模型；到了 2020 年的 GPT-3，OpenAI 决定直接将
模型参数扩大到了 175B，这一举动正式掀开了大语言模型的序幕；
⚫ 涌现能力的出现（GPT-3.5）：OpenAI 在 GPT-3 的基础上通过融合指令微调

训练得到的 InstructGPT、基于代码数据训练的 Codex、以及基于人类反馈
的强化学习（RLHF，Reinforcement Learning from Human Feedback）
，训练
得到了 GPT-3.5，某种意义上实现了大模型能力的“涌现”（在某些复杂能力
上实现突破）。GPT-3.5 也成为了开启本轮生成式 AI 浪潮的爆款产品

ChatGPT 背后的核心功臣。
⚫ AGI 的曙光已现（GPT-4）：2023 年 3 月，OpenAI 发布了基于 GPT-3.5 的

SOTA（State-Of-The-Art）模型 GPT-4，该模型在多模态和可靠性方面实现
了进一步扩展。从泛化能力的角度，GPT-4 在创造力、图片理解能力、长文
本处理能力和回答准确性方面都有所提升；从工程能力的角度看，通过与
Azure 在算力设施上深度定制合作，GPT-4 能够以千分之一的计算量去预测
在一定计算规模下的性能（预测最终模型的 Loss）；从可靠性的角度，GPT-
4 自去年 8 月训练完成后，花费了大量时间做对齐（Alignment）
，甚至不惜
牺牲部分性能以提升其内容输出的可靠性。
图4.OpenAI 的 GPT 系列模型发展历程
数据来源：《GPT-4 Technical Report》

（OpenAI）、财通证券研究所
2.2 如何训练一个 ChatGPT：预训练获得“智商”，指令微调提升“情

商”
模型的训练可分解为预训练基座模型和基座模型的微调。基座模型（Base
Model）是经过海量数据预训练（Pre-train）所得到，它具备一定的通用能力，
并将消耗千卡级别的 GPU 算力。这一阶段模型获得了知识，具备了“智商”
；但
基座模型往往不能很好地胜任下游的各式任务，以 ChatGPT 为例，模型需要通
过指令微调，才能具备与人类流畅对话的能力（其中数据集需要包含各种与人类
行为、情感相关的指令和任务）
，使得基座模型在预训练阶段获得的能力被进一
步解锁/激发出来，从而实现从“智商”到“情商”的跨越。值得一提的是，模
型微调不可避免将带来某些性能上的取舍，例如 OpenAI 在他们的指令微调论文
中称其为“对齐税” (alignment tax)。
图5.GPT 模型训练流程
数据来源：Microsoft Build 官网、财通证券研究所
2.3 模型智能的“涌现”是生成式 AI 浪潮的充要条件
模型能力的涌现是生成式 AI 浪潮的充要条件。过去，模型的表现被认为与模型
的规模之间服从 Power Law，即随着模型规模指数级上升，模型性能只能线性增
长；但 Google 的研究者在 2022 年发现，当模型规模达到某个阈值时，模型对某
些复杂问题的处理性能突然呈现快速增长，这种现象则被称为 Emergent
Abilities，即涌现能力。例如，研究者发现当大语言模型规模达到一定程度时，
思维链提示（Chain of Thought prompting，CoT）可以显著提升大语言模型的性
能，尤其适用于处理涉及数学或推理的复杂任务：
➢ Zero-shot-CoT：在 prompt 提问的结尾只需附加“Let's think step by step”这几

个词；
➢ Few-shot-CoT：在 prompt 中给与一些关键推理步骤的示例，让模型学习相

应的推理过程；
我们认为，CoT 的意义在于模型可能已经学到了底层的推理过程而非统计意义
上记住了输入-输出的概率分布，这是模型拥有“智能”的一个重要体现，也显著
打开了大语言模型未来应用的可为空间。
图6.当模型规模达到一定程度时将会出现“涌现”现象
数据来源：《Emergent Abilities of Large Language Models》（Jason Wei, Yi Tay 等）

图7.思维链提示可以显著提升大语言模型的性能
数据来源：《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》

（Jason Wei, Xuezhi Wang 等）
3 大模型应用：数据感知与代理（Agent）能力
3.1 外部数据：三条融合垂域数据打造大模型的技术路径
大模型与垂直领域 Know-how 的融合是商业化落地关键。如何将个人的个性化

私有数据和企业多年积累的行业专有知识嫁接到大模型的通用能力上，是大模型
在垂直领域商业化落地的核心技术问题。目前开发者主要采用三种思路：
➢ 方案①：先通过大量的垂域语料数据+通用语料数据做预训练，再针对性地
做指令微调（从头训练模型）；
➢ 方案②：在一个通用大模型的基础上，通过指令微调将垂域知识训练到模
型的参数中（小幅改动模型）；
➢ 方案③：在一个通用大模型的基础上，通过上下文学习（In-Context
Learning）将垂域知识放在模型的提示词 Prompt 中（不训练模型，用模
型）。
图8.打造垂域模型的三种基本方法
数据来源：《Llama 2: Open Foundation and Fine-Tuned Chat Models》

（Hugo Touvron, Louis Martin 等）
方案① 实现难度最大，模型对垂域知识的零样本学习能力最强（Zero-shot），
算力消耗集中在预训练。方案①对垂域数据的质量和数量要求都很高，且需要从
头训练一个基座模型的工程能力和算力储备，但是一旦训练成功，模型推理泛化
能力理论上是最好的（大语言模型的知识是在预训练阶段获得的）
。因此，方案
①适合于有大量垂域数据和算力购买能力的大型公司；
方案② 实现难度次之，模型能够具备一定的垂域知识零样本学习能力，算力消
耗集中在微调和推理。方案②本质是借鉴了 Bert 做下游任务改造的思路。然
而，对大模型的微调实则将预训练阶段获得的能力以某种方式激发出来，但这种
能力的激发是有代价的，包括但不限于会出现原有知识/能力的遗忘。此外，微
调后的模型通用能力上限依然受制于基座模型本身。因此，方案②适合具有丰富
调节参数经验团队的模型或应用厂商；
方案③ 实现难度最低，模型不具备垂域知识的零样本学习能力，算力消耗集中
在推理端。方案③是将垂域数据保存在一个外挂的向量数据库中，通过 In-
Context Learning 让大模型在 prompt 中学习相关信息。方案③其实就是大家口中
经常讲的 MaaS（Model as a Service）
。这一方式实现起来方便快捷，并且能够快
速实现外部数据的更新，目前主要瓶颈是大语言模型对 prompt 中输入上下文长
度（In-Context Length）的支持。
值得一提的是，方案③并不完全和方案①②独立，它们之间可以相互组合，特别
是在一些需要高频更新外部数据的应用场景，方案③是唯一能适用的办法；此
外，方案③为下游客户提供了一个低成本、少量数据的“冷启动”的方式，非常
适合想要快速尝鲜大模型功能的下游客户。
3.1.1 Fine-Tuning 与 In-Context Learning 的实现方式案例
Delta-Tuning 是对大模型参数高效的微调范式。当大模型的规模越来越大时，做
全局的微调，即重新训练所有的模型参数无疑会变得愈发不可行，亟需一种参数
高效（Parameter-efficient）的新范式。清华与智源研究院在《Delta Tuning: A
Comprehensive Study of Parameter Efficient Methods for Pre-trained Language
Models》论文中对解决上述问题的方法进行了总结，这些方法本质上都是在尽量
不改变原有模型参数的情况下引入一个增量参数（Delta Paremters）进行微调，
因此将它命名为 Delta-Tuning。在众多 Delta-Tuning 的实践中，最被开发者广泛
关注和使用的，当属微软提出的 LoRA（Low-Rank Adaptation of Large Language
Models，大语言模型的低阶适应）。LoRA 的原理是冻结预先训练好的模型参
数，在 Transformer 架构的每一层注入一个可训练的低秩矩阵，并在模型训练过
程中只训练降维矩阵 A 与升维矩阵 B（下图橙色部分），其本质是基于大语言
模型内在的低秩特性，增加旁路矩阵来模拟全参数微调。以微调 175B 参数的
GPT-3 为例，与 Adam 调优的 GPT-3 相比，LoRA 可训练参数量减少了 1 万倍，
GPU 内存需求减少了 3 倍，显著降低了微调模型的成本。
图9.Delta-Tuning 是对 LLM 参数高效的微调范式
数据来源：《LoRA: Low-Rank Adaptation of Large Language Models》（Edward J. Hu, Yelong Shen 等）
，《Delta Tuning: A Comprehensive Study of Parameter Efficient
Methods for Pre-trained Language Models》
（Ning Ding, Yujia Qin 等），财通证券研究所
Langchain+向量数据库打造企业专属知识库问答系统。LangChain 是一套强大的
大模型应用开发框架，集成了模型 I/0、数据连接、链、代理、内存、回调等模
块，赋予了大模型：1）数据感知（可连接其他的外部数据源）
、2）代理能力
。在 LangChain 的帮助下，开发者可以更加便捷的将
（允许大模型与环境互动）
大语言模型这一“大脑”装上“四肢”，赋予其访问本地文件、调用 API 接口、
访问互联网等进阶能力，快速打造知识库问答、聊天机器人、结构化数据分析等
功能。因此，使用 LangChain 将大模型与企业的垂域知识库连接（通常以向量数
据库的形式），将用户输入的 prompt 在向量数据库中检索最相关的内容，再将返
回的内容和输入的 prompt 本身一起成为输入给大模型的最终 prompt，成为了另
一种可实现“大模型的通用能力+垂直领域的专业知识”的技术路径。
图10.Langchain+向量数据库打造企业专属知识库问答系统
数据来源：LangChain 官网，财通证券研究所
3.2 代理（Agent）：为大模型加上四肢，强化复杂任务处理能力
提示工程的下一个前沿。通过增加代理能力（Agent），让大语言模型具备自主理
解、规划、执行复杂任务的能力，彻底改变传统的人机交互方式，是当前应用侧
探讨的另一个热门方向。目前大模型的代理能力可以体现在两方面：1）允许单
个大模型使用工具、2）允许多个大模型协作竞争。OpenAI 安全系统负责人
Lilian Weng 近期发表相关博文，她认为在大语言模型驱动的 AI 智能体中，大语
言模型扮演了“大脑”的角色，规划（任务分解+反思总结）
、记忆（短期记忆+长
期记忆）、工具使用（调用 API+访问外部数据）是实现它的三个核心组件。此前
在 GitHub 上关注度极高的 AutoGPT 项目实现了对大语言模型的循环调用，本质
上是对大语言模型代理能力的充分呈现，因此也被称为“提示工程的下一个前
沿”。
图11.大模型驱动的自主代理系统
数据来源：Github、财通证券研究所
3.2.1 与计算机内部交互：插件（Plugins）与代码解释器（Code Interpreter）

GPT-4 插件开放生态不断丰富，代码解释器大幅提高用户工作效率。2023 年 5 月，
OpenAI 发布首批 70 余款插件（plugins）
，使 GPT-4 能通过插件检索互联网实时
数据、调用公司或个人资料库、执行订机票等操作。插件功能的本质是在输入
ChatGPT 的 prompt 中增加一段备选插件的“API 生成手册”，是一种赋予大模型代
理能力实现与计算机环境进行交互的经典案例。2023 年 7 月，ChatGPT 的代码解
释器插件 Code Interpreter 正式向所有 Plus 用户开放。代码解释器具备以下功
能:使用 Python 进行编程、处理上传和下载、在受保护的沙箱化执行环境中运行、
持久会话等，用户可直接使用自然语言要求 ChatGPT 读取文件（100M 以内）
、分
析编辑数据以及生成图片、视频、代码等。代码解释器是典型的让模型使用工具
的产品，我们认为这代表了大模型应用未来发展的底层范式，即应用开发将是一
个面向自然语言编程的过程。
图12.OpenAI 发布首批 70 余款 GPT-4 插件图13.执行逻辑计算的代码解释器插件示例
数据来源：量子位、财通证券研究所数据来源：OpenAI 官网、财通证券研究所
3.2.2 与物理世界交互：Robotics Transformer 2（RT-2）
谷歌发布机器人 RT-2，打开大模型与物理世界的交互窗口。2023 年 7 月，谷歌

DeepMind 推出新款机器人模型 Robotics Transformer 2（RT-2）。RT-2 是全新的视
觉-语言-动作（VLA）模型，可以从互联网和机器人数据中自动学习，并将这些
知识转化为机器人控制的通用指令以实现一系列操作动作。同时，在思维推理链
加持下，RT-2 可执行深度语义推理完成复杂度更高的任务，类似于实体机器人
版的 ChatGPT。
➢ 例如，人类发出指示：我需要锤钉子，场景中的什么物体可能有用？
机器人计划：选择桌上的石头；
机器人行动：1 129 138 122 132 132 106 127（该字符串为机器人动作标记的

数列）
。
我们认为，RT-2 展示了构建通用机器人的前景，打开了大模型与物理世界的交
互窗口。随着多模态融合的大模型日益成熟，以及以人形机器人为代表的新物理
载体在硬件端迭代升级，大模型的代理能力将被赋予更丰富的含义。
图14.机器人控制与思维链推理结合示例
数据来源：谷歌 DeepMind 官网、财通证券研究所
3.3 上下文长度：应用创新的关键靶点
上下文长度决定提示工程的复杂度。如前文所述，以 GPT 为代表的大语言模型

带来的范式转移，是用户只需要将完成任务所需信息输入到 prompt 中（In-
Context-Learning）
，而无需将这些信息训练到模型的参数中（Fine-Tuning）。无论
是 3.1 介绍的引入外部数据的方案③（外挂向量数据库）
，还是 3.2 介绍的代理能
，其本质都是一种提示工程（Prompt Engineering）。基于此，我们可
力（Agent）
以认为上下文长度的拓展可能是推动应用落地的关键靶点：
➢ 更长的上下文长度->更大的提示工程潜力->功能更强大的大模型应用
但实际使用中，大模型支持的最大上下文长度往往存在限制（GPT-4 目前最大支
持 32k，Claude 可支持 100k，初代开源的 LLaMa 只支持 2k，LLaMa2.0 则升级
到了 4k）。存在该限制的主要原因是：1）过长的输入会使模型在推理时计算和
内存资源使用急剧扩大（Transformer 的计算复杂度和空间复杂度随序列长度 N
呈二次方增长）
、2）过长的训练数据也可能因为关联问题带来模型质量的下降
（Attention 机制对长文本的中间记忆能力较弱）
。为了实现提升大模型支持的最
大上下文长度，开发者尝试了多种方式，包括但不限于更好的位置编码
（ALiBi，Attention with Linear Biases）
、稀疏注意力机制、Flash Attention（用于
GPU 的注意力层高效实现）、多查询注意力（Multi-Query Attention，MQA）等

等。
图15.大模型驱动的自主代理系统
模型名称最高输入发布者开源情况
Claude-1.3-100K 100K Anthropic ❌商用
MPT-7B-storywriter 65K MosaicML ✅开源且免费商用
ChatGLM2-6B 32K 清华&智谱 ❌开源但收费商用
GPT-4-32k 32K OpenAI ❌商用
LongChat-13B-16K 16K LM-SYS ❌开源但不可商用
GPT-3.5-Turbo-16K 16K OpenAI ❌商用
MPT-30B-chat 8K MosaicML ❌开源但不可商用
XGen-7B 系列 8K Salesforce ✅部分开源且免费商用
PaLM 2 8K Google ❌商用
LLaMa 2 4K Meta ✅开源且免费商用
LLaMa 1 2K Meta ❌开源但不可商用
数据来源：Anthropic 官网、Dataleaner、Meta AI 官网、财通证券研究所
3.4 “大”模型“小”型化：应用落地的降本之道
模型小型化技术主要包括压缩参数和压缩结构。大模型应用落地的另一个关键堵
点是推理成本的高企，除了以英伟达为代表的加速计算厂商在硬件侧持续降本
外，我们也可以对模型本身进行压缩以降低推理成本。模型小型化是指在保持模
型精度的前提下，通过压缩模型参数和结构，将已经训练好的大型模型缩小为能
够在边缘端或其他资源受限环境中运行的精简小型模型。根据《深度学习模型压
缩与加速综述》中的分类，压缩参数的主要方法包括：参数剪枝、参数量化、低
秩分解和参数共享等；压缩结构的主要方法包括紧凑网络和知识蒸馏等。
图16.模型小型化的主要实现路径
类别技术描述
压缩参数剪枝设计关于参数重要性的评价准则，基于该准则判断网络参数的重要程度,删除
参数冗余参数
参数量化将网络参数从 32 位全精度浮点数量化到更低位数
低秩分解将高维参数向量降维分解为稀疏的低维向量
参数共享利用结构化矩阵或聚类方法映射网络内部参数
压缩紧凑网络从卷积核、特殊层和网络结构 3 个级别设计新型轻量网络
结构知识蒸馏将较大的教师模型的信息提炼到较小的学生模型
混合混合方式前几种方法的结合
方式
数据来源：《深度学习模型压缩与加速综述》
（高晗、田育龙等）、财通证券研究所
参数量化是目前降低模型推理成本的主流技术路径。计算量(FLOPs)对应的是时
间复杂度，主要关注网络执行时间的长短，即衡量每秒浮点运算次数；参数量
(Params)对应的是空间复杂度，主要关注显存占用量，即衡量网络模型中需要训
练的参数总数。当前，参数量化是目前降低模型推理成本的主流技术路径，其核
心思想是通过将浮点计算转成低比特定点计算以降低数据精度，有效降低模型计
算强度、参数大小和内存消耗，即以牺牲部分模型性能为代价提升计算效率。
Yufan Liu 等人的研究结果显示，当模型的 FLOPs 数量修剪为原来的 50%左右
时，模型牺牲的准确度约 10%；即当接受约 10%的性能牺牲时，可以节约 50%
左右的算力成本。
图17.参数量化能够显著降低大模型的推理成本
数据来源：《Learning to Explore Distillability and Sparsability: A Joint Framework for Model Compression》（Yufan Liu, Jiajiong Cao 等）、财通证券研究所
4 应用分析框架：通用能力与外部能力的组合
大模型应用可以被总结为，在基座模型的通用能力上，叠加一些其他的可实现的
外部能力。以当前较有代表性的 LangChain 为例，它可以为大模型提供数据感知
（可连接其他外部数据源）和代理能力（允许大模型与环境互动）
。根据这一范
式，我们可以将现阶段大模型的应用边界归纳为通用认知能力与上述两种外部能
力的排列组合。基于此，展望未来大模型新应用的靶点可总结为：
⚫ 通用能力的增强（上下文长度、复杂推理、数学、代码、多模态等）
⚫ 外部能力的扩充（处理非结构化数据、使用更复杂的工具、与物理世界的
交互等）
1. 通用能力 + 数据感知 = 信息检索、汇总、再生成
a. 多轮对话机器人
i. 2C -> 虚拟人 AI 助手、智能客服、AI 家教、智能硬件...
ii. 2B -> 企业知识库问答、OA 私人助理、营销机器人、培训机器人...
b. 数据特征挖掘器
i. 2C -> 基础数据分析、个性化营销、智能问诊...
ii. 2B -> 商业分析、网安攻击关联分析...
c. 特定内容生成器
i. 2C -> 办公场景（Word、PPT）
、创作场景（图片、视频）
、代码...
ii. 2B -> 金融报表、法律文件、研究报告、病例...
2. 通用能力 + 代理能力 = 自主执行、循环调用、环境控制
d. 机器人流程自动化（RPA）
i. 2C -> 第三方 Plugins、代码解释器、办公场景（Excel）...
ii. 2B -> 智能 OA、智能中台、低代码平台...
e. 任务解决型自主 AI
i. 2C -> AutoGPT、AgentGPT、BabyAGI、GPT-Engineer...
5 投资建议
AI 大模型赋能下游应用，C 端标准化工具类产品有望率先享受产业红利，建议
关注金山办公、万兴科技、同花顺、科大讯飞、福昕软件等。
AI 在 B 端加速落地，具备细分行业数据与客户资源卡位的企业有望优先受益，
建议关注恒生电子、拓尔思、税友股份等。
算力是 AI 大模型产业化落地的必备环节，建议关注 AI 服务器相关厂商以及国

产 AI 芯片厂商：浪潮信息、中科曙光、优刻得、紫光股份、海光信息、寒武
纪、拓维信息、神州数码以及在向量数据库及垂直大模型领域有技术优势的星环
科技等。
6 风险提示
AI 技术迭代不及预期的风险：若 AI 技术迭代不及预期，NLP 模型优化受
限，则相关产业发展进度会受到影响。
商业化落地不及预期的风险：ChatGPT 盈利模式尚处于探索阶段，后续商业化落
地进展有待观察。
政策支持不及预期风险：新行业新技术的推广需要政策支持，存在政策支持不及
预期风险。
全球宏观经济风险：垂直领域公司与下游经济情况相关，存在全球宏观经济风
险。
信息披露
⚫ 分析师承诺
作者具有中国证券业协会授予的证券投资咨询执业资格，并注册为证券分析师，具备专业胜任能力，保证报告所采用的数
据均来自合规渠道，分析逻辑基于作者的职业理解。本报告清晰地反映了作者的研究观点，力求独立、客观和公正，结论
不受任何第三方的授意或影响，作者也不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。
⚫ 资质声明
财通证券股份有限公司具备中国证券监督管理委员会许可的证券投资咨询业务资格。
⚫ 公司评级
买入：相对同期相关证券市场代表性指数涨幅大于 10%；
增持：相对同期相关证券市场代表性指数涨幅在 5%～10%之间；
中性：相对同期相关证券市场代表性指数涨幅在-5%～5%之间；
减持：相对同期相关证券市场代表性指数涨幅小于-5%；
无评级：由于我们无法获取必要的资料，或者公司面临无法预见结果的重大不确定性事件，或者其他原因，致使我们无法
给出明确的投资评级。
⚫ 行业评级
看好：相对表现优于同期相关证券市场代表性指数；
中性：相对表现与同期相关证券市场代表性指数持平；
看淡：相对表现弱于同期相关证券市场代表性指数。
⚫ 免责声明
本报告仅供财通证券股份有限公司的客户使用。本公司不会因接收人收到本报告而视其为本公司的当然客户。
本报告的信息来源于已公开的资料，本公司不保证该等信息的准确性、完整性。本报告所载的资料、工具、意见及推测只
提供给客户作参考之用，并非作为或被视为出售或购买证券或其他投资标的邀请或向他人作出邀请。
本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断，本报告所指的证券或投资标的价格、价值及投资
收入可能会波动。在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告。
本公司通过信息隔离墙对可能存在利益冲突的业务部门或关联机构之间的信息流动进行控制。因此，客户应注意，在法律
许可的情况下，本公司及其所属关联机构可能会持有报告中提到的公司所发行的证券或期权并进行证券或期权交易，也可
能为这些公司提供或者争取提供投资银行、财务顾问或者金融产品等相关服务。在法律许可的情况下，本公司的员工可能
担任本报告所提到的公司的董事。
本报告中所指的投资及服务可能不适合个别客户，不构成客户私人咨询建议。在任何情况下，本报告中的信息或所表述的
意见均不构成对任何人的投资建议。在任何情况下，本公司不对任何人使用本报告中的任何内容所引致的任何损失负任何
责任。
本报告仅作为客户作出投资决策和公司投资顾问为客户提供投资建议的参考。客户应当独立作出投资决策，而基于本报告
作出任何投资决定或就本报告要求任何解释前应咨询所在证券机构投资顾问和服务人员的意见；
本报告的版权归本公司所有，未经书面许可，任何机构和个人不得以任何形式翻版、复制、发表或引用，或再次分发给任
何其他人，或以任何侵犯本公司版权的其他方式使用。

财通证券 计算机行业：大语言模型的前世、今生与未来 230831

Uploaded by

Copyright:

Available Formats

You might also like

财通证券 计算机行业：大语言模型的前世、今生与未来 230831

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

财通证券 计算机行业：大语言模型的前世、今生与未来 230831

Uploaded by

Copyright:

Available Formats

计算机 / 行业深度分析报告 / 2023.08.

❖ 投资建议：AI 大模型赋能下游应用，C 端标准化工具类产品有望率先享受产

1 大语言模型：NLP 技术的奇点时刻 ...................................................................................................... 4

图 9. Delta-Tuning 是对 LLM 参数高效的微调范式 ................................................................................. 12

2016 年 AlphaGo, 这台由谷歌 DeepMind 开发的先进的人工智能棋手，出人意料地击败了强大的围棋世

1.2 技术应用：预训练语言模型成为 NLP 主流

⚫ 然而，OpenAI 在这一时期坚定押注于 GPT（Generative Pre-Trained

数据来源：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

1.3 技术跃迁：大语言模型可能打开通往 AGI 之路

直到 2022 年底 ChatGPT 横空出世，学界和工业界开始意识到，OpenAI 对生成

数据来源：《Emergent Abilities of Large Language Models》（Jason Wei, Yi Tay 等）

⚫ 涌现能力的出现（GPT-3.5）：OpenAI 在 GPT-3 的基础上通过融合指令微调

上实现突破）。GPT-3.5 也成为了开启本轮生成式 AI 浪潮的爆款产品

⚫ AGI 的曙光已现（GPT-4）：2023 年 3 月，OpenAI 发布了基于 GPT-3.5 的

数据来源：《GPT-4 Technical Report》

2.2 如何训练一个 ChatGPT：预训练获得“智商”，指令微调提升“情

数据来源：Microsoft Build 官网、财通证券研究所

2.3 模型智能的“涌现”是生成式 AI 浪潮的充要条件

➢ Zero-shot-CoT：在 prompt 提问的结尾只需附加“Let's think step by step”这几

➢ Few-shot-CoT：在 prompt 中给与一些关键推理步骤的示例，让模型学习相

数据来源：《Emergent Abilities of Large Language Models》（Jason Wei, Yi Tay 等）

数据来源：《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》

大模型与垂直领域 Know-how 的融合是商业化落地关键。如何将个人的个性化

数据来源：《Llama 2: Open Foundation and Fine-Tuned Chat Models》

3.1.1 Fine-Tuning 与 In-Context Learning 的实现方式案例

图9.Delta-Tuning 是对 LLM 参数高效的微调范式

3.2.1 与计算机内部交互：插件（Plugins）与代码解释器（Code Interpreter）

数据来源：量子位、财通证券研究所 数据来源：OpenAI 官网、财通证券研究所

3.2.2 与物理世界交互：Robotics Transformer 2（RT-2）

谷歌发布机器人 RT-2，打开大模型与物理世界的交互窗口。2023 年 7 月，谷歌

机器人行动：1 129 138 122 132 132 106 127（该字符串为机器人动作标记的

数据来源：谷歌 DeepMind 官网、财通证券研究所

上下文长度决定提示工程的复杂度。如前文所述，以 GPT 为代表的大语言模型

GPU 的注意力层高效实现）、多查询注意力（Multi-Query Attention，MQA）等

1. 通用能力 + 数据感知 = 信息检索、汇总、再生成

i. 2C -> 虚拟人 AI 助手、智能客服、AI 家教、智能硬件...

ii. 2B -> 企业知识库问答、OA 私人助理、营销机器人、培训机器人...

ii. 2B -> 商业分析、网安攻击关联分析...

ii. 2B -> 金融报表、法律文件、研究报告、病例...

2. 通用能力 + 代理能力 = 自主执行、循环调用、环境控制

i. 2C -> 第三方 Plugins、代码解释器、办公场景（Excel）...

ii. 2B -> 智能 OA、智能中台、低代码平台...

算力是 AI 大模型产业化落地的必备环节，建议关注 AI 服务器相关厂商以及国

You might also like

财通证券计算机行业：大语言模型的前世、今生与未来 230831

财通证券计算机行业：大语言模型的前世、今生与未来 230831

财通证券计算机行业：大语言模型的前世、今生与未来 230831

数据来源：量子位、财通证券研究所数据来源：OpenAI 官网、财通证券研究所