Download as pdf or txt
Download as pdf or txt
You are on page 1of 80

ChatGPT与生成式AI技术发展概述

目录

一、AI:从判别决策到创造生成
1. 从判别式AI到生成式AI
2. 从传统机器学习到大型生成模型的技术演化
二、AIGC技术及进展
1. AIGC的定义和发展
2. AIGC技术的分类
3. AIGC技术框架
三、大模型实操:动手练习
1. 工作助理
2. 生活助理
3. 学习助理
AI:从判别决策到创造生成
• AI模型可以大致分为:判别式AI(Discriminative AI)和生成式AI(Generative AI)两类。
• 传统人工智能(即判别式AI)主要注重分析能力;而如今,人工智能正朝着生成新内容
的方向发展,实现从感知理解世界到生成创造世界的转变。

对给定观测𝑝(𝑦|𝑥) 的类标 它对类标签和观测值𝑝(𝑥, 𝑦)的联合概


签的后验概率进行建模。 率进行建模,然后使用贝叶斯规则
(𝑝(𝑦|𝑥) = 𝑝 (𝑥, 𝑦)/𝑝 (𝑥))进行预测。
AI:从判别决策到创造生成

特征 生成式AI(AIGC) 非生成式AI

主要功能 生成新内容 对给定输入做出反应或决策

自主学习 可通过自主学习和自我改进,不断提高自 可在给定的数据集上进行训练,但需要人


己的能力 工进行模型的调整和优化

数据需求量
需要大量的数据来学习 可在相对较小的数据集上进行训练

可解释性 往往难以解释其生成方式 提供可解释的输出

应用领域 自然语言处理、音乐创作、图像生成等 如图像分类、语音识别、自然语言处理等


AI:从判别决策到创造生成

判别式AI

学习数据中的条件概率分布,依据现有数据进行分析、判断和预测。这种方法主要用于
辅助决策,如推荐系统和风险控制系统,以及用于智能决策实体,如自动驾驶和机器人。

 推荐系统:电商商品推荐、新闻/ 音乐/视频行业内容推荐
 计算机视觉:自动驾驶、人脸识别
 自然语言:文字识别
AI:从判别决策到创造生成

生成式AI

学习数据中的联合概率分布,不仅仅是简单地分析现有数据,而是通过归纳已有数据,进行创造
性的表现,它可以基于历史数据进行模仿式和创意性的内容生成,同时也能够应对判别性问题。

 文字生成:传媒、营销
 图像生成:娱乐、影视
 音频生成:语音、音乐
 代码生成:编程智能化
从传统机器学习到大型生成模型
的技术演化

• AI通用大模型ChatGPT经历从传

统机器学习到深度学习,再到引

入注意力机制的Transformer模型,

最后产生GPT系列的生成式模型。
从传统机器学习到深度学习
• 传统机器学习是一种基于规则和特征工程的方法,通过从大量数据中提取特征并应用事先定义好的
算法来进行预测和决策。包括决策树、支持向量机、朴素贝叶斯等。对于复杂的非线性问题表现较
差,需要大量的特征工程。
• 深度学习是一种机器学习分支,基于神经网络模型,它能够自动地从原始数据中学习特征,并通过
多层神经网络进行建模。包括卷积神经网络(CNN)和循环神经网络(RNN)等。能够处理大规
模、高维度的数据,对于图像、语音和自然语言处理等任务表现出色。
CNN 卷积神经网络

• 卷积神经网络(Convolutional Neural Network,CNN)是一种在计算机视觉和图像处理领域广泛应用的


深度学习模型, 是目前应用最广泛的神经网络算法之一。它通过模仿人类视觉系统的工作原理,能够有效
地处理图像和其他二维数据。

CNN的核心思想:利用卷积操作提取输入数据中的特征,
然后通过池化操作将特征图压缩成更小的尺寸,最后通过
全连接层将特征图转化为最终的输出结果。

CNN中的每个层级都包含多个卷积核,每个卷积核通过卷
积操作对输入数据进行处理,提取出不同的特征信息。
CNN 卷积神经网络
• 卷积神经网络由四个主要组成部分构成:输入层、卷积层、池化层和输出层。在输入层,需要训练的图像
输入到网络中。卷积层用于提取图像的各种特征。池化层则用于减小图像的尺寸,最后,在全连接层中进
行计算并输出结果。

输入层 卷积层 全连接层


自动学习图像中的特征, 池化层
输入数据特征 则将特征图转换为最
同时通过共享参数减少 可以将特征图压缩成
终的输出结果
模型参数量,减小过拟 更小的尺寸,减小计
合的风险 算量
RNN 循环神经网络
• 循环神经网络(Recurrent Neural Network,RNN)具备记忆功能,使其能够处理具有时间顺序的数据。
它主要用于处理序列数据,例如自然语言处理、语音识别以及时间序列等领域。

• RNN的核心概念是引入循环连接,这使得网络在处理序列数据时能够传递信息和记忆。当需要处理跨
足多个时间步的序列数据时,我们采用循环神经网络。RNN能够根据连续的数据推断出谁在说话、说
了什么,以及下一个可能出现的词语等等。
RNN 循环神经网络

• RNN工作原理

• h是隐藏状态,x为输入,y为输出,
W是权重,t是时间步长。

• 当我们在处理序列数据时,RNN在
时间步t上取一个输入x。RNN在时
间步t-1上取隐藏状态值来计算时间
步t上的隐藏状态h并应用tanh激活函
数。我们使用tanh或ReLU来表示输
出和时间t的非线性关系。
GAN 生成对抗神经网络

• 生成式对抗网络 (GAN, Generative Adversarial


Networks)是近年来复杂分布上无监督学习最
具前景的方法之一,是一种生成模拟数据的神
经网络模型,广泛应用于图像生成、视频生成、
自然语言处理等领域的一种无监督学习模型,
可以用于数据压缩、特征提取和图 像去噪等任
务。

• GAN的核心思想:通过两个神经网络相互竞争
来生成新数据,模型通过两个模块: 生成模型
(Generative Model) 和判别模型 (Discriminative
Model) 的互相博奔学习产生输出。
GAN 生成对抗神经网络

• 生成器Generator,负责生成新的
数据样本,从先验分布中采得随
机信号,经过神经网络的 变换,
得到模拟样本;尽可能早出样本
迷惑判别器。

• 判别器Discriminator,负责判断
生成的样本是真实的还是伪造的,
既接收来自生成器的模拟 样本,
也接收来自实际数据集的真实样
本,判别样本来源;尽可能识别
出来自生成器的样本。
GAN 生成对抗神经网络
Diffusion models 扩散模型

• 扩散模型(diffusion models)
是深度生成模型中新的 SOTA。
扩散模型在图片生成任务中超
越了原 SOTA:GAN,并且在
诸多应用领域都有出色的表现,
如计算机视觉,NLP、波形信
号处理、多模态建模、分子图
建模、时间序列建模、对抗性
净化等。
Diffusion models 扩散模型

• 扩散模型的工作原理是学习由于噪声引

起的信息衰减, 然后使用学习到的模式

来生成图像。 该概念也适用于 潜在变量,

因为它试图学习噪声分布而不是数据分

布。 噪声分布使用马尔可夫链的概念建

模。 这使它成为一 个概率模型。
Transformer 自注意力机制神经网络
• Transformer是一种注意力机制驱动的深度学习模型,它引入了自注意力机制,在处理长序
列数据方面表现优越,减少了RNN的梯度消失问题,并允许并行计算,因此在自然语言处理
领域取得了巨大成功。Transformer的引入标志着深度学习中的重要技术突破,广泛应用于
机器翻译、文本生成和语音识别等任务。

自注意力机制是Transformer的核心部分,它允许模型在处理序
列时,将输入序列中的每个元素与其他元素进行比较,以便在
不同上下文中正确地处理每个元素。
Transformer 自注意力机制神经网络

• Transformer中,自注意力机制是一个至关重
要的组成部分。它能够捕捉输入序列中任意两
个位置之间的关系,并自动学习序列内容中不
同位置之间的相互依赖关系。

• 自注意力机制的计算包括三个关键步骤:首先,
计算查询向量(Query Vector)、键向量(Key
Vector)和值向量(Value Vector)。接着,将
它们组合起来计算注意力分数。最后,将注意
力分数与值向量相乘,从而得到自注意力向量。
这个机制允许Transformer在处理序列数据时高
效地捕捉长距离依赖关系,使其在各种自然语
言处理和其他领域的任务中取得卓越的成绩。
Transformer 自注意力机制神经网络

• Transformer模型由编码器(Encoder)和解码器(Decoder)
两部分组成,下面将详细介绍每个部分的构成 和作用。

• 编码器(Encoder)将输入序列(例如一句话)转化为一系列
上下文表示向量,它由多个相同的层组成。每一层主要由两
个子层组成,分别是自注意力层和 前馈全连接层。

• 解码器(Decoder)将编码器的输入和目标序列(例如翻译后
的句子)作为输入,生成目标序列中每个位置的概率分布。
解码器由多个相同的层组成,每层主要由三个子层组成,分
别是自注意力层、编码器-解码器注意力层和前馈全连接层。
从Transformer到大型生成模型
的技术演化
典型Transformer模型
类型 架构 任务/应用程序 优势
具有自注意力机制的编码器-解 引入自注意力机制,能够处
Transformer 机器翻译、文本生成等
码器 理远距离依赖

GPT 具有自注意力机制的自回归 文本生成、文本分类等 能够生成连贯的文本序列


文本分类、问答、命名 预训练模型,适用于多个
BERT 仅编码器,带自注意力机制 实体识别等 NLP 任务
具有自注意力机制的编码器-解 文本摘要、问答、翻译、 文本到文本架构,能够处理
T5
码器 文本分类等 各种NLP任务
改进的BERT模型,包括更
文本分类、命名实体识
RoBERTa 仅编码器,带自注意力机制 长的训练时间和更多的训练
别、关键字提取等
数据
使用自动回归和自动编码机
具有自注意力机制的自动回归和 长文本序列处理,多个
XLNet 制进行训练,能够处理远距
自动编码 NLP 任务
离依赖关系
从Transformer到大型生成模型
的技术演化
• GPT(Generative Pre-trained Transformer)系列是基于Transformer解码器的生成式AI
模型,通过预训练和微调的方式,能够生成自然语言文本。GPT模型能够生成连贯、
富有创造性的文本,广泛应用于各种NLP任务,如文本生成、对话系统、摘要生成等。
GPT系列不断升级,从GPT-1到GPT-3、InstructGPT、GPT4,每个版本都具有更强大
的生成能力。
GPT-1:模型更简化、计算加速,更适合自然语言生成任务
(NLG)
GPT-2:采用多任务系统,基于GPT-1进行优化
GPT-3取得突破性进展,任务结果难以与人类作品区分开来
InstructGPT模型在GPT-3基础上进一步强化
利用R L H F深度学习训练,迭代出更高质量模型
GPT-4
GPT-4
ChatGPT
ChatGPT的语言天赋

 强交互能力  强理解能力  强生成能力


支持上下文理解 大幅度提升准确度
支持连续多轮对话

大幅度提升了用户意图理解
再学习 …
承认无知 敢于质疑 小说 邮件 代码 论文

通过多轮对话,其可以对过往聊天 够分析用户模糊的语言,准确理解 可以按照要求,生成用于不同场景、


内容进行再学习,在对话中不断改 用户意图,辨别对话中不正确的提 不同形式的文字,包括邮件、小说、
进输出文本的质量 问,拒绝不适当的请求 论文和代码等
ChatGPT算法优化与模型革新
ChatGPT与微软产品结合
AIGC的定义和发展

• AIGC(Artificial Intelligence Generated Content)

• AIGC是指人工智能用于生成性内容创作的领域。在AIGC中,AI模型被训练和用于
创造各种类型的内容,包括文本、图像、音频等。AIGC技术是生成式AI的一个重要
分支,其目标是使AI系统能够以创造性和自主的方式生成内容,而不仅仅是基于输
入数据进行决策或分类。
AIGC的定义和发展

AI起步阶段 专家系统 深度学习 大模型发展带来的AIGC时代

技 1950 1957 1970 1980 2006 2013 2017 2018 - 2022


术 图灵提 神经网 受限于 专家系 Hinton提 深度学习在语 Trans- GPT1 GPT2 GPT3
Instruct-
GPT
发 出模仿 络被发 算力, 统被发 出深度学 音、视觉等判 former
游戏的 习的神经 别任务上远超
展 想法
明 进入寒 明
网络 传统方法
诞生
BERT RoBERTa ALBERT

应 1997 2016 2021 2022 2023


用 深蓝战胜 AlphaGO DALL-E和 稳定的扩 Control-
突 国际象棋 战胜围棋 CLIP发布, 散模型被 Net 发 布 ,
破 冠军 冠军 连接了文 广泛用于 能更精准
本和图像 AI作画、 控制图像
ChatGPT 生成
发布
OpenAI推动AI算法模型发展
你追我赶,持续迭代
近5年来,“大炼模型”的军备竞赛
AIGC技术的分类
AIGC技术的分类

• 文本生成是AIGC领域中的一个重要
分支,它包括自然语言处理(NLP)
和自然语言生成(NLG)。这些技
术用于生成各种文本内容,例如文
章、新闻报道、故事、对话等。
文本生成语言模型发展
AIGC技术的分类

• 图像生成主要用于创建和生成图像内容,
包括静态图像和动态图像(如 GIF 或短
视频)。这些技术可用于艺术创作、图
像合成、图像增强等应用。
图像生成:从GAN到扩散模型
AIGC技术的分类

• 音频生成涉及音频信号的生成,
如音乐、语音、音效等。这些
技术可用于音乐创作、语音合
成、音效设计等领域。
音频生成
AIGC技术的分类

• 跨模态生成是一种集成不同类型的生成技术,
以便生成多模态内容的方法。例如,将文本描
述转化为图像或图像转化为文本,以实现多媒
体内容的生成。
跨模态生成
AIGC技术框架

• 在AIGC技术的推动下,未来的人工智能生态将形成三层体系,包括底层的基础层,中间的模型
层,和上层的应用层。AIGC促使AI技术全栈呈现新的技术架构体系——模型即服务(MaaS)
AIGC产业全景
• 从产业链来看,可以把AIGC产业链可分为上游、中游、下游。
• 基础层:主要包括AI芯片、基础生成算法、数据集等,这些构成了大模型产生的基础。
• 模型层:是AIGC的核心,整体由通用大模型、行业大模型两部分构成,是应用层的能力基础。
• 应用层:大模型能力具备后,核心是让模型与千行百业的具体业务场景相结合,产生具体应用价值。
AIGC产业市场洞察
AIGC的市场预测

市场需求不断上涨,对话式AI产品定位持续升级 技术能力不断发展,生成内容质量显著提升

(FID指标与生成图像的质量成反比)

核心产品规模 来源:公开信息整理
来源:《2022年中国对话式AI行业发展白皮书》

 对话式AI的市场规模,2026年预计达到108亿元,带  AIGC产品技术能力升级,FID指标不断下降,相比
动近4倍相关市场发展 早期下降近5倍
 产品定位从简单对话辅助人工逐步转变为超级入口、  AIGC支持文本、图像、音视频等多模态产出,生成
领域知识库,助力新型人机协作模式产生。 的质量、效率显著提升,在部分任务上已赶超人类
AIGC的商业模式
任务型通用人工智能技术展望

• 以生成式技术为控制核心的智能体(Agent)可能是实现任务型(决策型)通用人
工智能的可靠路径之一。

• 大语言模型存在可靠性低、上下文长度受限、安全问题突出等先天不足,以大语
言模型为控制核心增加多种 其他辅助组件的智能体的能力会是大语言模型10倍
甚至百倍的放大,并更容易解决安全问题。
• 构建独立自主的智能体开发者生态将使我国在人工智能大模型领域形成最坚固的
护城河。
大模型实操:动手练习

• ChatGLM2是一个开源的中英双语对话语言模型,由清华大学的知识工程和数
据挖掘小组开发。它是在ChatGLM的基础上进行了全面升级,拥有更强大的性
能、更长的上下文和更高效的推理。在中文C-Eval榜单中,ChatGLM2以71.1分
超越GPT-4。网页链接: https://www.chatglm.cn/

Prompt可
直接使用
编写 Prompt 的原则

• 编写清晰、具体的指令:你应该通过提供尽可能清晰和具体的指令来表达您
希望模型执行的操作。这将引导模型给出正确的输出,并减少你得到无关或
不正确响应的可能。编写清晰的指令不意味着简短的指令,因为在许多情况
下,更长的提示实际上更清晰且提供了更多上下文,这实际上可能导致更详
细更相关的输出。

• 给模型时间去思考:如果模型匆忙地得出了错误的结论,您应该尝试重新构
思查询,请求模型在提供最终答案之前进行一系列相关的推理。换句话说,
如果您给模型一个在短时间或用少量文字无法完成的任务,它可能会猜测错
误。因此,在这些情况下,您可以指示模型花更多时间思考问题,这意味着
它在任务上花费了更多的计算资源。
编写 Prompt 的原则

• 编写清晰、具体的指令
• 策略一:使用分隔符清晰地表示输入的不同部分,分隔符可以是:```,"",
<>,\<tag>,<\tag>等
• 你可以使用任何明显的标点符号将特定的文本部分与提示的其余部分分
开。这可以是任何可以使模型明确知道这是一个单独部分的标记。使用
分隔符是一种可以避免提示注入的有用技术。提示注入是指如果用户将
某些输入添加到提示中,则可能会向模型提供与您想要执行的操作相冲
突的指令,从而使其遵循冲突的指令而不是执行您想要的操作。即,输
入里面可能包含其他指令,会覆盖掉你的指令。对此,使用分隔符是一
个不错的策略。
编写 Prompt 的原则

• 编写清晰、具体的指令
• 策略二:要求一个结构化的输出,可以是 Json、HTML 等格式
• 第二个策略是要求生成一个结构化的输出,这可以使模型的输出更容
易被我们解析,例如,你可以在 Python 中将其读入字典或列表中。
编写 Prompt 的原则

• 编写清晰、具体的指令
• 策略三:要求模型检查是否满足条件
• 如果任务做出的假设不一定满足,我们可以告诉模型先检查这些假设,
如果不满足,指示并停止执行。你还可以考虑潜在的边缘情况以及模型
应该如何处理它们,以避免意外的错误或结果。
编写 Prompt 的原则

• 编写清晰、具体的指令
• 策略四:提供少量示例
• 即在要求模型执行实际任务之前,提供给它少量成功执行任务的示例。
• 例如,我们告诉模型其任务是以一致的风格回答问题,并先给它一个或几个例
子。因此,由于我们已经告诉模型要以一致的语气回答,由于模型已经有了这
个少样本示例,它将以类似的语气回答下一个任务。
编写 Prompt 的原则

• 给模型时间去思考
• 策略一:指定完成任务所需的步骤

• 通过给定一个复杂任务,给出完成该任务的一系列步骤,让模型一步步(step
by step)地去生成。
编写 Prompt 的原则

• 给模型时间去思考
• 策略二:指导模型在下结论之前找出一个自己的解法

• 有时候,在明确指导模型在做决策之前要思考解决方案时,我们会得到更好的
结果。
局限性

• 虚假知识:模型偶尔会生成一些看似真实实则编造的知识
• 如果模型在训练过程中接触了大量的知识,它并没有完全记住所见的信息,因此它
并不很清楚自己知识的边界。这意味着它可能会尝试回答有关晦涩主题的问题,并
编造听起来合理但实际上并不正确的答案。我们称这些编造的想法为幻觉。
• 模型会输出看上去非常真实的编造知识,这有时会很危险。因此,请确保使用我们
在本节中介绍的一些技巧,以尝试在构建自己的应用程序时避免这种情况。这是模
型已知的一个弱点,也是我们正在积极努力解决的问题。在你希望模型根据文本生
成答案的情况下,另一种减少幻觉的策略是先要求模型找到文本中的任何相关引用,
然后要求它使用这些引用来回答问题,这种追溯源文档的方法通常对减少幻觉非常
有帮助。
工作助理:提炼总结

• Prompt示例:请查阅相关资料
帮我总结一下 雷军的3小时激情
演讲 ,提炼重要内容, 以及通
用的方法论和观点总结
工作助理:新的搜索引擎

• Prompt:我想了解 [插入主题]。
确定并分享从该主题中学到的最
重要的 20%,这将帮助我理解其
中的 80%。

• Prompt:我正在创建一份关于
[插入主题] 的报告。研究并创建
一份带有分步指南的深入报告,
这将帮助读者了解如何 [插入结
果]。
工作助理:生成表格数据
• Prompt:请生成[插入内容],并以[插入格式]形式提供,其中包含以下内
容: [插入内容] 。
工作助理:好用的翻译
• Prompt:你是一名资深的翻译,请将[插入内容]翻译成[插入语言]
工作助理:代码编写

• Prompt示例:

用 python 写个 冒泡
排序算法 的代码
工作助理:会议纪要
生活助理:规划旅游行程
• Prompt:帮我制定一份今年[插入时间]去[插入地点]的3日旅行规划,需包
含 必打卡景点和必吃美食
生活助理:私人健身教练

• Prompt:你是一名资
深的私人健身教练,我
的目标是[插入内容],
[插入身高、体重等信
息],请帮我制定一个
专属的[插入时间]健身
方案。
生活助理:时间管理

• Prompt:我今天计划
[插入内容],帮我制定
一个合理的时间计划表,
要求时间安排在10-20
点,写清楚每一个安排
的时间段
学习助理:指导学习
• Prompt:你是一个资深教师,如何让学生理解[插入内容]
学习助理:生成教育故事
• Prompt:通过故事的形式跟 [5] 岁小朋友解释 [插入内容] ,并模拟 [插入
人物角色] 通过这个小故事告诉他利用这个知识 [插入内容]
学习助理:英文写作指导
学习助理:英文写作指导
大模型实操:动手练习

• ChatGLM2
除了对话生
成之外,还
能进行图像
生成。
大模型实操:动手练习
大模型实操:动手练习
大模型实操:动手练习
The End

You might also like