Download as pdf or txt
Download as pdf or txt
You are on page 1of 33

Jixin Jia (Gin)

Microsoft AI Asia Global Black Belt


OpenAI
它是什么,它不是什么?

Azure Open AI
为什么需要Azure?

Enterprise ChatGPT
把ChatGPT带入到你的世界

应用情景
Real-world applications

Best Practices
实践出真知!
派生
派生

预训练模型服务 GPT X Codex Embedding


(俗称大模型)
生成文字 生成代码 生成向量

训练得到

Moderation (旧称Content Filter)

GPT模型具备一定的真实世界知识
储备,基本常识和概念(世界观)

学习方法 GPT架构 截止 2021年6月


地表最强自然语言深度学习架构,用来理解文字并做出相应输出
text-davinci-003
0 1 0 1 0 1 0 1 0 1 0 1
1 0 1 0 1 0 1 0 1 0 1 0
0 1 0 1 0 1 0 1 0 1 0 1
1 0 1 0 1 0 1 0 1 0 1 0
0 1 0 1 0 1 0 1 0 1 0 1
1 0 1 0 1 0 1 0 1 0 1 0
学习内容 1 0 1 0 1 0 1 0 1 0 1 0
(文字类素材) 0 1 0 1 0 1 0 1 0 1 0 1
1 0 1 0 1 0 1 0 1 0 1 0
0 1 0 1 0 1 0 1 0 1 0 1
1 0 1 0 1 0 1 0 1 0 1 0
0 1 0 1 0 1 0 1 0 1 0 1
GPT ≠ ChatGPT

• 当前Chat GPT 和 DALL-E 是以GPT3.5为基础


衍生出来的demo应用
ChatGPT DALL-E
优化问题解答和对话形式输出 优化RGB三原色输出

• 目的用来展示GPT可以做到什么程度

• GPT > ChatGPT

GPT X
生成文字

训练得到
GPT ≠ ChatGPT

ChatGPT
• 当前Chat GPT 和 DALL-E 是以GPT3.5为基础 GPT X
应用服务
衍生出来的demo应用 生成文字
(coming soon)

• 目的用来展示GPT可以做到什么程度
DALL-E
Codex
应用服务
• GPT > ChatGPT 生成代码
(gated access)

• 近期ChatGPT & DALLE会上线Azure OpenAI


成为应用服务
Embedding
生成向量
OpenAI (GPT) 常见应用

GPT X Codex Embedding


生成文字 生成代码 生成向量

1.生成文章 (Completion) 1.文字转程序 1.文字转矢量


a. 对话AI (智能客服/虚拟人) * a. 代码品控 (自动测试, 除错) a. 语义向量化*
(Vectorization)
b. 疑难解答 (QA)* b. SDLC 降本增效*
c. 文章编写 c. 逆向代码 (Reverse coding) b. 语义匹配/搜索*

d. 语句/语法/词汇改善 c. 建立强大的知识库 (KB)

e. 因果关系推理
2. 归纳/总结 (Summarization)
3. 分类 (Classification)
a. 舆情分析 (Opinion Mining)
b. 打标 / 分类

* 表示可能需要多个能力组合实现
微软 AI

主题性明确
开箱即用

灵活
自主开发
Azure 和Open AI的商业协作关系

技术/资金投入

云服务
论文
商用
架构
算力
云平台 研发 算法
保障
训练
安全
验证
法务 独占协议
商务价值
• 私有网络( vNet)
• Private Endpoint/Link
• Custom Domain
迭代研发
• CMK
• RBAC/IAM 权限管理 高安全
• Azure AD集成 成果发布
• 托管身份 (Managed ID)
• 企业合规 (SOC2, HIPAA, ISO,
GDPR Data Privacy etc.) 公开测试
• 企业伦理审查 (RAI) 商用
• 企业级有偿Support 正式发布
高可用
认知服务 Azure
• 多区域可用/容灾 • API 文档
• 保证SLA 99.9% • Fine-tuning
• 更高Rate Limit (TPM/QPM)
• API发布/管控
• 更高Token上限 (Fine Tuning)
• 多instance部署 • Endpoint hosting
• Endpoint部署管理和监控 高集成 Azure
• Token监控
• 更好的Error & debug支持

• 集成现有Cognitive Service的服务架构
OpenAI.com 由Azure支持
• 集成资源监控 (Monitor / Log Analytics)
• 集成自动化 (Automation Task, ARM部署)
• 集成Express Route
• 集成密匙管理 (AKV)
• 集成数据加密 (Azure Storage)
模型服务

• 两边模型服务能力完全对等 迭代研发

• 正式模型,同步发布
认知服务
成果发布
• ChatGPT
• DALL-E2
• Open AI Beta Playground
公开测试

Azure

正式发布
应用情景和案例
Github Copilot

根据用户指示和需求,自动生成满足需求
的代码(可切换语言)。实现代码自动品
控,测试,优化和除错等情景。
自动报表分析,App创作

根據用戶指示和需求,自動生成滿足需求
的代碼(可切換語言)。實現代碼自動品
控,測試,優化和除錯等情景。
自动报表分析,App创作

根據用戶指示和需求,自動生成滿足需求
的代碼(可切換語言)。實現代碼自動品
控,測試,優化和除錯等情景。
Viva Sales

根据上下文邮件信息,结合CRM,客
户最新动向自动撰写邮件,提示Cross
sales/up sales机会
某金融证券综合调研公司

根据每天政经新闻, 分析市场波动情况, 提
取关键事件点, 舆论, 结合GPT生成总结报
告,并结合自研模型做明天开盘走势预测

• 輿情分析
• 解析文章 & 数据分析
• 總結/歸納
• 生成文章(報告)
某车厂实现更全面的知识搜索
某个报告里的部分表格

某知名车厂结合GPT Embedding, Custom QA,Custom Language, Codex,


对内部分散的知识进行梳理,实现员工复杂对话情景下的知识搜索优化,
简化探索步骤

筛选数据源 摘取相关数据
• GPT Embedding
• GPT Codex 问题分类
整理答案
• 向量搜索
意图理解
• 语义匹配
• 总结/归纳 问 答
某保險銷售客服AI
以下为我们根据真实情景复刻的Demo

某金融保险客户利用GPT和AI认知服务打造
更自然,强大的客服AI,实现0人工介入完成
常见客户交互 (购买服务,退订,答疑等)

• 语义理解
• 按情景动态生成对话
• 多轮对话 (上下文联动,打岔)
• 多语种对话 (翻译)
• EKYC (人脸核身,声纹核身)
• 图像识别和解析
• STT & NTTS 仿真人声
虚拟人直播场景

理解视频内容,利用GPT生成事件驱动型的场景描述,
结合多个AI能力提供仿真/真人直播(录播)解说

• 情节语音解析 (STT)
• 视频标签和图像分析 (关键帧提取, 内容, 行为标签)
• 玩家对话内容解析
• 事件驱动的场景描述
• 仿真语音合成 (TTS+Viseme+Unity)
• 仿真声纹模仿 (CNV)
亿客行 私人旅行顾问

结合GPT3.5 (Davinci), 搭配向量搜索, Custom


QA和认知搜索实现全方位私人旅行顾问app

以下为我们根据真实情景复刻的Demo
Carmax 内容管理和创作 以下为真实页面,内容创建自客户Azure Open AI
https://www.carmax.com/research/kia/sorento/2018

Carmax 利用GPT对大量二手车用户评论做汇总,自动创建营
销内容,车型介绍文等。 大幅减少营销创作的成本,实现比
竞争对手提供更快,更贴近真实舆情的内容推荐。
Idea创造,实现更高效的功能迭代

Trelent 利用Azure OpenAI作为底层提供Code-to-


docstring的服务,帮助开发人员节省文档作业时间。

利用GPT Codex和Finetuning进行代码初稿生成,实现
快速,多线程,同时的概念到落地的转换。 大幅减少开
发人员验证idea,开发和测试代码的流程,实现更快速
的功能迭代和发布。
https://customers.microsoft.com/en-us
如何打造自己的应用
知识库搜索 企业问答/对话 客服AI / 虚拟助手 限定范围的内容创造
Inner World Outer World
内容审查 Meta-prompt

提取关键词 (自定义NER) 意图理解 提问属性归类

结合NER自定义转换

向量搜索 语义搜索 关键词搜索


ChatGPT + 企业定制能力 + 开发平台
解题思路❶ - 如何实现属于我的ChatGPT?

因为前述GPT的学习特性,Customize的方法也和传统思路不太一样

以客服QA Bot为例

1. 使用Embedding模型把知识库(KM)转为矢量,并保存到Vector Database做匹配和搜索
2. 用戶对Bot输入一段自然语言
3. 对其做同样的矢量转换 (一样的Embedding模型)
4. 將输入的矢量和Vector Database做近似度计算(=语义匹配),抽取出关联度最高的条
目/文章。這部分建议搭配Open Source (比如 Redis, FAISS)
5. 返回文章給GPT 作为prompt engineering的一部分,得到自然语言形式的回答
6. 返回结果給用戶
解题思路❷ - Embedding还能怎么玩?

Embedding不支持Fine-Tuning,但是它的应用最为广泛,手法也需要结合传统Machine Learning。 思路如下:

以舆情分析为例

1. 使用Embedding模型把评论数据转为矢量 ,并保存到Vector Database


2. 对每一个Review人工标注(Positive, Negative等)
3. 使用传统ML分类算法学习标注
同样适用于其他类型的
4. 对新的评论,同样用Embedding转换为矢量
Machine Learning手法
5. 用3学习到的模型进行预测,得到标签。
解题思路❸ - 怎么应用到你的领域? (Data Grounding)

OpenAI的解决方案从来都不应是单独的,它在实际应用中需要结合多个其它服务构成完整方案:

常见的经典构成

1. 分类 + (Codex) + GPT (根据不同场景,做不同处理)


2. Azur Bot + Embedding + Semantic Similarity + GPT (经典KB/QA, Virtual Agent)
3. LUIS/CLU 提取intent 转对应prompt + GPT (意图分类,限制不相干内容扩散)
4. GPT提取NER + Search Expansion + GPT (KG search的加强版应用)
5. Meta-prompt engineering 定型文做整体指引 (例如:总结对话,抽取大意, Call Center 合规检查)
6. 推荐场景新体验 (Search + 客户资料 作为 context + GPT )
共同成长之路指南
Engagement Journey
团队

等级 Lv. 3 验证&实操 • 商业流程


• 价格交涉
• PG 支持

Lv. 1 了解
Open AI Service

• 引导客户体验 • 企业安全
• 学习Open AI API • 部署
Playground
团队 • 学习Fine Tuning • 调用监控/运维
• 申请OpenAI
• 实施PoC/prototype • GPT模型管理
• 参考官方doc
• 验证Use Case效果 • 流量管理
• 帮助客户建立基础 Etc.
• Open AI 101
• Use Case介绍
• Demo 团队

• 申请Azure OpenAI
• 协助Fine Tuning和
Prompt Design
• 协助参数和模型优化
Lv. 2 建立Use Case • 设计关联Azure架构 Lv. 4
准备Go Live
感谢! Jixin Jia (Gin)

© Copyright Microsoft Corporation. All rights reserved.

You might also like