ChatGPT原理与应用开发

wacpguo

已于 2024-11-20 14:49:35 修改

阅读量821

点赞数 24

分类专栏：读书笔记文章标签： chatgpt

于 2024-07-28 18:45:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wacpguo/article/details/140754448

版权

第1章基础知识——大语言模型背后

RLHF（reinforcement learning from human feedback，从人类反馈中强化学习）是ChatGPT的神兵利器，有此利刃，ChatGPT所向披靡。

1.1 自然语言背景

1.1.1 语言是智能的标志

1.1.2 从图灵测试到ChatGPT

1.1.1 语言是智能的标志

1.1.2 从图灵测试到ChatGPT

图灵测试”（即模仿游戏）

1954年，IBM实现了世界上第一个机器翻译系统——将俄语翻译成英语

2011年，苹果公司推出了Siri——一种基于NLP技术的智能语音助手

2013年，谷歌公司推出了Word2Vec——一种基于神经网络的词向量表示方法，开启了NLP领域的深度学习时代。

2017年，谷歌公司Attention is All You Need， Transformer

2018年，谷歌公司发布了BERT（bidirectional encoder representations from transformers，基于Transformer的双向编码器表示）预训练模型

1.2 语言模型基础

1.2.1 最小语义单位Token与Embedding

将自然语言文本表示成计算机所能识别的数字。对于一段文本来说，要做的首先就是把它变成一个个Token。你可以将Token理解为一小块，可以是一个字，也可以是两个字的词，或三个字的词。

词表

如果只用26个英文字母，虽然词表很小（加上各种符号可能也就100来个），但粒度太细，每个Token（即每个字母）几乎没法表示语义；如果用词，这个粒度又有点太大，词表很难涵盖所有词。而子词可以同时兼顾词表大小和语义表示，是一种折中的做法。中文稍微简单一些，就是字+词，

当句子能够表示成一个个Token时，我们就可以用数字来表示这个句子了，最简单的方法就是将每个Token用一个数字来表示，但考虑这个数字的大小其实和Token本身没有关系，这种单调的表达方式其实只是一种字面量的转换，并不能表示丰富的语言信息。

有一个预先设计好的词表，那么是不是可以用词表中的每个Token是否在句子中出现来表示？如果句子中包含某个Token，对应位置为1，否则为0，这样每句话都可以表示成长度（长度等于词表大小）相同的1和0组成的数组。更进一步地，还可以将“是否出现”改成“频率”以凸显高频词。

事实上，在很长一段时间里，自然语言都是用这种方法表示的，它有个名字，叫作词袋模型(bag of words，BOW)。从名字来看，词袋模型就像一

最低0.47元/天解锁文章

博客等级

码龄14年

56
原创

422
点赞

386
收藏

218
粉丝

关注

私信

热门文章

分类专栏

网络 2篇
读书笔记 10篇
思维
操作系统
linux 32篇
windows 6篇
数据库 7篇
开发 6篇
架构设计 1篇
语言 6篇
AI
系统安全 2篇
项目管理 2篇

展开全部收起

上一篇：: 查询优化 -- UNION 用法

下一篇：: UMDF例子 - Windows-driver-samples\general\echo\umdf2

最新评论

人人都是产品经理-案例版
檀越@新空间: 博主的文章总是如一盏明灯🔥🔥🔥，指引我前进，每一篇博文都是一次心灵的提升🍭🍭🍭，你的分享总是如此珍贵🎉 🎉 🎉，你的博文总是让我拓展了视野，增长了见识，感谢你一直以来的无私奉献。期待更多知识的分享。非常感激你的专业知识传授。
Linux禁止指定用户登录的方法
优快云-Ada助手: 不知道 CS入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/gml?utm_source=AI_act_gml
qemu网络配置
wacpguo: centos7环境测试通过，ubuntu环境没有实验过，不清楚具体原因。
qemu网络配置
zhouxiao2009: 【四、qemu虚拟机ping宿主机】ubuntu在这一步就失败了，Ping不通宿主机
centos 7 安装 minikube
优快云-Ada助手: 恭喜你撰写了第20篇博客！标题“centos 7 安装 minikube”听起来非常有趣。我很高兴看到你一直保持创作的热情。对于下一步的创作建议，我谦虚地建议你可以考虑分享一些关于使用minikube构建和管理Kubernetes集群的实用技巧或者探索更深入的主题。期待你的下一篇博客！加油！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。