Chatgpt 从零开始-深度学习网络BERT简介

lanceloter

已于 2024-02-06 10:12:39 修改

阅读量679

点赞数 20

文章标签：深度学习 chatgpt bert

于 2024-02-06 00:50:12 首次发布

本文链接：https://blog.youkuaiyun.com/lanceloter/article/details/136047914

版权

写在前面

上一篇主要说了文本的表示方法，从最开始的以最简单粗暴的 one-hot 表示方法来表示一个句子，再到使用 word2vec 方法来表示一个句子，其中 word2vec 是只有单层神经元的网络，它接收一个长度为 N 的输入，然后进行自监督训练，得到一个权重参数矩阵，这参数矩阵可以用作文本表示。然而毕竟 word2vec 网络只有单层，它对文本表达的效果虽然在较小的语料库上能表现良好，但遇到更多的数据时已经不足以容纳更多的信息，如 Chatgpt 所训练的语料库，严格地说 word2vec 的信息容纳量连 Chatgpt 的 0.0001% 都不及，如何理解这句话？当你有 3 个 3 种颜色的球，进行不同数量、颜色的组合，你能给出 3+3+1 = 7 种组合，这就是 word2vec，当你有10000种颜色的10000个球，你能给出的组合就是天文数字，你能表达的信息就更多。要想提高一个神经网络的表达能力，最简单的方法就是加深网络的层数、增多神经元的个数——这就是我们经常所说的深度学习。
接下来会逐步介绍 Bert，一种基于深度学习的网络和方法。要想了解 Chatgpt 的原理，个人认为 Bert 还是要了解一些。(PS：计算机视觉领域何恺明大神这两年刚出了一篇 Masked 图像的论文，即视觉里的 Bert，相当 nb)

相关概念

自监督训练：简单地说就是训练有没有用人标注的数据。一般的分类、回归问题都有人为标注的真实值

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lanceloter

关注关注

20
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

从零实现深度学习框架——Transformer从菜鸟到高手(一)

日积月累，天道酬勤

08-02

3165

图解Transformer理论+自己动手实现Transformer！

【深度学习】CLIP，为什么是768？投影为什么是1024？

q742971636的博客

06-21

887

https://zhuanlan.zhihu.com/p/486857682

1 条评论您还未登录，请先登录后发表或查看评论

Bert与ChatGPT

m0_60388871的博客

02-10

1782

不同于之前的模型仅从左到右或从右到左单向处理文本，BERT通过训练过程中同时考虑上下文的方式（即双向处理），来更准确地理解词语的含义。它使用双向自注意力机制，这意味着在处理任何给定的词时，BERT都会考虑到它前面和后面的上下文，从而学习到更加丰富和精确的词义表示。: 虽然BERT主要是作为一个预训练模型来提高NLP任务的性能，但它在理解源语言文本的上下文方面的能力也可以间接地提高机器翻译的质量。: 在给定的文本中识别特定的实体（如人名、地名、组织名等），BERT的双向上下文理解能力显著提高了识别的准确率。

word2vec介绍

热门推荐

vincent_duan的专栏

06-16

3万+

word2vec是一种将word转为向量的方法，其包含两种算法，分别是skip-gram和CBOW，它们的最大区别是skip-gram是通过中心词去预测中心词周围的词，而CBOW是通过周围的词去预测中心词。这个word2vec的方法是在2013年的论文《Efficient Estimation of Word Representations inVector Space》中提出的，作者来自google，文章下载链接：https://arxiv.org/pdf/1301.3781.pdf 文章提出了这两种方

深度学习与神经网络4

qq_45834558的博客

04-26

854

基于Transformer模型的Encoder-Decoder模型示意图左侧为Transfomer的Encoder block，右侧为Decoder block，红圈中的部分为Multi-Head Attention，是由多个 Self-Attention组成的，可以看到 Encoder block 包含一个 Multi-Head Attention，而 Decoder block 包含两个 Multi-Head Attention (其中有一个用到 Masked)。

GPT系列：GPT-2模型结构简述和实践

2401_85375298的博客

06-03

2482

GPT（Generative Pre-Trained Transformer，生成式预训练Transformer模型），它是基于Transformer的Decoder解码器在海量文本上训练得到的预训练模型。GPT采用自回归的工作方式，能够查看句子的一部分并且预测下一个单词，不断重复这个过程来生成连贯且适当上下文文本。

bert参数统计

samoyan的博客,记录技术成长~

11-08

1480

bert主要的实现是基于transformer的encoder部分，参数维度不同的地方是1）输入多了一项segment embedding，2）中间维度基本是768，以及多头注意力以及前向网络重复了12次。在统计bert参数的时候，一共要考虑5部分。 1）第一部分：输入层包含三项 token embedding 词表大小*768 position emb max_len(512*768) segment emb 两个取值0,1（2*768） 2）第二部分：多头注意力

Chatgpt 从零开始-GPT 和 ChatGPT

vatic--视频标注工具（ubuntu16.04+python2.7）

02-25

1089

上一篇文章我们主要介绍 Bert，了解到通过训练 Bert 网络我们能得到更好的词向量表达方式，且词向量可以通过微调应用到不同的下游任务当中。我们知道 Bert 主要基于 Transformer 结构，此处再补充一点，实际中 Bert 主要使用 Transformer 结构的 encoder(编码器)结构进行训练。而 GPT 主要是基于 Transformer 的 decoder(解码器)实现，同时还需使用强化学习、人为标注方法对模型进行优化，最终基于 GPT 来实现 ChatGPT。

深度学习经典模型之BERT(上)

aidashuju的博客

09-21

1758

BERT(Bidirectional Encoder Representations from Transformers)是一个双向transformer编码器的言表示模型。。由Google公司的研发，BERT的出现使得我们能够在一个大的数据集上面训练好一个比较深的神经网络，简化了NLP任务的训练，又提升了它的性能，使得自然语言处理有了质的飞跃。

【深度解析】从GPT-1到GPT-4：ChatGPT背后的核心原理全揭秘

吴师兄大模型的博客

12-31

2999

本文深入介绍了生成式预训练模型（GPT）的演进历程及核心技术创新，从GPT-1到GPT-4的技术演变展示了大语言模型在自然语言处理领域的飞速发展。文章详细解析了各代模型的关键突破：GPT-1通过无监督预训练和有监督微调奠定基础；GPT-2以Zero-shot学习和架构优化提升任务迁移能力；GPT-3提出Few-shot学习，实现少样本任务泛化；ChatGPT结合人类反馈强化学习（RLHF），优化对话交互表现；GPT-4通过多模态输入扩展了任务范围和应用场景。最后，文章总结了GPT系列的技术启示与未来展望，强

词向量经典模型：从word2vec、ELMO、GPT、到BERT

weixin_44285715的博客

11-22

4369

目录一、word embedding 1.1 介绍 1.2 Word2Vec有两种训练方法： 1.3 Word Embedding的应用： 1.4word embedding存在的问题：二、从word embedding到ELMO 2.1 ELMO的本质思想是：本身是个根据当前上下文对Word Embedding动态调整 2.2 ELMO采用了典型的两阶段过程： 2.3 ...

【读论文】VIT(Vision Transformer)

verse_armour的博客

12-20

3289

vision transformer

ChatGPT的前世今生

荷叶田田的博客

03-15

6486

让机器理解语言！

bert笔记

zh515858237的专栏

05-18

5571

BERT是Bidirectional Encoder Representations from Transformers的缩写。bert其实就是由多层的Transformer Encoder堆叠成的，所谓的Bidirectional其实也就是Transformer中的self-attention机制。或者也可以说是Self-Attention Layer和Layer Normalization的堆叠而成。

在深度学习中，什么是线性插值（linear interpolation）？

weixin_44649780的博客

04-30

528

线性插值是寻找两个点之间中间值的最基础方法之一，广泛应用于：数值计算计算机图形学机器学习和深度学习它的标准公式是：x0,x1∈Rn：两个向量或标量t∈[0,1]：插值系数（0 表示完全靠近 x0，1 表示完全靠近 x1）它对应的是两个点之间的一条线段轨迹。线性插值就是“在两个已知点之间，按一定比例找到中间点”的方法，无论是图像、特征、模型参数，它都可以用来“平滑地过渡”。📢 想要了解更多内容，可在VX小程序搜索🔍AI Pulse,获取更多最新内容。

远程深度学习新环境配置流程

weixin_45668967的博客

04-30

346

下载并安装适合你系统的 Miniconda 版本。

卷积神经网络实战（2）