
GPT大模型
文章平均质量分 95
由大模型理论、工程实践、设计技术等多个维度,完善对GPT大模型的认识,以及对齐技术进展的跟踪、推进。
TFATS
NLP大模型从业者,AGI忠实信奉者。
展开
-
LLM主流框架:Causal Decoder、Prefix Decoder和Encoder-Decoder
前缀语言模型可以根据给定的前缀生成后续的文本,而因果语言模型只能根据之前的文本生成后续的文本。在模型架构代表LLM注意力机制是否属于Decoder-Only纯单向YESFlan-T5输入双向NO输入双向,输出单向YES。原创 2024-01-12 13:12:58 · 7337 阅读 · 3 评论 -
什么是RoPE-旋转位置编码?
我们知道句子中不同词语之前的位置信息十分重要,但是self-attention框架无法直接利用位置信息,因此研究者提出了许多方法将位置信息编码到学习过程中。一是绝对位置编码方法,将位置信息直接加入到输入中;二是相对位置编码方法,研究者通过微调attention的结构,使它具有识别token位置信息的能力。本文作者详细梳理了位置编码的流派,提出了一种旋转位置编码方式RoPE,并从数学角度证明RoPE带来的诸多优点。原创 2024-01-12 11:04:22 · 3618 阅读 · 1 评论 -
LORA的基本原理
LoRA 是一种低资源微调大模型方法。使用LORA,训练参数仅为整体参数的万分之一、GPU显存使用量减少2/3且不会引入额外的推理耗时。原创 2024-01-11 16:12:27 · 8972 阅读 · 2 评论 -
大模型 Decoder 的生成策略
Greedy Search、beam search、Sampling、Top-K、Top-p原创 2023-10-02 17:03:26 · 3106 阅读 · 1 评论 -
为什么现在的LLM都是Decoder only的架构?
总而言之,decoder-only 在参数量不太大时就更具有更强的zero-shot性能、更匹配主流的自监督训练范式;而在大参数量的加持下,具有了涌现能力后、可以匹敌encoder-decoder做finetuning的效果;在In Context的环境下、又能更好地做few-shot任务。decoder-only 架构符合传统的 Language Model 的模式。原创 2023-09-21 13:59:43 · 6341 阅读 · 1 评论 -
MHA、MQA、GQA区别和联系
MHA: Multi Head AttentionMQA:Multi Query AttentionGQA:Grouped Query Attention原创 2023-09-19 20:27:38 · 6243 阅读 · 1 评论 -
AIGC入门 - LLM 信息概览
**本文将介绍以下 LLM**- **OPT**- **LLaMa**- **Alpaca**- **Vicuna**- **Moss**- **chatGLM**- **Baichuan**- **Openbuddy**原创 2023-09-18 17:30:36 · 1200 阅读 · 0 评论 -
Zero-Shot、One-shot、Few-Shot 的简介
所以模型需要知道的信息是马的样本、老虎的样本、熊猫的样本和样本的标签,以及关于前三种动物和斑马的描述。”然后,爸爸给小明安排了一个任务,让他在动物园里找一种他从没见过的动物,叫斑马,并告诉了小明有关于斑马的信息:“斑马有着马的轮廓,身上有像老虎一样的条纹,而且它像熊猫一样是黑白色的。如今十分火热的纯监督模型往往需要足够多的样本才能训练出足够好的模型,并且用熊猫训练出来的分类器,只能对熊猫进行分类,其他物种都无法识别,也无法进行特征的综合推理,这样的模型功能还有待完善。原创 2023-09-20 20:09:29 · 4281 阅读 · 1 评论 -
GPT,GPT-2,GPT-3,InstructGPT的进化之路
GPT、GPT2、GPT3、InstructGPT 的进阶之路。原创 2023-09-20 15:58:24 · 2105 阅读 · 1 评论