llm学习day1

Prompt = 给模型的指令/上下文输入

transformer:

结构:

  • Encoder Input = 任务输入(源文本、文章、问题)。

  • Decoder Input = 目标输出的“已知部分”(训练时用真实前缀,推理时用模型自己生成的前缀)。

  • 之所以有两个 Input,是因为 一个负责理解输入,一个负责生成输出

分词&分词器

词汇表中的每个 Token ID 都对应一个多维向量,这些向量可以学习编码输入序列中单个 Token 的含义和上下文。

位置编码:

多头注意力机制:

自注意力 (Self-Attention) 里,每个词都会和句子里所有词计算相关性,得到一个注意力分布。

多头注意力:

  • 不只用一组注意力,而是同时用 多组(多个头)注意力 来学习不同的关系。

  • 每个头(head)会用不同的参数,把输入投影到不同的子空间里,捕捉句子中不同的依赖特征。

  • 最后把多个头的结果拼接起来,再做一次线性变换。

  • 一个头可能关注句法关系(比如主谓关系),

  • 另一个头可能关注语义关系(比如近义词)。

  • 多头让模型能更全面地捕捉信息。

总结:transformers

1文本分词(Tokenizer) → token IDs

2Token IDs → Embedding 层 → token 向量

3加上 Positional Encoding → 带有位置信息的输入向量

4输入到 Encoder 的 Self-Attention 层

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值