Happy-LLM
文章平均质量分 90
N2svtewg
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
3.3 Decoder-Only PLM
datawhale ai 共学。原创 2025-08-03 23:08:56 · 1072 阅读 · 0 评论 -
3.2 Encoder-Decoder PLM
T5 用“文本 ➜ 文本 + 指令前缀”把零散的 NLP 任务熔成单一框架;其 Encoder-Decoder 架构兼顾理解与生成,Span-Corruption 预训练让模型同时获得双向表征和自回归能力。自 2020 以来,直接启发了 FLAN-T5、PaLM2 的多任务指令化训练,为后续 LLM 的奠定统一接口。原创 2025-08-03 18:38:13 · 969 阅读 · 0 评论 -
3.1 Encoder-only PLM
datawhale ai 共学。原创 2025-08-03 12:03:28 · 693 阅读 · 0 评论 -
2.3 Transformer 模型搭建 Task 05
datawhale AI共学。原创 2025-07-22 02:18:05 · 2093 阅读 · 0 评论 -
Happy-LLM Task04 Encoder-Decoder
datawhale AI 共学。原创 2025-07-20 09:02:28 · 939 阅读 · 0 评论 -
Happy-LLM 2.1 注意力机制 Task02
1.1 注意力机制(Attention):为输入不同部分分配不同权重,模拟“聚焦关键信息”。1.2 提出背景:RNN/LSTM 串行、长依赖难题 → 需并行且能捕捉全局关系的新架构。9.1 Attention 把“记忆”问题转化为“检索”问题,逻辑更接近信息检索。2.3 Value(V):值向量,被加权汇总的实际信息。2.1 Query(Q):查询向量,表示当前关注点。投影 → 不同头学习不同语义/位置关系,表示更丰富。2.2 Key(K):键向量,标识所有候选信息。缓和高维点积导致梯度不稳定。原创 2025-07-19 02:02:13 · 314 阅读 · 0 评论 -
Happy-LLM Task02
NLP 的发展路径体现了从手工规则到统计概率再到神经网络的明显进化趋势,背后核心驱动力是数据规模与算力的提升。文本表示技术的改进,是 NLP 性能突破的根本原因。上下文动态表示(如 ELMo 和后续 Transformer 模型)逐渐成为主流。尽管深度学习在 NLP 中占据统治地位,但如何在效率与效果之间寻求平衡,或结合符号方法进行混合建模,仍是值得思考的问题。语言的理解需要综合考虑语义、语境甚至文化背景,单一模型或单一技术路径可能无法彻底解决,未来研究仍需多维度突破。原创 2025-07-16 10:25:02 · 848 阅读 · 0 评论
分享