- 博客(4)
- 收藏
- 关注
原创 TransFormer 第四章
先介绍了解码器Decoder的解码流程从图中看,Decoder和Encoder很像,它们的主要区别如下举例说明下这二者的区别,假设你是一位侦探小说作家,正在创作一部包含复杂谜团的作品。
2025-02-22 00:33:23
1560
原创 TransFormer第三章
通过正弦和余弦函数生成的固定模式,为词元添加位置信息(如公式 PE(pos,2i)=sin(pos/100002i/d)PE(pos,2i)=sin(pos/100002i/d),PE(pos,2i+1)=cos(pos/100002i/d)PE(pos,2i+1)=cos(pos/100002i/d)),使模型感知序列顺序。WQ,WK,WVWQ,WK,WV(维度均为 dmodel×dmodeldmodel×dmodel),生成初始的。其中 dk=dmodel/hdk=dmodel/h。
2025-02-18 19:07:41
1529
原创 TransFormer第二章
Attention 机制引入背景:在基于 Encoder - Decoder 的神经机器翻译中,传统 RNN/LSTM 存在长程依赖问题,无法有效处理长句。Bahdanau 等人于 2015 年提出 Attention 模型,考虑输入句子所有词并赋予相对重要性。工作原理:核心是 “加权求和”,即分解输入、挑选重要部分、分配重要性、集中注意力、加权求和,让模型学会提纲挈领。可以用“挑衣服”这个场景来说明注意力机制的工作原理。
2025-02-15 20:56:51
1435
原创 TransFormer 第1章
它的优缺点,优点是是减少人工特征提取,减少预处理,支持可变长度,可扩展性好。学习了seq2seq模型的训练过程 从数据准备,数据处理,调整模型参数,编码解码,参数更新,反复调整练习,评估模型准确率。对词进行处理,生成上下文向量传给解码器,这里面有个固定开始的符号BOS,解码器收到这个后,就开始构建序列。类似听故事,记重点,讲故事。高效的信息提炼个人觉得是双刃剑,压缩过多肯定会导致精度丢失问题,压缩过少估计模型又太大。这样来看,理论上来说,模型越准确,参数就越大所以对模型来说,参数很重要。
2025-02-14 20:07:25
177
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅