自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 TransFormer 第四章

先介绍了解码器Decoder的解码流程从图中看,Decoder和Encoder很像,它们的主要区别如下‌举例说明下这二者的区别,假设你是一位侦探小说作家,正在创作一部包含复杂谜团的作品。

2025-02-22 00:33:23 1560

原创 TransFormer第三章

通过正弦和余弦函数生成的固定模式,为词元添加位置信息(如公式 PE(pos,2i)=sin⁡(pos/100002i/d)PE(pos,2i)​=sin(pos/100002i/d),PE(pos,2i+1)=cos⁡(pos/100002i/d)PE(pos,2i+1)​=cos(pos/100002i/d)),使模型感知序列顺序。WQ,WK,WVWQ,WK,WV(维度均为 dmodel×dmodeldmodel​×dmodel​),生成初始的。其中 dk=dmodel/hdk​=dmodel​/h。

2025-02-18 19:07:41 1529

原创 TransFormer第二章

Attention 机制引入背景:在基于 Encoder - Decoder 的神经机器翻译中,传统 RNN/LSTM 存在长程依赖问题,无法有效处理长句。Bahdanau 等人于 2015 年提出 Attention 模型,考虑输入句子所有词并赋予相对重要性。工作原理:核心是 “加权求和”,即分解输入、挑选重要部分、分配重要性、集中注意力、加权求和,让模型学会提纲挈领。可以用“挑衣服”这个场景来说明注意力机制的工作原理。

2025-02-15 20:56:51 1435

原创 TransFormer 第1章

它的优缺点,优点是是减少人工特征提取,减少预处理,支持可变长度,可扩展性好。学习了seq2seq模型的训练过程 从数据准备,数据处理,调整模型参数,编码解码,参数更新,反复调整练习,评估模型准确率。对词进行处理,生成上下文向量传给解码器,这里面有个固定开始的符号BOS,解码器收到这个后,就开始构建序列。类似听故事,记重点,讲故事。高效的信息提炼个人觉得是双刃剑,压缩过多肯定会导致精度丢失问题,压缩过少估计模型又太大。这样来看,理论上来说,模型越准确,参数就越大所以对模型来说,参数很重要。

2025-02-14 20:07:25 177

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除