transformer
文章平均质量分 95
cartes1us
qq 2803134162
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Transformer-2. 注意力分数
上一节记录了注意力机制的基础,这一节主要做几个实现,上节使用了高斯核来对查询和键之间的关系建模。高斯核指数部分可以视为注意力评分函数(attention scoring function), 简称评分函数(scoring function), 然后把这个函数的输出结果输入到softmax函数中进行运算。通过上述步骤,将得到与键对应的值的概率分布(即注意力权重)。最后,注意力汇聚的输出就是基于这些注意力权重的值的加权和。原创 2023-09-11 17:26:04 · 992 阅读 · 3 评论 -
Transformer-1. 注意力机制基础
基础部分比较简单,全是搬运,主要介绍几个例子。原创 2023-08-15 23:00:27 · 507 阅读 · 0 评论
分享