
深度学习
文章平均质量分 71
cloudless_sky
快乐coder
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
transformer中的QKV是如何得到的?
多头自注意力机制:原创 2024-02-15 22:24:31 · 665 阅读 · 0 评论 -
transformer框架+self-attention技术+和图的关系
注意力机制能够显著提高神经机器翻译任务的性能。本文将会看一看Transformer—加速训练注意力模型的方法。Transformers在很多特定任务上已经优于Google神经机器翻译模型了。不过其最大的优点在于它的并行化训练。Transformer模型:编码组件是一系列编码器的堆叠(文章中是6个编码器的堆叠——没什么特别的,你也可以试试其他的数字)。解码部分也是同样的堆叠数。编码器在结构上都是一样的(但是它们不共享权重)。每个都可以分解成两个子模块:编码器的输入首先流经self-atten.原创 2022-04-12 15:05:53 · 2374 阅读 · 0 评论 -
注意力机制attention图解
来自对https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/的笔记注意力机制核心观点就是让RNN每一步都监视一个更大的信息集合并从中挑选信息。例如:如果你使用RNN去为一个图像生成注释,它会从图像中挑选一部分去预测输出的单词。接下来在讲解attention之前,我们会先聊聊Seq2Seq。序列到序列模型是一种模型,它采用一系列项目(单词、字母原创 2022-04-11 16:03:30 · 6290 阅读 · 0 评论 -
RNN图解
来自youtube视频 https://www.youtube.com/watch?v=UNmqTiOnRfg做饭顺序:苹果派、汉堡、鸡如果天气晴朗就出去玩不做饭,吃昨天剩下的饭;如果下雨,就做一道新菜;这是个循环结构,昨天的输出(苹果派),结合今天的天气(下雨),就可以得出今天的饭(汉堡)。箭头的细节是:如何训练RNN?–通过error函数,梯度下降,不断减小error。...原创 2022-04-11 10:30:59 · 1013 阅读 · 0 评论 -
几个有代码的网站
https://pytorch.org/原创 2019-03-27 21:08:00 · 2821 阅读 · 0 评论