
深度学习
文章平均质量分 78
阿_牛
这个作者很懒,什么都没留下…
展开
-
Transformer一图总览(方便记忆和查阅)
图片来自论文Yi Tay etc.的《Efficient Transformers: A Survey》Transformer architectureTransformer architecture 参考论文Vaswani et al., 2017。总览Transformers是一种多层结构,由Transformer block相互堆叠而成。Transformer block的组成一个多头自注意机制(multi-head self-attention mechanism)一个位置前馈网原创 2022-02-21 14:21:10 · 1659 阅读 · 0 评论 -
bert的细节整理
转自https://www.jianshu.com/p/2daf69f8408f本文是对bert的细节进行整理,分成3个部分的问题:目录输入与transformer相比输入有什么不同? bert的3种embedding分别有什么意义,如果实现的? Bert 的三个 Embedding 为什么可以进行相加? word piece 怎么做的? Bert的长度限制为512,如何处理长文本?模型结构transformer是如何被使用的? 如何体现双向的? 为什么要 mask?怎么.转载 2021-12-02 20:48:34 · 582 阅读 · 0 评论 -
Flow-based模型
转自:https://blog.youkuaiyun.com/a312863063/article/details/94306107前言·Flow-based模型的不同之处从去年GLOW提出之后,我就一直对基于流(flow)的生成模型是如何实现的充满好奇,但一直没有彻底弄明白,直到最近观看了李宏毅老师的教程之后,很多细节都讲解地比较清楚,就想好好写篇笔记来梳理一下流模型的运作原理。首先来简单介绍一下流模型,它是一种比较独特的生成模型——它选择直接直面生成模型的概率计算,也...转载 2021-01-01 11:00:53 · 1757 阅读 · 0 评论