- 博客(3)
- 收藏
- 关注
原创 Transformer 极致精简剖析(Pytorch实现)
写在前面的话 Transformer模型设计的哲学思想:大道至简 ** 即:完全基于attention机制,无差别对待序列中任意token与其他token的关系计算,用李宏毅老师的话讲就是天涯若比邻 模型的设计哲学对比: 拓扑结构好神奇 从数据的拓扑结构来讲,Transformer将序列化数据看成了完全连通图(也就是没有所谓的终点和起点)而RNN则是看成了其最小连通子图(且有明确的起点和终点,即信...
2019-07-24 18:08:19
1901
1
原创 基于状态集迭代的狄克斯特拉算法究极炸裂理解
标题今天来谈一谈狄克斯特拉算法,看到网上的讲解就是给一个带权无环图,然后就开始一顿操作猛如虎,同学们看的津津乐道,但发现自己还是二百五。原因还是理解的不够透彻,或者说只清楚操作流程而不明白操作原理,凭什么这样就是对的。 首先DJ算法是解决求解一个带权图的最短路径问题的,比如我们要求图中A点到B点的最短路径,DJ是可以做到的,但为什么理解起来就那么困难呢。其实DJ做的事情不止你的需求,远远高于了你的...
2018-09-23 22:21:29
214
原创 SARASA(λ)算法物理含义解释
废话不多说 先上图: 可以看到与普通sarsa算法主要的不同在于多了一个矩阵 E(s,a),而至于多出来的奇怪的参数在你理解了这个矩阵的做用后就都一切显得合理了。s取遍所有状态,a取遍所有动作,这和Q-table的架构是一样的,不一样的是这个矩阵学名叫做资格迹矩阵,不理解无所谓,因为不影响理解算法的想法。用大白话说就是这个矩阵起到了本次episode(是本次,因为每个大循环E都要归0)中,...
2018-08-08 10:53:19
1098
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅