- 博客(20)
- 收藏
- 关注
原创 来自 PDE 的残差神经网络
残差神经网络参考文献 Deep Residual Learning for Image Recognition对输入的向量 x, 经过 线性变换后, 再非线性变换, 然后线性变换, 最后加上 x. 写成公式F(x)+x:=W2σ(W1x)+x. \text{F}(x) +x:=W_2\sigma(W_1x) +x. F(x)+x:=W2σ(W1x)+x.σ:R→R\sigma: \R \to \Rσ:R→R 是激活函数.残差主要的作用是避免梯度消失.**残差卷积神经网络与PDE **对残
2022-01-25 14:17:10
1200
原创 Deep Set
一个样本一般会被看成是一个向量. 然后将样本标签丢给 机器去学习模型.通常也有样本, 不是向量. 例如 图, 点云(矩阵), 持续图(2维向量集合), 文本(向量序列).对这些样本一般使用向量化手法, 大家熟悉的是 word2vet, transformer. 这里我们了解一下 DeepSet.文章参考 Deep Sets有一些网文介绍也对此做了介绍.纯翻译的 https://www.cnblogs.com/wangchangshuo/p/13853491.html添加个人理解的 https:/
2022-01-21 11:40:58
2415
1
原创 Dense(units, activation=None,)初步
Dense ( units, activation=None, use_bias=True, kernel_initializer='glorot_uniform', bias_initializer='zeros', kernel_regularizer=None, bias_regularizer=None, activity_regularizer=None, kernel_constraint=None, bias_constraint=None )units, 代表该层的输出维度
2022-01-20 16:15:13
2365
原创 什么是 Embedding()
本文只是初步解释, 或者解释Embedding(input_dim, output_dim, embeddings_initializer='uniform', embeddings_regularizer=None, activity_regularizer=None, embeddings_constraint=None, mask_zero=False, input_length=None)
2022-01-20 14:07:09
2122
原创 集合 Transformer(Set Transformer)
文献: Set Transformer: A Framework for Attention-based Permutation-Invariant Neural NetworksSet Transformer 指输入为集合, 输出为向量的的 Transformer模型, 其可以逼近任意的置换不变映射.定义.\text{定义.}定义. 一个映射 f 称作是置换 σ\sigmaσ不变的如果 f(xσ(1),⋯ ,xσ(n))=σ(f(x1,⋯ ,xn)).f(x_{\sigma(1)}, \cdots,x
2022-01-11 11:24:06
2123
原创 Persformer
参考文献 Persformer: A Transformer Architecture for Topological Machine Learning这是一篇使用拓扑方法的 Transformer. 输入是 持续图, 输出是分类概率.拓扑数据分析的简单流程Z/2\Z/2Z/2-系数的 单纯同调拓扑同调理论最简单的部分, 其各维同调群反应空间情况为:0-维同调群 H0\text{H}_0H0, 空间连通分支的个数, 用于聚类.1-维同调群 H1\text{H}_1H1, 空间含圆圈的数目.
2022-01-10 16:27:36
927
原创 Predictive Attention Transformer 理解
参考文献 Predictive Attention Transformer: Improving Transformer with Attention Map PredictionPA-transformer 的想法是将 QKT/NQK^T/\sqrt{N}QKT/N 做两种处理, 一是正常的 encode 到 下一个 encode 的 QKT/NQK^T/\sqrt{N}QKT/N , 另一个是使用 2D-卷积层,两种处理的信息 以某种比例混合后用于 取值投影. 混合后的信息 也将有类似的两种处理
2022-01-05 14:52:37
743
原创 自注意机制中添加局部信息
文章参考: Modeling Localness for Self-Attention Networks分散注意力机制的思路是先验的让一些特征仅仅依赖于邻近的信息. 本文的思路是考虑全局信息的同时也添加局部信息.具体地,A^eG \hat{A} e^{G} A^eGA^\hat{A}A^ 是权重矩阵, 即 softmax(QKT/d)\text{softmax}(QK^T/\sqrt{d})softmax(QKT/d). Gn×nG_{n \times n}Gn×n, n 是文字长度(含词汇的数
2022-01-05 13:46:18
2347
原创 低秩自注意力
自注意力一般是低秩的, 证明参考Linformer: Self-Attention with Linear Complexity 定理 1.这也比较容易猜测出来. 因为文本词汇大多数依赖于自己距离很近的词汇, 较少依赖距离较远的词汇.这意味着可以使用 两个矩阵逼近 WQW^QWQ 或者 WKW^KWK. 其中一个矩阵是带状矩阵, 另一个是稀疏低秩矩阵. 明显带装矩阵只有下图蓝色部分需要确定, 其余为0. 低秩矩阵可以看成是小矩阵的乘积.假定正常 注意力机制 权重矩阵为A:=HWQ(WK)THT,
2022-01-04 11:27:44
1891
原创 线性注意力
这是关于提升transormer 效率的方法. 故而在单头自注意力机制上考虑.Q,K,VQ,K,VQ,K,V 都是 N×DN \times DN×D 矩阵, QKTQK^TQKT 的复杂度为 N2DN^2DN2D. 令 A:=softmax(QKTQK^TQKT). AVA VAV 的复杂度为 N2DN^2DN2D. 所以 注意力机制的复杂度为 Q(N2)Q(N^2)Q(N2). 我们之所以关注 N 是因为这关系到输入词汇的长度.如果换一种想法 eQKT=ϕ(Q)ϕ(K)Te^{QK^T}=\phi
2021-12-31 11:28:32
2183
原创 Augmenting Self-attention with Persistent Memory
Augmenting Self-attention with Persistent MemoryarXiv:1907.01470 [cs.LG]\url{1907.01470 [cs.LG]}1907.01470 [cs.LG]给定序列 X:=(x1,⋯ ,xn)X:=(x_1,\cdots,x_n)X:=(x1,⋯,xn), 列向量 xix_ixi 的长度为 d. 自注意机制的 query, key 和 value 分别是qi:=WQxi,ki:=WKxi,vi:=WVx
2021-12-29 11:00:51
927
原创 透明注意力(Transparent Attention)
Ankur Bapna, Mia Chen, Orhan Firat, Yuan Cao, and Yonghui Wu. 2018. Training Deeper Neural Machine Translation Models with Transparent Attention. In Proceedings of EMNLP. Brussels, Belgium, 3028–3033.https://doi.org/10.18653/v1/D18-1338\url{https://doi.or
2021-12-28 10:43:06
1313
原创 自注意力机制中的相对位置表示
Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. 2018. Self-Attention with Relative Position Representations. In Proceedings of HLT-NAACL. New Orleans, Louisiana, 464–468. https://doi.org/10.18653/v1/N18-2074\url{https://doi.org/10.18653/v1/N18-2074}https:
2021-12-24 11:33:53
946
原创 Talking-Heads Attention
多头注意力机制各头独立进行, Talking-Heads 即交头接耳.注意力机制已知矩阵 Qn1×dkQ_{n_1 \times d_k}Qn1×dk, Kn2×dkK_{n_2 \times d_k}Kn2×dk, Vn2×dvV_{n_2\times d_v}Vn2×dv, 注意力Attention(Q,K,V):=A^V:=Softmax(QKTdk)V.\operatorname{ Attention}(Q,K,V):= \hat{A}V:=\operatorname{
2021-12-23 16:45:56
2887
原创 k-means
k-means 聚类聚类是指按某种特征将数据分为若干类. 由于选取的特征不同, 聚类会有差别.k-means 聚类是按 中心点距离分类的. 不恰当地类比为井田, 一井: 九块地,中间是国家的, 另外 8块地是农民的. 一井就是类.k-means 聚类是 事先规定了 分为 k-类.从数据 {d1,⋯dn}\{d_1,\cdots d_n \}{d1,⋯dn} 中任意挑选 k 个元素作为中心 a1,⋯aka_1,\cdots a_ka1,⋯ak.l=argi min{∣dj−ai∣}l=
2021-12-22 11:45:58
196
原创 两个矩阵相处的复杂度
复杂度即从无到有地写代码行数.矩阵 An×mA_{n \times m}An×m、 Bm×lB_{m \times l}Bm×l, Cn×l:=A⋅BC_{n \times l}:= A \cdot BCn×l:=A⋅B. 具体地, Ci,j:=∑k=1mAi,k⋅Bk,jC_{i,j}:=\sum_{k=1}^m A_{i,k} \cdot B_{k,j}Ci,j:=k=1∑mAi,k⋅Bk,j具体写代码时通常将之写作 Ci,j+=Ai,k⋅Bk,jC_{i,j} + = A_{i,k
2021-12-21 14:14:16
170
原创 Bert 思路
Bert从语料库中选两段语句, 两个句子有50% 的可能是一段语料中前后句子关系. 对句子做标记 ‘’ 放在开头, ‘ ’ 放在两个句子中间, 标记后句子长度(含词汇个数)为 n. 两段语句中 15% 的 词 m, 有80%的可能被 字符 ‘ ’掩盖, 10%的可能被用其他词取代, 有10%的可能保持不变. 将每个词的位置向量 + 所在句子(0或1) + 每个词的 1-hot 编码, 如图将上面的加和向量输入到 transformer 的 encode ×\times× 12 中, 输出维度是 n.
2021-12-20 15:04:05
105
原创 自然网络语言模型(NNLM)
在一语料库中, 假设有长度为 T 的文本序列 S:=w1,w2,⋯ ,wTS:=w_{1},w_{2}, \cdots, w_{T}S:=w1,w2,⋯,wT. 如果选子序列 S:=wt−1,wt−2,⋯ ,wt−n+1S:=w_{t-1},w_{t-2}, \cdots, w_{t-n+1}S:=wt−1,wt−2,⋯,wt−n+1, 想预估 词汇 wtw_twt 出现的概率, 即计算条件概率P(wt∣wt−1,wt−2,⋯ ,wt−n+1).P(w_t| w_{t-1},w_{t-2}
2021-12-16 14:15:05
1585
原创 tf.data.Dataset.shuffle(buffer_size)怎样工作的?
假定输入的数据为 A:=[0,1,2,3,4,5,6,7,8], buffer_sizer:=2.A.shuffle(2)的工作思路:1.取A的 前两个元素 {0,1} 从中随机选出 1个元素, 例如 1. 原先的数据变为 A=[0,2,3,4,5,6,7,8]2. 重复1 至不能再重复3. 将选出的元素按顺序写下.上面的思路可以推论出 A 中第 i 个元素在 shuffle 后 只能出现在 第 i-1 个位置或更靠后.dataset = tf.data.Da...
2021-12-10 15:06:04
1308
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人