- 博客(5)
- 资源 (3)
- 收藏
- 关注
原创 注意力中的尺度放缩详解
直接上干货!!! 在注意力中我们经常看到以下公式: scoreatten=softmax(QKTdk)score_{atten}=softmax(\frac{QK^T}{\sqrt{d_k}})scoreatten=softmax(dkQKT) 为什么就要除以dkd_{k}dk呢?要除的话为什么要除以它而不是其他数呢? 这是因为存在以下推导: (QKT)mn=∑idkqmikin(QK^T)_{mn}=\sum_i^{d_k}q_{mi}k_{in}(QKT)mn=i∑dkqmikin
2021-11-30 15:33:19
991
原创 torch.gather()函数详解
input: [[1,2,3], [4,5,6], [7,8,9]] index: [[2,1,0], [1,0,1]] 如上已经给定了输入和索引,先假设dim=0 根据index,其本身元素的索引有(0,0)、(0,1)、(0,2)、(1,0)、(1,1)、(1,2) 因为设置dim=0,所以将index中的元素在dim=0这个维度进行替换,即得到(2,0)、(1,1)、(0,2)、(1,0)、(0,1)、(1,2),根据替换后的索引在input找值,得到输出 output: [[7
2021-10-18 15:34:58
229
原创 机器学习||贝叶斯详解
文章目录机器学习||贝叶斯1.贝叶斯方法2.朴素贝叶斯方法3.拉普拉斯平滑 机器学习||贝叶斯 1.贝叶斯方法 假设有C个类别,记为{w1,w2,...,wj,...wC}\{w_1,w_2,...,w_j,...w_C\}{w1,w2,...,wj,...wC},有样本xxx。分类器的分类错误概率是指xxx被分类成错误类的概率,用公式表达如下: p(error∣x)=∑jp(wj∣x),for x∈wi,i≠j p(error|x)=\sum _jp(w_j|x), for\space
2020-12-11 14:51:36
266
原创 tf.nn.avg_pooling踩坑
tensorflow之平均池化 首先说一下我遇到的情况,刚开始学tensorflow,接触到池化pooling操作,其中有最大池化max_pooling、平均池化avg_pooling,其中平均池化avg_pooling资料上着重写的是用池化filter范围内的输入矩阵元素总和除以非零元素个数。上代码: import tensorflow as tf img=tf.constant([ ...
2020-03-01 17:00:29
1696
1
神经网络的经典matlab实现
2018-06-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅