- 博客(5)
- 收藏
- 关注
原创 Transformer模型
在Transformer模型中,注意力头数为h,嵌入向量和隐藏状态维度均为d,那么一个多头注意力层所含的参数量是4hd^2。此话为错:层归一化对一个中间层的所有神经元进行归一化。批归一化(Batch Normalization)才是对每个神经元的输入数据以mini-batch为单位进行汇总。...
2020-02-18 18:31:31
431
1
原创 卷积神经网络进阶-计算题分享
通道数为3,宽高均为224的输入,经过一层输出通道数为96,卷积核大小为11,步长为4,无padding的卷积层后,得到的feature map的宽高为()?答案:{(224−11)/4} +1=54...
2020-02-18 18:27:00
1312
原创 循环神经网络进阶错题总结
此话为错:深层循环网络能有效抽取更高层更抽象的信息,层数越深效果越好。层数越深效果未必越好,层数的加深会导致模型的收敛变得困难此话为对:第0个循环单元的记忆细胞和循环单元的值不需要初始化。每个循环单元中的记忆细胞和循环单元的值为LSTM模型中的隐状态,而非参数,因此不需要初始化。...
2020-02-18 18:21:37
382
原创 循环神经网络中困惑度(perplexity)
最佳情况下,模型总是把标签类别的概率预测为1,此时困惑度为1;最坏情况下,模型总是把标签类别的概率预测为0,此时困惑度为正⽆无穷;基线情况下,模型总是预测所有类别的概率都相同,此时困惑度为类别个数所以任何一个有效模型的困惑度必须小于类别个数...
2020-02-14 18:06:59
730
原创 PyTorch tensor和Tensor区别
tensor建立的数据类型为括号内输入的类型,Tensor建立的类型,如无特殊,默认为float类型;可通过在Tensor前加限制来更改类型,如IntTensor, LongTensor。
2020-02-14 15:39:58
316
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人