
神经网络架构
。
m0_37709767
这个作者很懒,什么都没留下…
展开
-
损失函数 -交叉熵损失函数
一、相关知识1)熵:即衡量信息不确定性的大小2)交叉熵:真实标签与预测标签之间的不同(越不同,包含的信息量越大,即熵越大)3)损失函数:Loss(y_pred,y_ture)二、交叉熵损失函数-交叉熵损失函数:评估label和predicts之间的差距(熵越小即两者越接近)计算公式:q——表示预测样本分布p——表示真实样本分布在具体分类中:y——表示样本的label,正类为1,负类为0p——表示样本预测为正的概率参考文献:1)https://zhuanlan.zhihu.原创 2020-05-29 16:18:52 · 527 阅读 · 0 评论 -
checkpoint文件的作用
翻译自网址:https://blog.floydhub.com/checkpointing-tutorial-for-tensorflow-keras-and-pytorch/定义:在模型生成的过程中,用来记录关键点的文件,例如在游戏打boss前需要存游戏进度一样。checkpoint文件包含的内容:1)模型的结构(architecture),在模型重建时起到关键作用2)模型的权重(weight)3)训练的参数(loss,optimizer,epochs等)4)优化器的状态,允许在您停止的地方翻译 2020-05-12 11:57:11 · 3350 阅读 · 0 评论 -
Attention机制
参考:1)https://jalammar.github.io/illustrated-transformer/一、Attention机制的引入背景Recurrent神经网络的ht需要ht-1和t进行计算生成hidden,无法并行处理。当句子长度较长时,耗费的计算力太大,且例如RNN等模型会发生长程的梯度消失,造成长序列到定长向量转化而造成的信息损失的瓶颈。二、模型整体架构模型包含两个重要的组成部分:1)encoders(编码组件); 2)decoders (解码组件)编码组件和解码组件分别包含翻译 2020-05-27 10:44:15 · 413 阅读 · 0 评论