
深度学习
北山杉林
半路转码人员!本科985化工专业,读研中科院人工智能方向,很高兴能和各位大佬交流,发布的贴子如有错误,欢迎批评指正!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Focal Loss
表明该样本被分类正确的概率越大,易区分样本,则其对应的loss所占的权重更低,反之则是难分类样本其loss权重更大。偏差越大,KL散度值越大,当两者分布相等时,KL散度为零,同时目标分布确定时。也是确定的,因此通过KL散度进行优化等价于通过交叉熵进行优化。同理,接入对于一个三分类(多分类)任务,一个样本的预测值为。),监督学习的目标是尽可能使得。表示模型输出分布(可以理解为。以二分类为例:这里有1个样本,表示为目标分布(可以理解为。函数,通常在机器学习中,,从公式中可以看到,当。表示预测为1的概率值,原创 2024-10-17 02:00:59 · 728 阅读 · 1 评论 -
因果多头自注意力(Causal-MultiHead-SelfAttention)代码
使用下三角矩阵进行mask。原创 2024-04-08 14:49:53 · 648 阅读 · 0 评论 -
weight-tying探索
在一些领域,将嵌入层和输出层的权重绑定,以达到减少参数量并使得相同token保持统一的embedding空间的作用。可以看到,在这个例子中,使用 weight-tying 后 loss 收敛更快。的权重矩阵的尺寸是10*3,即。的权重矩阵大小相等。原创 2024-04-08 13:58:57 · 341 阅读 · 0 评论 -
Transformer(李宏毅老师课)
Scheduled Sampling:在训练时不仅使用gruth训练,为了减小expourse bias需要加入一些错误信息,但这样会破坏transformer的并行性。在需要确定性回答的模型中(语音翻译等)beam search效果不错,但在翻译系统,问答系统中效果很差。在一些任务中需要直接复制某段文字,如人名地名等。原创 2023-08-27 21:12:11 · 113 阅读 · 0 评论 -
【无标题】深度学习实验常用辅助算法
深度学习实验常用辅助算法1、高斯混合模型2、卡尔曼滤波3、匈牙利算法1、高斯混合模型2、卡尔曼滤波3、匈牙利算法原创 2023-08-22 14:37:37 · 176 阅读 · 1 评论 -
Python数组原地操作,防止内存溢出
数组原地操作方法原创 2023-01-19 13:16:06 · 260 阅读 · 0 评论 -
神经网络训练过程中保存参数与加载参数
深度学习训练过程中模型参数的保存与加载原创 2022-12-03 14:49:53 · 1210 阅读 · 0 评论