- 博客(215)
- 收藏
- 关注
原创 相对熵、信息熵和交叉熵
what:交叉熵是信息论的重要概念;用于度量两个概率分布之间的差异性;其他相关知识:信息量:信息是用来消除随机不确定的东西;信息量的大小与信息发生的概率成反比;I(x)=−log(P(x)), p(x)表示某一事件发生的概率,log表示自然对数举例:信息量为0:“太阳从东边升起”信息量极大:”2018年中国队成功进入世界杯“信息熵:信息熵也叫熵,是用来表示所有信息量的期望;期望是每次试验结果的概率 乘以 结果的总和,因此公式如下:举例:..
2021-08-18 17:42:23
392
原创 XLNet学习:究极总结
目录XLNet:XLNet方法介绍:编码器-解码器的一体化Objective: Permutation Language ModelingIncorporating Ideas from Transformer-XDiscussion and AnalysisComparison with BERTComparison with Language ModelExperimentsPretraining and ImplementationAblation...
2021-05-11 01:39:12
1036
1
原创 知识蒸馏是什么?一份入门随笔__摘要
目录一、模型压缩背景二、 为什么叫蒸馏?三、与直接优化logits相比四、实验与结论一、模型压缩背景在实际应用中一般希望部署到应用中的模型使用较少的计算资源(存储空间,计算单元),产生较低的时延。然而深度学习的背景下,效果极好的方法一般会有两种方案:1. 使用过参数化的深度神经网络,再加一定正则化策略(dropout) 2. 集成模型(ensemble)将许多弱的模型集成起来; 然而部署时 我们希望的小模型,能达到和大模型一样或相当的结果;* 下文统一将要训练的小模型...
2021-05-04 00:31:11
415
原创 残差网络解决了什么,为什么有效?—摘要
1.动机:深度神经网络的“两朵乌云”一般认为,经过训练深层神经网络可以将数据特征逐层抽象,最终提取出完成任务所需要的特征/表示,最后使用一个简单的分类器(或者别的学习器),就可以完成任务;因此深度学习也被叫表示/特征学习;直观的理解,在非线性激活函数的加持下,更深层的神经网络拥有更大的假设空间,当然更有可能包含一个最优解;但是训练却是一个更大的难题;除了过拟合问题外,更深的神经网络更容易出现梯度弥散/爆炸问题和网络退化问题;梯度弥散:神经网络在反向传播时,如果i激活函数输...
2021-05-04 00:23:40
4412
2
原创 LSTM的巅峰理解笔记
Recurrent Neural Networks目录Recurrent Neural Networks一.The Problem of Long-Term Dependencies二. LSTM Networks三. The Core Idea Behind LSTMs四. Step-by-Step LSTM Walk Through五. Variants on Long Short Term Memory六. ConclusionRNN展开:RNN的实现很多任
2021-04-14 00:09:29
497
原创 论文阅读:CTRL: A CONDITIONAL TRANSFORMER LANGUAGE MODEL FOR CONTROLLABLE GENERATION
2021-01-10 14:51:08
1425
转载 树模型总结
树模型总结1.树模型基础介绍。 什么是树模型? 一种基于特征空间划分的具有树形分支结构的模型。 树模型的特点? 方差大、对量纲没有要求、由多条规则组成、能够处理数值型和类别型数据、有较高的解释性。 树模型的优点? 1)需要准备的数据量不大。 2)算法时间的复杂度是用于训练决策树的数据点的对数。 3)能够处理数值型和类别型数据。 4)相对对神经网络,解释性比较强。 树模型的缺点? 有的规则不具备可解释性、抗干扰能力弱、最优决策划分是NP难问题、对数据不均衡类别倾向数据多
2020-12-29 10:14:03
2400
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人