-
AdaBoost 弱串 RF强并
解释:
AdaBoost 弱base函数,underfitting 的个体串联组合成强学习器
RF:过拟合,并联 -
分离卷积:分C,11C
解释:各通道卷积,然后经过(1,1,C)卷积
(1,1)卷积相当于通道方向上的全连接层 -
批次归一C, 层归一N
解释: 批归一化后输出(C,1)向量… -
信息论:从不太可能发生的事件中能学到更多的有用信息。
-
多项式分布与狄里克雷分布 【离散型和连续型变量】
-
自信息:I(x) = -log p(x)
-
熵:E[ -log p(x)]: 混乱不确定性程度;熵刻画了按照真实分布 来识别一个样本所需要的编码长度的期望(即平均编码长度)。
-
描述 X和 Y所需要的信息是:描述 X 所需要的信息加上给定 X条件下描述 Y 所需的额外信息
-
如果在一个鞍点附近,牛顿法效果很差,因为牛顿法会主动跳入鞍点。而梯度下降法此时效果较好(除非负梯度的方向刚好指向了鞍点)。