深度学习(十三)

1、嵌入矩阵的设置:一般来说,设置嵌入矩阵要比其基数多一个,代表未知的参量,确定嵌入矩阵大小的经验法则是其基数除以2,但不大于50(可以与前文所述RNN那里一起理解)
2、AdamW算法:
一般来说,我们可以使用L2正则化来防止过拟合的出现,即在损失函数中添加所示权重的平方和组成乘法项,再乘上相应的超参数代表惩罚力度,即:
final_loss = loss + wd * all_weights.pow(2).sum() / 2
在使用原版的随机梯度下降时,它实际上等价于:
w = w - lr * w.grad - lr * wd * w
然而,在使用其他的优化方法时,比如加入了动量的时候,这两者是不等价的,当使用Adam的时候,我们应该使用的是第二种权重衰减的方式。
3、PCA(主成分分析)是现在比较常用的一种降维的方式,可在sklearn库中直接使用。
4、Word2Vec:是生成词嵌入的一种手段,能将one-hot编码所产生的稀疏向量压缩到一个较小的子嵌入空间中,但用来预测性能不佳;其将原本输入句子标记为1,删除原本句子中间单词并用随机单词代替并标记为0,利用模型训练找到标记为0的句子,我们要的就是在这个过程中生成的词嵌入。词嵌入是一种考虑语义的词表示方法。
5、无论是学习哪种特征空间,所必须要做的要么是对数据进行标记,要么就创造一些虚假的任务;如果我们不能想出来一些很好的虚假任务,用一些无用的虚假任务可能也很不错,计算机视觉中采用的数据增强,某种程度上也算一种虚假任务;Autoencoder是一个输入等于输出的任务,相当于重构自身,保证中间层的激活量小于输入量,可以说是一个假任务,但取得了不错的效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值