
深度学习Tricks
文章平均质量分 79
lwgkzl
海风和着歌声,星空伴着代码
展开
-
【调参Tricks】WhiteningBERT: An Easy Unsupervised Sentence Embedding Approach
总述该文主要介绍了三种使用BERT做Sentence Embedding的小Trick,分别为:应该使用所有token embedding的average作为句子表示,而非只使用[CLS]对应位置的表示。在BERT中应该使用多层的句向量叠加,而非只使用最后一层。在通过余弦相似度做句子相似度判定的时候,可以使用Whitening操作来统一sentence embedding的向量分布,从而可以获得更好的句子表示。模型文中介绍的前两点均不涉及到模型,只有第三点Whitening操作可以做简要介绍原创 2022-05-21 23:16:23 · 514 阅读 · 2 评论 -
【论文介绍】R-Drop: Regularized Dropout for Neural Networks
总述本文的出发点在于:之前的dropout存在训练与测试时模型不一致的问题。基于这个出发点,本文提出了R-Dropout的方式来解决这个问题。实验证明,R-Dropout在多个数据集上均有效(都略有提升)对Dropout的思考首先我们要理解,为什么之前的dropout存在训练与测试时不一致的问题。在训练的时候,dropout会随机mask模型的一些节点,然后利用剩余的网络去拟合数据(防止过拟合)。在不同batch的数据训练的过程中,由于mask是随机变动的,因此不同的数据可能会经过不同的网络处理。原创 2022-05-19 23:06:58 · 749 阅读 · 0 评论