每天一篇自然语言处理论文：202003_自然语言处理英文文献-优快云博客

本文链接：https://blog.youkuaiyun.com/will680/article/details/104803974

本文汇总了作者2020年3月每天一篇的自然语言处理(NLP)论文阅读，涉及论文的高难度样本生成、深度学习在语音识别和文本分类的应用、模型可视化、反深度学习策略、时间序列预测、词向量正则化等多个方面。通过这些论文，探讨了NLP领域的最新研究进展和挑战，包括如何提高模型的训练效率、理解和解释模型行为、以及应对数据不平衡等问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 说明

这些日子，开始养成看论文的习惯，也参加了AI研习社推荐论文的活动，其中一些推荐了但是未被采纳的论文，担心自己忘了，有点可惜，便想记录在博客上

2 文章列表

202003

Beat the AI: Investigating Adversarial Human Annotations for Reading Comprehension
https://arxiv.org/pdf/2002.00293.pdf

1
本文是对于最近兴起的一种数据标注方法的研究，这种方法的本质是人为的创造或筛选出一些高难度样本，塞给一些模型来进行判断，能够打败所有的模型的样本，将被保存下来。这种方法跟机器学习中的集成学习方法很像，跟普通的集成方法又不太一样，这里关注的是样本的产生，而且是高质量样本的产生，有点返璞归真的意思，又把语言学家的专业知识给利用上了。

2
本文一个有趣的地方在于，一方面用一些弱学习器来标注样本，去提高学习能力顶尖的RoBERT模型的表现。另一方面，采用了学习能力依次递增的强学习器来标注样本，并且观察其中打败AI的那些问题的特性。

3
正如作者所说，本文的研究更多的是对这种标注方法的抛砖引玉，引起自然语言领域的研究人员的注意，本人也很期待有大牛能建立一个中文版本的高难度样本集，研究一下高难度样本能否减少训练所需的数据量，是否能让现有的诸如ERNIE2.0的阅读理解模型能力更强

Training distributed deep recurrent neural networks with mixed precision on GPU clusters
https://arxiv.org/abs/1912.00286

核心问题：本文从硬件选取、模型搭建、分布式计算策略、学习率、损失函数等方面，非常详细的讲解了如何高效使用多达100个GPU进行深度循环神经网络
创新点：本文没有相关工作的部分，贵在务实，从实际的研究工作中部署一个高效的GPU集群的角度，讨论了如何将分布式计算策略、基于混合精度的训练模型结合起来，使得模型的训练速度加快、内存消耗降低，并且模型的表现分数并不会下降。同时，作者还研究了使用参数来对损失函数进行缩放，以此提高模型在集群环境下的收敛速度

研究意义：无论是循环神经网络，还是卷积神经网络，模型的规模越来越大，本文作者所提出的各种技巧，能解决训练过程实际的问题，一方面，能在保证了模型的准确率的情况下减少训练的成本，另一方面，也有助于在当前的资源下，训练更大的模型。

这些技巧主要针对GPU集群环境，但也能给单GPU环境的同学提供参考。

GRADIENT-ADJUSTED NEURON ACTIVATION PROFILES FOR COMPREHENSIVE
INTROSPECTION OF CONVOLUTIONAL SPEECH RECOGNITION MODELS
https://arxiv.org/abs/2002.08125