1 说明
这些日子,开始养成看论文的习惯,也参加了AI研习社推荐论文的活动,其中一些推荐了但是未被采纳的论文,担心自己忘了,有点可惜,便想记录在博客上
2 文章列表
202003
Beat the AI: Investigating Adversarial Human Annotations for Reading Comprehension
https://arxiv.org/pdf/2002.00293.pdf
1
本文是对于最近兴起的一种数据标注方法的研究,这种方法的本质是人为的创造或筛选出一些高难度样本,塞给一些模型来进行判断,能够打败所有的模型的样本,将被保存下来。这种方法跟机器学习中的集成学习方法很像,跟普通的集成方法又不太一样,这里关注的是样本的产生,而且是高质量样本的产生,有点返璞归真的意思,又把语言学家的专业知识给利用上了。2
本文一个有趣的地方在于,一方面用一些弱学习器来标注样本,去提高学习能力顶尖的RoBERT模型的表现。另一方面,采用了学习能力依次递增的强学习器来标注样本,并且观察其中打败AI的那些问题的特性。3
正如作者所说,本文的研究更多的是对这种标注方法的抛砖引玉,引起自然语言领域的研究人员的注意,本人也很期待有大牛能建立一个中文版本的高难度样本集,研究一下高难度样本能否减少训练所需的数据量,是否能让现有的诸如ERNIE2.0的阅读理解模型能力更强
Training distributed deep recurrent neural networks with mixed precision on GPU clusters
https://arxiv.org/abs/1912.00286
核心问题:本文从硬件选取、模型搭建、分布式计算策略、学习率、损失函数等方面,非常详细的讲解了如何高效使用多达100个GPU进行深度循环神经网络
创新点:本文没有相关工作的部分,贵在务实,从实际的研究工作中部署一个高效的GPU集群的角度,讨论了如何将分布式计算策略、基于混合精度的训练模型结合起来,使得模型的训练速度加快、内存消耗降低,并且模型的表现分数并不会下降。同时,作者还研究了使用参数来对损失函数进行缩放,以此提高模型在集群环境下的收敛速度研究意义:无论是循环神经网络,还是卷积神经网络,模型的规模越来越大,本文作者所提出的各种技巧,能解决训练过程实际的问题,一方面,能在保证了模型的准确率的情况下减少训练的成本,另一方面,也有助于在当前的资源下,训练更大的模型。
这些技巧主要针对GPU集群环境,但也能给单GPU环境的同学提供参考。
GRADIENT-ADJUSTED NEURON ACTIVATION PROFILES FOR COMPREHENSIVE
INTROSPECTION OF CONVOLUTIONAL SPEECH RECOGNITION MODELS
https://arxiv.org/abs/2002.08125
1
本文的主要工作是参考了人脑进行认知的event-related potential模型来设计一种可视化的工具,用来解释attention-base