AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 14 Apr 2022
Totally 35 papers
👉上期速览✈更多精彩请移步主页
Daily Computation and Language Papers
Fast Few-shot Debugging for NLU Test Suites Authors Christopher Malon, Kai Li, Erik Kruus 我们研究了基于 Transformer 的自然语言理解模型的少量调试,使用最近流行的测试套件来诊断和纠正问题。给定一些特定现象的调试示例,以及相同现象的测试集,我们的目标是在原始测试集上以最小的准确性成本最大化该现象的准确性。我们研究了几种比完整时期再训练更快的方法。我们引入了一种新的快速方法,该方法从原始训练集中抽取了一些危险示例。 |
Better Uncertainty Quantification for Machine Translation Evaluation Authors Chrysoula Zerva, Taisiya Glushkova, Ricardo Rei, Andr F. T. Martins 基于神经的机器翻译 MT 评估指标正在快速发展。但是,这些系统通常难以解释,并且当人工参考或评估有噪音或数据超出域时,可能会产生不可靠的分数。最近的工作利用了不确定性量化技术,例如蒙特卡洛 dropout 和深度集成来提供置信区间,但我们展示的这些技术在几个方面受到限制。在本文中,我们研究了更强大和有效的 MT 评估指标的不确定性预测器,以及它们捕获任意和认知不确定性的潜力。为此,我们使用新的异方差回归、散度最小化和直接不确定性预测目标来训练 COMET 度量。我们的实验显示了 WMT20 和 WMT21 指标任务数据集的改进结果以及计算成本的大幅降低。 |
Multilingual Event Linking to Wikidata Authors Adithya Pratapa, Rishubh Gupta, Teruko Mitamura 我们提出了将事件多语言链接到知识库的任务。我们为这项任务自动编译了一个大规模的数据集,包括 44 种语言的 180 万次提及,涉及来自 Wikidata 的超过 10.9K 事件。我们提出了事件链接任务的两种变体 1 多语言,其中事件描述来自与提及相同的语言,以及 2 跨语言,其中所有事件描述都是英语。在两个提议的任务中,我们比较了多个事件链接系统,包括 BM25 Lv 和 Zhai,2011 年,以及 BLINK Wu 等人,2020 年的双编码器和交叉编码器架构的多语言适应。在我们对这两个任务变体的实验中,我们发现 biencoder 和 crossencoder 模型都显着优于 BM25 基线。我们的结果还表明,跨语言任务通常比多语言任务更具挑战性。为了测试提议的链接系统的域外泛化,我们另外创建了一个基于 Wikinews 的评估集。 |
FactGraph: Evaluating Factuality in Summarization with Semantic Graph Representations Authors Leonardo F. R. Ribeiro, Mengwen Liu, Iryna Gurevych, Markus Dreyer, Mohit Bansal 尽管最近在抽象摘要方面有所改进,但大多数当前方法生成的摘要实际上与源文档不一致,严重限制了它们在现实世界应用程序中的信任和使用。最近的工作已经显示出使用文本或依赖弧蕴涵在事实性错误识别方面的有希望的改进,但是,他们没有同时考虑整个语义图。为此,我们提出了 FactGraph,一种将文档和摘要分解为结构化的意义表示 MR 的方法,更适合于事实性评估。 MR 描述核心语义概念及其关系,以规范的形式聚合文档和摘要中的主要内容,并减少数据稀疏性。 FactGraph 使用带有结构感知适配器的图形编码器对此类图形进行编码,以捕获基于图形连接性的概念之间的交互,以及使用基于适配器的文本编码器的文本表示。在评估事实性的不同基准上进行的实验表明,FactGraph 的性能比以前的方法高出多达 15 倍。 |
Study of Indian English Pronunciation Variabilities relative to Received Pronunciation Authors Priyanshi Pal, Shelly Jain, Anil Vuppala, Chiranjeevi Yarra, Prasanta Ghosh 与英式或美式英语相比,印度英语 IE 的语音级别的标注发音数据很少。这使得研究印度英语的发音变得具有挑战性。此外,由于母语对 L2 英语的影响,IE 种类繁多。过去,一些语言学著作对印度英语进行了研究。他们报告了这种表征的语音规则,但是,它们在多大程度上可以应用于各种大规模的印度发音数据仍有待研究。我们考虑一个语料库 IndicTIMIT,它富含 IE 品种的多样性,并以自然平衡的方式进行管理。它包含来自印度各个地区的 80 位演讲者的数据。我们提出了一种方法来验证 IE 的语音规则以及报告使用数据驱动方式派生的未探索规则,在这个语料库上。 |
Multilingual Language Model Adaptive Fine-Tuning: A Study on African Languages Authors Jesujoba O. Alabi, David Ifeoluwa Adelani, Marius Mosbach, Dietrich Klakow 多语言预训练语言模型 PLM 在高资源和低资源语言的多个下游任务中表现出令人印象深刻的性能。但是,对于预训练期间未见的语言,尤其是非洲语言,仍然存在较大的性能下降。适应新语言的最有效方法之一是语言自适应微调 LAFT 使用相同的预训练目标在一种语言的单语文本上微调多语言 PLM。但是,具有大量单语文本的非洲语言很少,并且单独适应每种语言会占用大量磁盘空间并限制了所得模型的跨语言传输能力,因为它们专门针对单一语言。在本文中,我们对 17 种资源最丰富的非洲语言和非洲大陆英语、法语和阿拉伯语广泛使用的其他三种高资源语言执行多语言自适应微调 MAFT,以鼓励跨语言迁移学习。此外,为了进一步专门化多语言 PLM,我们从嵌入层中删除了 MAFT 之前与非非洲文字脚本相对应的词汇标记,从而将模型大小减少了大约 50 。我们对两个多语言 PLM AfriBERTa 和 XLM R 以及三个 NLP 任务 NER、新闻主题分类和情感分类的评估表明,我们的方法与在单个语言上应用 LAFT 相比具有竞争力,同时需要的磁盘空间显着减少。 |