Improved Unsupervised Lexical Simplification with Pretrained Encoders 论文精读
Information
标题: MANTIS at TSAR-2022上的共享任务: 用预先训练的编码器改进无监督词语简化
时间: 19 December, 2022
会议: EMNLP
作者: Xiaofei Li1, Daniel Wiechmann2, Yu Qiao1, Elma Kerz1
链接: https://arxiv.org/pdf/2212.09855.pdf
Abstract
在本文中,我们介绍了我们对EMNLP 2022研讨会关于文本简化、可访问性和可读性的词汇简化的MANTIS at TSAR-2022共享任务的贡献。我们的方法以以下方式建立并扩展了具有强等人 (2020) 中引入的预训练编码器 (LSBert) 系统的无监督词语简化系统:对于简化候选选择的子任务,它利用RoBERTa transformer语言模型并扩展了生成的候选列表的大小。对于后续替换排序,它引入了一种新的特征加权方案,并采用了基于文本包含的候选过滤方法,以最大化目标词之间的语义相似性及其简化。 我们的最佳性能系统通过5.9% 的准确性提高了LSBert,并在33个排名的解决方案中获得第二名。
1 Introduction
词语简化(LS)是一项自然语言处理(NLP)任务,涉及自动降低给定文本的词汇复杂性,同时保留其原始含义(Shardlow,2014;Paetzold and Specia,2017b)。 由于LS具有很高的社会效益和提高许多人的社会包容性的潜力,它在NLP社区中引起了越来越多的关注(štajner,2021)。 LS系统通常由三个主要步骤组成(Paetzold和Specia,2017a):(1)复杂词识别(CWI)、(2)替换词生成(SG)和(3)替换词排序(SR),其中CWI通常被视为一个独立的任务。
本文介绍了我们对TSAR-2022共享任务LS(Saggion et al.,2022)英文轨道的贡献。 在上述步骤(2)和(3)中,任务定义如下:给定一个包含复杂单词的句子,系统应该返回一个有序的列表,其中包含复杂单词在其原始上下文中的“更简单的”有效替换词。 系统返回的简单单词列表(最多10个)应根据系统对其预测的置信度排序(最好的预测优先)。有序列表不能包含捆绑。这项任务使用了一个新的基准数据集来简化英语、西班牙语和(巴西)葡萄牙语的词汇。 黄金注释由众包工作人员建议的所有更简单的替代词组成,并由至少一名以各自语言为母语的计算语言学家检查质量(详情见štajner et al.(2022))。 贡献团队提供了一个带有黄金标准注释的小样本作为试验数据集。 对于英语,这个试验数据集包括一个句子的10个实例,一个目标复杂词和一个候选替换列表。 英语测试数据集由373个句子/复杂词对实例组成。 根据10个性能指标对提交进行评估,这些指标分为三组:
(1)MAP@k(mean平均精度@k),k=1,3,5,10个候选词。 该度量根据用于评估的黄金标准注释集评估匹配(相关)和不匹配(无关)术语的预测候选词的排序列表。
(2)Potential@k:k=1,3,5,10。 潜在分数量化了预测的替换中至少有一个出现在黄金注释集合中的实例的百分比和
(3)Accuracy@k@top1:k=1,2,3。 精确度分数表示其中至少一个k最高的预测候选与注释候选的黄金列表中最频繁建议的同义词/S匹配的实例比率。
2 System Description
我们对TSAR共享任务的贡献建立并扩展了Qiang等人所描述的使用预先训练的编码器LSBert的无监督词语简化方法(2020)与强等(2021年)。 该方法利用预先训练的Transformer语言模型生成复杂词的上下文简化。 LSbert简化算法解决了LS的三个主要子任务中的两个:简化候选生成和替换排序。
我们的方法在以下几个方面扩展了LSBert:(1)利用Roberta Transformer语言模型来简化候选列表的生成,并扩大了生成的候选列表的大小。 (2)引入了新的替换排序方法,包括(i)对LSBert使用的排序特征进行重新加权;(ii)采用基于文本蕴涵的等价分数来最大化目标词之间的语义相似度及其简化。 在提交(运行)2和3中,我们进一步探讨了基于众包和基于语料库的词流行度度量在替代排名中的效用。 本文中描述的三个提交项的简化算法如算法1所示。 在下文中,我们详细描述了简化候选生成(2.1)、替换排序(2.2)和获得等价分数(2.3)。

本文介绍了一种改进的无监督词语简化系统,该系统利用RoBERTa生成更多候选词,并引入了新的特征加权方案及基于文本蕴含的等价分数,以提升排序效果。在多项指标上超过了基线系统。
最低0.47元/天 解锁文章
7230





