德语自动文本简化中句子对齐的集成与基于分数的过滤
1. 引言
简化语言是标准语言的一种变体,其特点是词汇和句法复杂度降低,对难理解的概念增加解释,并且布局结构清晰。由于德语国家的一些法律和政治发展,简化德语受到了越来越多的关注。在当今社会,视听媒体的可访问性是首要问题,传统的可访问性服务包括为聋哑人和听力障碍者提供字幕、音频描述和手语翻译。近年来,文本简化,即生成简化语言的过程,变得尤为重要。自动文本简化(ATS)依赖大量数据,常被视为基于句子的单语机器翻译任务,因此对高质量句子对齐工具的需求也随之产生。
自动获取ATS中的句子对齐是一项具有挑战性的任务。与传统机器翻译相比,ATS中的句子对齐并行性较低,常见n:m形式的对齐,这是由于文本简化中常用的句子拆分和压缩操作。此外,源端和目标端可能存在未对齐的片段,信息顺序也不固定。
本文通过将各种自动句子对齐工具应用于标准德语/简化德语文档对,并与人工创建的黄金标准进行评估,展示了各工具的优缺点,并提出了事后改进结果的方法:
- 分析各种对齐方法在人工创建的黄金标准上的性能,展示对齐方法的设计选择如何影响结果。
- 证明组合对齐工具可以优于单个最佳工具。
- 提出通过计算对齐两侧的各种基于重叠的指标来过滤对齐,只保留最有希望的候选对齐。
2. 相关工作
2.1 自动文本简化中的句子对齐
Newsela和Parallel Wikipedia语料库的流行推动了单语句子对齐研究的发展,主要集中在英语领域。许多工具和技术被提出用于提取复杂句子和简单句子之间的对齐。一些最初为多语言对齐开发的工具,如SentenceBERT和Vecalign,也被应
超级会员免费看
订阅专栏 解锁全文
870

被折叠的 条评论
为什么被折叠?



