西班牙语词汇简化资源对比研究
1. 研究背景与目标
在自动词汇简化领域,目前对于不同策略对任务的影响以及单词歧义程度对简化成功率的影响尚未有深入研究。为填补这些空白,本文使用了名为LexSiS的西班牙语词汇简化系统。该系统以提供词义和同义词列表的词汇资源为参数,旨在实现词汇的有效简化。本文的主要贡献包括:
- 比较LexSiS系统在使用两种不同词汇资源(Open Thesaurus和EuroWordNet)以及它们的组合版本时的性能。
- 对比两种不同的词义消歧策略,一种仅考虑目标词的局部上下文,另一种假设每个目标词在文本中只有一种含义,并考虑该目标词的所有局部上下文。
- 评估系统在不同目标词歧义水平下的性能。
2. 相关工作
词汇简化是文本简化的一个重要方面,至少需要解决两个问题:找到同义词(或在某些情况下,上位词)以及衡量词汇的复杂性(或简单性)。许多词汇简化方法使用WordNet来寻找合适的单词替换,也有使用同义词词典的方法。同时,一些方法应用显式的词义消歧来处理多义词的替换问题。在衡量词汇简单性方面,大多数方法依赖于词频,也有使用词长作为预测指标的。
近年来,Simple English Wikipedia(SEW)与“普通”英语维基百科(EW)的结合使得新一代文本简化方法成为可能,这些方法主要使用机器学习技术。例如,Yatskar等人利用SEW的编辑历史和SEW与EW的组合创建词汇替换规则,Biran等人则依赖SEW/EW组合和显式的句子对齐来进行词汇简化。此外,还有使用统计机器翻译技术进行文本简化的趋势。
超级会员免费看
订阅专栏 解锁全文
1403

被折叠的 条评论
为什么被折叠?



