文本对齐方法深度解析
1. 引言
在处理平行文本时,文本对齐是一项关键任务。然而,传统基于长度的方法在面对噪声输入(如光学字符识别输出)时往往效果不佳。本文将介绍几种不同的文本对齐方法,包括基于信号处理技术的偏移对齐方法和基于词汇的句子对齐方法。
2. 基于信号处理技术的偏移对齐方法
2.1 Church(1993)方法
- 背景 :传统基于长度的方法在处理噪声文本(如 OCR 输出、含未知标记约定的文件)时会失效,因为 OCR 程序可能丢失段落分隔和标点,浮动材料会打乱文本线性顺序,甚至难以找到段落和句子边界。
- 方法原理 :
- 同源词利用 :利用同源词(因借用或共同语言祖先继承而在不同语言中相似的词),但不是考虑同源词本身,而是在字符序列层面寻找同源词。该方法依赖源语言和目标语言之间有大量相同字符序列,不仅适用于同源词多的语言,几乎适用于使用罗马字母的语言,甚至在非罗马字符书写系统中,若有大量名称和数字也适用。
- 点图构建 :将源文本和翻译文本连接,在坐标轴上构建方形图,当连接文本中位置 x 和 y 匹配时,在 (x, y) 处放置一个点,匹配单位为字符 4 - 元组。使用各种信号处理技术压缩结果图。
- 对齐确定 :点图有特征形状,通过启发式搜索沿对角线找到最佳路径,得到两个文本的偏移对齐。为避免计算整个矩阵,使用各种方法,n - 元组按逆频率加权,
超级会员免费看
订阅专栏 解锁全文
2296

被折叠的 条评论
为什么被折叠?



