文本复述平行语料 (同语言) 对齐

最新推荐文章于 2023-07-29 23:31:45 发布

原创

最新推荐文章于 2023-07-29 23:31:45 发布 · 1.8k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

平行语料数据对齐，如果是机器翻译的平行语料，目前有很多资源，而且语料大多已经预处理好了，可以直接拿来用。就算没有对齐，也有一些工具可以使用。比如Tmxmall，然而他是针对翻译句的对齐工具，不支持对齐同一种语言。

如果你做文本复述（或者文本改写任务）亦或是文本风格迁移任务，就可能需要同一种语言的平行语料了。这样的话不免会遇到对齐语料的问题。具体地说：

问题：当你有两大段，同一种语言的平行语料 A、B，太长了，需要切分句子才能输入网络。这时，如何切分才能使语料对应上呢。如果直接按 “。”切分，句子数量一般是对不上的。

这时候不难想到，先用句子级别的符号（或直接用逗号级别的符号）切分，同时遍历切分后的A、B。

遍历的索引分别为 IndexA IndexB

同时建立空对的语句对数组 C，当前索引为 Index

不妨把简化成：A中第IndexA个句子，和B中第IndexB第去向：

IndexA 是要和 IndexB 组成一个新到语句对；并添加到 C的末尾，同时 Index += 1、IndexA += 1 、IndexB += 1
IndexA 合并到 IndexA - 1，修改C的末尾语句对。 IndexA += 1
IndexA 合并 IndexA + 1 和 IndexB 组成新语句对，添加到C的末尾。 Index += 1、IndexA += 2
IndexB 和 IndexB-1合并。IndexB += 1。IndexB += 1
IndexB 合并IndexB+1 和 IndexA 组成新的语句对。添加到C的末尾。 Index += 1， IndexB += 2

具体选择哪种情况，要看每种情况的得分。（注意这里没有考虑所有情况，也没有对在合并时考虑合并后的长度）

如何决定得分，要看具体任务，对于文本复述任务

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。