《机器翻译》阅读笔记-----第二章 机器翻译语料

本文围绕机器翻译展开,介绍了语料相关知识,包括单语、双语语料,语料处理涉及断句、分词等技术。还阐述了机器翻译的评价方法,有人工和自动评测,自动评测中BLEU应用广泛。此外,列举了NIST、WMT等国内外著名的机器翻译评测活动。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 数据也称为语料,不同类型、用途的数据放在一起完成一项任务,称为语料库(corpus).
  • 语料分为单语语料和双语语料。
  • 单语语料又分为源语言单语语料和目标语言单语语料。
  • 目标语言语料的用途是训练语言模型。
  • 目标语言语料在神经机器翻译系统中也可以用于构造伪双语数据。
  • 未在平行语料中出现的词条称为未登录词,他们的翻译知识是无法从这些平行语料中学习到的。
  • 词条级别的平行语料一般是指双语词典,其互译质量高于其他形态。双语词典可以补充作为双语句对在模型训练中使用,有时候也直接作为特征信息加入到统计机器翻译模型框架中使用。
  • 语料处理过程涉及的技术手段和任务包括断句、分词、句对齐、去躁和正则化。
  • 词是能够独立运用的语言单位,是句法成分的基本语言单位,分词任务是自然语言处理任务中数据处理部分的基本操作之一。
  • 句对齐任务是找出源语言和目标语言句子之间的互译关系。
  • 去躁和正则化任务是将句子中各种非法和非常规的字词或现象去掉,包括错误编码、句子过长或双语句子长度比严重失衡,是的处理后的双语句对互译质量更高。
  • 机器翻译的评价可分为人工评测方法和自动评测方法。
  • 译文的“正确性”一般主要是通过“信”和“达”来衡量,具体是在人工评测中使用忠实度和流利度作为判断标准。
  • 忠实度是指译文在多大程度上对原文的内容进行了正确的表达,保留了原文多少信息,包括文中词语的翻译准确以及翻译内容的覆盖率。“信”
  • 流畅度是指译文的语言是否流畅和地道,是否符合目标语言的表达习惯,包括语序、时态用法、单词形态和词语搭配。“达”
  • 自动测评需要给出测试集的参考译文。
  • 机器翻译自动测评的一个难点是无法枚举出所有可能的合理目标的句子。另一个难点是机器翻译结果和译文的相似度与人堆机器翻译质量的判别之间存在差异。
  • BLEU是目前使用最广泛的自动评测目标,由于其简洁、可靠的特点,被各机器翻译评测组织用作官方评价指标。
  • BLEU主要用于评测篇章级机器译文集合的翻译质量。它的原理是衡量篇章机器译文和篇章参考译文之间不同长度的短语片段的匹配程度,其匹配范围仅限于句子内部。
  • BLEU具体的计算方法是统计机器译文与参考译文之间n元文法匹配的数目占机器译文中所有n元文法总数的比例。
  • 国际和国内比较著名的有关机器翻译评测活动包括NIST机器翻译公开评测(NIST open machine translation evaluation, openMT)、机器翻译研讨会(workshop on machine translation, WMT)评测等。
  • NIST评测活动只限于汉语和阿拉伯语与英语之间的互译评测。
  • WMT评测是另一个有影响力的机器翻译评测活动,主要关注欧洲语言之间的互译评测,在2017年加入了汉英语言的翻译评测任务。
  • WAT(workshop on Asia translation)亚洲语言翻译研讨会评测,主要关注亚洲语言的翻译评测,截止2017年,已经连续举办4届,其针对科技论文领域的翻译测评是一大特色。
  • 中国中文信息学会组织的全国机器翻译(CWMT)评测活动的影响也越来越大。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值