自然语言处理与机器翻译:英语对齐、蒸馏训练及阿拉伯语树库构建
1. 英语对齐任务与多语言拓展
英语对齐任务是当前研究的一个重要方向。下一步,该标记方案将应用于其他语言对,例如阿拉伯语 - 英语。此外,进一步的研究方向还包括引入额外层次的对齐。在第四阶段,对自动后处理以诱导更高级别对齐的初步研究取得了丰硕成果,这为第五阶段创建多级对齐提供了一个有前景的自动注释结构。第五阶段的词对齐将聚焦于简化多级并行对齐树库语料库创建的基础设施和技术。
2. 蒸馏训练数据
2.1 蒸馏简介
蒸馏是语言处理的最后阶段,在这个阶段,相关信息从外语和英语输入中提取出来,并以英语简洁地呈现给用户。它不是关键词搜索,也不涉及总结,而是利用语言分析技术来识别与用户查询相关的信息,旨在提取所有可用的相关信息并消除其中的冗余。
2.2 蒸馏源数据
- 数据来源 :训练数据的创建始于选择作为人工注释基础的源文档。这些数据来自现有的语料库,并结合了专门为特定项目收集的新材料。为支持多种蒸馏系统开发方法,目标数据涵盖了多种语言(阿拉伯语、中文和英语)和体裁(新闻专线、网页文本、广播新闻和广播对话的转录)。
- 数据处理流程 :
- 根据研究站点的需求和各阶段的评估要求选择源材料,优先选择对系统训练可能最有用的文档,如富含命名实体的文档。
- 对源文档进行半自动选择后,进行数据格式化和处理,使其符合项目标准。
- 源数据可在分发和注释之前自动或手动分割成句子,并为使用内部
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



