语料编辑与文本规范化:提升语言处理效率的关键
在文档处理中,文本规范化的预编辑和后编辑在时间和金钱投入上总是存在权衡。理解这种权衡以及如何进行有效的预编辑和文本规范化,对于提升语言处理应用的质量和效率至关重要。
1. 预编辑与后编辑的权衡
在文档处理的文本规范化过程中,预编辑和后编辑在时间和金钱投入上存在着权衡。如果一个文本文档要翻译成不同的目标语言,那么在预编辑阶段多花些时间可能比后编辑更有意义。预编辑一旦在源文本中完成,就能解决许多与后编辑相关的问题。后编辑通常会根据翻译或词性标注的语言数量进行多次,而预编辑一般在源文本中只进行一次,以避免后编辑阶段出现的各种问题。
预编辑的目标是提升源文本的质量,从而提高语言处理应用的输出质量。例如,在将文本用作输入之前进行预编辑,词性标注和机器翻译的输出在拼写、文本格式、词汇项的语法角色以及整体可读性方面都会得到改善。为了实现这一目标,需要区分那些能提高输入文本质量的规则和不影响输入文本内容的规则,以确定呈现给用户的规则以及如何实际使用这些规则来获得更好的输出。这可能涉及在抽象层面重新构建输入语言中的整个句子,但不能让语言用户在理解修改后句子的结构是原始输入句子的重构表示时产生混淆。
文本规范化活动在无缝利用语言语料库方面具有诸多优势。因此,有必要以一种能显著提高依赖文本语料库作为输入的现有自然语言处理工具标准的方式来处理文本语料库。这可能需要区分提高文本可访问性的过程和保持文本内容完整的过程,以确定应向系统呈现哪些规则以及如何利用这些规则的结果来获得更好的输出。最终目标是在语料库中创建形式更易读、格式更易访问、内容更易用的文本。
2. 预编辑与全球适用性
全球适用性是一个创建和优化文本
超级会员免费看
订阅专栏 解锁全文
67

被折叠的 条评论
为什么被折叠?



