自然语言处理:话语标记与句子相似度研究
在自然语言处理领域,话语标记的使用差异以及句子相似度的测量是两个重要的研究方向。下面我们将深入探讨这两个方面的相关内容。
话语标记使用差异
汉语和英语属于不同的语系,这导致两种语言在结构上存在诸多差异,其中话语标记(DMs)的使用差异尤为明显。
话语标记在翻译中的现状
在统计机器翻译(SMT)过程中,话语标记往往未得到充分利用,这使得句子的位置经常出现错误,词汇也常被遗漏,最终导致翻译结果不清晰,丢失了上下文和信息。例如,在一些句子中,某些标记可能被逐渐省略或融入从句的一般含义中,而非直接翻译。像在联合国语料库中,由于使用了复杂的语言且语篇被分为小节、附录和附件,对某些标记的需求更少,“if”和“but”等词汇的出现频率也必然更低。
示例分析
以句子“䖭ᇚᰃϔ㾘ⲯ,㗠Ϩফࠄᑓ⊯䰙݇⊼ⱘ㘮Ӯ”为例,“㗠Ϩ”(moreover)在这里起到连接会议特点的作用,即会议规模宏大且会受到广泛的国际关注。然而,人工翻译非常简洁,无需“moreover”或“furthermore”这类连接词。对于SMT系统而言,要达到类似的翻译效果,需要知道何时舍弃标记以及如何相应地重新排列句子。此外,语法上某些标记可能暗示所描述的特征属于某个对象,但这并非总能自动识别。
相关研究工作
近年来,在提高中文到英文的机器翻译方面做了大量工作。具体包括:
- 语料库和词表开发 :开发了许多有用的平行语料库和词表。
- 话语标记识别改进 :
- 一些项目开始
超级会员免费看
订阅专栏 解锁全文
97

被折叠的 条评论
为什么被折叠?



