cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information

Abstract

我们提出了一种新的汉字嵌入学习方法cw2vec。根据我们的观察,笔划层次的信息对于提高汉字单词嵌入的学习是至关重要的。具体来说,我们设计了一种极简主义的方法来利用这些特征,通过使用笔画n-gram来捕捉汉字单词的语义和构词层面的信息。通过定性分析,我们证明了我们的模型能够提取现有方法无法捕获的语义信息。在单词相似性、单词类比、文本分类和命名实体识别任务方面的实验结果表明,该方法始终优于基于词的word2vec和GloVe、基于字符的CWE、基于组件的JWE和基于像素的GWE等最先进的方法

1. Introduction

近年来,词汇表征学习在自然语言处理领域得到了广泛的关注。与传统词语的独热表示不同,低维分布式词语表示(也称为单词嵌入)能够更好地捕获自然语言单词的语义。这类表示在某些下游NLP任务如文本分类,命名实体识别,机器翻译等任务中非常有用。因此,设计能够很好地捕捉单词语义的单词表示学习方法是至关重要的。

现有的方法只专注于基于上下文信息的表征学习,其中单词被视为原子标记。最近,研究人员也开始研究如何结合子词级信息来更好地捕捉词义。虽然这些方法被证明是有效的,但它们主要侧重于使用拉丁文字的欧洲语言,如英语、西班牙语和德语。因此,所开发的方法并不直接适用于使用完全不同的书写系统的语言,如汉语。

在汉语中,每一个单词的字符数通常少于英语,在英语中,每一个字符都传达着丰富的语义信息。鉴于汉语单词和汉字丰富的内部结构,人们提出了利用字符级信息的方法来学习汉语单词嵌入。然而,这些信息是否足以恰当地捕捉单词的语义信息呢?是否有其他有用的信息可以从单词和字符中提取以更好地对单词的语义建模?

对于词汇的内部结构信息,我们认为仅靠字符是不足以捕捉语义信息的。例如,如图2所示,两个单词“timber”和“forest”在语义上是紧密相关的。然而,“木材”是由“木材”和“材料”两个字组成的,而“森林”是由“树木”和“丛林”组成的。如果只考虑字符级别信息,则这两个单词之间不存在共享信息,因为它们由不同的字符组成。

而人工定义的提取偏旁部首等子词信息的规则可以被利用,这些信息可能是不完整和嘈杂的。如图1 (a)所示,“sun”是“intelligenc

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值