各类词嵌入的优缺点

本文分析了不同类型的词嵌入模型,包括Word2Vec的CBOW和Skipgram,Glove,FasterText,以及上下文依赖的ELMo和BERT。非上下文模型如Word2Vec和Glove在处理局部信息和词汇表内词方面表现出色,但对词汇表外词和全局上下文的表示有限。FasterText通过字符n-gram改进了这一点。上下文模型如ELMo和BERT则能捕捉更丰富的语义和双向上下文,尤其是BERT,但训练成本高,参数量大。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

各类词嵌入的优缺点

1 非上下文

(1) Word2Vect

Word2Vec模型可以为一个单词创建相同的表示向量,而不必关心其上下文和含义;其中包括两种模型:跳跃- gram和连续BOW。Skipgram模型表示基于目标词的周围词。CBOW模型使用上下文词来表达目标词。

a. Continuous BOW

优点:简单直接,耗费资源少,在大数据上有效地表示单词的语义
缺点:仅仅考虑了局部语义信息,不能够表示词表以外的单词

b. Skipgram

优点:可以创建具有丰富语义的词语表示;可以捕捉单词之间的相关性
缺点:不能很好地使用全局上下文信息词;无法表示词表以外的词

(2) Glove

GloVe是利用整个语料库中的词出现统计信息,并基于这些统计信息使用神经网络对词进行表示而生成的词表示模型。该模型的思想源于对词语的潜在语义分析。
优点:可以捕获局部和全局上下文信息;有效地表示单词的语义和句法
缺点 :无法表示词表以外的词

(3) FasterText

FastText 通过计算单词中出现的字符 n 元语法嵌入的总和来表示目标单词。在大多数任务中,FastText 模型可以通过主要利用句法信息来创建比 skip-gram 模型更丰富的句法表示。但是&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值