word2vec(嵌入空间)

本文通过图书馆摆书的例子引入word2vec,阐述词向量的表征方法,包括one-hot和低维嵌入,并讨论word2vec在NLP中的重要性和存在的问题,如歧义处理。提到了腾讯AI Lab的中文词向量数据,以及词表征优化的最新研究ELMo和BERT。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1  word2vec

本文会通过 图书馆 图书排布的例子引入词的表征,继而通过最小化借书成本过渡到skip-gram的模型,阐述word2vec训练和最小化信息熵的关联

词表征? 词嵌入 ? 词向量 ? word2vec ?

  • 词表征是比较宽泛的概念,词可以通过各种方式来表征,比如one-hot 比如 词嵌入 等等
  • 词嵌入特指由神经网络模型得到的低维实数向量表示
  • word2vec 用来训练词嵌入或者低维向量表示的工具,或者是指通过(cbow/skip-gram)训练词向量的工具

1.1  word2vec小例子

1.1.1  腾讯词向量

腾讯AI Lab此次公开的中文词向量数据包含800多万中文词汇,一共大约有6个多G,中每个词对应一个200维的向量。相比现有的中文词向量数据,腾讯AI Lab的中文词向量着重提升了以下3个方面,相比已有各类中文词向量大大改善了其质量和可用性

In [1]:

'''
加载预训练的词向量
'''
import gensim
model = gensim.models.KeyedVectors.load_word2vec_format('data/Tencent_AILab_ChineseEmbedding.txt',binary=False)
#model = gensim.models.KeyedVectors.load_word2vec_format('data/test.txt',binary=False)

#print(model['你好'])

In [79]:

# new_model = gensim.models.Word2Vec.load('./mymodel')

# 词向量展示


y0 = model[u'机器学习']
print "【机器学习】的词向量"
print y0
print "-----------------------------------------------------------------------\n"

# 计算两个词的相似度/相关程度
y1 = model.similarity(u"刀削面", u"拉面")
print u"【刀削面】和【拉面】的相似度:", y1
print "-----------------------------------------------------------------------\n"

# 计算某个词的相关词列表
y2 = model.most_similar(u"内马尔", topn=20)  # 20个最相关的
print u"和【内马尔】最相关的词有:\n"
for item in y2:
    print item[0], item[1]
print "----------------------------------------------------------------------\n"

# # 寻找对应关系
print ' "男人" is to "爸爸" as "女人" is to ...? \n'
y3 = model.most_similar([u'女人', u'爸爸'], [u'男人'], topn=1)
for item in y3:
    print item[0], item[1]
print "----------------------------------------------------------------------\n"

# more_examples = ["he his she", "big bigger bad", "going went being"]
# for example in more_examples:
#     a, b, x = example.split()
#     p
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值