从n-gram到Bert聊一聊词向量:Word2Vec

本文详细介绍了Word2Vec模型,包括CBOW和Skip-Gram两种模式,训练步骤,参数矩阵,以及Hierarchical Softmax和Negative Sampling两种训练方法。Word2Vec通过构建词汇表、训练词向量来捕获词汇间的语义关系,其性能可通过词聚类、词cos相关性和Analogy对比进行评估。尽管它不考虑语序,但因其训练速度快和易用性而被广泛使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Word2Vec模型中有CBOW和Skip-Gram两种模式:

CBOW(多到一)是给定上下文来预测输入单词,训练方法为负采样

Skip-Gram(一到多)是给定输入单词来预测上下文,训练方法为哈夫曼树

 

训练步骤:

1.将输入的文本生成词汇表,统计词频选择前k个构成词汇表 vocab.txt。每个词对应生成one-hot向量,向量的维度是V

2.将输入的文本的每个词生成一个one-hot向量,如果不在词汇表中则向量全为0,保留每个词的原始位置

3.确定词向量的维度N

4.Skip-gram或CBOW的,模型训练

1)确定窗口大小window,对每个词生成2*window个训练样本,(i, i-window),(i, i-window+1),...,(i, i+window-1),(i, i+window)

例如:12345, win = 2, 词 3 .  (3, 1) (3, 2) (3, 4) (3, 5) 4个样本。

2)确定batch_size,注意batch_size的大小必须是2*window的整数倍,这确保每个batch包含了一个词汇对应的所有样本

3)训练算法有两种:层次Softmax和Negative Sampling

4)神经网络迭代训练一定次数,得到输入层到隐藏层的参数矩阵,矩阵中每一行的转置即是对应词的词向量

CBOW模型流程,假设 Courpus = { I drik coffee everyday } ,根据 “I”“drink”“everyday”来预测“coffee”

    

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值