21、自然语言处理中的词向量表示与模型实现

自然语言处理中的词向量表示与模型实现

1. 词频归一化

在自然语言处理中,为了使词频呈现非线性特征,常常会应用归一化方案。其中,BM25 是一种流行的归一化方案。对于较小的词频值 n,文档频率的贡献是线性的;随着 n 的增加,贡献会趋于饱和。在 BM25 中,词频的归一化公式如下:
[
BM25 = \frac{n}{k + n}
]
其中,k 是一个参数,不同的 k 值会使曲线呈现不同的形状,需要根据语料库对 k 进行优化。

2. 词的向量表示

2.1 基于词频的向量表示

文档可以用不同词的计数向量来表示,同样,语料库中的一个词也可以用向量表示,向量的每个分量是该词在每个文档中的出现次数。例如,在两个文档的语料库中,“The”这个词可以表示为二维向量 ([1, 1]^T)。在大规模语料库中,词向量的维度也会很大。词的相似度可以通过余弦相似度或点积来计算。

2.2 独热编码表示

另一种表示词的方式是独热编码。在这种情况下,每个词的维度是语料库中唯一词的数量。每个词对应一个索引,该索引位置的值设为 1,其余位置设为 0。这种表示方式非常稀疏,即使是相似的词,其设为 1 的索引也不同,因此任何相似度度量都无法有效工作。

2.3 Word2Vec

为了更好地表示词向量,捕捉词之间的相似度,并降低词向量的维度,引入了 Word2Vec。Word2Vec 通过将词与其相邻词作为上下文进行训练,将词表示为向量。在考虑它们的 Word2Vec 表示时,与给定词上下文相似的词会产生较高的余弦相似度或点积。

3. 连续词袋

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值