词移距离(WMD)算法理解注意点

本文参考论文介绍文本相似度度量的词移距离(WMD)。主要包含三点:用Word2Vec计算词间距,nBOW词袋法计算的词频概率参与计算得到词的相关值,通过线性规划计算单个文本到另一文本的转移矩阵,将问题转化为线性规划计算。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  本文参考不抄袭:文本相似度度量——词移距离(WMD)
  看了下论文From Word Embeddings To Document Distances

主要有三点:

  1. Word2Vec计算词间距 c ( i , j ) c(i,j) c(i,j)
  2. nBOW词袋法计算的词频概率参与计算,为能得到第i个词的 d i d_{i} di
  3. 线性规划计算单个文本到另外一个文本的转移矩阵 T i j T_{ij} Tij

也就是对于要对比的两个文本,词嵌入一个矩阵,词袋法一个矩阵,最后计算求得 T i j T_{ij} Tij,进而计算问题转成 线性规划计算,具体见论文。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值