理解Doc2Vec的一些提示

本文深入解析Doc2Vec的原理与实现,强调理解Word2Vec的重要性,并提供资源链接,包括Word2Vec的简易解读及Doc2Vec原始论文。通过一张关键图表,详细阐述Doc2Vec如何利用矩阵DDD和WWW进行文本向量化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

启文

  Doc2Vec思想源于Word2Vec,Doc2Vec论文中只说明灵感来源于Word2Vec,但是没说明具体怎么实现,我对Word2Vec理解算比较深的了,看了老久没看懂论文Doc2Vec,怀疑是翻译能力问题,百度了一下中文的解释。然后还是在论文中的图解释上看懂了,注意力忽略了。

提示

  1)要看懂Doc2Vec必须先看懂Word2Vec,word2Vec原始论文很少有人看得懂,给我另外一篇文章简单易懂解释Word2Vec:
https://blog.youkuaiyun.com/LearnToPain/article/details/106587785
  2)Doc2Vec原始论文的下载路径:
https://cs.stanford.edu/~quocle/paragraph_vector.pdf

Doc2Vec

全论文就这张图是灵魂:
在这里插入图片描述
这下面是上图字母的部分解释:
在这里插入图片描述

解释

英文不想看?没关系,这里解释一下,
   D D D是一个矩阵,如果以文章为单位,矩阵的列数是文章数;如果以段落为单位,矩阵的列数是所有文章合并(串一起)后的段落数(如果只有一篇就不用合并了);如果以句子为单位,矩阵的列数是所有文章所有句子的合并(串一起)后的句子数。每一列就是一篇文章(或者段落,或者句子)。
   W W W也是一个矩阵,和 D D D不同,图中的3个 W W W都是同一个矩阵,这个矩阵是记录所有的文章合并后的词的向量,换句话说就是列数就是总的词样个数(词去重后的个数)。

这里有个特殊说明:图中的 “the”、“cat”、“sat”,都是paragraph id 对应段落中的词。

理解到这里就已经很清楚了,结合Word2Vec的过程,就很容易理解向量是怎么训练出来的了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值