[NLP]使用LDA模型计算文档相似度

最新推荐文章于 2024-07-09 16:09:04 发布

原创

最新推荐文章于 2024-07-09 16:09:04 发布 · 1.7w 阅读

69 ·

CC 4.0 BY-SA版权

文章标签：

#nlp #lda

LDA（Latent Dirichlet Allocation）是一种无监督学习算法，用于主题建模，尤其在文本挖掘中广泛应用于主题识别、分类和相似度计算。由Blei等人于2003年提出，LDA假设每篇文档包含多个主题，每个主题由一组词语描述，词与词之间独立。实现上，LDA基于词袋模型，忽略词语顺序，通过指定主题数量来分析文档集。

定义

wiki关于lda的定义：

隐含狄利克雷分布简称LDA(Latent Dirichlet allocation)，是一种主题模型，它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法，在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是，对于每一个主题均可找出一些词语来描述它。
LDA首先由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出，目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。

lda也是一种典型的词袋模型，它假设每一篇文档都是一组词的集合，并且词与词之间没有顺序和先后关系。一篇文章可以包含多个主题，文档中的每一个词都是由其中的一个主题生成。

实现

import codecs
from gensim.models import LdaModel
from gensim.corpora import Dictionary
from gensim import corpora, models
import numpy as np
import jieba
imp

最低0.47元/天解锁文章

16 条评论

weixin_44866222 2021.05.22
请问结果显示：<function lda_sim at 0x0000028B8773EA60>是什么问题呀？
- weixin_44866222回复weixin_44866222 2021.05.22
  应没有输出相似度值呢，但是也没报错~

imissyoualways 2021.03.25
这个代码有问题叭两个向量长度不一样

xiaopang980209 2021.02.01
楼主，可以加个联系方式交流一下吗

weixin_44426551 2020.03.28
求tutorials.data_这个源代码邮箱298347717@qq.com

kingcobra2019 2020.02.07
楼主，求一份文本数据集....邮箱时511495043@qq.com

weixin_40245436 2019.04.24
楼主，两个向量长度不一样啊？

Lemon** 2019.04.08
请问楼主，使用LDA可以计算词语之间的相似度吗

Mikael_旧少年 2019.03.09
楼主，两个向量长度不一样啊？

xzyt 2018.11.14
会出BUG——UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 2: invalid continuation byte求问作者大大应该怎么解决？

不能说的便秘 2018.04.29
为啥算出来两个向量长度不一样啊？
- artimiselene回复不能说的便秘 2018.07.27
  [reply]u013409355[/reply] 因为lda模型参数里有个minimum_probability，默认值0.01。改成0就会输出和topic数量一致的维度了
- android_ruben回复hunttown 2018.05.11
  [reply]hunttown[/reply] 这是哪段代码出的问题
- hunttown回复不能说的便秘 2018.05.11
  [reply]u013409355[/reply] 我也出现这个问里了，你解决了吗？