
NLP
文章平均质量分 52
ElienC
这个作者很懒,什么都没留下…
展开
-
gensim conherence model C_V 值与其他指标负相关BUG
若从C的doc中的词汇[w_doc1_1,w_doc1_2,....w_docN_1,w_docN_2...]中随机抽取词汇并组成m个文档作为主题的话,这m个C_V值与其他指标是负相关的。再进一步分析,当使用一份语料库C=[doc1,doc2...docN]作为参考文本,并且评价主题以从C抽取m个doc原文当作m个主题的话,这m个C_V值与其他指标是正相关的;但我发现,我电脑里的gensim(版本3.8.1),gamma本来就是1,因此负相关不完全是这个gamma的原因。因此,C_V值的bug仍没有答案。原创 2023-07-26 18:37:42 · 1532 阅读 · 0 评论 -
多项分布的指数分布族形式的一个小坑
其中第三种形式才是标准形式,可解决上述问题。对于第三种形式,伯克利的课件(https://people.eecs.berkeley.edu/~jordan/courses/260-spring10/other-readings/chapter8.pdf)在公式8.28~8.33中给了推导过程,只需注意下这个推导过程默认∑X=1,维基中∑X=n。)的对ELBO关于自然参数进行求导时,遇到了多项分布的指数家族分布形式的log-partition function 为0的问题,使得课件的公式不再成立。原创 2023-03-28 17:23:49 · 298 阅读 · 1 评论 -
国内外语料库收集
变分推断概述,分一、二两部分,搬运自两篇不同文章,内容会有重复,本文为第一篇,转自:https://www.zhihu.com/question/31032863/answer/315311293个人收藏学习使用,侵删-----------------------------------------------------------------------------一般的problem setting是,我们想计算posterior (这在做inference和prediction..原创 2021-11-06 19:35:51 · 961 阅读 · 0 评论 -
如何找到好的主题模型量化评价指标?这是一份热门方法总结
来源:http://www.45fan.com/article.php?aid=20020586166334499146347368个人学习收藏,侵删------------------------------------------------------------------------基于统计学的主题模型诸如 LDA(Latent Dirichlet Allocation),Biterm 的应用使得针对大量文本进行信息的总结提取成为可能。但是提取的主题到底质量如何,如何进行量化分析和评价转载 2021-09-23 17:23:08 · 1269 阅读 · 0 评论 -
LDA变分推断笔记
1、在变分推断LDA里,隐变量θ直接使用了γ来推断,所以在EM迭代的时候得到的γ被近似认为就是隐变量θ。不需要在由q(θ|γ)采样生成原创 2021-02-01 00:22:28 · 266 阅读 · 0 评论 -
LDA困惑度perplexity的一些个人理解
1、根据gensim3.8.3的源码,log_perplexity()输出的是perwordbound,而perwordbound计算步骤如下:先调用 bound() ,通过一个chunk的语料W⃗\vec{W}W计算整个语料库的对数似然值logp(W⃗)logp(\vec{W})logp(W)的下界,即Eq[logp(W⃗)]−Eq[logq(W⃗)]Eq[logp(\vec{W})]-Eq[logq(\vec{W})]Eq[logp(W)]−Eq[logq(W)] 。然后用算出的bound除以整个原创 2020-12-13 23:35:10 · 4882 阅读 · 9 评论 -
Gensim官方教程翻译(二)——语料库与向量空间(Corpora and Vector Spaces)
译文出处:https://blog.youkuaiyun.com/questionfish/article/details/46739207官方教程原文:http://radimrehurek.com/gensim/tut2.html仅作个人学习资料备份,侵删====================正==========文====================如果你想记录日志,请不要忘记设...转载 2019-05-01 11:56:01 · 383 阅读 · 0 评论 -
gensim corpora的简单使用
作者:Yolen_Chan来源:优快云原文:https://blog.youkuaiyun.com/Yolen_Chan/article/details/84934928---------------------本文将展示gensim的一些用法。python环境:Anaconda3(Python3.7)使用gensim做自然语言处理的一般思路是:使用(处理)字典 ---->...转载 2019-04-26 16:47:42 · 3399 阅读 · 2 评论 -
gensim进行文本相似度比较两例
1.1 eg.1:#-*- coding: utf-8 -*-#example 1:#将corpus以及query语料变换成bow向量,然后将bow向量变换成LSI主题模型向量,#最后计算corpus的向量相对于query的向量的余弦相似度,并排序输出。#reference: https://blog.youkuaiyun.com/l7h9ja4/article/details/80220939...原创 2019-04-30 15:21:46 · 1442 阅读 · 0 评论 -
Bag-of-words模型、TF-IDF模型
转自https://www.cnblogs.com/ljygoodgoodstudydaydayup/p/5969417.html侵删--------------------Bag-of-words model (BoW model) 最早出现在NLP和IR(information retrieval)领域. 该模型忽略掉文本的语法和语序, 用一组无序的单词(words)来表达一段文字...转载 2019-04-29 10:35:30 · 209 阅读 · 0 评论