
【算法】LDA之我见
文章平均质量分 90
爱科研的徐博士
中科院博士,助理研究员,专注于多模态+NLP,热爱科研,想成为你的科研小助手~
我相信:所谓的不平凡就是平凡的幂次方
展开
-
LDA的演变1--从算法层面来介绍LDA的由来或者说发展
主要是从算法层面来介绍LDA的由来或者说发展 文本挖掘的研究对象是文本,比如对文本进行分类或者情感分析等。由于文本是一种非结构化的数据,这样就不利于计算机的处理,所以研究者们开始对文本进行数字化处理。 最开始比较简单的方法是tf-idf方法。tf-idf机制可以将任意长度的文档转化为固定长度的向量(固定长度为词典中的词汇数),可以简明易懂地将每个文档表示出来。虽然tf-idf方法可已经...原创 2018-07-05 16:56:02 · 1690 阅读 · 0 评论 -
LDA的演变2--从模型假设方面理解LDA的由来
从模型假设方面理解LDA的由来预先知识在介绍之前,先给出频率派和贝叶斯派各自不同的思考方式:频率派把需要推断的参数θ看做是固定的未知常数,即概率θ虽然是未知的,但是最起码是一个确定的值,同时,样本X是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X的分布;贝叶斯派的观点则截然相反,他们认为待估计的参数θ是随机变量,服从一定的分布,而样本X是固定的,由于样本是固定的...原创 2018-07-05 16:55:12 · 915 阅读 · 0 评论 -
LDA的研究点
一、来自知乎的回答参考链接:点击这里经典的LDA主题模型实现了文本的软聚类的工作,将文档转化为基于主题的数值向量,每个维度上的主题概率取值就是对特定主题的聚类中心的隶属度。由于LDA主题模型提出较早,所以作为基础模型有了很多改进和创新,技术上总结下来有以下几个方面: 短文本的处理和优化 考虑主题随时间变化的情况 考虑按照时间排序的文章之间在主题分布上有连贯性 考虑主题之间存在相关性...原创 2019-03-18 18:02:50 · 575 阅读 · 0 评论