
主题模型
文章平均质量分 78
云南省高校数据化运营管理工程研究中心
这个作者很懒,什么都没留下…
展开
-
MCMC抽样与LDA参数求解
一、 MCMC抽样也许读者会觉得诧异,为什么在一本介绍主题模型的书中却看到了抽样的知识?作者是不是偏题了?答案当然是没有。相信你应该听说过有一门课程叫做统计学,在这门课程中,抽样占据着举足轻重的地位。当统计学的研究者们想要了解一个总体的某些参数时,他们的方案是,先去抽样获得样本,通过样本参数去估计总体参数。比如,想知道某财经高校学生们(总体)的平均月消费水平(总体参数),做法是:a.先...原创 2018-03-09 16:56:58 · 770 阅读 · 0 评论 -
LDA基础知识系列 ----(1)共轭先验分布
理解LDA,可以分为下述5个步骤: 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA、LDA 一个采样:Gibbs采样 本节以简单明了的叙述方式,讲述先验概率、似然函数、后验概率、同分布,Beta-Binomial共轭等共轭先验分布内容,对必要的推导,讲述其注意事项,避免跳原创 2017-12-29 21:19:36 · 1734 阅读 · 0 评论 -
PCA主成分分析(入门计算+深入解析)(一)
PCA主成分分析(入门+深入)+最大方差理论+几何意义Principal components analysis转载请注明:云南省高校数据化运营管理工程研究中心博客http://blog.youkuaiyun.com/m0_37788308/article/details/78115209 我们在作数据分析处理时,数据往往包含多个变量,而较多的变量会带来分析问题的复杂性。主成分分析(Prin原创 2017-09-27 17:28:21 · 64219 阅读 · 7 评论 -
PCA主成分python(代码详细备注)(三)
PCA算法+python实现(法一)步步详细解析(法一)步步详细解析 +(法二)scikit-learn快速实现方法1. 编程一步一步实现Software version: Python 2.7.12 |Anaconda 4.2.0 (64-bit)|我们以定义函数的形式来一步一步进行1.1 导入模块:Numpy,Pandas# -*- coding原创 2017-09-27 17:29:54 · 7498 阅读 · 7 评论 -
隐性语义索引LSI
Latent Semantic Idexing,译为隐性语义索引,也可译为潜在语义索引,简称LSILSI;有的文章也叫Latent Semantic Analysis,译为隐性语义分析,也可译为潜在语义分析,简称LSALSA)。两者是一个东西,后面我们统称LSILSI。隐性语义索引,是在信息检索领域提出来的一个概念,是近年来逐渐兴起的不同于关键词检索的搜索引擎解决方案,其通过海量文献找出词汇之间原创 2017-09-27 17:35:19 · 3722 阅读 · 0 评论 -
LDA前言知识
在 2003 年(准确地说应该是 2002 年)D. M. Blei1 提出的 LDA(Latent Dirichlet Allocation2)模型(翻译成中文就是——潜在狄利克雷分配模型),让主题模型火了起来。 LDA根据给定的一篇文档,推测其主题分布。通俗来说,人类根据文档生成过程写成了各种各样的文章,现在人们想让计算机利用LDA干一件事:计算机分析推测网络上各篇文章,分别都写了些啥主原创 2017-12-31 22:02:53 · 376 阅读 · 1 评论 -
PLSI主题模型
一、主题模型是什么 在讲PLSI主题模型前,我们先来看一个例子,理解一下什么是主题模型。这有两句话,第一句是‘乔布斯离我们而去了’,第二句是‘苹果价格会不会降’。如果是由人来判断,我们一看就知道这两个句子是有关联的,因为第一句中出现了乔布斯,所以我们自然而然地认为第二句中的苹果指的不是我们吃的苹果,而是电子产品的品牌苹果。但是如果我们采用传统判断文本相似度的方法来判断,并不会得到两者相似的结论,因原创 2017-09-27 17:40:02 · 3288 阅读 · 0 评论 -
从主题模型(Topic Model)到隐语义模型(Latent Factor Model)
在项亮的《推荐系统实战》中曾提到:隐语义模型(以下简称LFM)的算法最早是在文本挖掘领域被提出来的,用于找出文本的隐含语义。而在文本挖掘领域,主题模型(以下简称TM)正是用于找出文本中的隐含主题。由此可以推断LFM是由TM演变而来,TM是文本挖掘领域的专有名词,而LFM是推荐系统领域的专有名词,但其算法思想却是一致的。原创 2017-10-23 10:34:45 · 9747 阅读 · 0 评论 -
ALS(alternating least squares)交替最小二乘
ALS(alternating least squares)交替最小二乘 ALS算法是2008年以来,用的比较多的协同过滤算法。它已经集成到Spark的Mllib库中,使用起来比较方便。1 矩阵分解 用户对物品的打分行为可以表示成一个评分矩阵A(m*n),表示m个用户对n各物品的打分情况。如下图所示。 u\v v1 v2 v3 … u1 5 4 3 …原创 2017-10-10 19:55:41 · 6998 阅读 · 2 评论 -
主题模型系列课程
主题模型系列课程讲解视频ALS LFM隐语义模型 PLSI主题模型 EM算法1 EM算法2 LDA基础知识—共轭先验分布 LDA基础知识—Dirichlet 分布 马尔科夫链 mcmc与gibbs采样 gibbs与lda求解 逆变换采样和拒绝采样 GMM-HMM在语音识别中的应用...原创 2018-05-30 13:44:28 · 403 阅读 · 0 评论