
文本挖掘
zxhohai
学生党,学习提升ing
展开
-
再看LDA主题模型
之前学习文本挖掘时已经写过一篇关于主题模型的博客《文本建模之Unigram Model,PLSA与LDA》,前几天小组讨论主题模型时,又重新理解了一遍LDA,有了更深刻的认识,特记录一下。1、Unigram ModelUnigram model是最简单的文本模型,其直接将文本的生成过程看作是从一个词汇表中重复取词的过程。因此只要知道每个词的产生概率,就能计算出一篇文档的产生概率。假设一篇文档由...原创 2018-11-13 21:13:14 · 1010 阅读 · 0 评论 -
关联规则挖掘概述
在网上购物时,系统会主动推荐一些商品,赠送一些优惠券,并且这些推荐的商品和赠送的优惠券往往都能直抵我们的需求,诱导我们消费。这背后主要使用使用了关联分析技术,通过分析哪些商品经常一起购买,可以帮助商家了解用户的购买行为。从大规模数据中挖掘对象之间的隐含关系被称为关联分析(associate analysis)或者关联规则学习(associate rules learning),其可以揭示数据中隐藏...原创 2018-11-08 17:14:16 · 21771 阅读 · 2 评论 -
文本建模之Unigram Model,PLSA与LDA
LDA(Latent Dirichlet Allocation)是一个优美的概率图模型,可以用来寻找文本的主题。最近系统的学习了一下这个模型,主要参考了《LDA八卦》和July的博客《通俗理解LDA主题模型》。本文主要对文本建模进行梳理,其中的涉及的数学知识将在另外的博客中讲解。1、Unigram Model1.1、频率学派Unigram Model是最简单的文本模型,认为一篇...原创 2018-03-08 22:14:39 · 3605 阅读 · 0 评论 -
CCF ADL97《图计算》整理
万物皆关联。作为表达和处理关联关系的最佳方式,图和图计算已经成为人们的关注重点和研究热点,广泛应用于金融分析、社交分析、智慧交通等诸多领域。作为大数据处理的一种典型模式,图计算不仅对计算机体系结构提出了严峻的挑战,也对系统软件、数据管理和处理模式提出了重大挑战。11.17-18有幸在武汉参加了CCF组织的ADL97《图计算》讲座,一共7位学术界和工业界的著名学者围绕大图处理的系统架构、表达存储方式...原创 2018-11-21 21:35:33 · 2474 阅读 · 0 评论 -
Gensim简介
Gensim(generate similarity)是一个简单高效的自然语言处理Python库,用于抽取文档的语义主题(semantic topics)。Gensim的输入是原始的、无结构的数字文本(纯文本),内置的算法包括Word2Vec,FastText,潜在语义分析(Latent Semantic Analysis,LSA),潜在狄利克雷分布(Latent Dirichlet Alloca...原创 2018-11-30 21:50:12 · 24189 阅读 · 2 评论 -
主题模型(3)——PLSA模型及其EM算法求解
之前整理过两篇关于主题模型的博客《文本建模之Unigram Model,PLSA与LDA》和《再看LDA主题模型》,主要是整理了主题模型的由来和推导过程,关于模型参数怎么计算没有过多涉及,因此接下来将分两篇博客,分别整理PLSA模型和EM算法求解,LDA模型和Gibbs Sample求解。PLSA首先回顾下PLSA,作为生成模型,其在文本生成过程中,引入主题的概念,即先从KKK个主题中选定一个...原创 2019-03-01 22:01:02 · 2508 阅读 · 0 评论 -
表示学习(Representation Learning)之局部表示(Local Representation)与分布式表示(Distributed Representation)
一个良好的表示是内容充分高效表达的基础,作为沟通计算机与现实世界的桥梁,计算机行业人员每时每刻都在研究事物的表示。比如:编程语言,早期的机器语言和现在的高级程序语言可以看作是指令的两种不同表示方式,从可读性方面评价,两者的表达能力相差甚远。再比如:数据结构,其研究的正是数据在计算机中的高效表达与存储,如下图所示,我们可以采用链表和红黑树两种不同的数据结构对有序表进行存储。在对有序表进...原创 2019-03-25 23:10:50 · 6313 阅读 · 1 评论 -
主题模型(4)——LDA模型及其Gibbs Sample求解
之前关于主题模型整理了《文本建模之Unigram Model,PLSA与LDA》与《再看LDA主题模型》两篇博客,以及针对PLSA的求解整理了博客《主题模型(3)——PLSA模型及其EM算法求解》,这一篇博客将继续整理LDA(Latent Dirichlet Allocation)模型的Gibbs Sample求解方法。LDA回顾同样,首先回归下LDA模型的文档生成过程。我们知道,LDA在PL...原创 2019-05-19 16:32:16 · 1543 阅读 · 0 评论 -
层次主题模型——Hierarchical LDA
在LDA主题模型提出后,其在很多领域都取得了很成功的应用,如生物信息、信息检索和计算机视觉等。但是诸如LDA之类的主题模型,将文档主题视为一组“flat”概率分布,一个主题与另一个主题之间没有直接关系,因此它们能够用于挖掘语料中蕴含的主题,但是无法发现主题之间的关联和层次。对于每一篇文档,主题层次是显而易见的,是一个由粗到细,由宽泛到具体逐渐层层递进,逐渐细化。于是,LDA的作者Blei教授在LD...原创 2019-07-05 12:07:45 · 6842 阅读 · 7 评论