
话题模型
Ayang777
How to make topic model great again?
Change the way thinking in data !
展开
-
Identifying and Tracking Sentiments and Topics from Social Media Texts during Natural Disasters
作者提供了数据和代码(不是很多):https://goo.gl/uee3QK按照惯例,不解释技术细节,只介绍文章的问题和方法,先看图:location-based dynamic sentiment-topic model (LDST)——考虑了地点,情感和话题的动态模型(动态主要提现在地点的变化,引起的情感和话题的变化)and Tracking Sentiments an翻译 2017-11-24 16:23:09 · 214 阅读 · 0 评论 -
sequence topic model
probabilistic topic model for sequence data 考虑到bag of word 的单词顺序可交换性的限制,所以考虑存在话题的依赖关系,也即是单词的话题分配受到前一个单词的影响,提出了sequence topic model,参数和模型的优化过程如下图:a为原始的LDA,单词的话题分配是独立的;b为token-bigram,即双词话题构成,即单...翻译 2018-09-27 10:24:21 · 434 阅读 · 0 评论 -
Enhancing Sentiment Analysis Using Community Detection
利用关键词{community,sentiment}作为关键词,只能检索到这三篇文章,所以可以简单的认为这并不算一个非常热门的研究问题,这里简要对这三篇文章进行阅读。 第一篇:Community detection seeks to find groups of associated individuals within networks, and sentiment analysis a...翻译 2018-09-27 10:25:07 · 190 阅读 · 0 评论 -
JST :Joint sentiment topic model & ASUM :Aspect sentiment unification model
Joint sentiment /topic modelJST模型从文本检测情感和主题 之前的工作缺点:基于机器学习的情感分类需要大量的人工标记; 一个领域训练的情感分类模型不能很好地应用于另一个领域; 主题/特征检测和情感分类经常分开来进行,忽略了它们的相互依赖性。JST 同时建模话题和情感 情感分析可以分为三类:积极,消极和neutral。更细粒度的可以分析单个用户对特定it...翻译 2018-09-27 10:29:50 · 3527 阅读 · 3 评论 -
Targeted Topic Modeling for Focused Analysis
Targeted Topic Modeling for Focused Analysis和KDD16的psudo-topic的短文本话题建模方法类似,主要为了解决稀疏性问题。目前:工作的中心是全数据中的全话题的全局分析;缺点:需要特定方向的细节分析(targeted aspects)提出:targeted topic model - 基于兴趣(目标)的细粒度话题分析 问题描...翻译 2018-09-27 10:38:19 · 295 阅读 · 0 评论 -
Temporal Context-Aware Model
Temporal Context-Aware Model在前面,这篇论文提到文章“TimeUserLDA”model,并指出模型assumes that user posting behaviors are influenced by both user interest and global topic trends,即讲用户的post行为也分为两个因素,但是模型将两类话题映射到同一个潜在话...翻译 2018-09-27 10:54:07 · 433 阅读 · 0 评论 -
Variational inference
bayes推断最麻烦的就是对概率密度的计算,相比较于MCMC算法,VI具有更快的速度,也更能理解——我们需要近似出概率密度。首先假象一个密度簇,然后找到对应的组成部分,接近目标,KL散度用来评估,需要不断优化。 在贝叶斯统计中,未知量的计算都可以看作(涉及)后验概率密度的推断,p(z, x) = p(z)p(x | z). 先验和似然的乘积得到全概率。 对比采样,我们的主要实...翻译 2018-09-28 08:58:20 · 265 阅读 · 0 评论 -
Improving Topic Models with Latent Feature Word Representatio
Improving Topic Models with Latent Feature Word Representatio 先介绍了LDA和DMM两种模型,其中DMM比较独特,因为他假设文档只有一个话题,即单个文档中所有单词的多项式分布是一致的(对应于一个话题),所以生成过程是,先为文档生成话题,然后基于该话题分布生成单词。Θ是K维的向量,而不是K*D的矩阵。 这篇文章结合预先训练...翻译 2018-09-28 08:58:13 · 452 阅读 · 0 评论 -
词共现网络
今天看三篇文章:一,实时词共现的微博话题发现话题分布的两种方法,LDA(概率)和聚类。其中,wordgraph就是聚类方法,结合single-pass过程,基于信息的流时序特征和上下文相关度,探听新话题的产生和话题的演变。这篇文章基于图模型,词共现图和single-pass思想结合。词共现网络的构建基于单词x,y同时出现在一句话中,即现有单词集合和词关系矩阵,结合时间系数权重计算。构造...翻译 2018-09-28 08:58:07 · 10250 阅读 · 0 评论 -
Streaming Gibbs Sampling for LDA (SGS)
主要两个重点,分布式和流处理,其模型主要的思想和SVB是相同的, 流:后验作为先验,前n-1的数据后验作为n的先验,且只需要保存Nkv的值,加到β上。另有衰减参数, 分:参数服务器模式,Nkv作为全局参数,保存在中心服务器,worker计算结果后,返回并更新参数,异步更新,计算用到Nkv和Wt,以及α先验。 话题模型中需要的主要三个参数,分别是Nkd,Nkv,Nk,其中Nk...翻译 2018-09-28 08:58:23 · 221 阅读 · 0 评论 -
SDA(Streaming,Distributed,Asynchronous) Bayes
SDA贝叶斯框架包括三个部分(内容),分别是流式计算,分布式处理和异步更新的贝叶斯推断模型。为了可以满足普遍性,需要本地化的近似函数A,给定了全局参数先验和并实现了A,SDA框架就可以运行了。那么,分别介绍这三个主要内容吧! 1, Streaming updating考虑贝叶斯规则,假设数据C1={x1,x2,...,xs}:P(Θ1|C1)=先验*释然/观测量假设我们的数据是批量...翻译 2018-09-28 08:58:27 · 358 阅读 · 0 评论 -
变分贝叶斯学习
记录两个学习档案:https://www.leiphone.com/news/201703/cUbfLxKPgy7ecqku.html https://www.leiphone.com/news/201703/djm3u9LLqylr3C8N.html?type=preview希望有生之年能够看懂吧!!更希望可以看懂Streaming Variant Bayes。我现在是概率贝叶斯学派...原创 2018-09-28 08:58:31 · 1404 阅读 · 0 评论 -
Identifying and Tracking Sentiments and Topics from Social
作者提供了数据和代码(不是很多):https://goo.gl/uee3QK按照惯例,不解释技术细节,只介绍文章的问题和方法,先看图:location-based dynamic sentiment-topic model (LDST)——考虑了地点,情感和话题的动态模型(动态主要提现在地点的变化,引起的情感和话题的变化)论文假设存在作者,地点和文档集合,对于特定时间戳,利用...翻译 2018-09-27 10:21:03 · 172 阅读 · 0 评论 -
Time-Aware User Identification with Topic Models
这篇文章的应用场景(问题)是针对当个账号对应多个用户的情况,现实的举例为网络电视中,家庭账号,所有成员使用。如果可以识别出用户,可以可以从基于账号的服务改变为基于用户的服务——学习系统需要知道用户数量,但是不知道哪个用户在线(active)——作者基于LDA模型,联合构建用户的item consumption profile和time consumption profile,从而识别用户。 ...翻译 2018-09-21 16:09:57 · 181 阅读 · 0 评论 -
Learning representation for personalization
IR-web search 领域的用户表示,考虑用户检索的主题和行为分析(后者很有参考意义) 潜在变量模型,表示用户信息,同时构建(build)用户数据(user profile)有助于基于服务的个性化。即结合了用户的话题兴趣和检索任务行为(coupling user topical interests with their search task behavior)——基于任务的用户...翻译 2018-09-21 16:09:00 · 249 阅读 · 0 评论 -
Personalized Time-Aware Tweets Summarization
一篇看了三天的文章,不是因为文章本身的难易程度,而是我个人的执行效率太慢了。论文地址首先,这篇文章的问题是要对用户的发表的短文生成摘要,选择最具代表性的推文,其实关注用户兴趣的变化和迁移。为了实现,(a) novelty (b) coverage 和 (c) diversity 等要求,结合了协同过滤的方法和用户兴趣来源于“社交圈”的假设。“社交圈”说明类似于“ego network”,即...翻译 2018-09-26 09:18:02 · 233 阅读 · 0 评论 -
A Cluster-Based Topic Model-theis
将文档的群组信息,也结合到话题建模的过程中,考虑到多层次的LDA,构成了文档、群组和语料库的话题分布层次。当群组的个数已知的时候,群组生成是c维度的概率向量,联合分布概率可以表示为:单词w,话题z和群组c:这里Nwt为单词分配为话题t的个数,Ntd为文档中话题t的个数,Nc为群组c中的话题个数。可以知道,这里每个文档只有一个群组标签,所以有生成概率为:所以得到分布:且:...翻译 2018-09-26 09:20:20 · 196 阅读 · 0 评论 -
An Event Extraction Model based on Timeline and User analysis
论文 SIGir14的一篇短文:结合term权重和用户的重要程度的话题模型,用以事件的提取:算法上,将term权重(卡方验证和频率)与单词采样结合;用户得分(HITS的重要用户和活跃用户)和话题采样结合。思路很直观,效果也还可以,考虑到这个问题:是否可以将用户影响力和话题建模结合起来。 引用文献中:ACL`12的文章“Finding Bursty Topics ...翻译 2018-09-26 09:36:35 · 147 阅读 · 0 评论 -
personal medical event extraction
利用用户医疗文本挖掘用户个人疾病相关的事件,这个系统,流水线模式:1,时间提取 -》 event extraction2,时间线结构生成 -》 temporal tagger and resolver首先是基于term的相关文本探测和过滤,然后根据相关文本对term进行优化(互相吸收过滤),最后进行聚类(用到lda,word2vec)等方法;然后是时序的生成,采用了时序表达的...翻译 2018-09-26 09:37:40 · 196 阅读 · 0 评论 -
life event identification using semantic and syntactic graph
很久没有看论文了,今天看一下“life event identification using semantic and syntactic graph”。 问题:generate brief automated biographies for the users based on their generated content困难: amount,mention a life even...翻译 2018-09-26 09:40:38 · 193 阅读 · 0 评论 -
Incorporating Word Correlation Knowledge into Topic Modeling
开始没有仔细看的时候,也不懂MRF的应用,学习细节才知道重点。论文简单描述MRF-LDA的场景:首先,假设话题的粉笔θ,以及单词分布β都服从狄利克雷分布,每个单词具有话题标签z。提取单词的关联关系,主要是语义的相似性,用来学习话题的一致性。所以用到了MRF,在潜在话题层。给定文档d和N单词,判断单词对(根据外部知识)创建无向边连接他们的话题标签,获取图G和单词标签。如下图的5个节点,4条边...翻译 2018-09-26 09:44:37 · 226 阅读 · 0 评论 -
short text model
北航的同行,去年连续发了三篇论文,都是和短文本处理相关的。链接分别是:第一篇,用到co-occurrance第二篇1 , 第三篇,用替代文本(伪文档)代替话题和短句 第一篇,将短文本和场文本的分类区别开:A topic model for co-occurring normal document and short texts其基本思想是,短文本除了有基础话题(fo...翻译 2018-09-26 09:55:30 · 831 阅读 · 0 评论 -
Incorporating Tweet Relationships into Topic Derivation
这篇文章的精髓,大约在这几句话:(胜率tweet相关性判断部分)While expanding the content of the tweets using external documents seems to be ideal.....expanding the tweet content by adding the words from the related tweets(解决稀疏性...翻译 2018-09-27 10:19:19 · 120 阅读 · 0 评论 -
LDA学习
收藏:模型建立:http://blog.youkuaiyun.com/happyer88/article/details/45936107变量求解:http://blog.youkuaiyun.com/happyer88/article/details/46405399/变分推断:http://blog.youkuaiyun.com/happyer88/article/details/46438111/模型参数:ht...翻译 2018-09-27 10:19:11 · 295 阅读 · 0 评论 -
A Non-Parametric Topic Model for Short Texts Incorporating&nb
BTM 模型的变种,思路是解决BTM的两个基本问题:1,话题个数不确定,需要手动设置;2,没有区分biterm的类型,即general和topical话题。采用的方法有为:对于问题1,利用中国餐馆问题,crp,动态的生成话题(类似HDP?);对于问题2,通过PMI,单词对互信息量评价单词的相关性,其假设为topical单词的互信息量更高。——借鉴意义:话题确实需要细化,个数?类型?——提到...翻译 2018-09-21 16:06:59 · 341 阅读 · 0 评论 -
Concept based short text classification for topic drifting detection
处理短文本的主要两种思路:1,基于隐藏特征或统计信息的特征空间拓展;2,基于外部资源 本文提出的方法依然是基于第二种,引入外部数据 利用新的数据概念图谱数据库,对短文本信息进行概念拓展,基于概念特征空间,对文本进行聚类,结合集成学习的方法训练分类器,聚类作为话题研究,话题的相似度判断话题的迁移。 总结:思路和方法都很清楚,虽然觉得内容并不算很多,但是其中的概念图谱数据库Pr...翻译 2018-09-21 16:08:34 · 252 阅读 · 0 评论