LDA在短文本（twiter）应用

最新推荐文章于 2023-07-29 17:50:02 发布

原创最新推荐文章于 2023-07-29 17:50:02 发布 · 4.8k 阅读

3 ·

CC 4.0 BY-SA版权

本文探讨了LDA主题模型在Twitter上的应用效果，通过三种不同的文档构建策略进行了实验对比。结果显示，在短文本分类任务中，以用户为单位聚合推文的LDA模型表现最优；但在用户级别的推文分类中，TF-IDF却优于主题模型。实验还验证了长文档训练对于提升主题模型性能的重要性。

参考文献《empirical study of topic modeling in twitter.》
这个文章考察了LDA在twitter中的应用，用的是最原始的LDA，关键点在于如何融合出合适的维度的训练集合，以及不同方式训练出的LDA的效果
训练集合的融合策略有

1.直接单条twit

2.同user的twit作为一个doc

3.出现同term的twit作为一个doc

值得关注结论主要有3点

1.按以上3种方式融合生成doc，训练出的topic差异比较大，其中1的T数量大于2和3

2.对于单个twit进行分类时，训练集合效果2LDA>1LDA>tfidf, 说明对短的测试集合，TM有明显效果，且长文本训练TM效果较好，其中3效果可能在2~1之间吧？

3.对于user的twit分类，效果是tfidf>TM,说明TM在长文本上并不能提高效果。

2,3实验中，tfidf+TM的组合不一定能提高效果。

(我自己希望测试一下，2训练后对于短文本的短的容忍极限，以及如果按照某种策略融合后再区分成单条twiter后效果是否能提高？后续测量后放在这里吧~)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

windows2

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

twitter-LDA研究

weixin_33735077的博客

07-15

2075

开始扯淡需要有LDA研究基础的人看前面一部分有的是我写论文的思路，可以掠过。第一部分。看了几篇论文，本来想研究一下陈恩红团队所写的和深度学习模型DSSM有关的那篇论文（Reading the Videos: Temporal Labeling for CrowdsourcedTime-Sync Videos Based on Sem...

深入理解LDA主题模型及其在文本分析中的应用

小高~的博客

08-19

2955

本文详细介绍了LDA主题模型的基本原理，并通过Python代码演示了如何实现和应用LDA进行文本主题提取。LDA作为一种经典的主题模型，虽然存在一定的挑战，但在文本挖掘领域依然具有广泛应用。未来，随着深度学习技术的发展，基于神经网络的主题模型**如神经主题模型（NTM）**可能成为LDA的重要替代方案，但LDA在解释性与计算效率上的优势使其依然具有重要地位。

参与评论您还未登录，请先登录后发表或查看评论

短文本分类或lda的分析(ZZ)（转载pennyliang (pennyliang),）

michzel的专栏

07-09

1930

2008-11-16 20:21 来自水木，标题我给改了下发信人: pennyliang (pennyliang), 信区: SearchEngineTech 标题: 总结一下我的一些提问和感想发信站: 水木社区 (Sun Nov 16 08:19:10 2008), 站内 Latent Dirichlet Allocation(LDA)模型是近年来提出的一种具

lda主题模型python实现篇_基于LDA主题模型的短文本分类

weixin_36073654的博客

02-01

3501

VSM(向量空间模型)是信息检索领域最为经典的分析模型之一，采用VSM对短文本进行建模，即将每一篇短文本表示为向量的形式，用TF－TDF表示向量的值。给出一些符号定义：短文本集SD＝｛sd1，sd2，...，sdM｝，Ｍ为短文本总数，词表Ｖ＝｛V1，V2，...，VN｝，Ｎ为词汇数。一篇短文本sdi∈SD的向量表示为V(i)＝ (ｗ(i)１，ｗ(i)2，...，ｗ(i)N)，其中ｗ(i)k为...

Python与R语言在LDA主题模型及文本分析中的应用与实现

最新发布

08-25

Python和R语言在LDA主题模型及文本分析中的应用。主要内容涵盖分词、词频统计、LDA主题建模、词云生成及pyLDAvis的可视化解读。此外，还简要提及了深度学习、遗传算法在机器学习中的应用，但重点在于文本分析的技术...

lda.zip_LDA feature_lda_lda文本分类_文本特征_特征工程

09-20

**LDA在文本分类中的应用** LDA被广泛应用于文本分类任务，因为它能够提取文本的语义特征。在传统的文本分类中，我们通常使用词袋模型（Bag of Words，BoW）或TF-IDF等方法来表示文本，但这些方法忽略了词序和上...

lda.zip_lda_lda文本分类

09-14

**LDA在文本分类中的应用** 1. **特征提取**：LDA可以将文档转换为主题向量，这些向量可以作为机器学习算法（如SVM、朴素贝叶斯）的输入特征，进行文本分类。 2. **降维与可视化**：LDA可以减少文本数据的维度，使...

LDA的应用：short text classification

windows2的专栏

11-25

3120

参考文献《Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections》这个文章提出一个利用LDA辅助分类，以解决短文本词少稀疏问题，使得主题更加集中的framework，是一种semi-supervise的方法他的做法是 1. 寻找一个辅助的外部

TwitterLDATopicModeling：使用主题建模来标识Twitter用户的关注者关系之间的上下文

02-06

描述 Twitter用户经常基于相似的兴趣与其他用户关联并社交。可以使用训练有素的LDA模型对这些用户的Tweet进行分类，以自动发现他们的相似性。先决条件由于模式库当前与大多数Python 3版本不兼容，因此建议使用python 2.7。 Python 3.6可以与模式库一起使用，尽管它可能需要从源代码构建，因为大多数较新Linux发行版都没有预安装它。 linux_setup_py3.6.sh脚本中提供了从源代码构建Python 3.6的命令。正在安装 Linux 下载： git clone https://github.com/kethort/twitter_LDA_top

9000条twitter推特数据集-2019年-情感分析

05-10

自己爬的原始推特数据集，可用作情感分析。里面有三个名人的推特数据，可以合并起来一起使用。

lda-topic-modeling：LDA主题建模的基于浏览器的PureScript实现

02-03

LDA主题建模潜在的Dirichlet分配（LDA）主题建模的基于浏览器的PureScript实现。能够接收两个或更多文档，并通过最多四个主题对它们进行软分组。在尝试一下。了解有关更多信息。生成并运行 # Install Git. git clone git@github.com:lettier/lda-topic-modeling.git cd lda-topic-modeling # Install nvm and npm. nvm use npm install -g bower npm install bower install npm run build cd build

主题建模：用于github数据的LDA

02-08

LDA LDA用于github数据

基于python的LDA模型实现代码

03-22

基于python的LDA模型实现代码

LDA的应用：《Finding scientific topics》

windows2的专栏

11-24

2620

参考文献：《Finding scientific topics》这个文章讲了LDA的原理，它谈到几点 1. 测试了variational Bayes，expectation propagation，Gibbs sampling三种imference的方法，gibbs sampling收敛速度最快，并且gibbs可以同时开几个MC链，方便并行化处理 2.TM的评测和参数选择 Perpl

借助LDA主题分析的短文本相似性计算 - 综述帖

weixin_33766805的博客

04-11

967

目标：针对给定输入文本与文本库，计算得出文本库中与输入文本最相似的文本综述帖：http://www.cnblogs.com/kinzznsblog/p/8780239.html原理帖：http://www.cnblogs.com/kinzznsblog/p/8780172.html实现帖：对于人类，两句话的相似性一般都从语义上进行考虑，大白话说就是”这两句话说的是同一件事儿/同...

拓端tecdat:看推特数据如何”塑造”地区形象

weixin_34203832的博客

09-06

342

“ 高度信息化的今天,社交媒体向我们提供直接认识外界的一个窗口,决定着大家对一个地区的认知，像是一双对地区形象“塑型”的“看不见”的手。 ▼ 根据这个背景，tecdat对素有“塞上江南”之称的宁夏热门推文（hot tweet，推特中的热门推文是指被转推或被收藏过的推文，相比普通推文影响力更大）进行了分析。研究人员发现网友们关注的主题，...

nlp任务记录（章一）

m0_74184968的博客

07-29

239

TF-IDF = TF * IDF：所以若某个词在某篇文章的TF-IDF高，即该词在该篇文章中出现频率多，在语料库/其他文章中出现频率少，这个词在这篇文章里就越关键。DF：a词在语料库/BCDE...文章中出现的频率。cut_all：ture全面、false精准。若有特殊词汇，可以通过添加自定义词典。分词后，将分词结果转换成词典和词库。TF：a词在文章A中出现的频率。

LDA算法在文本分类中的应用详解

资源摘要信息:"LDA.zip文件是关于LDA（Latent Dirichlet Allocation，潜在狄利克雷分配）算法在文本分类领域的应用的代码包。LDA是一种文档生成模型，属于主题模型（Topic Model）的一种。该算法通过分析文档集合中...