
主题建模
文章平均质量分 90
主题建模是文本挖掘领域的一种技术,它能够从一个文本对象中自动识别主题,并且发现隐藏的模式,进而帮助做出更好的决策。主题建模用来从大规模的文本集中发现词群。主题模型在文本聚类、大规模文本数据组织、基于非结构文本的信息检索以及特征选择方面非常有用。
G皮T
计算机科学与技术本科,计算机技术硕士,现任职于某互联网公司,担任测试开发工程师。优快云云原生领域优质创作者、博客专家。书籍《大数据测试开发工程师的第一本书》正在积极撰写中,敬请期待。微信公众号:大数据与AI实验室。《Java 百“练”成钢》连载中,欢迎关注!
展开
-
【主题建模】一种基于深度学习的主题建模方法:BERTopic(理论篇)
在我的博客中已经写了很多关于主题建模的内容,当你准备了解 BERTopic 时,默认你已经知道了 LSA、pLSA、NFM、LDA 等传统的主题建模方法。关于主题建模的前置知识我在这里不做赘述,感兴趣的同学可以看看我前几篇博客。学习 BERTopic 需要一定的机器学习基础,让我们一起开始吧!原创 2023-02-07 17:19:45 · 8462 阅读 · 1 评论 -
【主题建模】一种基于深度学习的主题建模方法:BERTopic(实战篇)
BERTopic 是基于深度学习的一种主题建模方法。2018 年底,Devlin et al. 提出了 Bidirectional Encoder Representations from Transformers (BERT)。BERT 是一种用于 NLP 的预训练策略,它成功地利用了句子的深层语义信息。原创 2023-02-10 16:05:40 · 18033 阅读 · 95 评论 -
【主题建模】一种用于主题建模和语义搜索的算法:Top2Vec
Top2Vec 是一种用于主题建模和语义搜索的算法。它自动检测文本中出现的主题,并生成联合嵌入的主题、文档和词向量。原创 2023-02-20 22:13:16 · 2054 阅读 · 0 评论 -
【主题建模】不同策略的主题建模方法比较
在自然语言处理(NLP)中,主题建模一词包含了一系列的统计和深度学习技术,用于寻找文档集中的隐藏语义结构。主题建模是一个无监督的机器学习问题。无监督的意思是,算法在没有标签的情况下学习模式。我们作为人类产生和交换的大部分信息都具有文本性质。文件、对话、电话、信息、电子邮件、笔记、社交媒体帖子。在缺乏(或有限的)先验知识的情况下,从这些来源中自动提取价值的能力是数据科学中一个永恒的、无处不在的问题。在这篇文章中,我们将讨论热门的主题建模方法,从传统的算法到最新的基于深度学习的技术。原创 2023-05-28 16:12:28 · 2464 阅读 · 5 评论 -
【主题建模】文本分析:非结构化信息分析科学与应用导论
有几种方法来聚类单词或文档。然而,其中一些没有考虑与这些聚类相关的数据分布。解决这个问题的一种方法是创建主题模型,这些模型比传统方法更容易解释。有几种建模主题的技术,包括 LSA、pLSA 和 LDA。其中最流行的一个是 LDA,因为它有一个健壮的模型,可以说明如何采样文本数据,以便有效地生成与文档相关的主题的分布和与主题相关的单词的分布。原创 2023-02-03 11:44:41 · 500 阅读 · 0 评论 -
【主题建模】Gensim 的核心概念
在 Gensim 中,文档是文本序列类型的对象(在 Python 3 中通常称为 str)。文档可以是 140 个字符的简短推文、单个段落(即期刊文章摘要)、新闻文章或书籍。原创 2023-01-13 20:50:56 · 740 阅读 · 0 评论 -
【主题建模】Gensim 中的 Word2Vec
BOW 和 TF-IDF 都只着重于词汇出现在文件中的次数,未考虑语言、文字有上下文的关联,针对上下文的关联,Google 研发团队提出了词向量 Word2vec,将每个单字改以上下文表达,然后转换为向量,这就是词嵌入(Word Embedding),与 TF-IDF 输出的是稀疏向量不同,词嵌入的输出是一个稠密的样本空间。原创 2023-01-22 15:21:14 · 1625 阅读 · 0 评论 -
【主题建模】主题连贯度(Topic Coherence)详解
在大多数关于主题建模的文章中,常用主题连贯度(Topic Coherence,主题一致性)或主题连贯度指标(Topic Coherence Metrics)来表示整体主题的可解释性,用于评估主题的质量。但是,该指标到底指什么?它是如何衡量主题的可解释性的?该值是否越大越好?本文将就这些问题做出解答。原创 2023-02-25 16:31:14 · 4130 阅读 · 2 评论 -
【主题建模】基于连贯性分数(Coherence Score)的主题建模评估
主题连贯性分数(Coherence Score)是一种客观的衡量标准,它基于语言学的分布假设:具有相似含义的词往往出现在相似的上下文中。 如果所有或大部分单词都密切相关,则主题被认为是连贯的。原创 2023-01-31 18:51:58 · 4476 阅读 · 8 评论 -
【主题建模】一个实例详解 LDA 算法
主题建模是一种常见的自然语言处理任务。隐含的狄利克雷分布(Latent Dirichlet Allocation,LDA)是其中一种实现算法,其核心思想如下图所示。原创 2023-01-28 00:31:00 · 1416 阅读 · 0 评论 -
【主题建模】基于 LDA 和 BERTopic 的 COVID-19 论文内容分析
关于 COVID-19 的研究不胜枚举,截至 2022 年初,已发表了超过 800000 篇与 COVID-19 相关的论文。对这些论文进行梳理是一项非常具有挑战性的任务,但这可以帮助我们确定哪些领域可以更多的从研究或研究基金中受益。在本文中,我将评估这些 COVID-19 研究论文的主题,尝试揭示这些统计数据和趋势。原创 2023-02-08 17:15:19 · 3616 阅读 · 2 评论