【主题建模】文本分析：非结构化信息分析科学与应用导论

主题建模：揭示非结构化文本的隐藏结构

大数据与AI实验室

已于 2023-10-20 21:47:22 修改

阅读量594

点赞数 3

CC 4.0 BY-SA版权

分类专栏： # 主题建模文章标签：自然语言处理文本分析主题建模非结构化信息分析

于 2023-02-03 11:44:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/be_racle/article/details/128850962

主题建模专栏收录该内容

11 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

主题建模是一种无监督机器学习技术，用于从文本中发现隐藏的语义结构。通过发现文档中频繁共同出现的单词组，形成主题，帮助理解文档语料库的关系。LDA（潜在狄利克雷分配）是常用的主题建模方法，它假设文档是主题的混合物，每个主题又是一个单词的混合物。LDA 通过狄利克雷分布对主题和单词分布建模，通过调整超参数 α 和 β 控制主题和单词的密度。评估主题模型常用的方法包括困惑度和主题连贯性，其中困惑度衡量模型的不确定性，主题连贯性则评估主题的语义可解释性。

文本分析：非结构化信息分析科学与应用导论

1.介绍
2.主题建模
3.LDA
4.评估
5.总结
6.实战

1.介绍

文本聚类可以将数据（这里即指文本）按照一定规则划分为不同的群组，理想情况下可以从聚类结果中发现一些有趣的模式。不同聚类方法的一致性意义和划分方式也不同。尽管它们有各自的用武之地，但它们无法发现这些群组中任何隐藏结构。

例如，考虑以下国际媒体上的新闻标题，且没有其他的知识来源：

Amazon’s virtual assistant could witness a homicide in Florida.（亚马逊的虚拟助手可以目睹佛罗里达州的一起凶杀案。）
Auto sales in Mexico hit low records due to pandemic.（由于大流行，墨西哥的汽车销量创下新低。）
High-speed trains are close to doubling their speed.（高速列车的速度接近翻倍。）
Flower market in Mexico closed due to covid-19.（墨西哥花卉市场因 covid-19 而关闭。）
Coronavirus could last 3 more years in the United States.（冠状病毒在美国可能还会持续 3 年。）

很容易发现：(1) 和 (3) 是关于技术组成的 Group1，(2)、(4) 和 (5) 是关于 covid-19 的 Group2。当然，任何一种聚类方法应该也会得出同样的结论。现在假设有一个 “隐藏的” 结构，它连接着 Group1 的单词，而另一个结构则连接着 Group2 的单词（即，哪些术语对描述每

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据与AI实验室 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。