37、旅游景点评论主题聚类与短文本计算的研究探索

最新推荐文章于 2025-11-19 18:00:00 发布

浮生若梦622

最新推荐文章于 2025-11-19 18:00:00 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏： ICIST 2019精华解读文章标签：旅游景点评论主题聚类 SR-MCL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/opencv7vision/article/details/153624088

ICIST 2019精华解读专栏收录该内容

60 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

旅游景点评论主题聚类与短文本计算的研究探索

一、旅游景点评论主题聚类

（一）主题标签

在主题聚类中，每个文档都会被标记上生成的主题以及这些主题在文档上的概率分布。设 $W_t$ 是主题 $t$ 的前 $N$ 个词的集合，$W_d$ 是文档 $d$ 的词集合，$T_d$ 是文档 $d$ 所包含的主题集合（即文档 $d$ 所属的簇集合），$TFIDF(w, d)$ 是返回词 $w$ 在文档 $d$ 中的词频 - 逆文档频率的函数。主题 $t$ 在文档 $d$ 上的概率分布计算公式如下：
[Topic - Doc(t, d)=\frac{\sum_{w\in W_d\cap W_t}TFIDF(w, d)}{\sum_{k\in T_d}(\sum_{v\in W_d\cap W_k}TFIDF(v, d))}]

（二）实验与结果

SR - MCL 的簇粒度 ：与 LDA 需要预先指定簇的数量不同，SR - MCL 有一个反映簇粒度的膨胀参数 $r$。当 $r$ 在 1.1 到 2.5 之间变化时，BCubed 精度、召回率和簇的数量也会相应变化。精度在 0.70 左右略有波动，而当 $r$ 值较高时，召回率波动较大。$r$ 值越大，簇的粒度越细，生成的簇也就越多。在后续实验中，将 $r$ 设置为 1.5，以展示该参数对不同文本语料库的鲁棒性。
与潜在狄利克雷分配（LDA）的比较
- 模型设置 ：为每组评论创建一个 LDA 模型，LDA 需要预先指定主题

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。