37、旅游景点评论主题聚类与短文本计算的研究探索

旅游景点评论主题聚类与短文本计算的研究探索

一、旅游景点评论主题聚类
(一)主题标签

在主题聚类中,每个文档都会被标记上生成的主题以及这些主题在文档上的概率分布。设 $W_t$ 是主题 $t$ 的前 $N$ 个词的集合,$W_d$ 是文档 $d$ 的词集合,$T_d$ 是文档 $d$ 所包含的主题集合(即文档 $d$ 所属的簇集合),$TFIDF(w, d)$ 是返回词 $w$ 在文档 $d$ 中的词频 - 逆文档频率的函数。主题 $t$ 在文档 $d$ 上的概率分布计算公式如下:
[Topic - Doc(t, d)=\frac{\sum_{w\in W_d\cap W_t}TFIDF(w, d)}{\sum_{k\in T_d}(\sum_{v\in W_d\cap W_k}TFIDF(v, d))}]

(二)实验与结果
  1. SR - MCL 的簇粒度 :与 LDA 需要预先指定簇的数量不同,SR - MCL 有一个反映簇粒度的膨胀参数 $r$。当 $r$ 在 1.1 到 2.5 之间变化时,BCubed 精度、召回率和簇的数量也会相应变化。精度在 0.70 左右略有波动,而当 $r$ 值较高时,召回率波动较大。$r$ 值越大,簇的粒度越细,生成的簇也就越多。在后续实验中,将 $r$ 设置为 1.5,以展示该参数对不同文本语料库的鲁棒性。
  2. 与潜在狄利克雷分配(LDA)的比较

    • 模型设置 :为每组评论创建一个 LDA 模型,LDA 需要预先指定主题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值