旅游景点评论主题聚类与短文本计算的研究探索
一、旅游景点评论主题聚类
(一)主题标签
在主题聚类中,每个文档都会被标记上生成的主题以及这些主题在文档上的概率分布。设 $W_t$ 是主题 $t$ 的前 $N$ 个词的集合,$W_d$ 是文档 $d$ 的词集合,$T_d$ 是文档 $d$ 所包含的主题集合(即文档 $d$ 所属的簇集合),$TFIDF(w, d)$ 是返回词 $w$ 在文档 $d$ 中的词频 - 逆文档频率的函数。主题 $t$ 在文档 $d$ 上的概率分布计算公式如下:
[Topic - Doc(t, d)=\frac{\sum_{w\in W_d\cap W_t}TFIDF(w, d)}{\sum_{k\in T_d}(\sum_{v\in W_d\cap W_k}TFIDF(v, d))}]
(二)实验与结果
- SR - MCL 的簇粒度 :与 LDA 需要预先指定簇的数量不同,SR - MCL 有一个反映簇粒度的膨胀参数 $r$。当 $r$ 在 1.1 到 2.5 之间变化时,BCubed 精度、召回率和簇的数量也会相应变化。精度在 0.70 左右略有波动,而当 $r$ 值较高时,召回率波动较大。$r$ 值越大,簇的粒度越细,生成的簇也就越多。在后续实验中,将 $r$ 设置为 1.5,以展示该参数对不同文本语料库的鲁棒性。
-
与潜在狄利克雷分配(LDA)的比较
- 模型设置 :为每组评论创建一个 LDA 模型,LDA 需要预先指定主题
超级会员免费看
订阅专栏 解锁全文
7840

被折叠的 条评论
为什么被折叠?



