笔记（3）——Clustering the tagged web-优快云博客

本文链接：https://blog.youkuaiyun.com/iteye_15311/article/details/82028760

本文探讨了将社会标签融入文档聚类的方法，提出利用标签信息改进K-MEANS聚类效果，并介绍了一种新颖的MM-LDA聚类算法。通过实验证明，结合标签信息能显著提升聚类质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：
文章探索了两个方面：
（1）利用扩展的矢量空间模型（包括了[color=red]标签[/color]和文本信息）进行K-MEANS聚类
（2）一种基于LDA的包含文本和标签信息的新颖聚类算法（先不说这算法了，对于LDA是什么就不知道，先看看LDA）

论文定义的[i]网页文档聚类[/i]任务如下：
（1）给出一系列同时具有单词和标签的文档,使用候选的聚类算法把它们聚类到不同的组中
（2）通过对网页目录进行比较，建立一个标准
（3）使用评价指标来比较聚类算法产生的结果与网页目录中产生的标准

聚类算法：
[color=red]输入[/color]：聚类的数目K，和一组文档集合{1,...D}。每个文档包括来自单词词汇表W中的词袋和来自标签词汇表T中的标签袋（标签袋是我自己取的名字）
[color=red]输出[/color]：分派到不同类别中的文档。
除了每个文档具有同时具有词汇和标签，其他与传统的聚类一致。
实验中采用两种熟悉的聚类方法：（1）基于向量空间模型的k-means.（2）基于概率模型的LDA模型

标准：
从ODP（open directory project）中产生标准.ODP是一个开放的，用户维护的层次网页目录。在ODP中每一个节点都有一个标签，例如“Arts”或者"Python"和一系列相关的文档。在ODP中选择一个特殊节点的K'个子节点作为聚类结果标准。

评价方法：F1（即准确率与召回率的调和平均 F1=2*准备率*召回率/（准确率+召回率））

数据集：
数据集是Stanford Tag Crawl Dataset的一部分。最后考虑了13230篇文章，它们都同时存在于ODP中。
单词来自于Tag Crawl dataset,利用Stanford Penn Treebank tokenizer进行标注。最后，平均下来，每篇文章包括425个不同的单词类型（type），1218个单词标注(token)。

[color=red]实验1[/color]：K-MEANS
初始化：从数据集中随机获取10个文档
使用5种方法来构建VSM（向量空间模型）
（1）只有词汇Vm=<w1,w2...>
（2）只有标签Vt
（3）词汇+标签Vw+t = <√1/2 Vw, √1/2 Vt> （说明：是根号1/2）
（4）标签是词汇的n倍，例如：词汇中“computer”出现1次，标签中"computer"出现2次，那么computer出现的次数为：1+2*n
（5）标签作为新词

在向量空间中计算权重：
考虑用两个常用的权重函数：tf和tf-idf
通过（1），（2），（3）向量空间模型，利用f1-score 比较tf和tf-idf的结果，得出利用tf来计算权重
最后，利用tf计算权重，利用k-means方法，用f1-score检验方法。得出k-means可以非常有效的把标签数据作为独立的信息渠道（因为得到词汇+标签的效果最佳）

[color=red]实验2[/color]：生成主题模型
LDA我就没懂，这个MM-LDA我就更不懂了

对两类不同的文档用K-MEANS和MM-LDA两种方法做了实验，第一种文档是带有超链的，抽取每篇文档中的15个超链的TOKENS（相当于之前的标签），第二种是程序语言的文档

[color=red]结论[/color]：
文章显示出社会标签对网页文档聚类提供了有用的信息，是许多信息检索（IR）应用的核心任务。通过与只用文档的实验相比，我们发现加上标签信息能更好的提高聚类的效果。两种算法包括了K-MEANS和我们提出的新颖的MM-LDA(多项式LDA)