摘要:
文章探索了两个方面:
(1)利用扩展的矢量空间模型(包括了[color=red]标签[/color]和文本信息)进行K-MEANS聚类
(2)一种基于LDA的包含文本和标签信息的新颖聚类算法(先不说这算法了,对于LDA是什么就不知道,先看看LDA)
论文定义的[i]网页文档聚类[/i]任务如下:
(1)给出一系列同时具有单词和标签的文档,使用候选的聚类算法把它们聚类到不同的组中
(2)通过对网页目录进行比较,建立一个标准
(3)使用评价指标来比较聚类算法产生的结果与网页目录中产生的标准
聚类算法:
[color=red]输入[/color]:聚类的数目K,和一组文档集合{1,...D}。每个文档包括来自单词词汇表W中的词袋 和 来自标签词汇表T中的标签袋(标签袋是我自己取的名字)
[color=red]输出[/color]: 分派到不同类别中的文档。
除了每个文档具有同时具有词汇和标签,其他与传统的聚类一致。
实验中采用两种熟悉的聚类方法:(1)基于向量空间模型的k-means.(2)基于概率模型的LDA模型
标准:
从ODP(open directory project)中产生标准.ODP是一个开放的,用户维护的层次网页目录。在ODP中每一个节点都有一个标签,例如“Arts”或者"Python"和一系列相关的文档。在ODP中选择一个特殊节点的K'个子节点作为聚类结果标准。
评价方法:F1(即准确率与召回率的调和平均 F1=2*准备率*召回率/(准确率+召回率))
数据集:
数据集是Stanford Tag Crawl Dataset的一部分。最后考虑了13230篇文章,它们都同时存在于ODP中。
单词来自于Tag Crawl dataset,利用Stanford Penn Treebank tokenizer进行标注。最后,平均下来,每篇文章包括425个不同的单词类型(type),1218个单词标注(token)。
[color=red]实验1[/color]:K-MEANS
初始化:从数据集中随机获取10个文档
使用5种方法来构建VSM(向量空间模型)
(1)只有词汇Vm=<w1,w2...>
(2)只有标签Vt
(3)词汇+标签Vw+t = <√1/2 Vw, √1/2 Vt> (说明:是根号1/2)
(4)标签是词汇的n倍,例如:词汇中“computer”出现1次,标签中"computer"出现2次,那么computer出现的次数为:1+2*n
(5)标签作为新词
在向量空间中计算权重:
考虑用两个常用的权重函数:tf和tf-idf
通过(1),(2),(3)向量空间模型,利用f1-score 比较tf和tf-idf的结果,得出利用tf来计算权重
最后,利用tf计算权重,利用k-means方法,用f1-score检验方法。得出k-means可以非常有效的把标签数据作为独立的信息渠道(因为得到词汇+标签的效果最佳)
[color=red]实验2[/color]:生成主题模型
LDA我就没懂,这个MM-LDA我就更不懂了
对两类不同的文档用K-MEANS和MM-LDA两种方法做了实验,第一种文档是带有超链的,抽取每篇文档中的15个超链的TOKENS(相当于之前的标签),第二种是程序语言的文档
[color=red]结论[/color]:
文章显示出社会标签对网页文档聚类提供了有用的信息,是许多信息检索(IR)应用的核心任务。通过与只用文档的实验相比,我们发现加上标签信息能更好的提高聚类的效果。两种算法包括了K-MEANS和我们提出的新颖的MM-LDA(多项式LDA)
文章探索了两个方面:
(1)利用扩展的矢量空间模型(包括了[color=red]标签[/color]和文本信息)进行K-MEANS聚类
(2)一种基于LDA的包含文本和标签信息的新颖聚类算法(先不说这算法了,对于LDA是什么就不知道,先看看LDA)
论文定义的[i]网页文档聚类[/i]任务如下:
(1)给出一系列同时具有单词和标签的文档,使用候选的聚类算法把它们聚类到不同的组中
(2)通过对网页目录进行比较,建立一个标准
(3)使用评价指标来比较聚类算法产生的结果与网页目录中产生的标准
聚类算法:
[color=red]输入[/color]:聚类的数目K,和一组文档集合{1,...D}。每个文档包括来自单词词汇表W中的词袋 和 来自标签词汇表T中的标签袋(标签袋是我自己取的名字)
[color=red]输出[/color]: 分派到不同类别中的文档。
除了每个文档具有同时具有词汇和标签,其他与传统的聚类一致。
实验中采用两种熟悉的聚类方法:(1)基于向量空间模型的k-means.(2)基于概率模型的LDA模型
标准:
从ODP(open directory project)中产生标准.ODP是一个开放的,用户维护的层次网页目录。在ODP中每一个节点都有一个标签,例如“Arts”或者"Python"和一系列相关的文档。在ODP中选择一个特殊节点的K'个子节点作为聚类结果标准。
评价方法:F1(即准确率与召回率的调和平均 F1=2*准备率*召回率/(准确率+召回率))
数据集:
数据集是Stanford Tag Crawl Dataset的一部分。最后考虑了13230篇文章,它们都同时存在于ODP中。
单词来自于Tag Crawl dataset,利用Stanford Penn Treebank tokenizer进行标注。最后,平均下来,每篇文章包括425个不同的单词类型(type),1218个单词标注(token)。
[color=red]实验1[/color]:K-MEANS
初始化:从数据集中随机获取10个文档
使用5种方法来构建VSM(向量空间模型)
(1)只有词汇Vm=<w1,w2...>
(2)只有标签Vt
(3)词汇+标签Vw+t = <√1/2 Vw, √1/2 Vt> (说明:是根号1/2)
(4)标签是词汇的n倍,例如:词汇中“computer”出现1次,标签中"computer"出现2次,那么computer出现的次数为:1+2*n
(5)标签作为新词
在向量空间中计算权重:
考虑用两个常用的权重函数:tf和tf-idf
通过(1),(2),(3)向量空间模型,利用f1-score 比较tf和tf-idf的结果,得出利用tf来计算权重
最后,利用tf计算权重,利用k-means方法,用f1-score检验方法。得出k-means可以非常有效的把标签数据作为独立的信息渠道(因为得到词汇+标签的效果最佳)
[color=red]实验2[/color]:生成主题模型
LDA我就没懂,这个MM-LDA我就更不懂了
对两类不同的文档用K-MEANS和MM-LDA两种方法做了实验,第一种文档是带有超链的,抽取每篇文档中的15个超链的TOKENS(相当于之前的标签),第二种是程序语言的文档
[color=red]结论[/color]:
文章显示出社会标签对网页文档聚类提供了有用的信息,是许多信息检索(IR)应用的核心任务。通过与只用文档的实验相比,我们发现加上标签信息能更好的提高聚类的效果。两种算法包括了K-MEANS和我们提出的新颖的MM-LDA(多项式LDA)