Web页面聚类:分区自适应亲和传播算法的应用与优势
1. 背景与需求
随着互联网和Web技术的普及与快速发展,各类信息呈爆炸式增长。这既增加了获取信息的机会,也让找到真正有用的信息变得困难。因此,急需能智能、自动地将网络数据组织成组或集合的新技术和工具,Web数据聚类也成为了越来越重要的研究领域。
Web数据聚类是将Web对象分组为“类”的过程,使相似对象在同一类,不同对象在不同类。Web数据包括Web文档(如HTML文件、XML文件、图像等)和用户导航会话。本文聚焦于Web文档的聚类。
2. 现有Web页面聚类方法
- 层次聚类 :用于为数据集构建树结构。
- 分区聚类 :尝试将文档集合划分为一组组,以最大化预定义的适应度值。近年来,分区聚类方法因其相对较低的计算要求,适合对大型文档数据集进行聚类。其中最著名的是K - means算法,它从随机选择的C个聚类中心开始,多次更新中心直到中心不再变化。但该方法对初始中心选择敏感,易收敛到局部最优。
3. 亲和传播(AP)算法
- 原理 :AP是一种较新的聚类方法,将每个数据点视为潜在的聚类中心。通过在网络节点间递归传输实值消息,直到形成一组良好的中心和相应的聚类。
- Web页面表示 :在Web页面聚类中,使用向量空间模型(VSM)表示Web页面。每个文档由n个“特征”的权重向量表示,权重采用词频 - 逆文档频率(TF - IDF)计算:
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



