一种面向搜索引擎的网页分块、切片的原理，实现和演示

最新推荐文章于 2025-11-30 16:20:41 发布

最新推荐文章于 2025-11-30 16:20:41 发布 · 114 阅读

文章标签：

#搜索引擎 #数据结构 #数据挖掘 #JSP #HTML

本文介绍面向搜索引擎的网页分块、切片原理、实现与演示。实现前提基于 HTML 的 table、div 标签，依赖相似 URL 对比。用途包括区分网页类型、找出不同内容。实现分三阶段：切片、比较结构、分析数据，还给出演示地址。

一种面向搜索引擎的网页分块、切片的原理，实现和演示

最近看到 2005 年的全国搜索引擎和网上信息挖掘学术研讨会上华南木棉信息检索的队长欧健文的华南木棉信息检索的ppt。很有启发。

于是自己也根据自己的理解准备做一个实现。
实现前提假设：
1、网页分块切分的基本单位是html中的table , div 等标签（目前版本只支持：table ,div 标签）。
2、网页分块切片识别依赖于相似url的对比。比如：我们认为一下两个url的网页html文本结构相似：
http://news.soufun.com/2005-11-26/580107.htm
http://news.soufun.com/2005-11-26/580175.htm
而下面两个url的网页结构不相似：
http://news.soufun.com/subject/weekly051121/index.html
http://news.soufun.com/2005-11-26/580175.htm

用途：
1、根据分析网页结构区分网页是主题型网页还是目录型网页；
2、根据分析网页结构找出网页的主题内容，相关内容和噪音内容；

实现的3个阶段：
1、对网页结构进行合理切片；
2、比较相似网页的切片结构；
3、分析切片数据，得出结论。
演示地址：
http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp