一种面向搜索引擎的网页分块、切片的原理,实现和演示

本文介绍面向搜索引擎的网页分块、切片原理、实现与演示。实现前提基于 HTML 的 table、div 标签,依赖相似 URL 对比。用途包括区分网页类型、找出不同内容。实现分三阶段:切片、比较结构、分析数据,还给出演示地址。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一种面向搜索引擎的网页分块、切片的原理,实现和演示



最近看到 2005 年的 全国搜索引擎和网上信息挖掘学术研讨会 上 华南木棉信息检索的队长 欧健文 的 华南木棉信息检索 的ppt。很有启发。

于是自己也根据自己的理解准备做一个实现。
实现前提假设:
1、网页分块切分的基本单位是html中的table , div 等标签(目前版本只支持:table ,div 标签)。
2、网页分块切片识别依赖于相似url的对比。比如:我们认为一下两个url的网页html文本结构相似:
http://news.soufun.com/2005-11-26/580107.htm
http://news.soufun.com/2005-11-26/580175.htm
而下面两个url的网页结构不相似:
http://news.soufun.com/subject/weekly051121/index.html
http://news.soufun.com/2005-11-26/580175.htm

用途:
1、根据分析网页结构区分网页是 主题型网页 还是 目录型网页;
2、根据分析网页结构 找出 网页的 主题内容,相关内容和噪音内容;

实现的3个阶段:
1、对网页结构进行合理切片;
2、比较相似网页的切片结构;
3、分析切片数据,得出结论。
演示地址:
http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值