镜像网站的识别

镜像网站大致有这样一些情况:

结构和内容完全一致

例如:

http://www.tianya.cn/

http://www1.tianya.cn/

http://www2.tianya.cn/

这种是由于申请了多个域名,而这些域名均指向同一个网站。

结构一致,但内容相似

通常可能由于嵌套了frame,而网页的其他部位广告不同,或者其余部分存在动态内容。

部分结构一致

这主要由于某个域名A指向了某个B的某个目录,这样A和B只是部分一致

这种情况也很普遍,很多网站在推广时会在某个分支目录上推一个单独域名。

这样存在同一个page,从主域名也能访问过来,从这个单独域名也能访问过来,从而形成镜像。

这部分我没有深入研究过,可能可以有这样一些简单的方法来处理。

(1)对于内容一致的情况

可以将爬虫抓下来的网页做一个内容签名。

建立一个<签名,domain>的表,然后将<签名,domain>按照签名排序。同时生成<domain,签名>的表,表按照domain有序,相同的domain内部签名也有序。

签名相同的domain做一个多元组。

识别多元组中最常共现的pattern

找到后,拿出怀疑的domain,在<domain,签名>表中比对相似度

(2)对于结构一致的情况

将主域名去掉后,按照内容一致的方法来进行操作

该工作应该属于后期日志挖掘的工作,从而指导爬虫哪些是镜像域名。

推荐阅读

[1]百度镜像站识别专利,02年提交申请

http://search.cnpat.com.cn/Search/CNViewSearch?wd=vdkvgwkey=02100550&jsk=search_gb

[2]比较完整的关于这方面论文

Mirror, Mirror on the Web: A Study of Host Pairs with Replicated Content

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值