镜像网站大致有这样一些情况:
结构和内容完全一致。
例如:
这种是由于申请了多个域名,而这些域名均指向同一个网站。
结构一致,但内容相似
通常可能由于嵌套了frame,而网页的其他部位广告不同,或者其余部分存在动态内容。
部分结构一致
这主要由于某个域名A指向了某个B的某个目录,这样A和B只是部分一致
这种情况也很普遍,很多网站在推广时会在某个分支目录上推一个单独域名。
这样存在同一个page,从主域名也能访问过来,从这个单独域名也能访问过来,从而形成镜像。
这部分我没有深入研究过,可能可以有这样一些简单的方法来处理。
(1)对于内容一致的情况
可以将爬虫抓下来的网页做一个内容签名。
建立一个<签名,domain>的表,然后将<签名,domain>按照签名排序。同时生成<domain,签名>的表,表按照domain有序,相同的domain内部签名也有序。
签名相同的domain做一个多元组。
识别多元组中最常共现的pattern
找到后,拿出怀疑的domain,在<domain,签名>表中比对相似度
(2)对于结构一致的情况
将主域名去掉后,按照内容一致的方法来进行操作
该工作应该属于后期日志挖掘的工作,从而指导爬虫哪些是镜像域名。
推荐阅读
[1]百度镜像站识别专利,02年提交申请
http://search.cnpat.com.cn/Search/CNViewSearch?wd=vdkvgwkey=02100550&jsk=search_gb
[2]比较完整的关于这方面论文
Mirror, Mirror on the Web: A Study of Host Pairs with Replicated Content