heritrix 下载不通过服务器缓存

最新推荐文章于 2025-11-25 08:35:35 发布

原创最新推荐文章于 2025-11-25 08:35:35 发布 · 100 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#百度 #Socket #Google #HTML

heritrix 专栏收录该内容

19 篇文章

订阅专栏

本文分析了爬虫在下载论坛内容时遇到的问题，包括下载中断和空页面问题，并提出了相应的解决办法，如调整爬取频率和处理缓存机制。

最近爬虫下载论坛时出现了一些奇怪的问题。
1.下载一半就无法下载
2.下载了很多空页面，提示说页面不存在

问题一：原因分析，由于网站对一个IP在一个时间片内访问太频繁，导致封IP。
解决方案：减缓爬虫下载间隔，多个网站一起下载，而且网站越多越好，可以错开下载。

问题二：初步分析，下载的页面是html的，怎么可能有这个问题？因为下载的论坛是开源的discuz，我们都知道discuz有一个缓存机制，管理员可以删除帖子，可是被删除的帖子还存在服务器缓存中，由此可以证明那些html都是伪静态的页面，而且爬虫下载是通过服务器缓存的。通过日志可以发现：类似于百度,google这类的大网站，他们的爬虫都是不通过服务器缓存的。

爬虫也是通过 URLConnection 啊那什么HTTPURLConnection 还是 httpclient 都继承这个建立连接服务器返回给你什么就是什么，做了缓存服务器就返回给你缓存

爬虫通过URL建立Socket，和服务器通信，获取资源即可。所以抓不抓后台，在于服务器给它什么资源.爬虫是不知道什么后台不后台的。都是服务器给它资源，也就是InputStream

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。