
网络爬虫
dongdong_java
这个作者很懒,什么都没留下…
展开
-
webmagic使用手册(分部式网络爬虫) && Spiderman Java开源Web数据抽取工具
wbmagic 点击打开链接 spiderman 点击打开链接转载 2013-12-09 12:47:27 · 8805 阅读 · 1 评论 -
互联网网站的反爬虫策略浅析
因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。 一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少,但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发几十转载 2013-12-09 12:54:18 · 1941 阅读 · 0 评论