
跟我一步一步学爬虫
我纯洁全身都纯洁
这个作者很懒,什么都没留下…
展开
-
跟我一步一步学爬虫---基础篇(一)
最近打算研究一下java爬虫是怎么玩的,查了一些资料然后自己实践。最近看的一本书是《自己动手写网络爬虫》。需要下载与HttpClient相关的一些jar http://download.youkuaiyun.com/detail/hjgzj/8478289今天的是入门的第一步,抓取一个页面。import java.io.IOException;import java.net.Malform原创 2015-03-06 15:08:01 · 1137 阅读 · 0 评论 -
跟我一步一步学爬虫---传参篇(二)
今天我们来学习下用post方式请求后台。我设计的程序有两种:1、给服务器传参,然后服务器打印出来,然后用PrintWriter类写出来(模拟ajax)。2、请求服务器,然后跳转到其他网页。先做第1种(后台服务器用Servlet):java代码import java.io.IOException;import org.apache.commons.httpclie原创 2015-03-06 15:24:50 · 836 阅读 · 0 评论 -
跟我一步一步学爬虫---宽度优先遍历篇(四)
宽度优先遍历是爬虫中使用最广泛的一种爬虫策略,之所以使用宽度优先搜索策略,主要原因有三点:1、重要的网页往往离种子比较近,例如我们打开的新闻网站的时候往往是最热门的新闻,随着不断的深入冲浪,所看到的网页的重要性越来越低。2、万维网的实际深度最多能达到17层,但到达某个网页总存在着一条很短的路径。而宽度优先遍历会以最快的速度到达这个页面。3、宽度优先有利于多爬虫的合作抓取,多爬虫合作通常原创 2015-03-25 16:53:35 · 1766 阅读 · 0 评论 -
跟我一步一步学爬虫---403禁止访问(三)
对于初学者肯定会什么网站都爬,然后就会发现有些网站比如优快云就会返回403错误。原因是浏览器和java程序的请求是不太一样的,我们伪装成浏览器的行为就可以了。import java.io.IOException;import org.apache.commons.httpclient.HttpClient;import org.apache.commons.httpclient.Htt原创 2015-03-06 16:25:41 · 4637 阅读 · 0 评论