Java爬虫系列二:使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先是要爬取对方页面的html,然后通过Joup进行解析,获取想要的参数。
上篇文章提到过使用Jsoup解析通过Http请求获取的页面数据(一)HttpClient可以获取对方页面html
今天围绕以下几点来介绍HttpClient
1、HttpClient是什么
2、Http入门实例
3、复杂使用
一、什么是HttpClient
度娘:
HttpClient 是Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。 以下列出的是 HttpClient 提供的主要的功能,要知道更多详细的功能可以参见 HttpClient 的官网: (1)实现了所有 HTTP 的方法(GET,POST,PUT,HEAD 等) (2)支持自动转向 (3)支持 HTTPS 协议 (4)支持代理服务器等
这里面提到了官网,那就顺便说下它官网上的一些东西。
根据百度给出的HomePage是这个:http://hc.apache.org/httpclient-3.x/,但是进入后你会发现有句话