原
Java爬虫(二)-- httpClient模拟Http请求+jsoup页面解析
2018年03月01日 15:00:12 阅读数:393 标签: java爬虫httpClientjsoup 更多
个人分类: java开发笔记
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/coqcnbkggnscf062/article/details/79412587
前言
在了解了爬虫的大概原理和目前的技术现状之后,我就开始了java爬虫的蹒跚之旅。
首先我想到的是用框架,了解到的主流的Nutch、webmagic、webcollector等等,都看了一遍,最好懂的是webmagic,因为是国人开发的,有中文文档,看的很舒服。刚开始写练手的demo之后发现都很舒服,设置好对应爬取规则、爬取深度之后,就能得到想要的数据。
但是当我正式准备开发的时候,很快就发现我的业务场景并不适用于这些框架(Emm..当然也有可能是我太菜了)。
为什么这么说呢,让我们先回到上篇中我摘录的爬虫原理,传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
也就是,目标数据所在的网页的url都是在上一层页面上可以抽取到的,对应到页面上具体的讲法就是,这些链接都是写在html 标签的 href 属性中的,所以可以直接抽取到。
那些demo中被当做抓取对象的网站一般是douban、baidu、zhihu之类的数据很大的公开网站,url都是写在页面上的,而我的目标网站时险企开放给代理公司的网站,具有不公开、私密的性质,一个页面转到下一个页面的请求一般都是通过js动态生成url发起的,并且很多是post请求。
虽然那些框架有很多优越诱人的特性和功能,本着先满足需求,在进行优化的原则,我准备先用比较底层的工具一步步的模拟这些http请求。
正好,我发现webmagic底层模拟请求的工具用的就是Apache HttpClient,所以就用这个工具来模拟了。
HttpClient
HttpClient
是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包。它相比传统的 HttpURLConnection
,增加了易用性和灵活性,它不仅让客户端发送 HTTP 请求变得更容易,而且也方便了开发人员测试接口(基于 HTTP 协议的),即提高了开发的效率,也方便提高代码的健壮性
在搜索相关资料的时候,会发现网上有两种HttpClient。
org.apache.commons.httpclient.HttpClient与org.apache.http.client.HttpClient的区别:Commons的HttpClient项目现在是生命的尽头,不再被开发,已被Apache HttpComponents项目HttpClient和的HttpCore模组取代,提供更好的性能和更大的灵活性
所以在查找的时候别搞混了哦,英语好的同学推荐阅读HttpClient的官方文档
实战
所有HTTP请求都有由方法名,请求URI和HTTP协议版本组成的请求行。
HttpClient支持开箱即用HTTP/1.1规范中定义的所有HTTP方法:GET, HEAD,POST, PUT, DELETE,TRACE and OPTIONS。它们都有一个特定的类对应这些方法类型: HttpGet,HttpHead, HttpPost,HttpPut, HttpDelete,HttpTrace, and HttpOptions.
请求的URI是统一资源定位符,它标识了应用于哪个请求之上的资源。HTTP请求的URI包含协议方案,主机名,可选的端口,资源路径,可选查询和可选片段。
在开发过程中,主要处理都是get和post请求。
HTTP GET
模拟get请求
public static String sendGet(String url) {
CloseableHttpClient httpclient = HttpClients.createDefault();
CloseableHttpResponse response = null;
String content = null;
try {
HttpGet get = new HttpGet(url);
response = httpClient.execute(httpGet);
HttpEntity entity = response.getEntity();
content = EntityUtils.toString(entity);
EntityUtils.consume(entity);
return content;
} catch (Exception e) {
e.printStackTrace();
if (response != null) {
try {
response.close();
} catch (IOException e1) {
e1.printStackTrace();
}
}
}
return content;
}
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
url可以自己直接写上去,包括包含的参数。例如:http://www.test.com/test?msg=hello&type=test
HttpClient 提供 URIBuilder 实用类来简化请求 URL的创建和修改.
URI uri = new URIBuilder()
.setScheme("http")
.setHost("www.test.com")
.setPath("/test")
.setParameter("msg", "hello")
.setParameter("type", "test")
.build();
HttpGet httpget = new HttpGet(uri);
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
HTTP POST
发送POST请求时,需要向服务器写入一段数据。这里使用setEntity()
函数来写入数据:
按照自己的经验,发送的数据由你要模拟的请求,按请求头中Content-type
来分,可以分为application/x-www-form-urlencoded
和application/json
对应常见的HTML表单提交和json数据提交
// application/x-www-form-urlencoded
public static String sendPost(HttpPost post, List<NameValuePair> nvps) {
CloseableHttpClient httpclient = HttpClients.createDefault();
CloseableHttpResponse response = null;
String content = null;
try {
// nvps是包装请求参数的list
if (nvps != null) {
post.setEntity(new UrlEncodedFormEntity(nvps, "UTF-8"));
}
// 执行请求用execute方法,content用来帮我们附带上额外信息
response = httpClient.execute(post);
// 得到相应实体、包括响应头以及相应内容
HttpEntity entity = response.getEntity();
// 得到response的内容
content = EntityUtils.toString(entity);
EntityUtils.consume(entity);
return content;
} catch (Exception e) {
e.printStackTrace();
} finally {
if (response != null) {
try {
response.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
return content;
}
// application/json
public static String sendPostJson (String url, JSONObject object) {
HttpPost httpPost = new HttpPost(url);
CloseableHttpClient httpclient = HttpClients.createDefault();
try {
// json方式
StringEntity entity = new StringEntity(object.toString(),"utf-8");//解决中文乱码问题
entity.setContentEncoding("UTF-8");
entity.setContentType("application/json;charset=UTF-8");
httpPost.setEntity(entity);
HttpResponse resp = httpClient.execute(httpPost);
if(resp.getStatusLine().getStatusCode() == 200) {
HttpEntity he = resp.getEntity();
return EntityUtils.toString(he,"UTF-8");
}
} catch (IOException e) {
e.printStackTrace();
}
return null;
}
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
HttpEntiy接口
Entity 是 HttpClient
中的一个特别的概念,有着各种的 Entity ,都实现自 HttpEntity 接口,输入是一个 Entity,输出也是一个 Entity 。这和 HttpURLConnection 的流有些不同,但是基本理念是相通的。对于 Entity ,HttpClient 提供给我们一个工具类 EntityUtils,使用它可以很方便的将其转换为字符串。
大多数的 HTTP 请求和响应都会包含两个部分:头和体,譬如请求头请求体,响应头响应体, Entity 也就是这里的 “体” 部分,这里暂且称之为 “实体” 。一般情况下,请求包含实体的有 POST 和 PUT 方法,而绝大多数的响应都是包含实体的,除了 HEAD 请求的响应,还有 204 No Content、304 Not Modified 和 205 Reset Content 这些不包含实体。
HttpClient 将实体分为三种类型:
-
streamed(流式): 从流中获取或者是动态生成内容。尤其是这个类型包含了从HTTP响应中获取的实体。流式实体是不可重复生成的。
-
self-contained(自包含式): 通过内存、使用独立的连接、其他实体的方式来获得内容。自包含实体可以重复生成。这种类型的实体将主要被用于封闭HTTP请求。
-
wrapping(包装式): 通过其他实体来获得内容.
上面的例子中我们直接使用工具方法 EntityUtils.toString() 将一个 HttpEntity 转换为字符串,虽然使用起来非常方便,但是要特别注意的是这其实是不安全的做法,要确保返回内容的长度不能太长,如果太长的话,还是建议使用流的方式来读取:
CloseableHttpResponse response = httpclient.execute(request);
HttpEntity entity = response.getEntity();
if (entity != null) {
long length = entity.getContentLength();
if (length != -1 && length < 2048) {
String responseBody = EntityUtils.toString(entity);
}
else {
InputStream in = entity.getContent();
// read from the input stream ...
}
}
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
HTTP Header
HTTP Header 分为request header
和response header
。在我自己开发的时候,有时候需要把一次request header
都模拟了,因为服务器端有可能会对请求的header进行验证,有些网页还会根据User-Agent不同返回不同的页面内容。也有时候需要对response header
进行解析,因为服务器会将用于下一步验证所需的秘钥放在header中返回给客户端。
添加头部信息:
HttpPost post = new HttpPost(url);
post.setHeader("Content-Type", "application/json;charset=UTF-8");
post.setHeader("Host", "www.test.com.cn");
- 1
- 2
- 3
addHeader()
和setHeader()
,前者是新增头部信息,后者可以新增或者修改头部信息。
读取头部信息:
HttpResponse resp = httpClient.execute(···);
// 读取指定header的第一个值
resp.getFirstHeader(headerName).getValue();
// 读取指定header的最后一个值
resp.getLastHeader(headerName).getValue();
// 读取指定header
resp.getHeaders(headerName);
// 读取所有的header
resp.getAllHeaders();
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
页面解析
页面解析需要讲的东西太少,就直接放到这一章里面一起讲了。
前面讲了怎么用httpClient模拟Http请求,那怎么从html页面拿到我们想要的数据呢。
这里就引出了jsoup页面解析工具。
jsoup
Jsoup是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
以www.csdn.com为例。
如果我要获取当前选中元素中的标题文字。
String page = "..."; // 假设这是csdn页面的html
Document doc = Jsoup.parse(page); //得到document对象
Element feedlist = doc.select("#feedlist_id").get(0); // 获取父级元素
String title = feedlist.select("a").get(0).text(); // 获取第一个a标签的内容
// 如果是input之类的标签,取value值就是用val()方法
- 1
- 2
- 3
- 4
- 5
上述代码用的是css选择器的方法,熟悉前端dom操作的童鞋们应该是蛮熟悉的。同时jsoup也支持直接获取dom元素的方法。
// 通过Class属性来定位元素,获取的是所有带这个class属性的集合
getElementsByClass()
// 通过标签名字来定位元素,获取的是所有带有这个标签名字的元素结合
getElementsByTag();
// 通过标签的ID来定位元素,这个是精准定位,因为页面的ID基本不会重复
getElementById();
// 通过属性和属性名来定位元素,获取的也是一个满足条件的集合;
getElementsByAttributeValue();
// 通过正则匹配属性
getElementsByAttributeValueMatching()
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
正则表达式
正则表达式实际上也是页面解析中非常好用的一种方式,主要是因为我在分析我需要抓取数据的页面上发现,我需要的数据并不在dom元素中,而是在js脚本中,所以直接用正则表达式获取会比较方便。
Matcher matcher;
String page; = "..."; // 页面html
String regex = "..."; // 正则表达式
matcher = Pattern.compile(regex).matcher(page);
if (matcher.find())
// 子询价单号
String rst = matcher.group(1);
- 1
- 2
- 3
- 4
- 5
- 6
- 7
刚开始犯了一个很傻的错误,没有执行matcher.find()
方法就直接用matcher.group(1)
去赋值,导致报错。
这里推荐一个正则表达式工具.
区块链以太坊DApp开发是怎么炼成的?区块链的日益火爆和备受追捧,使得区块链开发人才稀缺,同时更加伴随着高薪,想要转型却不了解,特整理出学习大纲分享
想对作者说点什么? 我来说一句
JAVA 爬虫之httpclient post请求提交表单获取Ajax数据
public static String httpPostWithJSON(String url) throws Exception { HttpPost httpPost = ne...
1、写一个HttpRequestUtils工具类,包括post请求和get请求 1 2 3 4 5 6 7 8 9 ...
另外解密恶意广告主识别的文章,据说涉密了,因为担心公司的保密协议,先删除了安全第一。 本文讲述了一种使用浏览器内核进行伪装的新爬虫,它可以轻易的欺骗CNZZ的数据统计,抓取动态内容。我首先介...
中国海参85%都是假的!10年女参农曝光30年行业丑闻!闪靓网络 · 顶新
[Jsoup] 模拟浏览器:post方式模拟登陆获取网页数据(二)
推荐一本书:黑客攻防技术宝典.Web实战篇 ; 顺便留下一个疑问:是否能通过jsoup大量并发访问web或者小型域名服务器,使其瘫痪?其实用jsoup熟悉的朋友可以用它解析url来干一件...
原文地址 简介 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来...
文章热词
java word打开 java 模板+参数 java收集控制台一行 java代码抽奖 java 对象动态堆
相关热词
java‖ 与java java的~ java java和--
一、 JSOUP简介 在以往用java来处理解析HTML文档或者片段时,我们通常会采用htmlparser(http://htmlparser.sourceforge.net/)这个开源类库。现...
浅谈HTTP中Get与Post的区别 Http定义了与服务器交互的不同方法,最基本的方法有4种,分别是GET,POST,PUT,DELETE。URL全称是资源描述符,我们可以这样认为:一个...
聪明的女人从不买面膜,睡前这样做,皱纹全消显年轻!科豆 · 顶新
apache + httpclient4 + jsoup 进行模拟浏览器url访问
java爬虫实战(1):抓取信息门户网站中的图片及其他文件并保存至本地
爬虫系列博客将从以下几个方面介绍相对编写网页爬虫核心过程。 爬虫系列(一)——网页请求HttpClient 爬虫系列(二)——网页解析Jsoup 爬虫系列(三)——多线程爬...
Android Retrofit 实现(图文上传)文字(参数)和多张图片一起上传
Java爬虫进阶-Jsoup+httpclient获取动态生成的数据
java爬虫--免登录,通过httpclient模拟登录并获取登录后的信息
1、使用依赖 httpclient 进行http请求 jsoup 对html进行解析 org.jsoup jsoup ...
建议:事先定义一个线程池进行线程托管,推荐线程数20需定义:pool、worker、task、queue等参数(在此并不进行线程的讨论) 一、请求模拟 定义默认的一个closeableHttp...
早知道腰椎这个办法能治,还动什么手术啊华蓥华兴医院 · 顶新
利用httpClient和htmlParse获取网页iframe数据
/** * 定义内部类,获取抓取的网页数据中iframe的src包含http://的值。 * 2014-08-14 16:52:10 * @author pengyh * ...
目录1网络爬虫原理 2写网络爬虫的原因 3网络爬虫的流程 4网络抓包 5HTTP状态码说明 6Java网络爬虫需要的基础知识 1、网络爬虫原理网络爬虫指按照一定的规则(模拟人工...
httpClient4.3 模拟Post提交,模拟Post上传文件并解决服务端使用spingMVC时upload.parseRequest(request)解析不到File,Pos简单抓取页面数据
用httpclient解析https网页,基本代码测试通过。 import javax.net.ssl.SSLContext; import javax.net.ssl.TrustManage...
Java爬虫(三)-- httpClient 模拟登录 + cookie 登录状态管理
前言 前面两章内容阐述了httpClient怎么模拟Http请求和如何解析页面。 接下去会讲在一些实战中遇到的问题。 现在回到我的开发摸索之路,之前说到我所爬取的网页是某个险企提供给合作公司的一...
后悔知道晚了!血糖高可以这样改善,少花冤枉钱!白领 · 顶新
[Java爬虫] 使用 Jsoup + HttpClient 爬取网页图片
HtmlUnit、httpclient、jsoup爬取网页信息并解析
爬虫实战:页面解析详细指南(正则表达式、XPath、jsoup、Gson)
4 种解析技术的介绍:正则表达式、XPath、jsoup、Gson
[Java爬虫] 使用 Jsoup+HttpClient 爬取网站基本信息
一、前言 说起爬虫,很多人第一反应是使用 Python 语言。但是 Java 爬虫方面也是相当成熟的,使用 Jsoup、HttpClient、HtmlUnit 就可以实现基本的需求。 【爬虫...
网络爬虫利器:fiddle+httpclient+jsoup
【网络爬虫】【java】微博爬虫(二):如何抓取HTML页面及HttpClient使用
没有更多推荐了,返回首页
个人资料
粉丝
11
喜欢
0
评论
0
等级:
访问:
5366
积分:
146
排名:
116万+
勋章:
最新文章
- Java爬虫(八)-- httpClient进阶:HTTPS和证书认证(原理总结篇)
- Java爬虫(七)- httpClient进阶: https 和 证书认证(讲故事篇)
- 【开发笔记】ajax交互报错调试,请求失败状态码为0时的解析,附解决方案
- Java爬虫(六)-- httpClient进阶:超时时间设置+cookie保存策略
- Java爬虫(五)-- httpClient进阶:使用代理(详细解析)
个人分类
归档
热门文章
- Java爬虫(三)-- httpClient 模拟登录 + cookie 登录状态管理
阅读量:1517
- 【开发笔记】spring + websocket 实现服务端推送消息(附几个坑)
阅读量:1406
- Java爬虫(四)-- Java 调用 JS 函数 模拟页面 JS 密码加密(附几个知识点)
阅读量:398
- Java爬虫(二)-- httpClient模拟Http请求+jsoup页面解析
阅读量:384
- Java爬虫(六)-- httpClient进阶:超时时间设置+cookie保存策略
阅读量:337
联系我们
请扫描二维码联系客服
400-660-0108
QQ客服 客服论坛
©2018 优快云版权所有 京ICP证09002463号
登录
-
0
-