
Java爬虫
谁动了我的bug
不为失败找理由,只为成功找方法。
展开
-
Jsoup简介
Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。我们在爬虫采集网页领域 主要作用是 用HttpClient获取到网页后 具体的网页提取需要的信息的时候 ,就用到Jsoup,Jsoup可以使用强大的类似Jquery,css选择器,来获取需要的数据;Js...原创 2018-01-25 08:58:06 · 244 阅读 · 0 评论 -
Jsoup HelloWorld实现
我们用Jsoup来提取下http://www.cnblogs.com/ 博客园的 网页title 标题 和 口号;这里我们要用到前面讲的HttpClient来获取网页内容:pom.xml:<!-- 添加httpclient支持 --> <dependency> <groupId>org.apache.httpcomponents&...原创 2018-02-02 09:57:20 · 242 阅读 · 0 评论 -
HtmlUnit简介
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器,运行速度迅速。是junit的扩展之一引擎介绍采用的是Rhinojs引擎。模拟js运行主要用途常规意义上,该项目可以用来进行页面的测试工作,实现网页自动化测试,(包括JS)但是一般来说,在...原创 2018-02-07 09:24:50 · 719 阅读 · 0 评论 -
HtmlUnit helloWorld实现
首先我们新建一个Maven普通客户端项目,然后打开pom.xml引入htmlunit支持:然后我们写一个测试类,来解析http://www.i-ronge.com获取网页html以及网页文本,这里有点类似httpClient,但是底层执行过程默认多了一个js执行过程(当然htmlunit提供了关闭js解析设置); 运行输出: ...原创 2018-02-07 09:25:06 · 496 阅读 · 0 评论 -
HtmlUnit模拟指定浏览器
前面我们的测试代码是直接请求的,有些网站服务器防火墙会直接拒绝访问。我们现在用htmlunit来模拟下浏览器请求;主要是加了一些头消息;这个是我们用火狐调试工具看到的请求头小心里的属性,当然上面还有返回的头消息;我们用htmlunit可以模拟浏览器执行,内置的可以模拟IE,火狐,谷歌;WebClient构造方法里有个重载方法,可以加一个指定版本属性;完整代码:运...原创 2018-02-07 09:25:19 · 591 阅读 · 0 评论