
Java爬虫框架
宁静致远kioye
这个作者很懒,什么都没留下…
展开
-
Htmlunit 添加接口方法->拦截获取下载链接
Htmlunit 定制方法->拦截获取下载链接 htmlunit是一款很不错的爬虫工具,它可以模拟不同浏览器进行网页的请求,然后进行页面数据的爬取,根据你选择的浏览器,会有不同的爬虫效果和速度的差异,而且还能获取到下载链接。 在此处要讨论的是htmlunit爬取酷安时,虽能获取APP的下载链接,但却是酷安的认证链接(会失效),在请求认证链接后,进行重定向后才能获取最终的链原创 2018-01-27 14:03:51 · 2528 阅读 · 0 评论 -
网页爬虫XPath 定位
XPath 定位 最近使用到了XPath进行爬虫标签的定位,就将常用的语法总结了一下,方便下次使用时做参考。1.基本语法# 倒数第二个 book 元素//bookstore/book[last()-1]# 除了第一个 book 元素//bookstore/book[position()>1]# price 元素的值须大于 35.00 且不等于 38.00...原创 2018-06-14 09:48:08 · 1933 阅读 · 0 评论