
爬虫
ITarmi
记录学习过程,分享所学知识。认识更多志同道合的同学
展开
-
Jsoup解析网页
上一篇文章的HttpClient主要是用来获取网页,Jsoup主要就是用来解析网页。jsoup提供了非常方便的api让我们能通过DOM,CSS等方法来解析网页,对前端有了解的话就更简单了,就像在js中操作页面元素一样。jsoup主要功能:1.从一个URL,文件或字符串中解析HTML;2.使用DOM或CSS选择器来查找、取出数据3.可操作HTML元素、属性、文本在pom.xml文件中添加依赖 <!--jsoup解析网页--> <!--jsoup--> &原创 2021-08-22 17:46:21 · 690 阅读 · 0 评论 -
HttpClient简单使用
httpclient是Java的http协议客户端,用于抓取网页首先pom.xml文件导入依赖 <!--HttpClient--> <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.10</version>原创 2021-08-22 17:03:07 · 384 阅读 · 0 评论 -
webmagic获取动态页面数据(通过js、Ajax渲染的页面)
本篇文章就不介绍webmagic了。普通的静态页面获取这里也不说了,相信大家都没问题。这里主要记录两种动态页面获取方法1.数据存在页面js代码中直接上代码@Componentpublic class JobProcessor implements PageProcessor { private String url = "https://search.51job.com/list/000000,000000,0000,00,9,99,java,2,1.html?lang=c&p原创 2021-08-19 20:48:59 · 4000 阅读 · 2 评论