引言:jsoup 在 java 基础上实现爬取静态网站信息是非常方便的,只要明白原理就可以为所欲为了,废话不多说,上代码!
1.先在pom.xml 中引入依赖包
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.3</version>
</dependency>
2.把你要爬的网址放到这里来,生成一个 document
Document doc = Jsoup.connect(url).get();
3. 现在就可以在生成的 doc 上选择你需要内容所在的节点了,下面简单举几个例子,想了解详细使用方法请到http://www.open-open.com/jsoup/selector-syntax.htm
// 根据 class 查找节点
doc.getElementsByClass("class")
// 根据 id 查找节点
doc.getElementById("id")
// 根据标签类型,入查找 <a> 标签
doc.select("a");
// 获取 a 标签中的链接
doc.select("a").attr("href");
懂得这些基本就可以爬取一个简单的网站了 skr!