jSOUP 简介
Jsoup是一款比较好的Java版HTML解析器。可直接解析某个URL地址、HTML文本内容。可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
jSOUP主要功能
- 从一个URL,文件或字符串中解析HTML;
- 使用DOM或CSS选择器来查找、取出数据;
- 可操作HTML元素、属性、文本;
MAVEN 依赖
<!-- 解析 html 文件 -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>
使用实例
public static Document getDocument (String url){
try {
return Jsoup.connect(url).get();
} catch (IOException e) {
e.printStackTrace();
}
return null;
}
public static void main(String[] args) {
Document document=getDocument("https://item.wuage.com/543589592257.html?psa=W26.a190.a137.1");
System.out.println(document.select("img").first().attr("src"));
System.out.println(document.getElementsByTag("title").first().text());
System.out.println(document.select("meta[name='keywords']").first().attr("content"));
System.out.println(document.select("meta[name='description']").first().attr("content"));
}