jsoup解析HTML用法小结

最新推荐文章于 2025-07-14 13:14:29 发布

转载最新推荐文章于 2025-07-14 13:14:29 发布 · 358 阅读

Jsoup 专栏收录该内容

12 篇文章

订阅专栏

本文总结了使用jsoup进行HTML解析的方法，包括从字符串、URL和文件解析文档，DOM元素遍历，使用选择器语法搜索元素，以及获取元素属性、文本和HTML等内容。

转载自 jsoup解析HTML用法小结

使用HttpClient+jsoup做采集器有一段时间了，发现jsoup很好用，而且还有很多方便的东西都没怎么用上。于是想根据官网上的cookbook来对jsoup的使用做个小结，或者是归纳。按功能分类做个列表，方便在写程序的时候快速翻阅。

1、jsoup的HTML文档（Document）对象模型

Document对象由Element和TextNode对象组成

继承链

Document extends Element extends Node

TextNode extends Node

Element包括一个子Node的列表及一个父Element

2、解析文档

从字符串解析

String html = "<html><head><title>First parse</title></head>" 
  + "<body><p>Parse HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

从URL获取并解析

Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();

Document doc = Jsoup.connect("http://example.com")
  .data("query", "Java")
  .userAgent("Mozilla")
  .cookie("auth", "token")
  .timeout(3000)
  .post();

从文件解析

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

3、DOM方式遍历元素

搜索元素

getElementById(String id)
getElementByTag(String tag)
getElementByClass(String className)
getElementByAttribute(String key)
siblingElements(), firstElementSibling(), lastElementSibling(), nextElementSibling(),previousElementSibling()
parent(), children(), child(int index)

获取元素数据

attr(String key) – 获取key属性
attributes() – 获取属性
id(), className(), classNames()
text() – 获取文本内容
html() – 获取元素内部HTML内容
outerHtml() – 获取包括此元素的HTML内容
data() – 获取<srcipt>或<style>标签中的内容
tag(), tagName()

4、选择器语法（jsoup与其他解析器的区别就是可以使用类似jquery的选择器语法来搜索及过滤出所需的元素）

基本选择器

tagname: 搜索tag标签的元素
ns|tag: 搜索命名空间内tag标签的元素，如fb|name：<fb:name>
#id: 搜索有指定id的元素
.class: 搜索有指定class的元素
[attribute]: 搜索有attrribute属性的元素
[^attri]: 搜索有以attri开头的属性的元素
[attr=value]: 搜索有指定属性及其属性值的元素
[attr^=value], [attr$=value], [attr*=value]: 搜索有指定attr属性，且其属性值是以value开头、结尾或包括value的元素，如[href*=/path/]
[attr~=regex]: 搜索有指定attr属性，且其属性值符合regex正则表达式的元素
*: 搜索所有元素

选择器组合

el#id: 同时指定标签名称和id
el.class: 同时指定标签名称和class
el[attr]: 同时指定标签名称和及其中所含属性的名称
上述3项的任意组合，如a[href].highlight
ancestor child: 包含，如div.content p，即搜索<div class=”content”>下含有<p>标签的元素
ancestor > child: 直接包含，如div.content > p，即搜索直属<div class="content">节点下的<p>标签元素；div.content > *，即搜索<div class="content">下的所有元素
siblingA + siblingB: 直接遍历，如div.head + div，即搜索<div class="head"><div>的元素，其中不再包含子元素
siblingA ~ siblingX: 遍历，如h1 ~ p，即<h1>下直接或间接有<p>的元素
el, el, el: 组合多个选择器，搜索满足其中一个选择器的元素

伪选择器（条件选择器）

:lt(n): 搜索n号元素之前的元素
:gt(n): 搜索n号元素之后的元素
:eq(n): 搜索n号元素
:has(seletor): 搜索符合指定选择器的元素
:not(seletor): 搜索不符合指定选择器的元素
:contains(text): 搜索包含指定文本的元素，区分大小写
:containsOwn(text): 搜索直接指包含指定文本的元素
:matches(regex): 搜索符合指定正则表达式的元素
:matchesOwn(regex): 搜索本元素文本中符合指定正则表达式的元素
注意：以上伪选择器的索引中，第一个元素位于索引0，第二个元素位于索引1，……

5、获取元素的属性、文本和HTML

获取元素的属性值：Node.attr(String key)
获取元素的文本，包括与其组合的子元素：Element.text()
获取HTML：Element.html()或Node.outerHtml()

6、操作URL

Element.attr("href") – 直接获取URL
Element.attr("abs:href")或Element.absUrl("href") – 获取完整URL。如果HTML是从文件或字符串解析过来的，需要调用Jsoup.setBaseUri(String baseUri)来指定基URL，否则获取的完整URL只会是空字符串