转载自 jsoup解析HTML用法小结
使用HttpClient+jsoup做采集器有一段时间了,发现jsoup很好用,而且还有很多方便的东西都没怎么用上。于是想根据官网上的cookbook来对jsoup的使用做个小结,或者是归纳。按功能分类做个列表,方便在写程序的时候快速翻阅。
1、jsoup的HTML文档(Document)对象模型
- Document对象由Element和TextNode对象组成
- 继承链
Document extends Element extends NodeTextNode extends Node - Element包括一个子Node的列表及一个父Element
2、解析文档
- 从字符串解析
String html = "<html><head><title>First parse</title></head>" + "<body><p>Parse HTML into a doc.</p></body></html>"; Document doc = Jsoup.parse(html); - 从URL获取并解析
Document doc = Jsoup.connect("http://example.com/").get(); String title = doc.title();Document doc = Jsoup.connect("http://example.com") .data("query", "Java") .userAgent("Mozilla") .cookie("auth", "token") .timeout(3000) .post(); - 从文件解析
File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
3、DOM方式遍历元素
搜索元素
getElementById(String id)getElementByTag(String tag)getElementByClass(String className)getElementByAttribute(String key)siblingElements(),firstElementSibling(),lastElementSibling(),nextElementSibling(),previousElementSibling()parent(),children(),child(int index)
获取元素数据
attr(String key)– 获取key属性attributes()– 获取属性id(),className(),classNames()text()– 获取文本内容html()– 获取元素内部HTML内容outerHtml()– 获取包括此元素的HTML内容data()– 获取<srcipt>或<style>标签中的内容tag(),tagName()
4、选择器语法(jsoup与其他解析器的区别就是可以使用类似jquery的选择器语法来搜索及过滤出所需的元素)
基本选择器
tagname: 搜索tag标签的元素ns|tag: 搜索命名空间内tag标签的元素,如fb|name:<fb:name>#id: 搜索有指定id的元素.class: 搜索有指定class的元素[attribute]: 搜索有attrribute属性的元素[^attri]: 搜索有以attri开头的属性的元素[attr=value]: 搜索有指定属性及其属性值的元素[attr^=value],[attr$=value],[attr*=value]: 搜索有指定attr属性,且其属性值是以value开头、结尾或包括value的元素,如[href*=/path/][attr~=regex]: 搜索有指定attr属性,且其属性值符合regex正则表达式的元素*: 搜索所有元素
选择器组合
el#id: 同时指定标签名称和idel.class: 同时指定标签名称和classel[attr]: 同时指定标签名称和及其中所含属性的名称- 上述3项的任意组合,如
a[href].highlight ancestor child: 包含,如div.content p,即搜索<div class=”content”>下含有<p>标签的元素ancestor > child: 直接包含,如div.content > p,即搜索直属<div class="content">节点下的<p>标签元素;div.content > *,即搜索<div class="content">下的所有元素siblingA + siblingB: 直接遍历,如div.head + div,即搜索<div class="head"><div>的元素,其中不再包含子元素siblingA ~ siblingX: 遍历,如h1 ~ p,即<h1>下直接或间接有<p>的元素el, el, el: 组合多个选择器,搜索满足其中一个选择器的元素
伪选择器(条件选择器)
:lt(n): 搜索n号元素之前的元素:gt(n): 搜索n号元素之后的元素:eq(n): 搜索n号元素:has(seletor): 搜索符合指定选择器的元素:not(seletor): 搜索不符合指定选择器的元素:contains(text): 搜索包含指定文本的元素,区分大小写:containsOwn(text): 搜索直接指包含指定文本的元素:matches(regex): 搜索符合指定正则表达式的元素:matchesOwn(regex): 搜索本元素文本中符合指定正则表达式的元素- 注意:以上伪选择器的索引中,第一个元素位于索引0,第二个元素位于索引1,……
5、获取元素的属性、文本和HTML
- 获取元素的属性值:
Node.attr(String key) - 获取元素的文本,包括与其组合的子元素:
Element.text() - 获取HTML:
Element.html()或Node.outerHtml()
6、操作URL
Element.attr("href")– 直接获取URLElement.attr("abs:href")或Element.absUrl("href")– 获取完整URL。如果HTML是从文件或字符串解析过来的,需要调用Jsoup.setBaseUri(String baseUri)来指定基URL,否则获取的完整URL只会是空字符串
本文总结了使用jsoup进行HTML解析的方法,包括从字符串、URL和文件解析文档,DOM元素遍历,使用选择器语法搜索元素,以及获取元素属性、文本和HTML等内容。
710

被折叠的 条评论
为什么被折叠?



