-
提供解析html、操作DOM的api,类似jquery的方法。
- 自动校正html中错误语法。甚至只有
div元素,都会被补充成完整完整。
- 自动校正html中错误语法。甚至只有
-
引入maven项目:
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.12.1</version> </dependency> -
Jsoup:通过该类,可传入url、字符串、输入流、文件的方式输入html,解析后会返回Document表示html文档,然后进行DOM操作。-
Jsoup.parse(String html):从字符串中获取html并解析 -
Jsoup.parse(String html,String baseUri):baseUri指定html中相对地址的基址,当获取相对地址的绝对地址时有用。如果html中含有base元素时或不需要该功能,可不用该方法。 -
Jsoup.connect(String url):从url上获取,例子如下:Document doc = Jsoup.connect("http://example.com/").get(); String title = doc.title(); //更复杂的例子 Document doc = Jsoup.connect("http://example.com") .data("query", "Java") .userAgent("Mozilla") .cookie("auth", "token") .timeout(3000) .post();这种方式已默认设置好了baseurl
-
Jsoup.parse(File in, String charsetName, String baseUri):从文件中获取html
-
-
获取数据
-
获取URL:
Element类的attr("href")方法获取url;加上前缀abs后,会结合之前设置的baseUri解析成绝对地址,如attr("abs:href")。如果没有设置则返回空。 -
修改DOM和其他内容,见参考文献
Java html解析器之Jsoup
最新推荐文章于 2022-08-22 09:01:52 发布
本文介绍了Jsoup这一Java的HTML解析器,它提供解析HTML、操作DOM的API,类似jQuery方法,还能自动校正HTML错误语法。文中说明了如何将其引入Maven项目,以及通过多种方式输入HTML进行解析,还提及查找元素、获取数据、URL等操作。
4万+

被折叠的 条评论
为什么被折叠?



