利用 jsoup 解析 html内容

最新推荐文章于 2025-10-10 18:00:07 发布

原创最新推荐文章于 2025-10-10 18:00:07 发布 · 1.6k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#jsoup #html

其他专栏收录该内容

9 篇文章

订阅专栏

本文介绍了jsoup作为Java的HTML解析器，它允许通过DOM、CSS和jQuery方式操作HTML内容。jsoup能处理不完整的HTML，提供parseBodyFragment()和parse()方法，确保解析的文档结构可靠，同时解析时会将相对路径转换为绝对路径。

jsoup 是一款 Java 的 HTML 解析器，可直接解析HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
jsoup API文档：http://tool.oschina.net/apidocs/apidoc?api=jsoup-1.6.3
jsoup的作用：
1、可以根据URL、本地文件和字符串解析HTML的内容
2、可以使用DOM、JQuery选择器来查找获取元素
3、可以操作元素、文本、属性

maven依赖：

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.8.3</version>
</dependency>

jsoup继承的层次结构：
这里写图片描述

Document对象（一个文档的对象模型）：文档由多个Elements、TextNodes、其他辅助nodes组成。继承关系如上图所示。

一、从字符串中解析html内容

无论html内容是否完整，它可以处理：
a、没有关闭的标签
b、隐式标签
c、创建可靠的文档结构，html中包含head和body。

1、处理不完整的html内容

public static void main(String[] args) {
        //不完整的html内容
        String html="<div><a href=\"www.baidu.com\"><h1>你好 JSOUP";
        Document doc= Jsoup.parseBodyFragment(html);
        //第二种方式
        //Document doc=Jsoup.parse(html);
        //获取body的所有子元素
        System.out.println(doc.body());
    }
结果：
<body>
 <div>
  <a href="www.baidu.com"><h1>你好 JSOUP</h1></a>
 </div>
</body>