jsoup系列教材 (一)- 简介

XML、HTML基础与解析:从入门到实践
本文介绍了XML(可扩展标记语言)的概念,常见用途如web应用中的web.xml配置,以及与HTML的关系。重点讲解了XML解析的不同方式,包括Java内置的SAX/DOM和第三方工具DOM4J、JSoup,提供了使用JSoup解析HTML的示例代码。

步骤1:什么是xml
步骤2:常见的 xml
步骤3:什么是 html
步骤4:html 和 xml 的关系
步骤5:解析
步骤6:xml 的解析的几种方式
步骤7:jar
步骤8:示例
步骤9:可运行项目

步骤 1 : 什么是xml

xml 是可扩展标记语言的缩写: Extensible Markup Language。
举个例子就像下面这样:

<root>

  <e1> text 1</e1>

</root>

步骤 2 : 常见的 xml

比如做 web 应用开发,需要配置 web.xml,就是个典型的 xml文件。
它里面就有这些元素: web-app, servlet, servlet-name, servlet-class 这些。

注: 什么是元素? 像这样的格式就是一个元素 : <元素名称> 元素内容 </元素名称>。 比如: <servlet-name>HelloServlet</servlet-name> 就是 servlet-name 元素。

<web-app>

  

    <servlet>

        <servlet-name>HelloServlet</servlet-name>

        <servlet-class>HelloServlet</servlet-class>

    </servlet>

  

    <servlet-mapping>

        <servlet-name>HelloServlet</servlet-name>

        <url-pattern>/hello</url-pattern>

    </servlet-mapping>

  

</web-app>

步骤 3 : 什么是 html

html 是 HyperText Markup Language的缩写,超文本标记语言
下面这段就是 一段 html。
不了解 html ,欢迎学习 html 系列教材:第一段html代码

<html>

  <body>

    <p>Hello HTML</p>

  </body>

</html>

步骤 4 : html 和 xml 的关系

html 可以简单看成是 xml 的一个子集。 html 用的都是一些预先定义的元素,如 <html>, <a>, <body>, <table> 。 而 xml 什么元素都可以自定义: 如 <a> , <b>, <aabb> 。

步骤 5 : 解析

既然 html 是 xml 的子集,那么解析起来就和 xml一样了,下面我们就来谈 xml的解析就可以了。

步骤 6 : xml 的解析的几种方式

1. java 本身自带对 xml 的解析。在 javax.xml 这个包下,非常难用,难用到想吐。 这种方式叫做 sax/dom
2. 因为 java 自带的很难用,所以就出现了更方便的第三方工具 dom4j, 解析效率大大提高了。
3. 现在又出现了更方便的 jsoup, 我们就会讲解如何用 jsoup 来解析 xml。

步骤 7 : jar

jsoup 也是个第三方工具,所以要使用,首先要下载jar, 在下载区(点击进入):jsoup-1.12.1.jar。

步骤 8 : 示例

一下代码,就可以把 一段html:

<html><body><p>Hello HTML</p></body></html>


里的 p 元素的内容 Hello HTML 取出来了。

1. 把文本解析成 Document 对象, Document 对象就代表整个 xml 文档。

Document doc = Jsoup.parse(html);


2. 获取所有的 p 元素。

Elements as= doc.getElementsByTag("p");


3. 遍历 所有的 p 元素 (这里其实只有一个), 打印其内容

for (Element e : as) {

    System.out.println(e.text());

}

示例

package cn.how2j.jsoup;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class Test {

    public static void main(String[] args) throws Exception {

        String html = "<html><body><p>Hello HTML</p></body></html>";

        Document doc = Jsoup.parse(html);

         

        Elements as= doc.getElementsByTag("p");

        for (Element e : as) {

            System.out.println(e.text());

        }

    }

}

步骤 9 : 可运行项目

下载区(点击进入)有本知识点对应的可运行项目下载 ,实在自己搞不出来,就下载解压出来比较一下。


更多内容,点击了解: https://how2j.cn/k/jsoup/jsoup-intro/2149.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值