Android 使用Jsoup解析HTML

最新推荐文章于 2024-05-15 09:31:30 发布

原创

最新推荐文章于 2024-05-15 09:31:30 发布 · 1.4k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#android #jsoup网络爬虫 #html #闲读

本文介绍了如何在Android应用中使用Jsoup库来解析HTML，包括安装Jsoup、获取Document对象、HTML head和body的内容，以及详细讲解了如何获取HTML中的特定元素和内容。示例代码展示了解析HTML标题、三级标题和标签值的过程。

前言

本文主要是讲jsoup爬取网页上的数据用法，具体介绍请看：

安装

as用户可直接依赖

implementation org.jsoup:jsoup:1.11.1

其他用户请看 https://jsoup.org/download

使用

下面的html来自干货集中营，就先以这个为例：

获取Document对象

Document对象可以看成一个一个HTML文档。

// 连接提供了一个方便的接口来从web获取内容，并将它们解析为文档
final Connection connect = Jsoup.connect("http://gank.io/xiandu/");
// 伪装成浏览器抓取，具体有没用布吉岛。。
connect.header("User-Agent", "Mozilla/5.0 (X11; Linux x86_64; rv:32.0) Gecko/20100101 Firefox/32.0");
// 通过get()获取一个Document对象
final Document document = connect.get();

获取HTML head内容

我们想获取网页的标题，可以直接通过：

String title = document.head().select("title").text();
System.out.println(title);

输出：「读那些值得读的」

获取HTML body内容

前面的是不是感觉很简单，现在这个虽然复杂了一点，但是逻辑理清楚了，自然就简单很多了

<div class="typo">
    <div class="container content">

    <style>
        <!-- 省略部分html --!>
    </style>

    <h3 class="center"> 闲读 </h3>
    <p class="center" style="color: #747474;">
        读那些值得读的
    </p>

    <div id="xiandu_cat">
    <ul>
        <li><a style="border: 1px solid #747474;" href="/xiandu">科技资讯</a></li>
        <li><a href="/xiandu/apps">趣味软件/游戏</a></li>
        <li><a href="/xiandu/imrich">装备党</a></li>
        <li><a href="/xiandu/funny">草根新闻</a></li>
        <li><a href="/xiandu/android">Android</a></li>
        <li><a href="/xiandu/diediedie">创业新闻</a></li>

最低0.47元/天解锁文章