Java Jsoup爬虫简单使用

最新推荐文章于 2024-01-06 10:16:35 发布

葫芦小金刚_

最新推荐文章于 2024-01-06 10:16:35 发布

阅读量194

点赞数

CC 4.0 BY-SA版权

分类专栏： Java

本文链接：https://blog.youkuaiyun.com/qq_41921511/article/details/90258625

Java 专栏收录该内容

9 篇文章

订阅专栏

本文介绍如何利用Jsoup库进行网页爬取，详细展示了从添加依赖、修改包名到具体代码实现的全过程。通过实例代码，读者可以学习到如何发送HTTP请求，解析HTML文档，以及选择和提取所需数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、首先添加依赖(maven)

<dependency>
        <groupId>org.jsoup</groupId>
	<artifactId>jsoup</artifactId>
	<version>1.8.3</version>
</dependency>

2、记得修改package

3、代码中发送请求的类在HttpRequestUtils

package com.demo.utils;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;


public class CaijiUtils {

    public static void main(String[] args) {

        String siteUrl = "http://dt.sxgov.cn/";
        String siteRule = ".text1>ul>li>a";
        Elements links = responseData(siteUrl , siteRule);
        for (int i = 0; i < links.size(); i++){
            System.out.println("新闻标题：" + links.get(i).text());
            System.out.println("连接地址：" + links.get(i).attr("href"));
            String detailUrl = siteUrl + links.get(i).attr("href");
            String detaulRule = "#ltext";
            Elements detailPage = responseData(detailUrl , detaulRule);
            System.out.println("新闻内容：" + detailPage.get(0).text());
        }
    }

    /**
     * 获取页面数据
     * @param url
     * @param rule
     * @return
     */
    public static Elements responseData(String url , String rule){
        String htmlInfo = HttpRequestUtils.sendGetRequest(url);
        Document doc = Jsoup.parse(htmlInfo);
        return doc.select(rule);
    }
}