Java Jsoup爬虫简单使用

本文介绍如何利用Jsoup库进行网页爬取,详细展示了从添加依赖、修改包名到具体代码实现的全过程。通过实例代码,读者可以学习到如何发送HTTP请求,解析HTML文档,以及选择和提取所需数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 1、首先添加依赖(maven)

<dependency>
        <groupId>org.jsoup</groupId>
	<artifactId>jsoup</artifactId>
	<version>1.8.3</version>
</dependency>

 2、记得修改package

 3、代码中发送请求的类在HttpRequestUtils

package com.demo.utils;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;


public class CaijiUtils {

    public static void main(String[] args) {

        String siteUrl = "http://dt.sxgov.cn/";
        String siteRule = ".text1>ul>li>a";
        Elements links = responseData(siteUrl , siteRule);
        for (int i = 0; i < links.size(); i++){
            System.out.println("新闻标题:" + links.get(i).text());
            System.out.println("连接地址:" + links.get(i).attr("href"));
            String detailUrl = siteUrl + links.get(i).attr("href");
            String detaulRule = "#ltext";
            Elements detailPage = responseData(detailUrl , detaulRule);
            System.out.println("新闻内容:" + detailPage.get(0).text());
        }
    }

    /**
     * 获取页面数据
     * @param url
     * @param rule
     * @return
     */
    public static Elements responseData(String url , String rule){
        String htmlInfo = HttpRequestUtils.sendGetRequest(url);
        Document doc = Jsoup.parse(htmlInfo);
        return doc.select(rule);
    }
}

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值