Java爬虫实践：HttpClient, Jsoup与WebMagic入门-优快云博客

本文链接：https://blog.youkuaiyun.com/beyondx/article/details/120660296

本文介绍了使用Java进行网络爬虫开发的基础知识，涵盖了HttpClient库的GET/POST请求、连接池及请求参数设置，Jsoup库的DOM与选择器解析网页内容，以及WebMagic框架的环境搭建、元素抽取和数据保存。通过实例展示了如何实现爬虫功能，涉及商城商品信息的抓取，并给出了数据库表结构示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Java爬虫

Web Crawler, 网络爬虫

1. HttpClient

Java的 HTTP 协议客户端 HttpClient这个技术, 来实现抓取网页数据

1, GET请求

2, 带参数的GET请求

3, POST请求

4, 带参数的POST请求

5, 连接池

6, 请求参数

https://mvnrepository.com/

httpclient

https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient/4.5.2

log4j

https://mvnrepository.com/artifact/org.slf4j/slf4j-log4j12/1.7.25

日志, 需要配置文件的, 所以在 resources目录下, 新建一个资源文件

2. Jsoup

1, 解析url

2, 解析字符串

3, 解析文件

4, 使用dom方式获取元素

5, 使用选择器获取元素

6, 使用组合选择器获取元素

2.1. 实例

1, 开发准备

2, 编写引导类, Service, Dao

3, 封装HttpClient

4, 实现爬虫功能1

5, 实现爬虫功能2

6, 实现爬虫功能3

配置参数, 配置请求信息

create table mall_item(
    id bigint(10) not null auto_increment comment '主键id',
    spu bigint(15) default null comment '商品集合id',
    sku bigint(15) default null comment '商品最小品类单元id',
    title varchar(100) default null comment '商品标题',
    price bigint(10) default null comment '商品价格',
    pic varchar(10) default null comment '商品图片',
    url varchar(200) default null comment '商品详情地址',
    created datetime default null comment '创建时间',
    updated datetime default null comment '更新时间',
    primary key(id),
    key sku (sku) using btree
) engine=InnoDB auto_increment=1 default charset=utf8 comment='商城商品表';