Java爬虫之Webmagic爬取csdn文章

本文介绍如何使用Java爬虫Webmagic爬取优快云文章,包括获取文章列表、分析文章详情页、解析HTML获取文章信息,并展示了实际的爬取效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、背景介绍

本文是基于Webmagic提供的爬虫技术爬取的文章,虽然该技术已不再更新,但是现有的功能不影响正常使用,这点还是非常棒的,使用方面的问题直接看官方文档就行了,我这里只介绍个人爬取csdn的文章介绍。
官网中文文档地址是:http://webmagic.io/docs/zh/
github地址是: https://github.com/code4craft/webmagic
适合对象:java开发人员或者已经在本地安装了java环境而又不想再安装python环境的人(本人没错了)

二、爬取优快云文章

(一)获取文章列表

我们这次主要是爬取csdn首页推荐模块的文章来练练手。
在这里插入图片描述
推荐模块的文章一看就是懒加载,一次性只会提供20篇文章,然后继续下拉才会进行新的请求获取新的文章。所以我们得找到获取文章的链接,通过f12打开控制台,当我们不停的获取推荐模块的文章时控制台network有个select_content一直在请求,因此就看下这个请求的返回值是不是我们想要的。
在这里插入图片描述
点进去select_content请求看到response有返回值,然后把返回值通过json.cn格式化以后发现返回的正是新的文章。因此这个接口正是我们需要的获取文章的接口,后面爬虫的入口就是这个链接。
在这里插入图片描述
在这里插入图片描述

(二)文章具体分析

针对返回值中的随意一个url进行访问,然后针对访问后的页面进行分析,获取具体的html。
例如对https://blog.youkuaiyun.com/shangyanaf/article/details/120186973这个url进行访问分析。
在这里插入图片描述
我们访问到文章以后如果想保存文章的名称、文章发布时间,文章内容,那么我们就打开f12控制台,看下html具体如何获取。

在这里插入图片描述
上图可以看到,文章的名称是class为title-article的h1的值,也能用h1的id:articleContentId来获取h1的值,后面我们的代码就是用h1的id来获取的值。
在这里插入图片描述
上图可以看到,文章的发布时间是class为bar-content的div下class为time的span的值。
在这里插入图片描述
上图可以看到,文章的内容是class为baidu_pl的div下article的值。

(三)具体代码

package com.cloud.applets.controller.crawler.my;

import org.apache.commons.collections.CollectionUtils;
import us.codecraft.webmagic.Page;
import 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值