微信文章内容爬取之Jsoup的使用

使用Jsoup爬取微信文章内容的示例,包括获取文章、保存内容、处理图片,代码存在bug,期待改进。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

微信文章内容获取demo

代码不够健壮,欢迎指导改正,后续自己有时间会再次修改,先上个demo

需求说明

1.首先说一下写这个的场景,因需求需要,需要根据微信文章的URL获取文章的内容,并做保存。
好了,总的来说,还是蛮坑的。尤其是样式等,(PS:虽然现在的代码也有很多bug),还是要记录一下,避免以后或者有同样需求的小伙伴继续踩坑,也希望大佬们在看的时候给出指正
2.因为需要用到Jsoup这个工具所以需要提前在自己的项目中引入这个东东的依赖

		<dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.10.2</version>
        </dependency>

具体实线代码如下(代码很烂,欢迎吐槽):
代码的逻辑大致过一下吧。

  1. 首先获取到文章内容,

  2. 然后根据需要选择部分内容,

  3. 将文章中所涉及的图片转存到本地(因为某些原因直接使用不太好o(╥﹏╥)o)

  4. 将采集内容中的图片进行替换

  5. 各种拼接(尤其是这块,很烂,欢迎大佬指导)

  6. 将内容保存到本地,以html文件格式保存(PS:这里是为了方便本地直接打开,并非强制要求,文件存什么格式自己决定)

  7. 打开保存的文件,卧槽,居然正常,nice

效果对比在这里插入图片描述

package com.test;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;
import java.util.HashMap;
import java.util.Map;

/**
 * @author wxs
 * @date 2019/10/22 11:06
 **/
public class WeChatCollect {
   

    public static void main(String
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值