利用爬虫爬取指定用户的优快云博客文章转为md格式,目的是完成博客迁移博文到Hexo等金静态博客...

这是一个从优快云迁移到Hexo等静态博客的Java程序。利用爬虫爬取指定用户的优快云博客文章并转为md格式,可设置md文件命名规则、头部信息等。介绍了工具、运行提示、多种用法,还说明了展示步骤及配置文件信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ps:一个从csdn迁移到hexo等静态博客的java程序 github:github.com/dataiyangu/… 我的个人博客:mmmmmm.me 博客源码:github.com/dataiyangu/…

功能

概述:利用爬虫爬取指定用户的优快云博客文章转为md格式,目的是完成博客迁移

爬取的方式:

   1 默认轮询从第一页开始往后
   2 专栏方式
   3 指定某篇文章
   4 指定页数
   5 分类
复制代码

设置生成的md文件命名规则:

可选值:date title ,date根据日期命名,title根据文章名命名
复制代码

设置md文件的头部信息

title= author= tags= categories=

是否显示csdn中的锚点"文章目录"字样,以及下面具体的锚点 默认false(因为csdn中是集成了[toc]功能的,hexo并没有集成)

anchor=false

是否开启版权声明 默认false(csdn文章头部有我们自定的版权声明,false即为去掉。)

copyright=false

工具

html2markdown Jsoup

提示

  • 运行过程中可能出现异常(小概率): 因为csdn有反爬虫机制,如果迁移过程中出现”应该是被反爬虫了,换个wifi或者网络试试~~~~~~~~~~~~~~~~~~~~~~~ “,那你就照着我打的这个日志去做吧,哈哈
  • 运行./start.sh 之前需要给这个脚本赋予权限,执行 chmod 777 ./start.shg
  • 需要jdk1.8

用法:

方式一:

git clone 到本地,进入target目录,修改config.properties中的某些配置(视自己情况而修改) 运行

java -jar csdn2hexo-1.0-SNAPSHOT.jar
复制代码

方式二:

git clone 到本地,进入target目录,修改config.properties中的某些配置(视自己情况而修改) 运行 ./start.sh a,b,c 1,2,3 articleName tips:这里的a,b,c 是hexo标签,逗号隔开 1,2,3是hexo分类,逗号隔开 articleName是文章标题,不写的话默认标题是csdn的文章标题。这三个参数如果不写的话默认是配置文件中的内容

方式三:

git clone 到本地,通过idea import本project, 修改src/main/resource目录中的config.properties文件(视自己情况而修改) 修改读取配置文件的路径:找到com.github.csccoder.csdn2md.util.PropertiesUtil

package com.github.csccoder.csdn2md.util;

public class PropertiesUtil {
	public static String getProperties(String key){
		String value = null;
		try {
			Properties pp = new Properties();

			//通过idea运行程序
			InputStream inputStream = Main.class.getClassLoader().getResourceAsStream("config.properties");
			//通过java -jar 或者 ./start.sh运行程序
			//String filePath = System.getProperty("user.dir")+ "/config.properties";
			//InputStream inputStream = new BufferedInputStream(new FileInputStream(filePath));

			pp.load(inputStream);
			value= (String) pp.get(key);
			return value;
		} catch (IOException e) {
			e.printStackTrace();
			return value;
		}
	}
}
复制代码

找到 Main 这个类运行即可

展示

运行命令:

文件夹产生

将文件夹中_posts和images文件中的内容拷贝到自己博客对应的位置

本地启动hexo博客测试

查看效果

查看头部信息

查看头部信息显示效果

配置文件信息展示

# md文章头部配置
#分类和标签逗号隔开
title=
author=Leesin.Dong
tags=a,b,c
categories=a,b,c

# 文件命名规则  可选值:date title ,date根据日期命名,title根据文章名命名
MdFileName_type=date


# csdn host 这里如果没有自定义域名的话不用改
csdn_host=https://blog.youkuaiyun.com
# csdn用户名
casn_name=dataiyangu


# 文件保存的绝对路径,即img html post这三个文件夹的父文件夹
file_Path=/Users/leesin/Desktop/hexo_blog_md
# 设置下载的文件夹名字
html_path=html
image_path=images
md_path=_posts


# 设置下载的方式,默认是从第一页往后不断的下载的
#可选的方式:
#       1 默认轮询从第一页开始往后
#       2 专栏方式
#       3 指定某篇文章
#       4 指定页数
#       5 分类
url_way=2
# 具体的五种抓取方法的地址填写(视自己情况而定)
# 比如 我的: https://blog.youkuaiyun.com/dataiyangu/article/category/8118370
# 下面的几种情况只写 https://blog.youkuaiyun.com/dataiyangu 后面的内容即可,后面写什么自己手动点到相应的页面粘贴过来就行了
url_way_1=/article/list/
url_way_2=/column/info/32118
url_way_3=/article/details/88525801
url_way_4=/article/list/2
url_way_5=/article/category/8118370

#是否显示csdn中的锚点"文章目录"字样,以及下面具体的锚点 默认false
anchor=false
#是否开启版权声明 默认false
copyright=false
复制代码

转载于:https://juejin.im/post/5c8f36dae51d45456b27a072

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值