优快云博客迁移至Hexo之同步优快云博文到本地MD文件

本文介绍了博主将优快云博客迁移至Hexo的过程,包括使用Jsoup解析优快云文章,通过html2md工具转换HTML为Markdown,以及在遇到代码块解析问题时的挑战。尽管遇到复杂HTML代码转换的问题,但大部分流程已实现,代码已开源在Github上。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

夜班敲声-凌晨三点

动机

  自从我把Github+Hexo的博客“交给”Google之后,每天都有几十位的访客2333,访客少的原因有许多,一个是文章较少,二是百度虫子没有爬到我的页面,就会导致即就算直接搜索博客里面的内容,百度都不会返回我的地址,就这个情况我已经使用百度和谷歌去处理了,至于文章较少的问题,我打算做个博客迁移!
  我大三到现在的所有博客全部都在优快云上,所以要对优快云做一个文章导出功能,官方提供了工具,然而我昨天试了并不行。有博友自己提供了工具,是用python写的,本来打算用的,但是自己电脑没有装python,一时兴起决定用java写个小程序,自己动手丰衣足食,说干就干,整体的思路如下图:
大体的流程
使用Jsoup去获取页面并解析—>将对应html代码转换成MD文件存储到本地—>最后放到对应位置,执行hexo ghexo d命令发布到Github上

过程

解析优快云

  比较庆幸的是优快云并没有对“爬虫”做相关的处理,也就是说,我使用Jsoup获取页面并解析是没有任何限制的(至少我没有遇到),这里需要做个简单的逻辑来获取article/list页面的所有文章列表url包括摘要。在接着根据url将对应文章的内容结构化解析出来,代码如下

String url = HOST_URL + username + "/article/list/" + 1;
Document parse = Jsoup.parse(new URL(url), 5000);
Element element = parse.select("div#papelist span").get(0);
Strin
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值