动机
自从我把Github+Hexo的博客“交给”Google之后,每天都有几十位的访客2333,访客少的原因有许多,一个是文章较少,二是百度虫子没有爬到我的页面,就会导致即就算直接搜索博客里面的内容,百度都不会返回我的地址,就这个情况我已经使用百度和谷歌去处理了,至于文章较少的问题,我打算做个博客迁移!
我大三到现在的所有博客全部都在优快云上,所以要对优快云做一个文章导出功能,官方提供了工具,然而我昨天试了并不行。有博友自己提供了工具,是用python写的,本来打算用的,但是自己电脑没有装python,一时兴起决定用java写个小程序,自己动手丰衣足食,说干就干,整体的思路如下图:
使用Jsoup去获取页面并解析—>将对应html代码转换成MD文件存储到本地—>最后放到对应位置,执行hexo g
和hexo d
命令发布到Github上
过程
解析优快云
比较庆幸的是优快云并没有对“爬虫”做相关的处理,也就是说,我使用Jsoup获取页面并解析是没有任何限制的(至少我没有遇到),这里需要做个简单的逻辑来获取article/list
页面的所有文章列表url包括摘要。在接着根据url将对应文章的内容结构化解析出来,代码如下
String url = HOST_URL + username + "/article/list/" + 1;
Document parse = Jsoup.parse(new URL(url), 5000);
Element element = parse.select("div#papelist span").get(0);
Strin