因为自己部署了云服务器的个人博客站点HelloJava,因此准备将之前的博客文章迁移过去。但是一个个复制粘贴明显不可能,太浪费时间。之前网上有爬虫处理优快云博客的文章,但是由于csdn改变了机制,也用不了了。还好被我找到一个还能用的,而且非常不错的!强烈推荐!
推荐Clean−mark , 这是一个简单实用的工具。针对你的需求,它可以将博客文章转换为干净的Markdown文本文件。
安装
只需使用npm安装:
$ npm install clean-mark --global
引申:如果是Mac电脑,加上sudo就可以安装
$ sudo npm install clean-mark --global
使用
$ clean-mark “http://some-website.com/fancy-article”
文章将使用URL路径名自动命名。在上述情况下,名称为fancy-article.md。
可以指定文件类型:
$ clean-mark“ http://some-website.com/fancy-article ” -t html
可用的类型为:html,TEXT和Markdown。
还可以指定输出文件和路径:
$ clean-mark“ http://some-website.com/fancy-article ” -o / tmp / article
在这种情况下,输出将为/tmp/article.md。该扩展名是自动添加的。
示例
$ clean-mark “https://blog.youkuaiyun.com/kkk_xxx/article/details/104431609” -o /Users/aaa/Desktop/js.md
此示例得到的网页就是在/Users/aaa/Desktop/目录下的js.md文件