2002开始写博客, 不知不觉已经几年过去了, 回头一看自己居然写了几百篇文章, 越想越佩服自己. 不幸的是有些博客因为太久没用忘记密码了, 网站的修改密码和help页却总是显示505错误,找不回密码了. 想想这些文章可是我一个字一个字打出来的, 就这么没了实在可惜, 一篇一篇备份实在麻烦, 唉 ... 失去了才知道珍惜 ... 痛定思痛, 为了证明我曾经也像韩寒那样能写, 我必须想个法子把把忘记密码的和没忘记密码的博客统统备份一下. 于是乎, 写个博客备份工具:
主要的思路是:
1. 分析网站的博客页面, 抓取博客内容;
2. 博客内容保存在xml作为原始数据;
3. 再加个rss订阅, 追加新数据
rss采用rome, 抓取用htmlparser
import java.net.URL;
import java.util.List;
import com.sun.syndication.feed.synd.SyndEntry;
import com.sun.syndication.feed.synd.SyndFeed;
import com.sun.syndication.io.SyndFeedInput;
import com.sun.syndication.io.XmlReader;
public class RomeTest {
public static void main(String[] args) throws Exception {
URL url=new URL("http://blog.sina.com.cn/rss/1191258123.xml");
SyndFeedInput input=new SyndFeedInput();
SyndFeed feed=input.build(new XmlReader(url));
List list=feed.getEntries();
for(int i=0;i<list.size();i++){
SyndEntry entry=(SyndEntry)list.get(i);
System.out.println(entry);
}
}
}