LiA上的处理框架, 不错. Lucene搜索富文本文件之六 -- 处理各种常见文件的框架 Lucene搜索富文本文件之五 -- HTML Lucene搜索富文本文件之四 -- XML Lucene搜索富文本文件之三 -- RTF Lucene搜索富文本文件之二 -- MS word Lucene搜索富文本文件之一 -- pdf