DocumentHandler接口
处理InputStream对象
生成一个lucene的document的对象
SAX或digest从xml中提取文本信息
用PDFBox从PDF中提取文本信息
使用Jtity从html中提取文本信息
使用NekoHTML从html中提取文本信息
使用POI和textmining提取word中的文本信息
使用javax.swing.text.rtf解析RTF文档
DocumentHandler接口
处理InputStream对象
生成一个lucene的document的对象
SAX或digest从xml中提取文本信息
用PDFBox从PDF中提取文本信息
使用Jtity从html中提取文本信息
使用NekoHTML从html中提取文本信息
使用POI和textmining提取word中的文本信息
使用javax.swing.text.rtf解析RTF文档