lucene入门-解析word文档

最新推荐文章于 2020-08-09 16:59:29 发布

最新推荐文章于 2020-08-09 16:59:29 发布 · 123 阅读

文章标签：

#lucene

搜索引擎专栏收录该内容

147 篇文章

订阅专栏

本文介绍了一个使用Java实现的Word文档内容提取程序。该程序通过org.textmining库的WordExtractor类来读取.doc文件的内容，并将提取的文字写入到文本文件中。文中提供了一个完整的示例代码，展示了如何进行文档内容的提取及保存。

下载:

http://mirrors.ibiblio.org/pub/mirrors/maven2/org/textmining/tm-extractors/0.4/

java代码如下：

package extract;

import java.io.*;
import org.textmining.text.extraction.WordExtractor;

public class ExtractorWord {

/**
* @param args
*/
public static String getText(String file){
String s="";
String wordfile=file;
WordExtractor extractor=null;
try {
FileInputStream in=new FileInputStream(new File(wordfile));
extractor=new WordExtractor();
s=extractor.extractText(in);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return s;
}
public static void toTextFile(String doc,String filename) throws Exception{
String s="";
String wordfile=doc;
String txtfile=filename;
WordExtractor extractor=null;
try {
s=getText(wordfile);
PrintWriter pw=new PrintWriter(new FileWriter(new File(filename)));
pw.write(s);
pw.flush();
pw.close();
System.out.print("成功写入文件！");
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
try {
String sc=getText("D:/workspace/testsearch2/htmls/ddd.doc");
System.out.print(sc);
toTextFile("D:/workspace/testsearch2/htmls/ddd.doc","D:/workspace/testsearch2/htmls/ddd.txt");
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

}