lucene中好用的两个工具luke和Tika

本文介绍如何使用Apache Tika从多种格式的文档中抽取数据,并结合Lucene实现文档内容的索引与检索。通过示例代码展示了Tika如何解析Word文档并获取其内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Luke是一个用于Lucene搜索引擎的,方便开发和诊断的第三方工具,它可以访问现有Lucene的索引,并允许您显示和修改。

Apache Tika 可以利用现有的类库,从不同的格式文档中读取数据。
利用Tika和Lucene的集成可以方便的对文档进行索引。
利用tika解析文档的例子
这里使用的是tika-1.2.jar

 

 
  1. package test; 
  2.  
  3. import java.io.File; 
  4. import java.io.FileInputStream; 
  5. import java.io.FileNotFoundException; 
  6. import java.io.IOException; 
  7. import java.io.InputStream; 
  8.  
  9. import org.apache.tika.exception.TikaException; 
  10. import org.apache.tika.metadata.Metadata; 
  11. import org.apache.tika.parser.AutoDetectParser; 
  12. import org.apache.tika.parser.ParseContext; 
  13. import org.apache.tika.parser.Parser; 
  14. import org.apache.tika.sax.BodyContentHandler; 
  15. import org.apache.tika.sax.ContentHandlerDecorator; 
  16. import org.xml.sax.ContentHandler; 
  17. import org.xml.sax.SAXException; 
  18.  
  19. public class TikaTest { 
  20.     public static void main(String[] args) { 
  21.         String classPath = TikaTest.class.getResource("/").getPath(); 
  22.         classPath += "doc/test.doc"
  23.         System.out.println(classPath); 
  24.         File f = new File(classPath); 
  25.         Parser parser = new AutoDetectParser(); 
  26.         InputStream input = null
  27.         try { 
  28.             input = new FileInputStream(f); 
  29.             ContentHandler handler = new BodyContentHandler(); 
  30.             ParseContext context = new ParseContext(); 
  31.             context.set(Parser.class, parser); 
  32.             Metadata data = new Metadata(); 
  33.             parser.parse(input, handler, data, context); 
  34.             System.out.println(handler.toString()); 
  35.         } catch (FileNotFoundException e) { 
  36.             // TODO Auto-generated catch block 
  37.             e.printStackTrace(); 
  38.         } catch (Exception e) { 
  39.             // TODO Auto-generated catch block 
  40.             e.printStackTrace(); 
  41.         } finally
  42.             if(input!=null){ 
  43.                 try { 
  44.                     input.close(); 
  45.                 } catch (IOException e) { 
  46.                     // TODO Auto-generated catch block 
  47.                     e.printStackTrace(); 
  48.                 } 
  49.             } 
  50.         } 
  51.          
  52.     } 

 

本文出自 “Kenan_ITBlog” 博客,请务必保留此出处http://soukenan.blog.51cto.com/5130995/1123387

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值