Solr4.2.1中文分词

本文介绍如何将Paoding分词器集成到Solr以实现中文分词功能,包括解决兼容性问题的方法、配置步骤及所需注意事项。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    默认的Solr没有中文分词功能,而Paoding则是能兼容Lucene的中文分词工具,但是目前Paoding的版本只能兼容lucene3。还好有大神已经给出了解决方法,参考:http://www.oschina.net/code/snippet_259382_14635,此方法兼容到Solr4.2.1。

    但是直接使用的时候,会报NullPointer异常,需要修改一下文件,去掉toString(),src/net/paoding/analysis/ext/PaodingAnalyzerSolrFactory.java:

 public void init(Map<String, String> args) {
        super.init(args);
        setMode(args.get("mode"));
    }

 

 

     然后把Lucene4.2.1的jar包复制到paoding的lib目录下(lucene-core-4.2.1.jar,lucene-memory-4.2.1.jar,lucene-analyzers-common-4.2.1.jar,lucene-highlighter-4.2.1.jar),并把lucene3.0的jar包删除。因为Lucene4和Lucene3不能完全兼容,Paoding源码里的example已经不能用了,所以在build的时候需要把它们排除掉(修改build.xml,把带有examples的行都删除)。

 

    使用Paoding的时候,还要指定词库,方法是修改src下的paoding-dic-home.properties文件,将paoding.dic.home设成词典路径。

 

    开始编译吧

 

ant build

 

 

    现在已经生成paoding-analysis.jar了,我们还要把它添加到Solr中。

    首先需要做的是,把paoding-analysis.jar添加到Solr的example/webapps/solr.war/WEB-INF/lib/中。

    然后修改Solr example的schema文件solr/collection1/conf/schema.xml,找到name=”text_general”这个fieldType,将其中tokenizer对应之class换为(index和query之下class都要换)net.paoding.analysis.ext.PaodingAnalyzerSolrFactory。

 

    大功告成,重启Solr吧

 

    修改之后的代码在github上https://github.com/wylazy/paoding

 

   后记:

    IKAnalyzer是一个比较活跃的中文分词工具,比Paoding更新要快一些,而且已经支持Solr4.2.1了。配置方法也更简单,只需要修改solr.war就行了。

 

     1.将ik-analyzer-2012ff-u1.jar复制到WEB-INF/lib目录下

     2.将IKAnalyzer.cfg.xml和stopword.dic复制到WEB-INF/classes/目录下

     3.修改solr/collection1/conf/schema.xml,让其使用IK作为分词工具

 

    <fieldType name="text_general" class="solr.TextField">
      <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
      <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
    </fieldType>

 

 

 

 

 

内容概要:本文档主要展示了C语言中关于字符串处理、指针操作以及动态内存分配的相关代码示例。首先介绍了如何实现键值对(“key=value”)字符串的解析,包括去除多余空格和根据键获取对应值的功能,并提供了相应的测试用例。接着演示了从给定字符串中分离出奇偶位置字符的方法,并将结果分别存储到两个不同的缓冲区中。此外,还探讨了常量(const)修饰符在变量和指针中的应用规则,解释了不同类型指针的区别及其使用场景。最后,详细讲解了如何动态分配二维字符数组,并实现了对这类数组的排序与释放操作。 适合人群:具有C语言基础的程序员或计算机科学相关专业的学生,尤其是那些希望深入理解字符串处理、指针操作以及动态内存管理机制的学习者。 使用场景及目标:①掌握如何高效地解析键值对字符串并去除其中的空白字符;②学会编写能够正确处理奇偶索引字符的函数;③理解const修饰符的作用范围及其对程序逻辑的影响;④熟悉动态分配二维字符数组的技术,并能对其进行有效的排序和清理。 阅读建议:由于本资源涉及较多底层概念和技术细节,建议读者先复习C语言基础知识,特别是指针和内存管理部分。在学习过程中,可以尝试动手编写类似的代码片段,以便更好地理解和掌握文中所介绍的各种技巧。同时,注意观察代码注释,它们对于理解复杂逻辑非常有帮助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值