
Lucene&切分词
summerbell
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
关于imdict-chinese-analyzer中文分词模块
CJK中文分词模块是很重要的工具。imdict-chinese-analyzer采用了隐马模型(HMM)进行切词。并得到优于ictclas4j的效果。 但同为隐马模型在中文分词模块中的应用,ictclas4j同imdict-chinese-analyzer还是有很大不同。 imd...2009-05-19 12:00:46 · 201 阅读 · 0 评论 -
发现庖丁分词器的一个小问题
”深圳市集银科技有限公司“ 会被切分成: ”深圳 深圳市 市集 银 科技 有限 公司 “ 需加以调整。2014-09-06 11:02:06 · 189 阅读 · 0 评论 -
Ubuntu下ICTCLAS JNI的使用
首先下载ICTCLAS2011_Linux_32_jni ,解压后是ICTCLAS50_Linux_RHAS_32_JNI文件夹。 在Eclipse里面新建一个Java Project,把ICTCLAS50_Linux_RHAS_32_JNI/API下的ICTCLAS放到Java Project的src目录下,把ICTCLAS50_Linux_RHAS_32_JNI/API下的其他所有内容...原创 2011-11-14 17:46:42 · 91 阅读 · 0 评论 -
ictclas4j调整
Ictclas4j在处理一些文档片段时候,会报如下异常:Exception in thread "main" java.lang.NullPointerException at org.ictclas4j.bean.Dictionary.getMaxMatch 问题出在Dictionary.java文件的for (int j = 0; j < wis.size(); j...原创 2012-01-17 17:12:59 · 139 阅读 · 0 评论 -
Ictclas的一个bug(转)
SegTag tag=new SegTag(4); String str="在最新的研究中,美国威斯康星大学麦迪逊分校的Brad Singer和加州州立工业大学的Kenneth Hoffman分析了来自塔希提岛(位于南太平洋)和德国西部的古代熔岩流(lava flow),以研究地球磁场过去的模式。"; System.out.println(str); SegResult res=t...原创 2011-12-15 17:44:24 · 166 阅读 · 0 评论 -
OneMain
import org.ictclas4j.bean.SegResult;import org.ictclas4j.segment.SegTag;public class OneMain {public static void main(String[] args) {System.out.println("This is OneMain");SegTag s...原创 2011-10-24 17:09:39 · 119 阅读 · 0 评论 -
如何对一个Document的不同Filed使用不同的分词器
如何对一个Document的不同Filed使用不同的分词器 TonyLian 2010-01-25 如题。 对于文章正文,希望使用中文分词器。 而用户在提交文件时让其输入的文章关键字,多个用空格分开,则希望使用WhitespaceAnalyzer进行分词并保存。 Java代码 doc.add(new Field("TXT",text, Field....原创 2010-02-25 15:13:03 · 235 阅读 · 0 评论 -
Lucene Hack之通过缩小搜索结果集来提升性能
一、缘起 Lucene在索引文件上G之后的搜索性能下降很严重,随便跑个搜索就要上0.x秒。如果是单线程搜索那么性能尚可,总可以在0.x秒返回结果,如果是Web式的多线程访问,由于Lucene的内部机制导致数据被大量载入内存,用完后立即丢弃,随之引起JVM频繁GC,性能极其低下,1-10秒的长连接比比皆是。这也是世人为之诟病的Lucene应用瓶颈问题,那么是否有解决方法呢? 二、思路 ...原创 2009-08-23 20:19:53 · 98 阅读 · 0 评论 -
Lucene基础排序算法改进
Lucene基础排序算法:score_d = sum_t(tf_q * idf_t / norm_q * tf_d * idf_t / norm_dt_t) score_d: Document(d) 的得分sum_t: Term(t) 的总和tf_q: 查询中 t 的频度的平方根tf_q: d 中 t 的频度的平方根idf_t: log(numDocs/docFreq_...原创 2009-08-23 17:47:09 · 95 阅读 · 0 评论 -
Lucene搜索方法总结
Lucene搜索方法总结 更多lucene信息欢迎查看http://summerbell.iteye.com/category/91859 1.多字段搜索使用 multifieldqueryparser 可以指定多个搜索字段。query query = multifieldqueryparser.parse(”name*”, new string[] { fieldname, ...原创 2010-01-13 16:07:22 · 173 阅读 · 0 评论 -
Luke简介
Luke简介Luke是一个方便的开发和诊断工具,它能访问Lucene建立好的索引同时也允许以如下的一些方式展示和修改内容: 1.按文档(Document)号或者词项浏览2.查看文件/复制到粘贴板3.查询一个高频词项排序列表4.执行查询并查看结果8.分析查询结果9.选择性地从索引中删除文档10.重建修改原始文档域,重新插入索引中11.12优化索引12.近期...原创 2010-01-11 19:49:37 · 201 阅读 · 0 评论 -
Apache Lucene Tika 文件内容提取工具
Tika入门 Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。 在当前版本中,Tika提供了对如下文件格式的支持: PDF - 通过Pdfbox MS-* - 通过POI H...原创 2010-01-08 15:56:16 · 234 阅读 · 0 评论 -
What Is Lucene?
What Is Lucene? The Apache Lucene project develops open-source search software, including: Lucene Java, our flagship sub-project, provides Java-based indexing and search technology, as well as s...原创 2010-01-05 22:43:17 · 95 阅读 · 0 评论 -
资料准备
筹备 RegExr(正则表达式)(舍去)TikaLucene3.0LukeNaïve Bayes分词将程序注册成服务搜索建议取得当前系统的忙闲仿google“类似结果”(人无我有,舍去)搭建山寨版机器翻译系统lucene原理:倒排索引和排序公式指定搜索某个目录下文件。多个分词器文件标签(人有我优,保留)文件片段还是文件中心句(人无我有...2010-03-09 16:16:32 · 101 阅读 · 0 评论 -
ictclas4j词性表
1. 名词 (1个一类,7个二类,5个三类)名词分为以下子类:n 名词nr 人名nr1 汉语姓氏nr2 汉语名字nrj 日语人名nrf 音译人名ns 地名nsf 音译地名nt 机构团体名nz 其它专名nl 名词性惯用语ng 名词性语素 2. 时间词(1个一类,1个二类)t 时间词tg 时间词性语素 3. 处所词(1个一类...2009-11-15 22:14:35 · 270 阅读 · 0 评论 -
ictclas4j分词模块
ictclas4j中文分词模块ms也是采用了Viterbi算法进行切词,在切词基础上进行词性标注。具体可参阅其代码: package org.ictclas4j.segment; import java.io.BufferedReader; import java.io.IOException; import java.io.InputSt...2009-05-19 14:39:33 · 188 阅读 · 0 评论 -
Stanford Dependence Relations(zz)
中心语为谓词subj -- 主语nsubj -- 名词性主语(nominal subject) (同步,建设)top -- 主题(topic) (是,建筑)npsubj -- 被动型主语(nominal passive subject),专指由“被”引导的被动句中的主语,一般是谓词语义上的受事 (称作,镍)csubj -- 从句主语(clausal subject),中文不存...原创 2014-09-08 10:50:50 · 207 阅读 · 0 评论