
Lucene&切分词
summerbell
这个作者很懒,什么都没留下…
展开
-
关于imdict-chinese-analyzer中文分词模块
CJK中文分词模块是很重要的工具。imdict-chinese-analyzer采用了隐马模型(HMM)进行切词。并得到优于ictclas4j的效果。 但同为隐马模型在中文分词模块中的应用,ictclas4j同imdict-chinese-analyzer还是有很大不同。 imd...2009-05-19 12:00:46 · 178 阅读 · 0 评论 -
发现庖丁分词器的一个小问题
”深圳市集银科技有限公司“ 会被切分成: ”深圳 深圳市 市集 银 科技 有限 公司 “ 需加以调整。2014-09-06 11:02:06 · 179 阅读 · 0 评论 -
Ubuntu下ICTCLAS JNI的使用
首先下载ICTCLAS2011_Linux_32_jni ,解压后是ICTCLAS50_Linux_RHAS_32_JNI文件夹。 在Eclipse里面新建一个Java Project,把ICTCLAS50_Linux_RHAS_32_JNI/API下的ICTCLAS放到Java Project的src目录下,把ICTCLAS50_Linux_RHAS_32_JNI/API下的其他所有内容...原创 2011-11-14 17:46:42 · 82 阅读 · 0 评论 -
ictclas4j调整
Ictclas4j在处理一些文档片段时候,会报如下异常: Exception in thread "main" java.lang.NullPointerException at org.ictclas4j.bean.Dictionary.getMaxMatch 问题出在Dictionary.java文件的 for (int j = 0; j < wis.size(); j...原创 2012-01-17 17:12:59 · 127 阅读 · 0 评论 -
Ictclas的一个bug(转)
SegTag tag=new SegTag(4); String str="在最新的研究中,美国威斯康星大学麦迪逊分校的Brad Singer和加州州立工业大学的Kenneth Hoffman分析了来自塔希提岛(位于南太平洋)和德国西部的古代熔岩流(lava flow),以研究地球磁场过去的模式。"; System.out.println(str); SegResult res=t...原创 2011-12-15 17:44:24 · 155 阅读 · 0 评论 -
OneMain
import org.ictclas4j.bean.SegResult; import org.ictclas4j.segment.SegTag; public class OneMain { public static void main(String[] args) { System.out.println("This is OneMain"); SegTag s...原创 2011-10-24 17:09:39 · 111 阅读 · 0 评论 -
如何对一个Document的不同Filed使用不同的分词器
如何对一个Document的不同Filed使用不同的分词器 TonyLian 2010-01-25 如题。 对于文章正文,希望使用中文分词器。 而用户在提交文件时让其输入的文章关键字,多个用空格分开,则希望使用WhitespaceAnalyzer进行分词并保存。 Java代码 doc.add(new Field("TXT",text, Field....原创 2010-02-25 15:13:03 · 182 阅读 · 0 评论 -
Lucene Hack之通过缩小搜索结果集来提升性能
一、缘起 Lucene在索引文件上G之后的搜索性能下降很严重,随便跑个搜索就要上0.x秒。如果是单线程搜索那么性能尚可,总可以在0.x秒返回结果,如果是Web式的多线程访问,由于Lucene的内部机制导致数据被大量载入内存,用完后立即丢弃,随之引起JVM频繁GC,性能极其低下,1-10秒的长连接比比皆是。这也是世人为之诟病的Lucene应用瓶颈问题,那么是否有解决方法呢? 二、思路 ...原创 2009-08-23 20:19:53 · 91 阅读 · 0 评论 -
Lucene基础排序算法改进
Lucene基础排序算法: score_d = sum_t(tf_q * idf_t / norm_q * tf_d * idf_t / norm_dt_t) score_d: Document(d) 的得分 sum_t: Term(t) 的总和 tf_q: 查询中 t 的频度的平方根 tf_q: d 中 t 的频度的平方根 idf_t: log(numDocs/docFreq_...原创 2009-08-23 17:47:09 · 85 阅读 · 0 评论 -
Lucene搜索方法总结
Lucene搜索方法总结 更多lucene信息欢迎查看http://summerbell.iteye.com/category/91859 1.多字段搜索 使用 multifieldqueryparser 可以指定多个搜索字段。 query query = multifieldqueryparser.parse(”name*”, new string[] { fieldname, ...原创 2010-01-13 16:07:22 · 153 阅读 · 0 评论 -
Luke简介
Luke简介 Luke是一个方便的开发和诊断工具,它能访问Lucene建立好的索引同时也允许以如下的一些方式展示和修改内容: 1.按文档(Document)号或者词项浏览 2.查看文件/复制到粘贴板 3.查询一个高频词项排序列表 4.执行查询并查看结果 8.分析查询结果 9.选择性地从索引中删除文档 10.重建修改原始文档域,重新插入索引中 11.12优化索引 12.近期...原创 2010-01-11 19:49:37 · 189 阅读 · 0 评论 -
Apache Lucene Tika 文件内容提取工具
Tika入门 Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。 在当前版本中,Tika提供了对如下文件格式的支持: PDF - 通过Pdfbox MS-* - 通过POI H...原创 2010-01-08 15:56:16 · 216 阅读 · 0 评论 -
What Is Lucene?
What Is Lucene? The Apache Lucene project develops open-source search software, including: Lucene Java, our flagship sub-project, provides Java-based indexing and search technology, as well as s...原创 2010-01-05 22:43:17 · 90 阅读 · 0 评论 -
资料准备
筹备 RegExr(正则表达式)(舍去) Tika Lucene3.0 Luke Naïve Bayes 分词 将程序注册成服务 搜索建议 取得当前系统的忙闲 仿google“类似结果”(人无我有,舍去) 搭建山寨版机器翻译系统 lucene原理:倒排索引和排序公式 指定搜索某个目录下文件。多个分词器 文件标签(人有我优,保留) 文件片段还是文件中心句(人无我有...2010-03-09 16:16:32 · 94 阅读 · 0 评论 -
ictclas4j词性表
1. 名词 (1个一类,7个二类,5个三类) 名词分为以下子类: n 名词 nr 人名 nr1 汉语姓氏 nr2 汉语名字 nrj 日语人名 nrf 音译人名 ns 地名 nsf 音译地名 nt 机构团体名 nz 其它专名 nl 名词性惯用语 ng 名词性语素 2. 时间词(1个一类,1个二类) t 时间词 tg 时间词性语素 3. 处所词(1个一类...2009-11-15 22:14:35 · 257 阅读 · 0 评论 -
ictclas4j分词模块
ictclas4j中文分词模块ms也是采用了Viterbi算法进行切词,在切词基础上进行词性标注。具体可参阅其代码: package org.ictclas4j.segment; import java.io.BufferedReader; import java.io.IOException; import java.io.InputSt...2009-05-19 14:39:33 · 174 阅读 · 0 评论 -
Stanford Dependence Relations(zz)
中心语为谓词 subj -- 主语 nsubj -- 名词性主语(nominal subject) (同步,建设) top -- 主题(topic) (是,建筑) npsubj -- 被动型主语(nominal passive subject),专指由“被”引导的被动句中的主语,一般是谓词语义上的受事 (称作,镍) csubj -- 从句主语(clausal subject),中文不存...原创 2014-09-08 10:50:50 · 196 阅读 · 0 评论