
搜索引擎
思君黯然
主要方向:自然语言处理,文本分类
展开
-
Apache Lucene 3.x推荐教程
介绍: Apache Lucene 是一个基于 Java 的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目,也是目前最为流行的基于 Java 开源全文检索工具包。 第一部分:概述 我们在很多地方都可以看到搜索功能 Windows系统中的有搜索功能:转载 2015-04-01 13:06:17 · 653 阅读 · 0 评论 -
lucene(全文搜索)_luceneweb例子
先来看看效果图: 由于我没"D:\opt\lucene\index",所以不能搜索出东东... 下载地址: http://apache.dataguru.cn/lucene/java/2.9.4/ lucene-2.9.4-src.zip (包含源码) lucene-2.9.4.zip 项目结构: ===================================转载 2015-04-03 22:36:24 · 790 阅读 · 0 评论 -
基于二元语法模型的中文分词
一、 基于二元语法模型分词的思想 下面是该程序的主要过程与思路: 1、针对语料库进行训练。 本程序使用的是北大提供的人民日报1998 年1 月的语料库,包含约110万词。由于采用二元语法模型,所以需要计算语料库中单个词的频率,以及每一个词后面出现另一个词的频率。 2、建立二元切分词图。 建立一个有向无环图,图中的结点为任意一个可能的候选词语,图中的边代表相邻两个词语的续接转载 2015-06-24 13:01:15 · 5686 阅读 · 0 评论