
搜索引擎
lzj0470
这个作者很懒,什么都没留下…
展开
-
基于关键词表达式模型的文本自动分类系统的研究与实现
基于关键词表达式模型的文本自动分类系统的研究与实现Research and Implementation of Text Categorization System Based on Keyword Expressions常毅() 张鑫( 谭建龙(Tan jianlong) 白硕(Bai shuo) (中国科学院计算技术研究所 Institute of Computing Te...原创 2009-04-14 17:26:16 · 477 阅读 · 0 评论 -
如何提高和优化Lucene搜索速度
这篇文章主要介绍了如何提高Lucene的搜索速度。介绍的大部分思路都是很容易尝试的,当然另外一部分可能会加大你程序的复杂度。所以请确认搜索速度确实很慢,而且很慢的原因确实是因为Lucene自身而造成的。推荐姐妹篇:如何提高和优化Lucene索引速度确认你在使用Lucene的最新版本 尽量使用本地文件系统 远程文件系统一般来说都会降低搜索速度。如果索引必须分布在远程服务器,可以...原创 2009-07-09 12:37:01 · 402 阅读 · 0 评论 -
用 Lucene 加速 Web 搜索应用程序的开发
Lucene 是基于 Java 的全文信息检索包,它目前是 Apache Jakarta 家族下面的一个开源项目。在这篇文章中,我们首先来看如何利用 Lucene 实现高级搜索功能,然后学习如何利用 Lucene 来创建一个健壮的 Web 搜索应用程序。<!--START RESERVED FOR FUTURE USE INCLUDE FILES--><!-- include...原创 2009-06-25 13:56:25 · 99 阅读 · 0 评论 -
基于Sphinx+MySQL全文检索架构设计
原文:http://blog.s135.com/read.php/360.htm前言:本文阐述的是一款经过生产环境检验的千万级数据全文检索(搜索引擎)架构。本文只列出前几章的内容节选,不提供全文内容。在DELL PowerEdge 6850服务器(四颗64 位Inter Xeon MP 7110N处理器 / 8GB内存)、RedHat AS4 Linux操作系统、MySQL 5.1.2...原创 2009-06-24 16:12:56 · 149 阅读 · 0 评论 -
lucene并行建索引解决方案
写,线程2往build_index2,。。。依次类推,最后一个干完的将build_index1-4目录的索引合并到 build_index. 我开了4个线程尝试发现也要花大概7-8分钟,合并索引的过程非常快20秒左右。 开了10个线程,整个过程需要6分多钟,合并索引也只花了21秒。似乎效果并不明显,这因该是因为数据量还不够大引起的,数据量越大,并行的优势会越明显 可见合并索引的过程非常快...原创 2009-06-23 20:20:54 · 128 阅读 · 0 评论 -
文本分类入门(十一)特征选择方法之信息增益
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带...原创 2009-04-14 18:12:37 · 276 阅读 · 0 评论 -
文本分类入门(十)特征选择算法之开方检验
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。 大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在...原创 2009-04-14 18:10:46 · 867 阅读 · 0 评论 -
文本分类入门(七)相关概念总结
学习方法:使用样例(或称样本,训练集)来合成计算机程序的过程称为学习方法[22]。 监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习[22]。最典型的监督学习例子就是文本分类问题,训练集是一些已经明确分好了类别文档组成,文档就是输入,对应的类别就是输出。 非监督学习:学习过程中使用的样例不包含输入/输出对,学习的任务是理解数据产生的过程 [22]。典型的非监督学习例子...原创 2009-04-14 18:09:17 · 124 阅读 · 0 评论 -
文本分类入门(六)训练Part 3
SVM算法 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。 支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accura...原创 2009-04-14 18:08:31 · 120 阅读 · 0 评论 -
文本分类入门(五)训练Part 2
将样本数据成功转化为向量表示之后,计算机才算开始真正意义上的“学习”过程。 再重复一次,所谓样本,也叫训练数据,是由人工进行分类处理过的文档集合,计算机认为这些数据的分类是绝对正确的,可以信赖的(但某些方法也有针对训练数据可能有错误而应对的措施)。接下来的一步便是由计算机来观察这些训练数据的特点,来猜测一个可能的分类规则(这个分类规则也可以叫做分类器,在机器学习的理论著作中也叫做一个“假设”...原创 2009-04-14 18:06:41 · 134 阅读 · 0 评论 -
文本分类入门(四)训练Part 1
训练,顾名思义,就是training(汗,这解释),简单的说就是让计算机从给定的一堆文档中自己学习分类的规则(如果学不对的话,还要,打屁屁?)。 开始训练之前,再多说几句关于VSM这种文档表示模型的话。 举个例子,假设说把我正在写的“文本分类入门”系列文章的第二篇抽出来当作一个需要分类的文本,则可以用如下的向量来表示这个文本,以便于计算机理解和处理。 w2=(文本,5,统计学习,...原创 2009-04-14 18:05:59 · 122 阅读 · 0 评论 -
文本分类入门(三)统计学习方法
前文说到使用统计学习方法进行文本分类就是让计算机自己来观察由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据。理想的结果当然是让计算机在理解文章内容的基础上进行这样的分类,然而遗憾的是,我们所说的“理解”往往指的是文章的语义甚至是语用信息,这一类信息极其复杂,抽象,而且存在上下文相关性,对这类信息如何在计算机中表示都是尚未解决的问题(往大里说,这是一个“知识表示”的问题,完全可以另写一系...原创 2009-04-14 18:04:58 · 124 阅读 · 0 评论 -
文本分类入门(二)文本分类的方法
文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。 因此核心的问题便转化为用哪些特征表示一个文本才能保证有效和快速的分类(注意这两方面的需求往往是互相矛盾的)。因此自有文本分类系统的那天起,就一直是对特征的不同选择主导着方法派别的不同。 最早的词匹配法...原创 2009-04-14 18:04:14 · 260 阅读 · 0 评论 -
文本分类入门(一)文本分类问题的定义
一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说,就好比你拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育,计算机答不上就打它的屁屁(……)。 注意这个定义当中着重强调的两个事实。 第一,用于分类所需要的类别体系是预先确定的。例如新浪新闻的分类体系,Y...原创 2009-04-14 18:03:27 · 187 阅读 · 0 评论 -
如何提高和优化Lucene索引速度
这篇文章主要介绍了如何提高Lucene的索引速度。介绍的大部分思路都是很容易尝试的,当然另外一部分可能会加大你程序的复杂度。所以请确认索引速度确实很慢,而且很慢的原因确实是因为Lucene自身而造成的。推荐姐妹篇:如何提高和优化Lucene搜索速度• 确认你在使用最新的Lucene版本。• 尽量使用本地文件系统远程文件系统一般来说都会降低索引速度。如果索引必须分布在远程服务器,...原创 2009-07-09 12:39:05 · 233 阅读 · 0 评论