
搜索引擎与人工智能
deepfuture
这个作者很懒,什么都没留下…
展开
-
lucene-索引文件格式
索引文件结构 Lucene使用文件扩展名标识不同的索引文件,文件名标识不同版本或者代(generation)的索引片段(segment)。如.fnm文件存储域Fields名称及其属性,.fdt存储文档各项域数据,.fdx存储文档在fdt中的偏移位置即其索引文件,.frq存储文档中term位置数据,.tii文件存储term字典,.tis文件存储term频率数据,.prx存储term接近度数据,转载 2009-12-23 16:43:00 · 1245 阅读 · 0 评论 -
lucene-对每个字段指定分析器及较复杂搜索页面(对QQ国内新闻搜索)
1、JAVA代码(索引)package bindex;import java.io.IOException;import java.net.URL;import jeasy.analysis.MMAnalyzer;import org.apache.lucene.analysis.PerFieldAnalyzerWrapper;import org.apache.lucene.an原创 2009-12-23 16:47:00 · 590 阅读 · 0 评论 -
lucene-使用lius解析word、excel
下载liushttp://sourceforge.net/projects/lius/1、解析wordpackage liusextract;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import lius.index.msword.WordInde原创 2009-12-23 17:00:00 · 615 阅读 · 0 评论 -
lucene-使用htmlparser提取网页普通链接
1、提取普通链接以http://www.qunar.com/site/zh/Cooperate_4.shtml为例,只能提取普通链接,如EMAIL链接就无法提取代码:package extract;import java.net.URL;import org.htmlparser.beans.LinkBean;public class extracthtmllinksimp原创 2009-12-23 17:14:00 · 838 阅读 · 0 评论 -
lucene-解析xml
1、安装DOM4jhttp://www.dom4j.org/2、安装jaxenhttp://jaxen.org/releases.html3、代码package extract;import java.io.*;import org.dom4j.*;import org.dom4j.io.*;import java.util.*;public class XmlExtrac原创 2009-12-23 17:19:00 · 451 阅读 · 0 评论 -
lucene入门-解析word文档
下载:http://mirrors.ibiblio.org/pub/mirrors/maven2/org/textmining/tm-extractors/0.4/ java代码如下: package extract;import java.io.*;import org.textmining.text.extraction.WordExtractor;public原创 2009-12-23 18:39:00 · 709 阅读 · 0 评论 -
lucene入门-使用JE中文分词
基于词库的算法分词,是较好的中文分词器package busetoken;import java.io.IOException;import jeasy.analysis.MMAnalyzer; public class UseJe { /** * @param args * @throws IOException */ public static void main(原创 2009-12-23 18:45:00 · 526 阅读 · 0 评论 -
lucene-使用自带中文分词器
使用lucene内自带的,在contrib/analyzerslucene-analyzers-2.9.0.jar即单字分析package busetoken;import java.io.IOException;import java.io.StringReader;import org.apache.lucene.analysis.Token;import org.apache原创 2009-12-23 19:01:00 · 517 阅读 · 0 评论 -
lucene入门-索引目录下的所有网页以及索引检索
package bindex;import java.io.File;import tool.FileText;import tool.FileList;import java.io.*;import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.l原创 2009-12-23 19:15:00 · 875 阅读 · 1 评论 -
lucene入门-索引网页
package bindex;import java.io.File;import tool.FileText;import java.io.IOException;import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.lucene.index原创 2009-12-23 19:21:00 · 341 阅读 · 0 评论 -
蚂蚁解决交通问题的智能
蚂蚁是地球上数量最多的动物,也是脑细胞数量最多的昆虫。蚂蚁的大脑由大约25万个细胞组成。通过对蚂蚁群体的长期观测和研究,德国德累斯顿工业大学群体智能专家德克-赫尔宾博士近日公布了关于蚂蚁群体智能方面的研究进展和最新成果。赫尔宾认为,对蚂蚁这种昆虫的深入研究可以帮助人类解决现代生活中遇到的许多难题,比如交通拥塞问题等。赫尔宾博士的研究团队首先在蚁巢附近摆放一些蚂蚁喜食的糖果,然后在蚁巢与糖果之间为蚂转载 2009-12-23 20:11:00 · 718 阅读 · 0 评论 -
nutch-build.xm解读
nutch-build.xm解读搜索引擎与人工智能 2009-05-09 19:16 阅读4 评论0 字号: 大大 中中 小小 花了很多时间来读这个build.xml,并不是这个包不好读,相反可读性非常强,这就是xml的好处.自己花了很多的时间去熟悉ant!从Ant的task,type,nested element等一点一点读起.这样整个nu转载 2009-12-23 20:12:00 · 404 阅读 · 0 评论 -
垂直搜索技术
垂直搜索技术主要分为两个层次:模板级和网页库级。模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速实施、成本低、灵活性强,缺点是后期维护成本高,信息源和信息量小。网页库级就是在信息源数量上、数据容量上检索容量上、稳定性可靠性上都是网页库搜索引擎级别的要求,和模板方式最大的区别是对具体网页不依赖,可针对任意正常的转载 2009-12-23 20:16:00 · 383 阅读 · 0 评论 -
认知神经科学和认识心理学的差异
1、已知的关于皮层主要的功能划分-言语信息与视觉信息、空间信息与客体信息、知觉信息与运动信息-在认识心理学中似乎没有相当地位2、脑-认知问题在在认知神经科学中起着主要的作用3、1)提供有关认知理论的辐合性 证据或附加的约束。2)提供关于认知过程的更丰富且更可直接解释的数据3)提供新的方式以把认知领域分解成可研究的主题原创 2009-12-23 20:20:00 · 1080 阅读 · 0 评论 -
未来人类科技发展时间表
英国电信公司的未来学家伊恩·尼尔德和伊恩·皮尔逊合写的《未来技术发展时间表》是一项正在进行的研究项目,旨在帮助决策者及机构了解技术发展趋势及其潜在影响。 人工智能和人造生命 1、课堂上,人工智能用于辅助教学:2008-2012年 2、人们交了一些虚拟朋友,但不知道哪些是虚拟朋友:2008-2012年 3、能察觉主人心情的家庭装饰:2008-2012年转载 2009-12-23 20:21:00 · 2443 阅读 · 1 评论 -
认知和情绪、动机
1、感觉是对事物个别属性和特性的认识。2、人们通过感知觉所获得的知识经验,在刺激物停止作用后,并没有马上消失,它还在保留在人们的头脑中。并在需要时能再现出来。3、人不仅能直接感知个别、具体的事物,认识事物的表面联系和关系,还能运用头脑中已有的知识和经验去间接、概括地认识事物。4、人在加工外界输入的信息时,会产生对事物的态度,引起满意、不满意、喜爱、厌恶、憎恨等主观体验。原创 2009-12-23 20:59:00 · 865 阅读 · 0 评论 -
心理学经典教材
1.Introduction: 心理学导论 2.History: 心理学史3.Methods: 心理学研究方法4.Experimental psychology: 实验心理学5.Statistics: 心理统计行为统计6.Experiment Design: 实验设计7.Test theory: 测试理论心理测量8.Neuroscience神经科学9转载 2009-12-23 21:02:00 · 483 阅读 · 0 评论 -
心理学中的快乐是什么
1、快乐 快乐是一种感受良好时的情绪反应,常见的成因包括感到健康、安全、爱情和性快感等。快乐常见的表达方式是笑。 2、笑 心理学家们现在发现:笑是人类与他人交流的最古老的方式之一,而在此之前,笑只被看作是人类幽默感的体现。人类笑是为了和别人团结一致或者嘲笑他们,要么用笑和别人调情。我们中的每一个人早在学会说话之前就掌握了这门技巧。 3、喜剧片 以笑激发观众爱憎的影片。常用不同含义的笑声,鞭笞社会上原创 2009-12-23 21:03:00 · 1386 阅读 · 0 评论 -
lucene-JE中文分词
1、比较好的JAVA写的JE分词http://jesoft.cn:9080/je-analysis-1.5.3.jar,官网http://www.jesoft.cn/ 2、提供相关的API//采用正向最大匹配的中文分词算法,相当于分词粒度等于0MMAnalyzer analyzer = new MMAnalyzer();//参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分原创 2009-12-24 08:39:00 · 754 阅读 · 0 评论 -
lucene-处理中文PDF的xpdf
简单处理中文的方式是xpdf http://www.foolabs.com/xpdf/home.html 2、 Xpdf is an open source viewer for Portable Document Format (PDF) files. (These are also sometimes also called Acrobat files, from the na原创 2009-12-24 08:40:00 · 406 阅读 · 0 评论 -
lucene-QueryParser
1、QueryParser在lucene2.0中所有操作建立在QueryParser实例的基础上2、String field="bookname";String queryStr="java struts";QueryParser parser=new QueryParser(field,new standardAnalyzer());Query q=parser.pars原创 2009-12-24 08:43:00 · 467 阅读 · 0 评论 -
lucene-文档的查找与删除
1、查找Term term=new Term("bookname","女");//bookname是field名称docs=reader.termDocs(term);2、删除单个文档IndexReader reader=IndexReader.open(path);reader.deleteDocument(0);//0是索引号reader.close();//必须要cl原创 2009-12-24 08:49:00 · 438 阅读 · 0 评论 -
lucene-使用Highlighter高亮显示查询项
1、Highlighte包含三个主要部分:1)段划分器:Fragmenter2)计分器:Scorer3)格式化器:Formatter2、不仅需要你提供记分器和需要高亮显示的文本,还需要一个TokenStream实例。这个TokenStream实例由分析器生成。我们提供的文本用于生成TokenStream,这个TokenStream被用作高亮显示的原始文本。3、Highlight原创 2009-12-24 13:16:00 · 654 阅读 · 0 评论 -
lucene-sandbox工具包
主要组成如下:1)analyzers:对各种不同语言的分析器2)ant:Ant任务3)db:Berkeley DB目录的实现4)highlighter:高度显示搜索结果中的片断5)javascript:为web浏览器进行交互的命令行接口6)lucli:与索引文件进行交互的命令行接口7)miscellanceous:包含ChainedFilter在内的一些内容8)sn原创 2009-12-24 13:21:00 · 691 阅读 · 0 评论 -
lucene-索引RTF文档
1、对RTF进行文本提取操作时可以使用部分JAVA标准类处理(javax.swing.text和javax.swing.text.rtf)2、public class JavaBuiltInRTFHanlder implementsDocumentHandler{ public DocumentgetDocument(InputSream is)throws DocumentHan原创 2009-12-24 13:25:00 · 445 阅读 · 0 评论 -
lucene-使用Digester分析XML索引
1、隶属于Jakarta Commons项目的一个子项目提供了一个简单的上层接口来将XML类型的文档映射为JAVA对象。2、DigesterXMLHandler类用来解析XML格式的文档。public class DigesterXMLHandler implements DocumentHandler{ private Digester dig; private st原创 2009-12-24 15:18:00 · 324 阅读 · 0 评论 -
lucene-使用自定义排序方法
计算基点与索引库中每个地理位置的距离,按距离大小排序。基点为(0,0),计算从(0,0)到地图中各个地方的距离,然后依此排序,但地方进行了分类,包括restaurant、school、shop。这些类放在一个type域中,1、通过实现SortComparatorSource接口来完成自定义排序。对每个类分别完成计算基点到这些类的地方的距离public class DistanceCompa原创 2009-12-24 15:26:00 · 503 阅读 · 0 评论 -
lucene-对多个索引的搜索和多线程搜索
1、如果应用程序架构由多个LUCENE索引组成,则可以通过MutltiSearcher把所有索引搜索。也可以通过ParallelMultiSearcher进行多线程搜索。在单核的情况下,MultiSearcher比ParallelMultiSearcher性能更高。2、MultiSearcher搜索2个搜索,把动物按首字母在字母表中的位置分成2部分,一部分一个索引public cl原创 2009-12-24 15:28:00 · 523 阅读 · 0 评论 -
lucene-Nutch分析
分析:Nutch在索引时进行分析所使用的二元语法技术与查询过程中对短语的优化技术结合在一起。public class NutchExample{ public static void main(String[] args) throws IOException{ NutchDocumentAnalyze analyer=new NutchDocumentA原创 2009-12-24 19:35:00 · 406 阅读 · 0 评论 -
lucene-语汇单元的位置分析
以下程序显示出了语汇单元的位置,Token[] tokens=tokensFromAnalysis(analyzer,text); int position =0; for (int i=0;i Token token=tokens[i]; intincrement=token.getPo原创 2009-12-24 19:47:00 · 476 阅读 · 0 评论 -
lucene-使用特定方式分析一个域
可以通过PerFieldAnalyzerWrapper增加一个自定义的分析器用于特定域的分析public void testPerFieldAnalyzer() throws Exception{ PerFieldAnalyzerWrapper analyzer=new PerFieldAnalyzerWrapper(new SimpleAnalyzer()); Quer原创 2009-12-24 19:57:00 · 305 阅读 · 0 评论 -
lucene-QueryParser域的选择和指定范围内搜索
一、域的选择1、可使用title:xyz的查询表达式搜索title域2、可用(a b c)表示a、b、c域二、指定范围内搜索1、包括边界,范围域名为pubmonth,默认域为subject。Query query=QueryParser.parse("pubmonth:[200401 TO2005-03]","subject",analyzer);2、不包括边界qu原创 2009-12-24 20:33:00 · 620 阅读 · 0 评论 -
lucene-PrefixQuery通过字符串进行搜索
搜索以指定字符串开头的项的文档。当查询表达式中的短语以"*"结尾时,QueryParser的parse函数会为查询表达式项创建一个PrefixQuery对象。 //查找编程方面的书,包括它的子类书IndexSearcher searcher=new IndexSearcher(directory);Term term=newTerm("category","/technolog原创 2009-12-24 20:44:00 · 965 阅读 · 0 评论 -
lucene的主要搜索API
类用途IndexSeacher搜索操作的入口,所有搜索操作都是通过IndexSeacher实例使用一个重载的search方法来实现Query(及其子类)具体的Query子类为每一种特定类型的查询进行逻辑上的封装。Query实例被传递到IndexSearcher的search方法中Quer原创 2009-12-24 21:08:00 · 403 阅读 · 0 评论 -
lucene-线程安全性
1、lucene不允许使用多个IndexWriter或IndexReader实例同时对一个索引进行修改。但这2个类都是线程安全的2、2个类的实例都可以被多线程共享,Lucene会对各个线程中所有对索引进行修改的方法的调用进行恰当的同步处理,以保证修改操作能一个接一个有序进行。3、恰当的处理是指保证这2个类的对象对索引的修改操作不能重叠,使用IndexWriter对象将新文档增加到索引之原创 2009-12-25 22:16:00 · 472 阅读 · 0 评论 -
lucene-并发性
1、任意数量的只读操作可以同时执行。2、在索引正在被修改时,我们可以同时执行任意数量的只读操作。3、在某一时刻,只允许执行一个修改索引的操作。原创 2009-12-25 22:18:00 · 354 阅读 · 0 评论 -
大脑的机械性与适应性的相容
神经系统的行为大致分为两种类型:1、反射型行为:先天性的。物理-化学性质决定了行为的特征形式, 而这种机制是在基因模式的控制下发展起来,是先天性的。2、习得型行为:大脑皮层的产物,不由遗传决定其细节。习得型行为从不利的方式转变为有利的方式。原创 2009-12-26 13:25:00 · 437 阅读 · 0 评论 -
皮亚杰关于认识结构
1、格局:个体如何能对刺激作出反应,这是由于个体原来具有格局来同化这个刺激。2、调节:同化不能使格局改变或创新,只有自我调节才能起这种作用。调节因素是因在的。3、适应包括同化和调节两种作用和机能4、格局是认识结构的起点和核心。格局逐渐分化成多数格局的协同活动,并能建立新的格局和调整原有格局。原创 2009-12-26 13:27:00 · 648 阅读 · 0 评论 -
CLIPS-模块
一、MAIN::control-information事实属于MAIN模块,可以定义多个模块,在每个模块里定义事实、规则、自定义结构等。CLIPS> (ppdeffacts control-information)(deffacts MAIN::control-information (phasedetection) (phase-afterdetection isolation)原创 2009-12-26 13:31:00 · 412 阅读 · 0 评论 -
CLIPS-控制策略
一、通过定义规则来控制先后,不通过优先级二、CLIPS> (ppdeffacts control-information)(deffacts MAIN::control-information (phase detection) (phase-after detectionisolation) (phase-after isolationrecovery) (phase原创 2009-12-26 13:36:00 · 308 阅读 · 0 评论