
搜索引擎开发
文章平均质量分 80
kindy1022
这个作者很懒,什么都没留下…
展开
-
Unicode字符编码分布表――语言文字类
Unicode字符编码分布表――语言文字类 欧洲字母文字 非洲文字 印度文字转载 2007-11-05 17:45:00 · 3219 阅读 · 0 评论 -
Lucene-2.0学习文档(二)
下面讲一下索引的建立其实从上面的例子就可以看出建立索引就用到Document,IndexWriter,Field。最简单的步骤就是:首先分别new 一个Document,IndexWriter,Field然后用Doument.add()方法加入Field,其次用IndexWrtier.addDocument()方法加入Document。最后调用一下IndexWriter.c转载 2007-12-19 21:02:00 · 655 阅读 · 0 评论 -
Lucene-2_0学习文档(四)
下面是搜索的例子:[code]public void SearchSort1() throws IOException, ParseException{ IndexSearcher indexSearcher = new IndexSearcher("C://indexStore"); QueryParser queryParser = new QueryParser(转载 2007-12-19 21:05:00 · 626 阅读 · 0 评论 -
Lucene-2.0学习文档(五)
2.多索引搜索MultiSearcher在构造的时候传进去一个Searcher数组即可3.过滤器Filter看个例子:public void FilterTest() throws IOException, ParseException { IndexWriter indexWriter = new IndexWriter("C://FilterTest转载 2007-12-19 21:07:00 · 583 阅读 · 0 评论 -
中文搜索引擎四大技术揭密:网络蜘蛛
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究对象…… 而作为一个网站的经营者,其更关心的或许是如何通过网络载体让更多的网民知道自己的网站,进而获得更高的流量和知名度。这其中,搜索引擎已经转载 2007-12-20 21:12:00 · 837 阅读 · 0 评论 -
垂直搜索引擎的选型
网页搜索引擎的存在有他存在的土壤,土壤环境是怎么样的呢?1.海量的数据,互联网上有海量的数据,并且这些数据在快速增长、不断更新2.分散的数据,这些数据存在于成千上万个网站中3.多样化的数据4.用户多样化的数据搜索需求5.用户对搜索数据的实时性要求不是非常强6.用户对这些数据有整合使用的需求,并且这种需求量很大7.能够很好的对整合来的数据进行处理,能够完整的满足用户的这种需求,提供完整的信息检索体验转载 2007-12-20 21:16:00 · 670 阅读 · 0 评论 -
Solr1.4中索引的主从复制,Master/Slave结构
solr的主从复制可以实现像Mysql复制那样,一个服务器负责写服务,其余多个服务器负责读服务,这样可以避免索引并发读写对索引性能的影响,再一个可以构建大规模的搜索系统,用多个服务器来分担系统的读服务。原创 2011-05-11 17:01:00 · 1537 阅读 · 0 评论 -
Amazon EC2、SSH下Apache的使用(三)
エンジニアではない、ただのWebデザイナーの私なので、Amazon EC2、インスタンスを立ち上げてみた ところ、深い挫折感を味わいました…。でもがんばります…。(´・ω・) 「AWS Management Console」 へログインして、ページ左側の「Instances」 をクリック。ページ上部の「Connent」 をクリック。 表示ウィ转载 2011-06-29 14:40:00 · 2493 阅读 · 0 评论 -
快速构建实时抓取集群
定义:首先,我们定义一下定向抓取,定向抓取是一种特定的抓取需求,目标站点是已知的,站点的页面是已知的。本文的介绍里面,主要是侧重于如何快速构建一个实时的抓取系统,并不包含通用意义上的比如链接分析,站点发现等等特性。在本文提到的实例系统里面,主要用到linux+mysql+redis+django+scrapy+webkit,其中scrapy+webkit作为抓取端,re转载 2011-12-28 14:57:51 · 473 阅读 · 0 评论 -
一淘网技术简介
一淘网( www.etao.com )于2010年10月9日10:39正式上线,很多同学和同行对一淘的系统架构和面临的关键技术问题都很感兴趣,这篇短文希望能给予简要的介绍。系统架构一淘的系统架构如上图所示。可以看到,一淘有三个数据来源:互联网、外部合作方和淘宝主站。其中,互联网数据通过crawl的方式获得,而后两者则通过feed的方式提供。抓取系统的功能包括转载 2011-12-28 15:05:37 · 825 阅读 · 0 评论 -
Hadoop安装部署笔记
最近一直在看Hadoop分布式计算框架,也打算在这个基础之上做一些简单的应用研究。在研读了一些Hadoop相关的论文之后,发现做理论研究的一般都很少提及Hadoop的安装与搭建。作为一个实践派的骨灰级粉丝,我决定从搭建Hadoop环境开始认识这个仅仅0.2的版本号就能被推上神坛的分布式计算框架。查阅了一些资料,发现Hadoop似乎只支持在Linux上部署生产环境,如果在Windows下部署开发转载 2012-01-31 09:39:54 · 1254 阅读 · 0 评论 -
日语分词组件sen的使用 -- 分词(一)
sen是日语的一种词典分词组建,准确性高。1. 下载sen,下载的文件不含词典,需要用ant 重新构造。http://www.mlab.im.dendai.ac.jp/~yamada/ir/MorphologicalAnalyzer/sen-1.2.2.1.zip构造:# cd /usr/local/sen# antBuildfile: build.xml..原创 2013-06-21 20:52:11 · 2527 阅读 · 0 评论 -
日语分词组件mecab使用 -- 分词(二)
mecab分词组建更新的比较快,而且开源,使用起来也很方便。 项目地址:https://code.google.com/p/mecab/1. 下载词典:如果是linux上使用 下载 https://code.google.com/p/mecab/downloads/detail?name=mecab-jumandic-7.0-20130310.tar.gz&can=2&q=如原创 2013-06-21 21:27:09 · 3415 阅读 · 0 评论 -
Lucene-2.0学习文档(一)
Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。其功能非常的强大,api也很简单。总得来说用Lucene来进行建立和搜索和操作数据库是差不多的(有点像),Document可以看作是数据库的一行记录,Field可以看作是数据库的字段。用lucene实现搜索引擎就像用JDBC实现连接数据库一样简单。Lucene2.0,它与以前广泛应用和介绍的Lucene 1.4.3并不兼转载 2007-12-19 21:01:00 · 814 阅读 · 0 评论 -
如何做好一个垂直搜索引擎
本文先引用几句话:1.“确解用户之意,切返用户之需。”2.“门户网站都想着是怎样省钱,而不是怎样花钱来买技术。”3.“搜索引擎不是人人都能做的领域,进入的门槛比较高。”4.“只是优秀还不够,最好的方式是将一件事情做到极致。”(google十大真理)5.“做搜索引擎需要专注” “对于一项排到第四的业务,门户很难做到专注。”6.“用户无法描述道他要找什么,除非让他看到想找的东西。”7. “所谓楔形,其转载 2007-12-20 21:17:00 · 791 阅读 · 0 评论 -
如何抓取土豆网的视频原文件--原理实现
如何抓取土豆网的视频原文件以前一直以为抓取flv或者swf的文件都是直接看html的代码,但是发现土豆的没办法找到,一直郁闷不知道如何处理,今天终于找到实现这些抓取的原理,看来要对http协议好好研究研究才行了。象土豆网这样的视频文件是无法用迅雷直接抓取原文件的,因为其采用的是flash flv文件格式,通过迅雷抓取的只是一个个性化的flv播放器。icekernel的意见是通过查看ie缓存,显然还转载 2007-11-07 13:57:00 · 3933 阅读 · 0 评论 -
搜索引擎重复网页发现技术分析
搜索引擎重复网页发现技术分析 中科院软件所 张俊林TIMESTAMP:2006年6月1日 一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript转载 2007-11-09 21:53:00 · 711 阅读 · 0 评论 -
DES加密/解密算法原理
DES( Data Encryption Standard)算法,于1977年得到美国政府的正式许可,是一种用56位密钥来加密64位数据的方法。DES算法以被应用于许多需要安全加密的场合。(如:UNIX的密码算法就是以DES算法为基础的)。下面是关于如何实现DES算法的语言性描述,如果您要其源代码,可以到Http//Assassin.yeah.net下载,后者您有任何问题也可以写信给我转载 2007-11-13 11:40:00 · 2171 阅读 · 0 评论 -
WWW超链分析技术及其应用
WWW超链分析技术及其应用 ■ 吴 江 《中国信息导报》2004年第3期 电脑网络-信息技术转载 2007-11-30 18:34:00 · 1411 阅读 · 0 评论 -
Lucene-2.0学习文档(三)
IndexWriter(File path, Analyzer a, boolean create)IndexWriter(String path, Analyzer a, boolean create)可见构造它需要一个索引文件目录,一个分析器(一般用标准的这个),最后一个参数是标识是否清空索引目录它有一些设置参数的功能如:设置Field的最大长度看个例子:public void IndexMa转载 2007-12-19 21:03:00 · 659 阅读 · 0 评论 -
简化的查询分析器,删除的实现,定制的排序,应用接口的扩展
简化的查询分析器个人感觉lucene成为JAKARTA项目后,画在了太多的时间用于调试日趋复杂QueryParser,而其中大部分是大多数用户并不很熟悉的,目前LUCENE支持的语法:Query ::= ( Clause )*Clause ::= ["+", "-"] [ ":"] ( | "(" Query ")")中间的逻辑包括:and or + - &&||等符号,而且还有"短转载 2007-12-19 21:09:00 · 663 阅读 · 0 评论 -
中文分词源代码 - java
package org.apache.lucene.analysis.cn;/** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this原创 2007-12-19 21:16:00 · 1737 阅读 · 1 评论 -
中文搜索引擎四大技术揭密:中文分词
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、o原创 2007-12-20 21:10:00 · 903 阅读 · 0 评论 -
Lucene-2.0学习文档(六)
到现在我们已经可以用lucene建立索引了下面介绍一下几个功能来完善一下:1.索引格式其实索引目录有两种格式,一种是除配置文件外,每一个Document独立成为一个文件(这种搜索起来会影响速度)。另一种是全部的Document成一个文件,这样属于复合模式就快了。2.索引文件可放的位置:索引可以存放在两个地方1.硬盘,2.内存放在硬盘上可以用FSDirectory(),放在内存的用RAMDirect转载 2007-12-19 21:18:00 · 599 阅读 · 0 评论 -
正则表达式学习文档
来源 http://www.i0o.cn/article.asp?id=21 引言 正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来:(1)检查一个串中是否含有符合某个规则的子串,并且可以得到这个子串;(2)根据匹配规则对字符串进行灵活的替换操作。 正则表达式学习起来其实是很简单的,不多的几个较为抽象的概念也很容易理解。之所以很多人转载 2007-12-19 21:23:00 · 494 阅读 · 0 评论 -
[java/javascript]正则表达式入门文档[二]
2. 正则表达式中的一些高级规则2.1 匹配次数中的贪婪与非贪婪 在使用修饰匹配次数的特殊符号时,有几种表示方法可以使同一个表达式能够匹配不同的次数,比如:"{m,n}", "{m,}", "?", "*", "+",具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程中,总是尽可能多的匹配。比如,针对文本 "dxxxdxxxd",举例如下:转载 2007-12-19 21:25:00 · 843 阅读 · 0 评论 -
中文搜索引擎四大技术揭密:系统架构
互联网发展的今天,一方面离不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅资料第一想到的便是拥有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到想要的各类信息,这在互联网没有被普及之前,还都仅是一个梦而已,但如今这一切已成为了可能转载 2007-12-20 21:11:00 · 1032 阅读 · 0 评论 -
Solr 开发入门
Solr 是一种可供企业使用的、基于 Lucene 的搜索服务器,它支持层面搜索、命中醒目显示和多种输出格式。在这篇文章中,将介绍 Solr 并展示如何轻松地将其表现优异的全文本搜索功能加入到 Web 应用程序中。开发环境:System:WindowsWebBrowser:IE6+、Firefox3+JDK:1.6+JavaEE Server:tomcat5转载 2013-08-05 10:54:41 · 864 阅读 · 0 评论