
Lucene.net 搜索引擎
文章平均质量分 75
lisky119
这个作者很懒,什么都没留下…
展开
-
DotLucene源码浅读笔记(2) : Lucene.Net.Documents
DotLucene源码浅读笔记(2) : Lucene.Net.Documents 这个写的比较抱歉,因为已经开始阅读Index部分了,Documents这个部分很早之前写了,但觉得没什么价值没发表,荒芜了一段时间,现在又开始了.这篇仅仅为了系列的完整.也发表了吧,大家随便仍鸡蛋吧 :).这个命名空间的类相对较少,也相对较简单,一共才四个类,主要转载 2008-09-11 18:20:00 · 664 阅读 · 0 评论 -
Lucene.net索引优化
Lucene.net索引优化一、SetMergeFactor(合并因子)SetMergeFactor是控制segment合并频率的,其决定了一个索引块中包括多少个文档,当硬盘上的索引块达到多少时,将它们合并成一个较大的索引块。当MergeFactor值较大时,生成索引的速度较快。MergeFactor的默认值是10,建议在建立索引前将其设置的大一些。二、SetMaxBuffered转载 2009-10-16 16:03:00 · 2079 阅读 · 0 评论 -
lucene索引的增删改(增量索引)
转自:http://tonlo.com/space.php?uid=12933&do=blog&id=8669 学lucene也有一段时间了,由于公司环境要求,所以使用的不是java版,而是C#版的,也就是lucene.net。 由于是企业级应用,系统上线的时候必须满足增量索引的要求,相信学习lucene的朋友们都知道,lucene自身在增量索引方面实在不敢恭维,转载 2009-10-14 18:00:00 · 5120 阅读 · 0 评论 -
关于lucene2.0的创建、检索和删除功能的完整实现
版权所有:(xiaodaoxiaodao)蓝小刀 http://blog.youkuaiyun.com/xiaodaoxiaodao/archive/2006/09/10/1203959.aspx 关于lucene2.0的创建、检索和删除功能的完整实现 最近要做一个站内的全文检索功能,主要是针对clob字段的,于是去网上找了点lucene的资料,现在新版本的是2.0.0,网上的例子多是1.4.转载 2009-10-14 14:33:00 · 486 阅读 · 0 评论 -
百度阿拉丁平台低调上线:实质为搜索开放平台
百度阿拉丁平台低调上线:实质为搜索开放平台http://www.sina.com.cn 2009年04月22日 18:15 新浪科技百度阿拉丁平台低调上线 新浪科技讯 4月22日下午消息,据消息人士独家透露,百度“阿拉丁平台”测试版(open.baidu.com)已低调上线,其实质为一个搜索开放合作平台。 百度表示,该平台是一个基于百度网页搜索的开放的数据分转载 2009-04-23 09:02:00 · 821 阅读 · 0 评论 -
影响搜索引擎收录排名的17条网站隐患
每一个做网站的人都很关心自己的站点在搜索引擎中的表现,尤其是做SEO的基本上每天都会查询网站的收录情况、关键词的排名等数据。保持网站的搜索引擎收录量、保持和提高网站关键词的排名是很多站长的目标,并且为这些目标采用各样的措施或者到处求医求药。事实上,我们也都知道搜索引擎中的任何数据都是在变化的,收录的增减或者排名的上下都是正常的事情,过分的担心和在意都是多余的。但是作为站长,我们可以在网站自身上下功转载 2009-04-08 12:05:00 · 786 阅读 · 0 评论 -
JavaScript对SEO优化的影响和解决方案
JavaScript对SEO优化的影响和解决方案JavaScript对SEO优化的影响和解决方案在两大搜索引擎阵营中,大量实践证明GOOGLE排名对JAVASCRIP的处理处理要好一些而百度排名很不理想的.网页中出现大量的JavaScript会给搜索引擎爬行增加难度.其主要影响有以下几点:1.无形中降低了关键字密度2.影响网页权重的分布3.干扰搜索蜘蛛对内容分析那么如何转载 2009-03-19 17:45:00 · 812 阅读 · 0 评论 -
如何做好百度优化?
百度喜欢结构简单的网页,具有复杂结构的网页可能无法顺利登录百度。 在进行网页设计时:1. 给每个网页加上标题。 网站首页的标题,建议您使用您的网站名称或公司名称,其它网页的标题建议与每个网页内容相关,内容不同的网页不用相同的标题。2. 不要把整个网页做成一个Flash或是一张图片 百度是通过识别网页源代码中的汉字来认识每一个网页的。如果您的整个网页是一个Flash或一张图片,百度在网页中转载 2009-03-19 18:13:00 · 564 阅读 · 0 评论 -
JavaScript对SEO的影响及解决之道
JavaScript在SEO中是一个很头疼的问题,一方面我们在网页制作中需要使用JavaScript来实现绚丽的特效,而一方面 JavaScript又会对搜索引擎的抓取分析造成不好的影响。Google的官方文档中很清楚的说明,如果在html中过多的使用 JavaScript、Cookie、会话 ID、框架、DHTML 或 Flash 等复杂功能会使搜索引擎抓取工具在抓取网站时可能会遇到问题。不转载 2009-03-19 17:57:00 · 711 阅读 · 0 评论 -
asp.net实现伪静态
一、伪静态的用处有些用户觉得,伪静态和真静态实际被收录量会相差很大,其实不然,从你个人角度,你去判断一下一个帖子到底是真静态还是伪静态?估计很难看得出,因为所谓静态的意思,就是地址中不带问号,不带问号的就是静态,管他是真的还是伪的?搜索引擎看得出吗?所以说,其实不论是真的还是伪的,其实对于搜索引擎来说都是一样的,搜索引擎没有说,你这个是伪的,我不收录你。追根究底来说,为什么搜索引擎会不收录带问号的转载 2009-03-17 15:39:00 · 9370 阅读 · 10 评论 -
lucene.net开发教程与总结(一)
lucene.net开发教程与总结(一) http://blog.youkuaiyun.com/octverve/archive/2008/04/01/2235162.aspx Lucene是有名的开源搜索框架,具体细节自己查。对于英文来说,其对分词的处理已经比较不错,但是对于日文,中文等的处理太差,所以对我们中文来说,分词是瓶颈。因为不是按照间隔区分“词汇”的,我才接触,到项目中,转载 2008-09-11 19:15:00 · 962 阅读 · 0 评论 -
Lucene.net 系列二 --- index (上)
Lucene建立Index的过程: 1. 抽取文本. 比如将PDF以及Word中的内容以纯文本的形式提取出来.Lucene所支持的类型主要为String,为了方便同时也支持Date 以及Reader.其实如果使用这两个类型lucene会自动进行类型转换. 2. 文本分析. Lucene将针对所给的文本进行一些最基本的分析,并从中去除一些不必要的信息,比如转载 2008-09-11 18:40:00 · 1006 阅读 · 0 评论 -
DotLucene类库(1) : Lucene.Net.Analysis
本系列笔记将以DotLucene的命名空间组织行文,阅读的DotLucene版本是1.9.RC1,并且以更好的使用而非研究为目的阅读。也就是说要避难就易拉。0), DotLucene主要命名空间概览: 命名空间功能说明Lucene.Net.Analysis语言分析器,主要用于切词,支持中文主要是扩展此类Lucene.Net.Docum转载 2008-09-11 17:36:00 · 1119 阅读 · 0 评论 -
Lucene.net 系列一
http://www.cnblogs.com/idior/category/21216.html(系列) What’s Lucene Lucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能.Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,你就为你的应用实现全文检索的功能.不过千万别以为Lucene是一个象go转载 2008-09-11 18:41:00 · 797 阅读 · 2 评论 -
关于lucene的笔记一
关于lucene的笔记一。 这个东西在2006年初,我就开始在项目中使用.我对它也有了一些了解. 但因为主要开发还是小兵们在做. 所以仅仅了解了一些皮毛. 下面我将以知识点的形式, 列出来. 以笔记的形式连载. 也方便大家一起学习. 每一个点, 我都会写一个知识点. 1, 2005年的时候, 听说了lucene. 是一个开源的搜索引擎开发包. 而不是一个搜索引擎,请转载 2009-10-19 14:09:00 · 2913 阅读 · 1 评论