- 博客(15)
- 资源 (4)
- 收藏
- 关注
转载 Sphinx关联排序是怎样工作的
Sphinx关联排序是怎样工作的 一直以来,我们给Sphinx添加了相当多的匹配和排序模式,并且将添加更多。一些不同的问题经常被提出,从“我怎样让指定的文档排在第一位”到 “我怎么根据匹配度来评定星级”,实际处理要归结于内在的匹配和排序。因些,让我们看看内部的匹配和排序模式到底是
2011-07-21 16:08:00
2265
转载 volatile语义及线程安全singleton模式探讨
1.引言 详尽的讨论了volatile语义以及如何用C++实现线程安全的Singleton模式。 主要参考Scott Meyers and Andrei Alexandrescu写的“C++ and the Perils of Double-Checked Locking”,这是
2011-07-15 14:06:49
777
转载 搜索引擎如何计算权重
我们拿“原子能的应用”这个词来给分析一下看看搜索引擎是如何识别词的权重和如何计算的: 短语“原子能的应用”可以分成三个关键词: 原子能、的、应用。根据我们的直觉,我们知道,包含这三个词多的网页应该比包含它们少的网页相关。当然,这个办法有一个明显的漏洞,就是长的网页比短的网
2011-07-14 21:43:56
1577
转载 BM25算法浅析
BM25算法浅析 BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。BM25算法的一
2011-07-14 21:42:01
1684
转载 vi常用命令全
本章提供足够的信息使你用够使用 Vim 来做基本的编辑。这里提供的方法不一定是高效 快捷的。但起码是有效的。花些时间去练习这些命令,这是后面的知识的基础。 |02.1| 第一次运行 Vim |02.2| 插入文本 |02.3| 移动光标 |02.4| 删除字符 |02.5| 撤销
2011-07-13 10:24:58
761
转载 awk命令详解
awk命令详解 1.调用awk:第一种方式:命令行方式awk [-F field-separator] 'commands' input-file(s)[-F域分隔符]是可选的,因为awk使用空格作为缺省的域分隔符,因此如果要浏览域间有空格的文本,不必指定这个选项,如果要浏览诸如
2011-07-13 10:23:54
733
转载 linux sed命令详解
linux sed命令详解1. Sed简介sed 是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样1. Se
2011-07-13 10:17:40
374
转载 利用Xapian构建自己的搜索引擎:检索
利用Xapian构建自己的搜索引擎:检索 经过前面几篇的介绍,如果再参考一下Omega的话,估计应该可以顺利创建database和往database里添加document了。有了数据,下一步关心的当然是怎样将它们查出来,在一个IR系统(不单止Xapian)中,检索的方
2011-07-12 10:16:41
933
原创 利用Xapian构建自己的搜索引擎:Document、Term和Value
利用Xapian构建自己的搜索引擎:Document、Term和Value 在上一篇《利用Xapian构建自己的搜索引擎:Database》里指出database是Xapian的基础,而这一篇里讲到的documents、terms和values则是索引和查询的必要组成
2011-07-12 10:15:17
650
转载 利用Xapian构建自己的搜索引擎:Database
利用Xapian构建自己的搜索引擎:Database 在Xapian1.0之前,是使用quartz作为database文件格式的,不过自从1.0之后,便改用Flint作为database的文件格式了。有时候,我们会将database称为“索引”,在Xapian中,索引
2011-07-12 10:14:04
686
转载 利用Xapian构建自己的搜索引擎:Xapian简介
利用Xapian构建自己的搜索引擎:Xapian简介Xapian与开源Xapian的官方网站是http://www.xapian.org,这是一个非常优秀的开源搜索引擎项目,搜索引擎其实只是一个通俗的说法,正式的说法其实是IR(Information Retrieval)系统。X
2011-07-12 10:13:02
864
转载 利用Xapian构建自己的搜索引擎:前言
利用Xapian构建自己的搜索引擎:前言 看到标题,大家一定对搜索引擎这个词语不陌生。提起搜索引擎,一般想到的当然是Google、百度或搜狐等,而很多程序员,特别是Java程序员,想到的当然是Lucene,而Xapian这玩意估计没多少人听过。其实在一个月之前,我也没
2011-07-12 10:12:15
586
转载 XAPIAN学习1--倒排数据库 建立,工厂模式应用
一直想 学习下C++开源引擎的源代码,比较了下xapian,lemur,firtex,最终还是决定从xapian开始,以后有时间再看下lemur。选择xapian是因为xapian的代码可读性更强,更接近现代C++风格,用户端代码很少需要直接和指针打交道而看了下lemur示例代码
2011-07-12 09:44:25
649
转载 Xapian 术语表
原文地址:http://xapian.org/docs/glossary.html术语表本术语表定义了在使用xapian时可能遇到的一些专业术语.其中一些是信息检索领域的标准概念,而另一些则在xapian中有特别的意义.BM25 xapian默认使用的加权方法。BM25是原来的概
2011-07-12 09:41:32
805
转载 使用Xapian搭建自己的搜索引擎
使用Xapian搭建自己的搜索引擎 由于Clucene对中文的支持很不给力,所以我决定用Xapian,Xapian里的所有东西都是用UTF-8来保存的.关于Xapian是什么,怎么安装这位兄台讲得不错 http://hi.baidu.com/xapian/blog/item/02
2011-07-12 09:40:07
1262
《EJB3.0 实例教程》及其源码(源码10.5M不能上传我郁闷,对不起大家了)
2007-10-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人