
搜索/索引技术
barenx
Art of Life
展开
-
汉字字索引
#include "../DiskBuf.h"#pragma once#ifndef IsHz #define IsHz(x) (((x)>=0x81 && (x)=0xAA && (x) #define HzCode(x) ((((x)&0x7F)>8))#endif#ifdef _DEBUG #define _IndexBuffer_Size 0x80#else #原创 2008-03-30 11:33:00 · 1479 阅读 · 0 评论 -
字索引压缩
//索引压缩、解压类 Powered by barenx#pragma onceclass IndexZip...{public: long *_lbuf; short *_sbuf; //all size def by byte unsigned long _intSize; unsigned long _lbuf_InUse; unsigned long原创 2008-03-30 11:40:00 · 628 阅读 · 0 评论 -
Unicode字符编码标准
Unicode字符编码标准powered by barenx1. 编码知识 1.1 文本和字符 在计算机程序中或者数据文件里,文本(text)是作为数字序列存储的。序列中的数字是具有不同大小、取值和解释的整数。如何解释这些整数是由字符集(character set)、编码(encoding)决定的。 文本主要是由字符(character)组成。在格式文本(fancy tex原创 2008-04-03 02:45:00 · 6450 阅读 · 0 评论 -
Doclist压缩方法简介
本文是作者在学习doclist压缩时的一点总结,希望以尽可能简单明了的方式描述各个算法的思想和适用场景,帮助同学们理解和比较。本文并不涉及具体的算法实现,代码请大家自行google。这里需要强调的是“所谓的改进顺序”只是作者yy出来方便理解记忆,并不反应真实的压缩方法发展历程。 1.什么是doclist? 倒排表的基本组成部分,看例子: Computer: 10,35,100,1转载 2013-02-15 02:27:40 · 854 阅读 · 0 评论