搜索引擎 数据结构

本文介绍了搜索引擎的四种基本存储方法:顺序存储、链接存储、索引存储和散列存储,并详细解释了索引存储中倒排索引的概念及其作用。倒排索引能够高效地处理大量文档的关键字检索。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

搜索引擎的存储结构

四种基本存储方法:
一: 顺序存储方法
很高的扫描速度,但随机存取速度低.

二:链接存储
提高存储空间利用率,扫描效率好低.

三:索引存储
索引表由若干索引项组成.索引项的一般形式是关键字,地址.
此方法是搜索引擎最常用的方法.

keyA | 地址 ------------->数据


四:散列存储
根据节点的关键字直接计算出该节点的存储地址.


-----------------------------------------------------------------
索引: 在文件本身(称作数据区)之外建立起来的能够指示逻辑记录和物理记录之间一一对应关系的表称为索引表.

倒序索引:(搜索引擎的核心) 建立倒排索引就如同写一本书的目录一样.

1.普通文件的形式 :(形式1)
DOC --> 关键字1 , 关键字2 , ...
这个表示一个文档DOC由许多的关键字组成.
2.倒排索引就是将此过程翻转过来(形式2)
关键字1 ,关键字2 ... -->DOC

搜索引擎就是将形式1变成形式2 ,并且对关键字及DOC进行归并.


搜索引擎会索引上亿篇文档,如此之多的文档会包含非常多的关键词.所以往往倒排序索引比较大,还需要一种特殊的分开存储的结构!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值