搜索引擎的存储结构
四种基本存储方法:
一: 顺序存储方法
很高的扫描速度,但随机存取速度低.
二:链接存储
提高存储空间利用率,扫描效率好低.
三:索引存储
索引表由若干索引项组成.索引项的一般形式是关键字,地址.
此方法是搜索引擎最常用的方法.
keyA | 地址 ------------->数据
四:散列存储
根据节点的关键字直接计算出该节点的存储地址.
-----------------------------------------------------------------
索引: 在文件本身(称作数据区)之外建立起来的能够指示逻辑记录和物理记录之间一一对应关系的表称为索引表.
倒序索引:(搜索引擎的核心) 建立倒排索引就如同写一本书的目录一样.
1.普通文件的形式 :(形式1)
DOC --> 关键字1 , 关键字2 , ...
这个表示一个文档DOC由许多的关键字组成.
2.倒排索引就是将此过程翻转过来(形式2)
关键字1 ,关键字2 ... -->DOC
搜索引擎就是将形式1变成形式2 ,并且对关键字及DOC进行归并.
搜索引擎会索引上亿篇文档,如此之多的文档会包含非常多的关键词.所以往往倒排序索引比较大,还需要一种特殊的分开存储的结构!
四种基本存储方法:
一: 顺序存储方法
很高的扫描速度,但随机存取速度低.
二:链接存储
提高存储空间利用率,扫描效率好低.
三:索引存储
索引表由若干索引项组成.索引项的一般形式是关键字,地址.
此方法是搜索引擎最常用的方法.
keyA | 地址 ------------->数据
四:散列存储
根据节点的关键字直接计算出该节点的存储地址.
-----------------------------------------------------------------
索引: 在文件本身(称作数据区)之外建立起来的能够指示逻辑记录和物理记录之间一一对应关系的表称为索引表.
倒序索引:(搜索引擎的核心) 建立倒排索引就如同写一本书的目录一样.
1.普通文件的形式 :(形式1)
DOC --> 关键字1 , 关键字2 , ...
这个表示一个文档DOC由许多的关键字组成.
2.倒排索引就是将此过程翻转过来(形式2)
关键字1 ,关键字2 ... -->DOC
搜索引擎就是将形式1变成形式2 ,并且对关键字及DOC进行归并.
搜索引擎会索引上亿篇文档,如此之多的文档会包含非常多的关键词.所以往往倒排序索引比较大,还需要一种特殊的分开存储的结构!