为什么数据库采用B树，搜索引擎用Hash？

最新推荐文章于 2023-05-09 11:29:17 发布

转载最新推荐文章于 2023-05-09 11:29:17 发布 · 957 阅读

·

0

·

大数据专栏收录该内容

3 篇文章

订阅专栏

本文探讨了关系型数据库与全文检索搜索引擎所采用的不同索引结构：B/B+树与Hash。分析了两种数据结构在空间灵活性、查询速度及磁盘I/O效率方面的差异，并解释了为何在不同应用场景下会选择不同的索引结构。

原帖;http://www.newsmth.net/nForum/#!article/Algorithm/37574?p=1

关系型数据库的索引大多采用B/B+树来作为存储结构，而全文检索的搜索引擎则主要采用Hash来作为索引的存储结构，这两类系统的算法都比较成熟了，为什么它们要在各自的应用环境下采用这两种数据结构来存储索引。


我个人的理解是：

数据库系统库表比较多，讲究的是灵活，尤其是在空间上的flexible很重要，而B/B+树在扩展上具有较好的空间优势（当表中数据行比较少的时候，其索引也比较小，比较灵活且节省空间），当然其查询速度在在O(logN)级别上也算是比较高了。

而搜索引擎对查询速度要求很高，所以Hash是查询速度最快的一种索引数据结构，但是它是牺牲了空间的代价，因为动态Hash一直是一个比较难的问题，所以开始为了保证较合适的填充因子，所以不得不开一个比较大的空间来存储索引，此时数据内容的条数可能并不是很多。

Hash应该也可以动态插入删除吧，只是当比较饱和的时候，需要重新开辟空间进行动态hash增容。

大规模数据库上考虑的是磁盘和内存之间的I/O代价
而不是一般算法里考虑的计算代价

一个又肥又矮的树，
利于I/O
树的平衡维持和空间利用率都不错，
hash会导致磁盘上的random access，所以一定会很低效

如果是B+树的话，range query（区域查询）更好。

另外，磁盘上的spatial locality对IO的影响也很大。

hash?
只是一个期望值为O(1)的方法，实现起来，规模上来的时候不那么好使。

博客等级

码龄17年

12
原创

6
点赞

30
收藏

2
粉丝

关注

私信

热门文章

分类专栏

Linux 28篇
数据结构算法 2篇
网络 4篇
多线程 1篇
大数据 3篇
性能优化 1篇
编程语言 15篇
数据库 6篇
php 1篇
脚本 3篇
java

展开全部收起

上一篇：: c语言函数调用详细过程

下一篇：: C++静态成员

最新评论

linux按内容查找文件
sophie_stef: linux下批量替换文件内容 1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admin99.net为admin99.net 　　sed -i "s/www.admin99.net/admin99.net/g" `grep www.admin99.net -rl /home` 　　exp:sed -i "s/shabi/$/g" `grep shabi -rl ./` 2、自己额外附加　　2.1 将文件1.txt内的文字“garden”替换成“mirGarden” 　　# sed -i "s/garden/mirGarden/g" 1.txt //sed -i 很简单　　2.2 将当前目录下的所有文件内的“garden”替换成“mirGarden” 　　## sed -i "s/garden/mirGarden/g" `ls` //其实也就是ls出多个文件名而已
windows下配置nginx+php环境
sophie_stef: PHP 5.5 (5.5.0) VC11 x86 Thread Safe VC11 x86 Non Thread Safe VC11 x64 Thread Safe VC11 x64 Non Thread Safe 一、如何选择PHP5.3的VC9版本和VC6版本 VC6是什么？ VC6就是legacy Visual Studio 6 compiler，就是使用这个编译器编译的。 VC9是什么？ VC9就是the Visual Studio 2008 compiler，就是用微软的VS编辑器编译的。那我们如何选择下载哪个版本的PHP呢？如果你是在windows下使用Apache+PHP的，请选择VC6版本；如果你是在windows下使用IIS+PHP的，请选择VC9版本。二、如何选择PHP5.3的Thread Safe和Non Thread Safe版本先从字面意思上理解，Thread Safe是线程安全，执行时会进行线程（Thread）安全检查，以防止有新要求就启动新线程的CGI执行方式而耗尽系统资源。Non Thread Safe是非线程安全，在执行时不进行线程（Thread）安全检查。再来看PHP的两种执行方式：ISAPI和FastCGI。 ISAPI执行方式是以DLL动态库的形式使用，可以在被用户请求后执行，在处理完一个用户请求后不会马上消失，所以需要进行线程安全检查，这样来提高程序的执行效率，所以如果是以ISAPI来执行PHP，建议选择Thread Safe版本；而FastCGI执行方式是以单一线程来执行操作，所以不需要进行线程的安全检查，除去线程安全检查的防护反而可以提高执行效率，所以，如果是以FastCGI来执行PHP，建议选择Non Thread Safe版本。官方并不建议你将Non Thread Safe 应用于生产环境，所以我们选择Thread Safe 版本的PHP来使用。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。