索引的数据结构、密集索引与稀疏索引、最左匹配原则

1 索引的数据结构

1.1 索引

聚集索引
索引的键值的逻辑顺序决定表中数据(行)的物理顺序,可以理解为如果索引是连续的,那么表中数据在存储介质上的顺序也是一致的。
就如同在字典中通过拼音查找一个汉字,字典中拼音也是按照顺序连续排列的(a、b、c、d),对应的汉字就按照这个顺序连续排列。在使用聚集索引查找一个范围的值时,可以通过索引找到第一条数据,然后根据数据的物理地址连续的特点查找这条数据相邻的数据,这样能够快速的找到对应的想要查找的数据。
非聚集索引
索引的键值逻辑顺序与数据的物理存储顺序无关,虽然索引的键值是连续的,但是他们对应的数据在介质中的物理顺序却不是连续的。索引的记录节点有一个记录指针,指向子树的根节点,存储子节点所在磁盘块的地址。

1.2 树

二叉查找树
在这里插入图片描述
平衡二叉树
在二叉查找树的基础上满足任意节点的两个子树高度差为1
在这里插入图片描述
平衡二叉树,在插入或删除节点时会导致失衡,这时候可以根据旋转来解决。

b树
b树 中的b指的是balance 平衡的意思,b树是指平衡多路查找树。
在这里插入图片描述
特征:

  1. 每个节点最多有m个孩子。
  2. 除了根节点和叶子节点外,其它每个节点至少有Ceil(m/2)个孩子。
  3. 若根节点不是叶子节点,则至少有2个孩子
  4. 所有叶子节点都在同一层,且不包含其它关键字信息
  5. 每个非终端节点包含n个关键字信息(P0,P1,…Pn, k1,…kn)
  6. 关键字的个数n满足:ceil(m/2)-1 <= n <= m-1
  7. ki(i=1,…n)为关键字,且关键字升序排序。
  8. Pi(i=1,…n)为指向子树根节点的指针。P(i-1)指向的子树的所有节点关键字均小于ki,但都大于k(i-1)
    在这里插入图片描述
    在这里插入图片描述
    b+ -tree
    在这里插入图片描述

1.3 为什么b+ -tree更适合用于建立索引

  • 磁盘读写代价更低(非叶子节点不存储关键字信息,只存放指针,这样每个节点能够存储跟多的指针,极大的减少了树的层数)
  • 查询效率更加稳定(每次查找的路径都需要一直到叶子节点,所需时间更加稳定)
  • 更有利于数据库的扫描(可通过叶子节点之间连接的指针进行范围查找或者遍历整棵树)

2 还有哪些索引

2.1 hash索引

在这里插入图片描述
为什么hash所以不能成为主流
在这里插入图片描述

2.2 BitMap位图索引

在这里插入图片描述

3 密集索引和稀疏索引

3.1 区别

  • 密集索引文件中每个文件的搜索码都对应一个索引值
  • 稀疏索引文件只为索引码的某些值建立索引项
    在这里插入图片描述
    密集索引简单的说就是:叶子节点不但存放键值,还保存了表中该行其他列的信息。密集索引决定了表的物理排列数据,而一张表只有一个排列顺序,既一张表只有一个密集索引。
    稀疏索引:叶子节点只保存键值信息和该行的地址,有的甚至只保存键位信息机器主键。

3.2 Mysql中的密集和稀疏索引

在这里插入图片描述
为什么一定要一个密集索引
在InnoDB中使用辅助索引查找将会查找两次
在这里插入图片描述

最左匹配原则

在这里插入图片描述
成因:
mysql对第一个字段进行排序,在此基础上再对第二个排序,然后对第三个,以此类推。类似order by字段1,字段2

索引越多越好吗

在这里插入图片描述

### 密集检测器稀疏检测器的区别 #### 定义基本原理 密集检测器和稀疏检测器是两种不同的对象检测技术。稀疏检测器通过将文档和查询文本表示为基于 BM25 权重的向量,并利用余弦相似度等方法进行匹配[^1]。这种表示方式具有高度稀疏性,即大部分维度上的值为零,仅保留少量非零值对应的关键特征。 相比之下,密集检测器采用更复杂的模型结构,例如 GFL(Generalized Focal Loss),它由 QFL 和 DFL 组成。QFL 能够有效学习分类分数和定位质量估计的联合表示,而 DFL 则通过对边界框位置建模为广义分布的方式提升精度[^3]。 --- #### 数据表示形式 稀疏检测器的数据表示主要依赖于离散化的词袋模型或 TF-IDF 向量化方法。这些向量通常非常大且稀疏,但由于其简单性和可解释性强,在实际应用中仍然广泛使用。 相反,密集检测器倾向于使用连续空间中的嵌入表示,例如深度神经网络生成的高维稠密向量。这种方法能够捕捉到更为复杂的关系模式,但也可能牺牲一定的透明度和直观理解能力。 --- #### 计算效率 从计算角度来看,稀疏矩阵的操作往往比稠密矩阵更快也更节省内存资源。这是因为稀疏矩阵只需要存储非零元素及其索引即可完成运算过程。 然而,随着硬件加速技术和优化算法的发展,现代 GPU 及专用芯片对于处理大规模稠密张量变得越来越高效。尽管如此,在某些特定场景下,比如实时搜索或者低功耗设备部署时,稀疏方案仍具备显著优势[^4]。 --- #### 解释性灵活性 稀疏检索器的一个重要特性在于良好的解释性——由于最终得分是由少数几个显式的关键词贡献而来,所以很容易追溯具体原因并给出合理说明。 此同时,虽然密集型架构内部机制较为抽象难以直接解析,但它提供了更大的设计自由度以及更高的适应潜力。例如可以通过引入额外损失函数项调整训练目标;也可以轻松融入其他先进组件共同发挥作用。 --- ```python import numpy as np def sparse_vector_example(): """模拟创建一个简单的稀疏向量""" vector_size = 10_000 nonzero_indices = {789, 456} values = [np.random.rand() for _ in range(len(nonzero_indices))] sparse_vec = {} for idx, val in zip(nonzero_indices, values): sparse_vec[idx] = val return sparse_vec sparse_ex = sparse_vector_example() print(f"Sparse Vector Example:\n{dict(sparse_ex)}") ``` 上述代码展示了如何构建一个小型稀疏向量实例。可以看到只有两个位置被赋值而非全填充整个数组长度范围内每一个单元格都有数据存在。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值