检索

导读

在这里插入图片描述

基础

  1. 有序数组:随机访问性,插入慢

  2. 链表:动态修改性,查找慢,o(n)
    优化

  3. 链表 --》二叉检索树 --》再优化(保持平衡)–》AVL树和红黑树

  4. 跳表

  5. hash
    (数据和链表的组合),冲突多时,链表优化,jdk8是转为红黑树
    缺点:空间大,范围查找不好

  6. 快速判断(判断是否存在)
    1.1 位图
    1.2 布隆过滤器(有多个hash函数)

  7. 倒排索引
    1.1 正排索引
    在这里插入图片描述
    1.2 倒排索引
    在这里插入图片描述

实战

mysql(B+树)写少读多

基础
磁盘读写以块为单位,一个块有多个扇区
优化

数据多,放在磁盘,磁盘慢
–》数据和索引分离(索引小,减少磁盘读写)
–》 索引采用树形结构(数组变更不方便,hash不适合范围查询)
–》 索引的一个节点放多个数据,等于一个块的大小(减少树深度,减少磁盘读写)
–》内部节点只存指针,叶子结点存数据(减少树深度)同层节点双向链表(范围查找)

在这里插入图片描述

nosql(LSM树,写多读少,尤其日志和监控系统)

索引分为两部分,内存和磁盘,内存达到阈值(批量写入,减少随机访问)进行归并(归并使用的是归并排序)
在这里插入图片描述

搜索引擎(倒排索引)

搜索引擎的索引

词典文件(关键词的list)映射 倒排文件
在这里插入图片描述
基于倒排索引 --》 关键字(搜索的key)可以在内存中使用hash映射关键字和倒排文件 --》(关键字也很多,放入磁盘 )可以通过b+树快速定位
在这里插入图片描述
文件比较大
大文件拆分,生成磁盘上多个倒排文件,然后基于key进行归并排序
posting list比较大的话可以基于B+树进行索引

索引更新

小规模使用double buffer --》 全量加增量 --》增量索引到上限后,通过在合并(归并)或者滚动合并的方式(滚动就是先跟新天级别的,再更新周级别的,更新也采用合并的方法)更新全量索引
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

搜索索引拆分

多机器提高吞吐,内存多了提高查询速度
水平拆分:拆分posting list(查询需要到多台机器再汇总)
垂直拆分:拆分词典(posting list比较长,性能可能不好)

搜索top k顺序

选相关性高的,逐个计算,选出top
在这里插入图片描述

  1. TF-IDF
  2. BM25算法,实际中使用,对TF-IDF的升级,加了一些可以调整的因子
  3. 机器学习,加入更多的因子,机器利用训练数据计算各个因子的权重

非精准top k(基于离线计算)

快速选出质量足够高的k1个,不一定精准,然后对这k1个使用精准top k进行打分排序,返回
非精准原理:计算放到离线,倒排索引存的不是相关性的文档list,而是网站静态质量分或者词频,或者类似的加上权重的计算
在这里插入图片描述

空间检索(四叉树,前缀树)

查询最近的

非精准
区域编码,然后算出自己的区域,查出所有该区域的人,逐个计算位置
f(区域)=该区域下的所有人
在这里插入图片描述
精准查询
计算出区域及其相临接的8个区域内的人
在这里插入图片描述

地理上
使用二进制对经纬度编码,二进制位不好查看,通过GeoHash对映成字符串

查询满足个数的最近的

实际上是对区域数据的查找
在这里插入图片描述
在这里插入图片描述
第二种缺点是扩大范围时,每个层级都要存储满足条件数据的倒排表,空间浪费

利用四叉树(因为二维的四个象限)存储区域数据**

在这里插入图片描述
对应
在这里插入图片描述
很多叶子节点对应的区域可能没数据,使用非满四叉树动态分裂
在这里插入图片描述

四叉树

四叉树既一种前缀树,也叫字典树,四叉树对应二维的四个象限,还有三维的八叉树及多维的k-d树

过滤相似文章(对文章做局部敏感hash)

多维的空间映射到一维的hash编码
在这里插入图片描述
总共有n个关键字,文章有k个关键字,那么两个文章的相似度就是n维空间,两个向量的相似度,即距离。将n维空间的进行区域划分,每个区域对应一个编码,同一区域的点就是相似的。文档计算hash结果,一样的文档结果相同,通过局部敏感哈希,相似的文章的hash值相似。通过计算hash值的比特位差异个数,判断是否相似。
在这里插入图片描述
然后基于抽屉原理进行检索
在这里插入图片描述

相似图片(聚类算法,没看)

将n维的点划分为多个类,保持向量的多维度

案例

levelDB

【轴承故障诊断】基于融合鱼鹰和柯西变异的麻雀优化算法OCSSA-VMD-CNN-BILSTM轴承诊断研究【西储大学数据】(Matlab代码实现)内容概要:本文提出了一种基于融合鱼鹰和柯西变异的麻雀优化算法(OCSSA)优化变分模态分解(VMD)参数,并结合卷积神经网络(CNN)与双向长短期记忆网络(BiLSTM)的轴承故障诊断模型。该方法利用西储大学公开的轴承数据集进行验证,通过OCSSA算法优化VMD的分解层数K和惩罚因子α,有效提升信号分解精度,抑制模态混叠;随后利用CNN提取故障特征的空间信息,BiLSTM捕捉时间序列的动态特征,最终实现高精度的轴承故障分类。整个诊断流程充分结合了信号预处理、智能优化与深度学习的优势,显著提升了复杂工况下轴承故障诊断的准确性与鲁棒性。; 适合人群:具备一定信号处理、机器学习及MATLAB编程基础的研究生、科研人员及从事工业设备故障诊断的工程技术人员。; 使用场景及目标:①应用于旋转机械设备的智能运维与故障预警系统;②为轴承等关键部件的早期故障识别提供高精度诊断方案;③推动智能优化算法与深度学习在工业信号处理领域的融合研究。; 阅读建议:建议读者结合MATLAB代码实现,深入理解OCSSA优化机制、VMD参数选择策略以及CNN-BiLSTM网络结构的设计逻辑,通过复现实验掌握完整诊断流程,并可进一步尝试迁移至其他设备的故障诊断任务中进行验证与优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值