脸先着地天使
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
37、多核计算与动态时间规整在不同领域的应用
本文探讨了多核计算与动态时间规整(DTW)在不同领域的应用。在基于排列的索引中,多核CPU通过并行处理显著提升了索引效率,尤其在大规模数据集下表现出优异的加速比;相比之下,GPU因数据传输开销和算法适配问题性能提升有限。在弗拉门戈音乐旋律相似度计算中,传统DTW方法被改进为分割DTW近似(SDTW),结合自动转录与线性时间分割算法,在保证准确性的同时大幅降低计算复杂度。该方法在音乐分类、风格识别和歌手识别等实际应用中展现出高效性与实用性。整体上,多核计算与SDTW技术为大规模数据处理和复杂音乐分析提供了有力原创 2025-10-24 04:25:25 · 25 阅读 · 0 评论 -
36、基于排列索引的多核(CPU和GPU)技术
本文介绍了基于排列索引的多核(CPU和GPU)技术,详细阐述了排列索引算法的流程及其在不同硬件架构下的并行化策略。针对GPU提出了PDSS、PDPS和PIOF三种并行算法,分析了各自的复杂度、内存使用及适用场景;对于多核CPU,比较了单磁盘与多磁盘访问策略的性能差异。通过在CoPhIR数据集上的实验验证,PIOF算法在索引时间、速度提升和内存效率方面表现最优。文章还总结了不同应用场景下的策略选择建议,并展望了未来在GPU/CPU架构发展和算法创新方向的趋势,为大规模数据索引提供了高效的解决方案。原创 2025-10-23 13:59:01 · 21 阅读 · 0 评论 -
35、源代码作者归属的贝叶斯集成分类器与基于排列的索引的多核实现
本文探讨了源代码作者归属的贝叶斯集成分类器与基于排列的索引的多核实现方法。在作者归属方面,对比了多种方法,实验表明基于贝叶斯最优分类器的集成方法准确率高达98.2%,显著优于其他方法;在高维搜索方面,提出利用GPU和CPU的多核架构优化基于排列的索引算法,有效减少索引时间。文章还分析了现有方法的优势与问题,并展望了未来研究方向,包括学生程序处理、开放集识别、多核优化及大规模数据应对策略。原创 2025-10-22 10:09:39 · 18 阅读 · 0 评论 -
34、源代码作者归属的贝叶斯集成分类器
本文介绍了一种基于贝叶斯最优分类器的集成方法,用于源代码作者归属。该方法结合了先进的SCAP和Burrows方法,通过字节级与标记级n-元语法特征提取,并利用贝叶斯理论融合两种方法的结果,显著提升了作者归属的准确性。实证研究表明,集成方法在包含7231个程序的数据集上达到了98.2%的正确率,远超单一方法。该技术在软件取证、学术抄袭检测和工业配置管理中具有重要应用价值。原创 2025-10-21 16:21:15 · 15 阅读 · 0 评论 -
33、基于实体识别的重复内容过滤系统
本文介绍了一种基于命名实体识别(NER)和监督分类的重复内容检测系统,旨在高效过滤短文本中的重复信息,特别适用于如CIC公民报告等简短城市事件数据。系统采用四阶段流程:预处理生成元模型、元模型聚类、分类器训练与重复检测。通过HMM与维特比算法进行标签序列标注,结合tf-idf和余弦相似度提取语义特征,并利用时间差加权提升判断精度。在墨西哥蒙特雷都会区的真实数据集上验证,系统平均F值达到66%,显著优于现有方法。未来工作包括时间表达解析、地理坐标估计及系统泛化应用。原创 2025-10-20 16:55:57 · 24 阅读 · 0 评论 -
32、利用香农熵振幅概率分布对脑电图中的癫痫样振荡进行分类及文本重复项过滤的实体识别
本文探讨了利用香农熵振幅概率分布在脑电图中对癫痫样振荡进行分类的方法,以及在文本处理中通过实体识别实现重复项过滤的技术。在脑电图分析方面,结合Andrzejak/Bonn、Quiroga & Caltech和Shoeb三个数据集,采用熵估计与机器学习相结合的方式,实现了高效的癫痫发作检测。在文本处理方面,提出基于隐马尔可夫模型的实体识别与元模型聚类方法,用于检测半结构化文档中的重复条目,并展望了引入BERT、DBSCAN等先进算法优化系统性能的方向。两个领域的研究相互启发,展现了在医学诊断与信息处理中的广泛原创 2025-10-19 15:01:42 · 7 阅读 · 0 评论 -
31、天文与时间序列数据相似性搜索方法解析
本文探讨了天文光谱数据与时间序列数据中的相似性搜索方法。在天文领域,通过优化相似性模型并采用SQFD距离进行排序验证,有效降低了分类错误率;在时间序列分析中,提出基于库仑定律的降维描述符与可视化搜索系统,在计算效率、准确性和召回率方面表现优异。文章还展示了两种方法的实验验证流程、模块架构及跨领域应用潜力,强调了相似性搜索在科学发现与实际决策中的重要价值。原创 2025-10-18 12:15:41 · 16 阅读 · 0 评论 -
30、天文信息学中的恒星光谱分类与相似性搜索方法
本文探讨了天文信息学中恒星光谱分类与相似性搜索的方法,聚焦于Be星及其子类的自动分类问题。针对海量光谱数据难以手动处理的挑战,研究采用基于特征签名和Signature Quadratic Form Distance(SQFD)的相似性搜索方法,结合直接提取与局部极值提取两种特征提取策略,并比较不同权重函数对分类性能的影响。通过实验评估,发现提取局部极值并结合波长正态分布权重在精度、召回率和F1值上表现最优。研究还强调了光谱预处理(如裁剪和归一化)的重要性,并验证了SQFD在处理变维特征描述符方面的有效性。未原创 2025-10-17 11:02:13 · 28 阅读 · 0 评论 -
29、SVG 图像语义化与恒星光谱分类的研究进展
本文探讨了SVG图像语义化与恒星光谱分类的研究进展。在SVG图像语义化方面,提出了一种将SVG图像转换为RDF图并结合形状、颜色和位置相似性进行半自动注释的框架,已在牙科影像中实现应用,展现出良好的注释质量与线性时间性能。在恒星光谱分类方面,采用基于特征签名和Signature Quadratic Form Distance的相似度方法,实现了对Be恒星的有效分类。两者均依赖相似度比较策略,在各自领域推动了自动化与智能化分析的发展。文章还对比了两种技术的异同,分析了面临的挑战及解决方案,并展望了在医学、地理原创 2025-10-16 09:45:18 · 15 阅读 · 0 评论 -
28、SVG-to-RDF:实现图像语义化的创新框架
本文介绍了一种创新的SVG-to-RDF框架,旨在实现矢量图像的语义化。该框架通过自动提取SVG图像的视觉与语义特征,将其转换为RDF图结构,并结合形状、颜色和位置的相似度计算,为图像中的几何对象提供语义注释。系统支持用户验证与反馈,持续优化RDF知识库,提升语义表达能力。实验在牙科X光图像上验证了其有效性,展示了其在医疗、地理信息系统和艺术设计等领域的广泛应用潜力。原创 2025-10-15 16:01:08 · 18 阅读 · 0 评论 -
27、基于边界框的流式时间序列异常检测
本文提出了一种基于边界框的流式时间序列异常检测方法,通过构建最小边界矩形(MBR)列表和MBR树索引模型,结合外循环与内循环启发式算法,实现高效的离线异常发现与在线异常检测。该方法避免了传统静态模型对新行为误判的问题,支持L2-raw和L2-norm距离计算,在运行效率和内存使用上优于暴力搜索和HOT SAX等现有技术。实验表明,该方法在多个真实数据集上显著减少了距离计算量,32k长度序列下比暴力搜索快150倍,并在航天飞机数据中实现了79%的异常正确检测率。未来将扩展至多变量时间序列并优化在线算法可扩展性原创 2025-10-14 10:50:09 · 19 阅读 · 0 评论 -
26、自然语义网络相似度与流式时间序列异常检测
本文介绍了自然语义网络(NSN)相似度测量与流式时间序列异常检测的创新方法。在NSN相似度方面,提出将网络压缩为加权特征向量并计算余弦相似度,实验显示同主题网络相似度显著高于跨主题。在异常检测方面,提出基于边界框的方法,无需归一化即可高效检测局部不和谐子序列,且CPU运行时间优于传统HOT SAX算法。未来将开展更多比较实验,并探索模糊图可视化网络差异。原创 2025-10-13 10:31:16 · 18 阅读 · 0 评论 -
25、利用合成数据实现单样本类别学习及自然语义网络相似度计算
本文探讨了两个机器学习与知识表示领域的重要研究方向:一是利用合成数据实现单样本类别学习,通过CK-1距离度量、合成数据生成和基于引力定律的距离校正方法,有效解决了数据稀缺与对象复杂度差异带来的分类难题,并在多个历史文档数据集上验证了其优越性能;二是自然语义网络(NSN)相似度的计算,提出将NSN建模为加权二分图并提取特征向量进行相似度分析,为量化不同群体在特定主题上的知识差距提供了可行方案。实验结果表明,两种方法在各自应用场景中均具有良好的效果和拓展潜力。原创 2025-10-12 14:59:06 · 16 阅读 · 0 评论 -
24、高维搜索与历史文档分类技术解析
本文探讨了高维搜索中基于多面体查询的技术,利用切比雪夫距离度量和参考点策略提升搜索效率,并分析了其在精确与近似搜索中的应用。同时,介绍了历史文档字符分类中基于单样本生成合成数据的学习方法,通过改进距离度量并估计字符复杂性,实现低标注成本下的高效分类。两种技术分别应对高维数据检索与古老文本识别的挑战,展现了在数据处理与人工智能交叉领域的创新潜力。原创 2025-10-11 16:19:16 · 16 阅读 · 0 评论 -
23、数据库查询技术探索:相似性集合运算与高维空间搜索
本文深入探讨了数据库查询与高维空间搜索中的两项关键技术:相似性感知的关系交集数据库运算符和基于多面体查询的高维搜索技术。前者通过扩展SQL语法实现高效的相似性集合操作,避免O(n^2)复杂度,在TPC-H等场景中显著提升查询性能;后者针对‘维度诅咒’问题,利用参考点构建近似超多面体,并结合Chebyshev距离重新索引,实现高效可扩展的高维搜索。文章结合实际应用案例、性能分析与流程图,全面展示了两种技术的原理、优势及适用场景,并对其未来发展方向进行了展望。原创 2025-10-10 14:36:58 · 13 阅读 · 0 评论 -
22、相似感知关系交集数据库运算符:原理、算法与性能
本文介绍了一种扩展的关系数据库运算符——相似感知集合交集运算符,旨在解决传统SQL在处理相似而非精确匹配数据时的局限性。该运算符通过引入基于阈值的相似性谓词,支持在多个属性上进行相似性比较,并扩展了标准SQL语法以支持WITHIN VALUES子句。文章提出了基于标记/恢复机制的SimIntersect算法,避免了嵌套循环带来的高复杂度,平均时间复杂度为O(nlogn)。实验在PostgreSQL上进行,使用真实与合成数据集验证了其性能优势,相比传统方法速度提升可达4至1000倍。该运算符在生物信息学、数据原创 2025-10-09 15:40:19 · 10 阅读 · 0 评论 -
21、图像数据库中二进制特征检索研究
本文研究了图像数据库中二进制特征的聚类与量化技术,对比了LSH、HkM、RHkM和kMedians等方法在不同参数下的性能表现。通过实验评估了哈希码分布、哈希表数量、数据库大小、探测次数和哈希长度对召回率和误报率的影响,并分析了这些方法在最近邻查询、范围查询及BoVW范式中的适用性。结果表明,基于量化的方法在哈希表较少和低误报需求场景下更具优势,而LSH在多哈希表条件下表现更优。最后提供了技术对比表格、操作流程和未来研究方向。原创 2025-10-08 14:25:06 · 15 阅读 · 0 评论 -
20、图像数据库中二进制特征检索与过渡敏感距离研究
本文研究了图像数据库中的二进制特征检索与过渡敏感距离。通过引入过渡成本,提出了过渡敏感的汉明距离(THD)和编辑距离(TLD),增强了相似性度量的严格性,提升了图像聚类效果。同时,系统分析了LSH、精确匹配和基于量化的二进制特征检索方法,比较了其在不同场景下的性能表现。研究表明,过渡敏感距离有助于高效筛选大规模数据,而不同检索方法各有优劣,需根据实际需求选择。研究为二进制特征在图像检索中的应用提供了理论支持和技术路径,并指出了未来优化方向。原创 2025-10-07 13:54:57 · 12 阅读 · 0 评论 -
19、过渡敏感距离:原理、计算与应用
本文介绍了过渡敏感距离(Transition-Sensitive Distances)这一新型距离度量方法,包括过渡敏感Levenshtein距离(TLD)和过渡敏感Hamming距离(THD)。该方法不仅考虑不匹配元素的数量,还关注其分布特征,通过引入过渡成本增强对结构差异的敏感性。文章详细阐述了TLD和THD的定义、计算方式及数学性质,并展示了其在近似名称搜索和图像聚类中的应用。实验结果表明,结合逐词匹配的TLD能更精确地检索相似文本,而THD在图像比较中表现出更强的区分能力,证明了过渡敏感距离在数据分原创 2025-10-06 13:33:11 · 13 阅读 · 0 评论 -
18、kNN查询的并行距离计算与索引优化及过渡敏感距离
本文探讨了在信息检索与分类中提升kNN查询效率及相似性度量精度的方法。通过结合GPU并行计算与度量索引优化,提出了朴素算法和更高效的范围估计算法,显著减少不必要的距离计算并提升查询性能。同时,引入过渡敏感距离(如TLD和THD),在传统距离度量基础上增加对匹配-不匹配过渡成本的考量,增强了样本区分能力与检索结果的相关性。实验表明,范围估计算法接近理论最优性能,而过渡敏感距离在相似性搜索中表现更优,为高效精准的数据比较提供了新思路。原创 2025-10-05 10:00:58 · 9 阅读 · 0 评论 -
17、汉明距离压缩索引与并行kNN查询优化
本文探讨了汉明距离压缩索引在音频处理中的高效存储与快速查询优势,支持在低内存设备上实现毫秒级近似重复检测。同时,针对kNN查询在并行化中面临的过滤范围动态更新难题,提出将kNN查询转换为可完全并行的范围查询新算法,结合枢轴表预过滤技术,在多GPU环境下实现了超过2倍的性能加速,显著提升了大规模数据下的相似性搜索效率。原创 2025-10-04 13:11:26 · 18 阅读 · 0 评论 -
16、汉明距离压缩索引:音乐匹配与搜索优化
本文提出一种基于汉明距离的压缩索引方法,用于大规模音乐数据库中的高效匹配与搜索。通过音频指纹(AFP)提取歌曲特征,并利用局部敏感哈希(LSH)构建索引,结合归一化处理和级联索引策略,实现快速近似重复歌曲检索。为降低内存开销,采用序列索引(IoS)对LSH结构进行压缩表示,支持在不解压情况下直接查询。实验结果表明,该方法在370万首歌曲数据集上仅需54MB存储,且通过多级索引与压缩优化,在保持高召回率(>99%)的同时将搜索时间控制在毫秒级,显著提升了音乐检索的效率与可扩展性。原创 2025-10-03 10:20:09 · 20 阅读 · 0 评论 -
15、索引与音频指纹技术:算法、性能及应用
本文探讨了基于索引的相似度连接算法与用于汉明距离的压缩索引技术,重点分析了i-SimJoin和RQ-SJ算法在距离计算与执行时间上的性能差异,并介绍了基于熵的音频指纹(AFP)方法在音乐检索中的应用。通过实验评估,i-SimJoin在减少距离计算方面显著优于RQ-SJ,而压缩LSH索引结合轻量级AFP可在主内存高效处理大规模音频数据,实现快速、无假阳性的检索。文章还总结了两类技术的操作流程、应用场景及未来发展方向,展示了其在数据挖掘、信息检索、生物信息学和网络安全等领域的广泛应用前景。原创 2025-10-02 15:26:46 · 21 阅读 · 0 评论 -
14、二级存储中的动态集群列表与索引基R - S相似连接算法研究
本文研究了二级存储中的动态集群列表(DLC)及其在索引基R-S相似连接算法中的应用。DLC通过优化磁盘页读取和集群排序,提升了范围搜索与最近邻搜索的效率,在多种数据集上表现出良好的填充率和搜索性能。同时,提出并实现了i-SimJoin算法,扩展eD-Index以支持仅使用单个索引完成两个关系间的相似连接,显著减少了距离计算次数,在记录链接、数据清理等场景中展现出高效性与灵活性。实验表明,DLC在I/O成本方面表现优异,而i-SimJoin在性能上优于传统方法,未来将聚焦于插入优化、大规模数据处理及高维场景的原创 2025-10-01 15:39:44 · 16 阅读 · 0 评论 -
13、大规模数据相似性搜索与动态集群列表技术解析
本文深入探讨了大规模数据相似性搜索中的关键技术,包括基于Voronoi图的分布式局部敏感哈希(LSH)和适用于二级内存的动态列表集群(DLC)。LSH通过扩展至一般度量空间并采用并行化方案,有效提升了高维数据下的搜索效率;DLC则结合列表集群与M树思想,支持动态更新与磁盘存储优化,在搜索性能和I/O操作上表现优异。文章还分析了不同插入策略对DLC性能的影响,并展望了未来在非欧几里得数据处理、动态优化及多查询支持等方面的研究方向。原创 2025-09-30 13:34:16 · 14 阅读 · 0 评论 -
12、通用度量数据的大规模分布式局部敏感哈希技术
本文介绍了通用度量空间下的大规模分布式局部敏感哈希技术,重点探讨了Voronoi LSH的原理、索引与查询机制,以及基于数据流编程范式的并行化实现。通过在英文词典和BigANN等数据集上的实验评估,验证了Voronoi LSH在召回率、扩展性和查询效率方面的优越性能。文章还分析了不同聚类初始化方法的影响,并讨论了该技术在图像检索、文本搜索和生物信息学中的实际应用及未来发展方向。原创 2025-09-29 09:59:26 · 18 阅读 · 0 评论 -
11、大规模数据索引与搜索算法的实验分析与创新方案
本文系统分析了大规模数据环境下高效的索引与搜索算法,重点探讨了基于空间近似索引的动态枢轴算法和大规模分布式局部敏感哈希(LSH)的创新方案。通过在NASA图像、英文单词字典、颜色直方图和文档集合等多种度量空间上的实验,验证了h-dsatP1算法在减少距离评估次数方面的优势。同时,提出并评估了并行Voronoi LSH在存储开销、随机访问、通用性和可扩展性方面的显著改进,并研究了自适应局部敏感函数对查询精度、速度及假阳性/阴性率的积极影响。结果表明,这些算法在处理高维、大规模数据时具有高效性与广泛适用性,为未原创 2025-09-28 16:48:32 · 14 阅读 · 0 评论 -
10、动态空间近似索引的高效动态枢轴算法
本文提出了一种用于度量空间相似性搜索的高效动态枢轴算法h-dsatP,旨在提升动态空间近似树(dsa-tree)在高维复杂数据中的搜索性能。通过对传统h-dsat算法的改进,h-dsatP利用枢轴距离D(a,q)避免不必要的对象间距离计算,在遍历过程中根据D值自适应决定是否进行精确距离评估,从而显著降低查询时的距离计算成本。文章详细阐述了算法设计、流程及优势,并通过实验验证其在多媒体数据库、地理信息系统等场景下的有效性,展示了其在减少距离计算次数方面的显著节省,为大规模相似性搜索提供了更高效的解决方案。原创 2025-09-27 09:16:05 · 13 阅读 · 0 评论 -
9、利用远端 SAT 实现更快的邻近搜索
本文探讨了基于远端空间近似树(DiSAT)的邻近搜索优化方法,提出SAT+、SATGlob和SATOut等新策略,通过增强超平面分离效果和优化空间分区,显著降低搜索成本。实验表明,这些方法在NASA图像、字符串和颜色直方图等基准数据库上优于传统SAT、DSAT和聚类列表(LC),尤其在大规模数据下展现出优异的可扩展性和无需参数调整的优势,为度量空间中的高效精确搜索树立了新标杆。原创 2025-09-26 14:16:56 · 13 阅读 · 0 评论 -
8、基于随机平分线的度量空间搜索:RBBF1索引的原理与应用
本文介绍了一种基于随机平分线和二进制指纹的新型度量空间索引RBBF1,用于高效近似解决相似性搜索问题。RBBF1通过构建紧凑的二进制指纹实现快速k近邻和范围查询,在字符串和高维向量数据集上显著优于传统基于排列的索引(PBI),具有极高的空间效率和检索性能。实验表明,在仅审查10%数据的情况下,RBBF1在128维向量中仍能获得98%的真实答案,且每个对象仅需288位存储。该方法适用于模式识别、数据挖掘和信息检索等领域,未来可结合邻域图与深度学习进一步优化。原创 2025-09-25 12:46:23 · 14 阅读 · 0 评论 -
7、排列空间的理论与实验观察及基于随机平分线和二进制指纹的度量空间搜索
本文探讨了排列空间的理论基础及其在不同数据集上的实验表现,分析了斯皮尔曼等级相关系数距离下的空间特性与参数对召回率的影响。通过对随机浮点向量和真实世界CoPhIR数据集的实验,揭示了最优排列长度l、枢轴数量n和放大因子a在基于排列索引中的关键作用。同时,提出了一种基于随机平分线和二进制指纹的新型度量空间索引方法,在内存受限场景下展现出优于传统排列索引的性能。研究为高效相似性搜索提供了理论支持与实践方案,并展望了未来在多领域应用中的优化方向。原创 2025-09-24 11:47:53 · 12 阅读 · 0 评论 -
6、视频检索与排列空间的理论和实验观察
本文探讨了视频检索与排列空间的理论和实验观察。在视频检索方面,研究了颜色与位置的重要性、查询质心邻域界定及索引性能优化,并给出了不同数据库规模下的最佳索引选择策略。在排列空间方面,分析了基于排列的表示方法、距离度量(如Spearman rho)及其几何特性——排列多面体的结构与性质。进一步提出了利用排列空间特性优化搜索、合理选择维度的方法,并展望了将视频特征转换为排列表示以实现高效准确检索的结合路径,包括融合静态关键帧特征与动态运动信息的综合检索框架。原创 2025-09-23 09:21:00 · 8 阅读 · 0 评论 -
5、基于特征签名草图的视频检索
本文提出了一种基于特征签名草图的视频检索方法,利用位置-颜色特征签名表示视频关键帧,允许用户通过绘制简单彩色草图进行查询,有效解决了已知项搜索(KIS)问题。系统无需示例图像,提升了用户体验。文中详细描述了视频表示、检索算法及多种索引技术(如网格索引、M-索引及其变体),并通过实验优化参数、评估性能。在EBU MIM-SCAIE数据集上的测试表明,结合边界球约束的M-Index BS + CR在查询效率和准确性方面表现最优。回顾VBS 2014结果,该方法在同类工具中具有显著优势。未来工作将拓展至更多视觉特原创 2025-09-22 16:48:15 · 13 阅读 · 0 评论 -
4、多特征相似性搜索的部分细化方法
本文介绍了一种高效的多特征相似性搜索部分细化方法,通过在细化阶段逐步计算部分距离并动态更新聚合界限,有效减少距离计算量和搜索时间。该方法结合过滤与部分细化策略,利用下限排除、延迟排除和主导距离判断机制,在多种聚合函数和特征组合下均表现出优越性能。实验表明,相比传统方法,部分细化显著降低了计算开销,适用于图像检索、数据挖掘和推荐系统等场景,具有高灵活性和可扩展性。未来工作将聚焦于优化计算顺序和拓展应用领域。原创 2025-09-21 15:27:35 · 15 阅读 · 0 评论 -
3、轴对齐子空间中的高效相似性搜索及多特征部分细化方法
本文探讨了轴对齐子空间中的高效相似性搜索算法与多特征环境下的部分细化方法。在轴对齐子空间搜索中,多排序策略(MR)优于单排序策略,所提出的MAET+MR方法在高维子空间下显著提升运行效率,尽管预处理成本较高但查询性能优越。针对多特征相似性搜索,传统过滤细化方法因特征增多导致边界误差增大、效率下降,而部分细化方法通过逐步更新精确部分距离和聚合边界,实现对象的早期或部分排除,有效减少距离计算次数。实验表明,该方法在多种数据集上均优于线性扫描、Onion-树等基准方法。文章还总结了两种技术的应用场景,如数据挖掘、原创 2025-09-20 12:05:14 · 16 阅读 · 0 评论 -
2、轴对齐子空间中高效的相似性搜索算法
本文提出了一种针对轴对齐子空间的高效相似性搜索算法,基于多步搜索框架,通过引入单排序(SR)和多排序(MR)策略选择最具判别性的维度作为下界距离函数,有效降低了查询计算成本。算法在保证查询准确性的同时显著提升了搜索效率,并与PVA、PT、DMI等现有方法进行了对比实验,验证了其优越性能。结合不同变体如SK SR、SK MR、MAET+ SR和MAET+ MR,可在准确性和计算开销之间灵活权衡,适用于大规模高维数据场景下的子空间k-NN查询。原创 2025-09-19 12:45:32 · 13 阅读 · 0 评论 -
1、国际相似性搜索与应用会议(SISAP 2014)内容解析
本文对SISAP 2014国际相似性搜索与应用会议进行了全面解析,涵盖会议概况、组织结构、主要内容及特邀报告。重点介绍了子空间相似性搜索的问题背景、应用场景及其技术挑战,并详细阐述了基于多步搜索策略的新方法,通过利用一维距离下界有效提升搜索效率。会议论文涉及相似性搜索算法改进、索引技术、度量评估及在流数据、图像和音频等领域的应用,展示了该领域的前沿进展与未来方向。原创 2025-09-18 15:10:01 · 18 阅读 · 0 评论
分享