ooo22
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
40、基于K2树的压缩图分布式查询处理
本文研究了基于K2树的压缩图在分布式环境下的高效查询处理方法,提出多种数据分布策略并在实际数据集上进行评估。实验表明,拉丁方阵策略在压缩比和查询响应时间方面表现最佳,整体性能优于块分布、循环分布、网格分布和完美空间平衡分布。研究为大规模图数据的实时查询提供了有效的解决方案,适用于网络和社交网络等应用场景。原创 2025-10-24 04:39:46 · 33 阅读 · 0 评论 -
39、微生物群落准确分析:方法与性能评估
本文探讨了微生物群落准确分析的方法与性能评估,重点研究了损失函数选择、评估指标、物种可识别性、重建误差理论界限以及可扩展的分治算法设计。针对大规模物种数据带来的计算挑战,提出使用l2损失结合分治阈值算法,在保证重建精度的同时实现高效求解。通过系统发育无关与相关指标评估重建效果,并在Greengenes数据库上进行模拟验证,结果显示在合理读取数量下可实现高精度重建。文章还讨论了方法的通用性、向全基因组测序的扩展潜力及未来算法优化方向。原创 2025-10-23 10:55:10 · 31 阅读 · 0 评论 -
38、网页更新调度与微生物群落重建技术解析
本文探讨了网页更新调度与微生物群落重建两项跨领域技术。在网页更新调度中,基于遗传编程的GP4C框架通过优化得分函数显著提升了ChangeRate,优于多种基线方法;在微生物群落重建中,通过数学建模与凸优化方法,结合稀疏性处理和开源工具COMPASS,实现了对复杂微生物群落的高精度频率估计与物种识别。两项研究均展示了优化与建模在不同科学问题中的强大应用潜力,并为未来研究提供了方法论支持和技术方向。原创 2025-10-22 16:02:27 · 18 阅读 · 0 评论 -
37、快速范围最长公共前缀查询与网页更新调度策略
本文提出了一种快速范围最长公共前缀(LCP)查询的自适应时间解决方案,通过分块策略和矩阵结构将查询时间优化至与查询区间相关的$(j-i)^{1/2}$级别。同时,针对网页更新调度问题,设计了基于遗传编程的GP4C方法,利用机器学习构建得分函数以提升爬虫系统的网页新鲜度与资源利用率。实验表明,GP4C在多种指标下优于传统基线方法,尤其在高动态网络环境中展现出更强的调度优势。研究还分析了遗传参数对性能的影响,并给出了不同应用场景下的策略选择建议。原创 2025-10-21 13:29:31 · 20 阅读 · 0 评论 -
36、高效文档检索与范围最长公共前缀查询技术
本文探讨了高效Top-k文档检索与范围最长公共前缀(Range LCP)查询的先进技术。在Top-k文档检索方面,基于压缩后缀数组(CSA)提出了多种空间与时间优化方案,支持在大规模文档集合中快速定位最频繁出现的k个文档。在Range LCP查询方面,通过引入重叠阻塞策略和Δ/δ-LCP矩阵结构,实现了线性空间下的快速查询响应,显著优于已有方法。文章还对比了不同技术方案的复杂度,并给出了实际应用场景及未来研究方向,为信息检索与生物信息学等领域的字符串处理提供了高效解决方案。原创 2025-10-20 10:50:12 · 22 阅读 · 0 评论 -
35、更快的最优空间Top-k文档检索
本文研究了Top-k文档检索问题,针对现有方案在空间或时间复杂度上的不足,提出了一种在最优空间|CSA| + o(n)位下实现更快查询的新型索引结构。通过引入采样文档数组E′和位图S,结合Tsur与Hon等人的方法,实现了O(m lg lg σ + k lg²k lg¹⁺ᵋ n)的查询时间,平衡了空间效率与查询性能。该方案适用于合成语言、无分词边界的文本检索,并在搜索引擎、生物信息学等领域具有广泛应用价值。原创 2025-10-19 14:19:36 · 27 阅读 · 0 评论 -
34、后缀对齐数组:相似数据的实用索引
本文介绍了一种高效的相似数据索引结构——后缀对齐数组(SAA),详细阐述了其在单区域与多区域对齐情况下的构建方法及模式搜索机制。通过实验验证,SAA在存储人类基因组序列时相比广义后缀数组(GSA)显著节省空间,尤其随着序列数量增加,空间优势更加明显,展现出在生物信息学等领域的广泛应用潜力。原创 2025-10-18 13:09:54 · 23 阅读 · 0 评论 -
33、利用参数化匹配解决图同构问题及后缀数组对齐索引
本文提出了一种利用参数化匹配解决图同构问题的新方法GLA,通过将图线性化并结合DFS遍历与剪枝策略,在稀疏和稠密图上均显著优于VF2算法。同时,介绍了适用于相似数据索引的后缀数组对齐(SAA)技术,相比广义后缀数组具有更高的空间效率,且支持高效的模式搜索,特别适用于生物信息学中的人类基因组数据分析。文章还探讨了该方法在化学结构分析、社交网络和进化研究中的应用,并展望了剪枝优化、并行计算及多维扩展等未来方向。原创 2025-10-17 15:01:21 · 24 阅读 · 0 评论 -
32、利用参数化匹配解决图同构问题
本文提出一种利用参数化匹配解决图同构问题的新方法,通过图线性化(GLA算法)和路径匹配(PMG算法)两个步骤,有效提升判断效率。该方法支持通用多重图模型,易于集成统计信息,并具有良好的并行性。实验表明,相比传统VF2算法,该方法在中小规模图上性能相当,在大规模图中响应时间显著更优,展现出更强的可扩展性。原创 2025-10-16 16:24:11 · 33 阅读 · 0 评论 -
31、全在线语法压缩与图同构问题的新解法
本文探讨了全在线语法压缩与图同构问题的新解法。在语法压缩方面,重点介绍了POSLP和FOLCA算法,分析了其在空间与时间效率上的优势及在生物信息学、版本控制和网络数据处理中的应用前景;在图同构问题上,提出了一种基于参数化匹配的新方法,通过图线性化与匹配算法有效提升匹配效率,并通过实验验证了其相较于VF2算法的性能优势。研究成果为数据压缩与图分析提供了新的理论支持和技术路径。原创 2025-10-15 10:34:07 · 18 阅读 · 0 评论 -
30、全在线语法压缩算法详解
本文详细介绍了一种全在线语法压缩算法FOLCA,该算法针对大规模重复文本的流式输入问题,通过在线构建后序SLP(POSLP)并直接编码为简洁表示,实现了高效的空间利用和实时处理能力。相比传统方法,FOLCA显著减少了工作空间,支持高效的子串提取,并优化了反向字典的存储。文章还分析了其在生物信息学、版本控制和文本挖掘等场景的应用前景,展示了其在处理流数据方面的优势与潜力。原创 2025-10-14 16:34:09 · 12 阅读 · 0 评论 -
29、二维Lyndon词的计算与应用
本文介绍了二维Lyndon词的计算方法及其在矩阵数据处理中的应用。通过LCM-矩阵的水平二维共轭分类,利用二维Lyndon词作为类代表,实现了矩阵的紧凑表示,并支持高效的水平后缀-前缀查询和二维模式匹配。文章提出了两种计算算法:算法1基于逐步优化列偏移,适用于一般情况;算法2引入模运算,显著提升了效率,尤其在LCMm较小的情况下表现优异。应用场景涵盖二维周期性分析、快速匹配查询及简洁字典匹配,展示了其在处理高度周期性矩阵时的优势。最后给出了不同场景下的算法选择建议,并展望了未来在计算机视觉、生物信息学等领域原创 2025-10-13 11:35:09 · 17 阅读 · 0 评论 -
28、学习 URL 归一化规则与二维 Lyndon 词的探索
本文探讨了URL归一化规则学习与二维Lyndon词的理论及应用。在URL归一化方面,介绍了规则泛化与精炼的方法,并通过实验验证DUSTER方法在压缩率和规则准确性上的优越性。在二维Lyndon词方面,提出了其定义、分类方案及高效计算算法,适用于二维字典匹配和水平周期性捕获,具有低空间开销和在线处理优势。整体技术在数据去重、模式匹配等领域具有重要应用价值。原创 2025-10-12 14:30:46 · 28 阅读 · 0 评论 -
27、使用多序列比对学习URL规范化规则
本文介绍了一种名为DUSTER的新方法,利用多序列比对策略学习URL重写规则,有效识别和消除网络爬虫中的重复或近似重复URL(DUST)。该方法通过生成共识序列、合并相似模式、规则泛化与冗余去除等步骤,显著提升了重复URL的减少率,实验结果显示其性能比现有最佳基线方法高出54%,为搜索引擎优化和资源高效利用提供了有力支持。原创 2025-10-11 14:40:40 · 20 阅读 · 0 评论 -
26、旋转无掩模光刻图像的无损压缩
本文针对微芯片制造中无掩模光刻产生的大规模二值图像,提出了一种高效的无损压缩方法XH及其扩展版本RXH,用于处理旋转图像。XH通过行与列的异或变换生成稀疏图像,再结合分层位向量压缩实现高压缩比;RXH则先检测并纠正图像旋转角度,恢复曼哈顿结构,并利用误差图像补偿插值偏差,显著提升旋转图像的压缩性能。实验表明,XH在速度上远超BlockC4和Corner,而RXH在所有旋转图像测试中均取得最佳压缩效果。文章还对比了不同算法在压缩比、计算复杂度和结构依赖性方面的表现,并给出了实际应用建议与未来研究方向。原创 2025-10-10 15:45:50 · 38 阅读 · 0 评论 -
25、针对 SLP 和 LZ78 压缩文本的快速 Lyndon 分解算法
本文介绍了一种针对SLP和LZ78压缩文本的快速Lyndon分解算法,能够在不解压文本的情况下高效计算Lyndon分解。通过引理与定理分析,结合动态规划、LAQ和LCS等数据结构,实现了在O(nh(n + logN logn))和O(s log s)时间复杂度内的分解算法,并支持子串查询操作。该方法节省空间、提升效率,适用于文本处理、数据存储等场景。原创 2025-10-09 13:58:55 · 20 阅读 · 0 评论 -
24、快速计算压缩文本的Lyndon分解算法
本文介绍了两种高效算法,用于计算由直线路径程序(SLP)或Lempel-Ziv 78(LZ78)编码表示的字符串的Lyndon分解。针对SLP的算法时间复杂度为$O(nh(n + \log N \log n))$,空间复杂度为$O(n^2)$;针对LZ78的算法时间和空间复杂度均为$O(s \log s)$。这些算法在处理高度可压缩的长字符串时显著优于传统方法,并在数据压缩、生物信息学等领域具有广泛应用潜力。原创 2025-10-08 13:40:19 · 31 阅读 · 0 评论 -
23、并行发现密集子图以压缩Web和社交图
本文提出两种基于密集子图挖掘(DSM)的并行算法,用于高效压缩大规模Web和社交图。算法1通过发现密集子图减少边数并引入虚拟节点,利用邻接列表局部性优化压缩;算法2结合动态负载平衡机制提升并行效率。实验在多种真实图数据集上验证了算法的良好加速比与压缩性能,尤其在大规模图中表现突出。同时分析了顺序压缩技术对整体性能的限制,并给出了实际应用中的算法选择与优化建议。未来工作将聚焦于优化顺序部分及增强负载均衡策略。原创 2025-10-07 10:35:17 · 20 阅读 · 0 评论 -
22、饮食即你:学习用户口味以进行评分预测与图压缩算法研究
本文研究了食谱推荐中的评分预测与大规模图数据的压缩算法。在评分预测方面,通过引入用户和物品偏差以及营养信息,构建线性加权模型以提升预测准确性,并对比多种模型变体的性能;实验表明结合偏差显著降低MAE与RMSE。在图压缩方面,提出基于BSP的并行边数减少与密集子图提取算法,实现高效压缩与动态负载平衡。文章进一步分析误差标准差,验证模型稳定性,并展望未来在内容特征扩展、实时图更新及跨领域应用的研究方向。原创 2025-10-06 13:30:19 · 25 阅读 · 0 评论 -
21、你吃什么决定了你是什么样的人:学习用户口味进行评分预测
本文探讨了如何通过分析用户对食谱的评分行为来构建个性化的食谱推荐模型。研究基于真实用户评分数据,深入分析影响评分的关键因素,发现食材和营养特性在预测用户偏好中起重要作用。为此,提出了一种结合食材特征、用户喜好与厌恶、以及营养信息的推荐模型,并引入TF-IDF加权和SVD降维技术提升预测准确性。实验结果表明,该模型在均方误差和平均绝对误差上优于传统协同过滤和基于内容的模型。文章还讨论了模型的优势与挑战,并展望了其在健康饮食应用和在线平台中的实际应用前景及未来优化方向。原创 2025-10-05 11:29:12 · 31 阅读 · 0 评论 -
20、为紧凑二级后缀数组添加压缩和混合搜索功能
本文探讨了如何通过压缩和优化后缀数组来减少磁盘空间使用并提高搜索效率。提出利用BWT进行贪婪解析生成因子序列,并比较了稀疏与密集字母表编码及熵编码的优劣。设计了支持随机访问的解码机制,并引入因子偏移与近似后缀指针以节省存储空间。实验表明,该方法在多种数据集上实现了超过75%的空间压缩,且通过调整量化因子R可在空间与查询速度间取得良好平衡。相比FM-Index和FEMTO,该方案在内存受限场景下表现出更优的外部存储查询性能。原创 2025-10-04 13:14:43 · 18 阅读 · 0 评论 -
19、字符串搜索算法与压缩存储技术解析
本文深入解析了字符串搜索算法与压缩存储技术,重点研究了最小区分词问题的高效求解方法,提出基于广义后缀树和LCP数组的优化算法,可在O(|P| + d(output + 1))时间内完成查询。同时,针对大规模文本存储与检索,改进了ROSA等两级后缀数组结构,引入基于块前缀字符串的因子压缩机制和混合搜索策略,在仅需文本2.5%内存索引、总磁盘空间小于2|T|的条件下实现快速计数查询。实验表明,该方法显著降低了空间开销并保持高效查询性能,适用于多GB级文本处理。未来工作将探索非恒定d值下的性能优化及字典序最小解生原创 2025-10-03 10:38:41 · 22 阅读 · 0 评论 -
18、最小区分词问题再探
本文探讨了最小区分词问题的两种场景:计算模式P在多个文档中的最小区分扩展,以及在指定文档集合中查找仅出现于其中的最小扩展。通过构建广义后缀树的压缩版本GST_c及相关辅助结构,提出线性空间的数据结构,在O(|P| + output)或O(|P| + d·(output + 1))时间内高效求解。方法具有高效率、低空间占用和良好可扩展性,适用于文本分类、信息检索和基因序列分析等场景,并展望了算法优化、多模态处理与实时计算等未来方向。原创 2025-10-02 15:54:32 · 18 阅读 · 0 评论 -
17、基于Lempel - Ziv压缩的文档列表结构及最小区分词问题研究
本文研究了基于Lempel-Ziv压缩的文档列表结构及其在高效文本检索中的应用,提出了一种结合LZTrie与RevTrie的索引结构,在时间和空间性能上实现了优化。同时,针对最小区分词问题,提出了两个变体的改进算法,基于广义后缀树和节点权重计算,实现了更优的时间复杂度并消除了对哨兵符号的不合理假设。实验结果表明该方法在多种数据集上具有良好的查询效率和可扩展性。文章还探讨了其在信息检索、机器学习和生物信息学中的应用场景,并展望了未来的研究方向。原创 2025-10-01 09:19:08 · 26 阅读 · 0 评论 -
16、Lempel - Ziv压缩结构在文档列表中的应用
本文介绍了一种基于Lempel-Ziv压缩结构的文档列表新方法,旨在解决传统方案在空间和时间复杂度上的局限。通过构建LZTrie、RevTrie、Node和Range等结构,结合小波树与RMQ技术,该方法在实际应用中实现了较快的部分结果输出,尤其适用于交互式信息检索和只需部分文档的场景。文章详细分析了三种模式出现类型及其处理流程,对比了现有主流方法,并探讨了性能评估、优化建议及未来发展趋势,展示了该方法在空间效率和响应速度方面的综合优势。原创 2025-09-30 09:34:33 · 17 阅读 · 0 评论 -
15、紧凑可查询的栅格数据表示与树路径上的Top-k颜色查询
本文探讨了紧凑可查询的栅格数据表示方法与树路径上的Top-k颜色查询问题。在栅格数据方面,对比了k2-tree、k3-tree与GeoTIFF等格式在不同查询场景下的性能,展示了基于k-tree的结构在空间效率和查询速度上的优势,并拓展至时空栅格与移动区域数据库的应用。在树路径查询方面,提出基于重路径分解和数据结构转换的方法,结合标记节点与预计算列表技术,实现了在O(n)空间内以O(k)时间复杂度回答Top-k颜色查询的高效解决方案。整体为大规模栅格数据存储与复杂树结构查询提供了理论支持与实践路径。原创 2025-09-29 14:57:52 · 25 阅读 · 0 评论 -
14、栅格数据的紧凑可查询表示
本文探讨了栅格数据的紧凑可查询表示方法,重点分析了k2-tree及其变体(包括支持1压缩的2-位和不平衡(1-5)-位变体)、线性四叉树(LQT)以及多维k2-tree(kn-tree)在空间利用和查询性能方面的表现。通过实验比较了不同方法在真实数据集上的存储开销与访问时间,结果表明k3-tree在空间效率和多维查询中优势显著,而k2-base和k2-acc分别适用于精确值查询和范围查询。同时,LQT在可更新场景中有一定应用价值。文章最后提供了根据应用场景选择合适表示方法的决策流程,并展望了未来在高维动态数原创 2025-09-28 11:50:31 · 21 阅读 · 0 评论 -
13、顺序保留不完整后缀树与可查询的栅格数据紧凑表示
本文探讨了顺序保留不完整后缀树与可查询的栅格数据紧凑表示两大主题。在字符串处理方面,介绍了不完整顺序保留后缀树的构建原理、时间复杂度及其在模式匹配和最长公共因子查找中的高效应用,并对比了不同构建方法的性能差异。在空间数据管理方面,提出了基于k2-tree及其变体和推广形式kn-tree的栅格数据紧凑表示方法,解决了传统栅格存储缺乏索引能力、查询效率低的问题,支持对空间窗口和值区间的快速查询。实验表明,这些结构在存储空间和查询性能上均优于传统方法,适用于大规模地理信息系统和时间序列分析等场景。原创 2025-09-27 14:49:19 · 21 阅读 · 0 评论 -
12、保序不完整后缀树与保序索引介绍
本文介绍了保序不完整后缀树与保序完整后缀树的定义、性质及构建方法。通过引入保序编码和弱字符预言机,提出了一种可在O(n log log n)时间内构建保序不完整后缀树的算法,并进一步利用该结构在O(n log n / log log n)时间内构建完整后缀树。文章展示了该数据结构在保序模式匹配和最长公共因子问题中的应用,为时间序列分析、音乐旋律匹配等场景提供了高效的索引解决方案。原创 2025-09-26 09:15:03 · 15 阅读 · 0 评论 -
11、高效处理高度重复集合的新型索引技术
本文介绍了一种高效处理高度重复集合的新型索引技术,结合语法压缩(Re-Pair)与标记二元关系R的小波树实现,在空间占用上显著优于现有方法。该索引支持精确子串搜索、短语查询及全文文档列表检索,适用于文档版本管理和基因组数据等场景。实验表明其在Wikipedia和合成DNA数据集上均实现了高压缩比和可接受的查询时间。文章还探讨了主要/次要出现、排名信息集成、近似搜索扩展及性能优化方向,展示了其在大规模重复数据管理中的潜力。原创 2025-09-25 15:54:52 · 23 阅读 · 0 评论 -
10、排列与二元关系的自适应数据结构及版本化文档的文档列表问题
本文探讨了排列与二元关系的自适应数据结构在信息检索中的应用,重点分析了使用排列和链分解表示二元关系的两种方法及其空间与查询性能。同时,针对高度重复的版本化文档集合,提出基于语法压缩的索引解决方案,支持高效文档列表查询与短语搜索。通过引入非终结符倒排列表、优化查询流程及扩展排名函数计算(如词频与位置信息),该方法在重复序列和自然语言场景中均表现出良好性能。文章还展望了未来在查询类型扩展、效率优化及结合机器学习方面的潜力。原创 2025-09-24 10:51:58 · 21 阅读 · 0 评论 -
9、图与排列的模式匹配及自适应数据结构
本文探讨了图的二色模式匹配与排列及二元关系的自适应数据结构。针对树和一般图,提出了基于颜色频率的近似匹配算法与索引构建方法,支持高效查询。在排列表示方面,通过将排列分解为升序和降序链,结合位图技术实现空间优化的自适应结构,并支持高效的范围查询。同时介绍了二元关系的紧凑表示及其操作权衡,拓展了其在社交网络、数据库等场景的应用。文章还分析了不同数据结构在空间与时间上的权衡,并给出了根据数据特性选择合适结构的决策流程,为实际应用提供了理论支持和技术路径。原创 2025-09-23 13:42:57 · 18 阅读 · 0 评论 -
8、高负载搜索引擎查询处理与索引匹配策略研究
本文研究了高负载环境下搜索引擎的查询处理策略与字符串、树和图中的杂乱模式匹配索引构建方法。针对高负载查询,分析了Drop、Partial-Drop和ML-Drop三种策略,实验表明ML-Drop在保证响应时间的同时显著提升了查询处理效率。在模式匹配方面,探讨了不同结构下的索引构建方案:一般图、路径(字符串)和双色树,并提出了精确索引与近似索引的实现方式及空间-时间权衡优化策略。特别地,对双色树的精确与近似索引进行了深入分析,展示了在不同多重集大小下的查询性能与存储优化。研究为不同应用场景提供了高效的查询处理原创 2025-09-22 14:57:22 · 15 阅读 · 0 评论 -
7、网络搜索引擎处理器多线程与高负载查询处理策略研究
本文研究了网络搜索引擎处理器在多线程环境下的同步与异步策略及其在高负载条件下的查询处理方法。通过分析不同并发控制策略的性能,发现批量同步策略(如BP)在扩展性方面优于异步策略(如RTLP和RTLP-RB),尤其是在写事务较多时表现更优。针对高负载场景,提出基于机器学习的ML-Drop丢弃策略,利用多个查询特征预测处理时间,提前丢弃无法按时完成的查询,有效平衡了响应时间与结果有效性。实验表明,ML-Drop在保证低延迟的同时显著优于传统Drop和Partial-Drop策略。文章最后总结了对系统架构设计的启示原创 2025-09-21 13:08:21 · 14 阅读 · 0 评论 -
6、网络搜索引擎处理器中多线程的模拟研究
本文研究了网络搜索引擎处理器中多线程查询处理的模拟方法,重点分析了基于倒排索引的查询执行流程与缓存机制。通过构建包含发布列表缓存和top-K结果缓存的搜索节点模型,探讨了多种线程同步策略(如BP、CR、TLP1/2、RTLP、RBLP)在并发读写场景下的性能差异。采用Multi-BSP模型进行仿真,结合LRU缓存替换和目录式一致性协议,量化了内存层次结构中的数据传输成本,并通过基准测试确定关键参数g1和g2。文章还对比了不同策略的适用场景,提出了在缓存命中率、线程数量、数据一致性和硬件资源配置方面的优化建议原创 2025-09-20 13:13:05 · 20 阅读 · 0 评论 -
5、小字母表上的位置受限子串搜索及搜索引擎处理器多线程模拟研究
本文研究了小字母表上的位置受限子串搜索(PRSS)技术与搜索引擎处理器的多线程模拟方法。针对不同字母表大小和模式长度,提出了三种基于后缀树、后缀采样和文本转换的索引构建方案,均在O(n log σ)空间下实现O(p + occ·log log n)查询时间。同时,设计了支持插入操作的半动态属性匹配索引,结合ISDP M与PRSS结构,实现高效的动态查询处理。在多线程方面,基于Multi-BSP模型构建模拟器,采用面向过程的协程模拟线程行为,评估并发性能,得出查询内并行性更具扩展性的结论。研究为高效文本检索与原创 2025-09-19 13:10:03 · 17 阅读 · 0 评论 -
4、利用相互影响改进推荐与小字母表下的位置受限子串搜索
本文介绍了两种重要技术:一是推荐系统中的GSMI算法,通过考虑项目间的相互影响,利用贪心策略提升Top-N推荐的实用性,在多个数据集上验证了其优于传统方法的表现,同时保持良好的可扩展性和推荐多样性;二是针对小字母表场景下的位置受限子串搜索(PRSS)问题,提出了一种具有O(n log σ)字空间和O(p + occₗ,ᵣ log log n)查询时间的新索引方法,显著提升了查询效率。此外,文章还探讨了GSMI的效率优化、与多样性的关系,并展望了未来在学习排序、精确解法及动态性质匹配等方向的研究潜力。原创 2025-09-18 12:23:10 · 15 阅读 · 0 评论 -
3、高效构建Burrows - Wheeler变换与利用相互影响提升推荐效果
本文探讨了高效构建Burrows-Wheeler变换(BWT)的算法及其在大规模基因组数据处理中的性能表现,提出了一种内存使用仅约n字节的半外部算法,在处理大数据时优于传统方法。同时,文章介绍了推荐系统中基于项目间相互影响的新算法GSMI,通过结合单个项目得分与成对相互影响得分,显著提升了推荐效用,最高提升达17%,且保持良好多样性。GSMI兼容PureSVD和NNCosNgbr等预测算法,并具备良好的可扩展性,适用于现实场景。两个领域的创新算法均展示了在效率与效果上的显著进步。原创 2025-09-17 16:08:54 · 24 阅读 · 0 评论 -
2、高效空间构建Burrows - Wheeler变换
本文介绍了一种高效空间构建Burrows-Wheeler变换(BWT)的半外部算法,基于诱导排序技术,适用于大规模字符串处理。算法通过减少内存使用,将部分数据存储于磁盘,仅对必要部分进行随机访问,其余顺序处理,从而优化空间性能。特别针对DNA等极小字母表输入提出实用优化策略,利用短LMS子串编号与位向量加速重命名过程。实验在真实基因组数据上对比了多种现有算法,验证了该方法在空间效率和实际运行速度上的优势,尤其适合处理超大文本序列如基因组数据。原创 2025-09-16 16:51:40 · 30 阅读 · 0 评论 -
1、国际字符串处理与信息检索研讨会(SPIRE)2013 相关内容概述
国际字符串处理与信息检索研讨会(SPIRE)2013是该系列会议的第20届,汇集了字符串处理与信息检索领域的前沿研究成果。会议涵盖了主题演讲、论文展示及专题研讨会,重点探讨了BWT构建算法、编辑距离近似、图中模式发现、文本推理与信息整合以及基于谷歌趋势的大数据即时预测等关键技术。同时介绍了相关算法在生物信息学等领域的应用,并展望了未来在算法优化、跨领域拓展和大数据处理方面的发展趋势,为研究人员和从业者提供了重要参考。原创 2025-09-15 12:21:20 · 28 阅读 · 0 评论
分享