silver
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
31、大规模并行超级计算机Kraken的工作负载分析与建模
本文对大规模并行超级计算机Kraken的工作负载进行了全面分析与建模,涵盖研究领域分布、用户行为、作业队列分布、取消/终止率及运行时间请求准确性等一般特征。研究表明,作业提交集中在大气科学、分子生物科学等领域,用户提交行为高度不均,最活跃的10%用户贡献了近80%的作业。工作负载在时间上呈现周周期性规律,每日负载高峰出现在下午3点,作业到达间隔短且具有突发性。执行特征分析显示,排队时间和实际运行时间需用高斯混合模型拟合,小作业占主导,系统利用率高达94.6%。针对低运行时间预测准确率(约33%)和高取消率等原创 2025-10-20 06:36:12 · 42 阅读 · 0 评论 -
30、并行作业调度与超级计算机工作负载分析
本文探讨了并行作业调度中的公平性与性能优化问题,提出对保守回填算法的扩展以提升调度质量,并通过实验验证其优于多种传统调度算法。同时,基于Kraken超级计算机的真实工作负载数据,系统分析了petascale级系统的作业一般特征、时间特征和执行特征,揭示了用户行为模式与资源使用规律。研究首次全面刻画了面向开放科学研究的大型HPC系统的工作负载特性,并应用统计模型如高斯混合模型进行分布拟合,为调度策略优化和资源分配提供了数据驱动的决策支持。最后,文章讨论了当前方法的局限性并展望了未来在智能调度、大规模用户管理和原创 2025-10-19 10:36:28 · 31 阅读 · 0 评论 -
29、并行作业调度中的性能与用户公平性
本文探讨了并行作业调度中性能与用户公平性的平衡问题,分析了FCFS、EASY回填和无预留回填等常见调度算法的优缺点。重点提出了一种基于禁忌搜索的保守回填优化技术(TS),通过SelectBetter函数综合评估BSD、WT、RT和F等指标,在保证公平性的同时显著提升调度性能。实验使用六个真实工作负载数据集,结果表明TS在平均等待时间、响应时间和慢down方面优于传统方法,且公平性接近BF-FAIR。该方法为高性能计算环境下的作业调度提供了兼顾效率与公平的有效解决方案。原创 2025-10-18 14:26:38 · 19 阅读 · 0 评论 -
28、并行作业调度中用户的性能与公平性
本文研究了并行作业调度中性能与公平性的平衡问题,提出了一种基于保守回填算法的扩展版本。通过引入评估程序和元启发式优化方法,该算法在保证可预测性的同时,显著提升了系统性能(如降低平均响应时间和等待时间)和用户间资源分配的公平性(以归一化用户等待时间衡量)。实验结果表明,该优化算法在多项指标上优于FCFS、EASY回填、原始保守回填等经典算法,实现了性能与公平性的协同优化,为高性能计算环境中的调度器设计提供了有效解决方案。原创 2025-10-17 09:15:20 · 21 阅读 · 0 评论 -
27、并行工作负载日志中用户会话边界识别方法解析
本文系统分析了并行工作负载日志中用户会话边界的识别方法,比较了Last、Max和Arrival等主流方法在会话阈值选择、思考时间分布、超长会话处理及会话长度分布等方面的表现。研究表明,Last和Max方法易产生超长会话,而引入Cut机制可缓解该问题但会在Cut值处形成峰值;Arrival方法虽在阈值处存在下降,但在大阈值(如一小时)下影响较小,能生成更现实和平滑的会话分布,是当前最具前景的会话界定方法。文章还提出未来应通过用户研究验证作业提交模式,并进一步优化方法以拓展其在其他领域的应用。原创 2025-10-16 16:17:51 · 17 阅读 · 0 评论 -
26、超算作业预测与用户会话边界识别技术解析
本文深入解析了超算环境中的两项关键技术:作业快速启动预测与用户会话边界识别。PQStar系统通过融合作业特征和系统状态,显著提升了快速启动作业的识别准确率。在用户会话识别方面,对比了基于思考时间的Last、Max方法与基于到达时间的Arrival方法,分析了不同方法对会话结构和用户行为建模的影响,并提出了实际应用中的选择策略。研究表明,合理定义会话边界和阈值对提升调度性能和理解用户行为至关重要,未来将探索更智能的预测与建模方法。原创 2025-10-15 12:26:30 · 18 阅读 · 0 评论 -
25、PQStar:高效识别快速启动作业的预测系统
PQStar 是一种高效的作业预测系统,通过分析作业历史数据和系统状态,综合运用近期、中期和远期历史标准,准确识别能够快速启动的作业。该系统在识别率、预测误差控制、RMS 误差和响应时间预测等方面显著优于 IBL、QBETS 和对数均匀分布模型,且具有阈值稳定性和低开销优势。实验表明,PQStar 能稳定识别超过 80% 的快速启动作业,平均 PPErt 最多降低 35 倍,良好预测数量最多增加 58%,适用于超级计算中心和云计算平台的作业调度优化,具备广泛的应用前景和进一步拓展潜力。原创 2025-10-14 10:19:16 · 24 阅读 · 0 评论 -
24、高效预测批量并行作业队列等待时间:识别快速启动作业
本文提出了一种名为PQStar的集成框架,用于高效预测批量并行作业的队列等待时间,特别聚焦于识别快速启动作业。通过分析作业特征、队列状态和处理器占用状态,PQStar在近期和中期历史中识别相似作业,并结合多个排名标准提高预测准确性。实验结果表明,该方法在多个真实超级计算机工作负载上显著优于现有方法,最多可将快速启动作业识别数量提升20倍,整体预测准确性提高达64%。PQStar不依赖具体调度算法,具有良好的通用性和应用前景。原创 2025-10-13 13:14:54 · 28 阅读 · 0 评论 -
23、并行作业工作负载的高分辨率分析
本文提出了一种基于气泡图和热力图的高分辨率方法,用于分析并行作业日志中的负载与性能关系。通过真实日志与模拟结果的对比,揭示了传统平均指标的局限性,发现实际调度行为与理想模拟之间存在显著差异。文章还探讨了负载计算的改进方向,提出了比较热力图、分析作业子集及评估合成工作负载模型的研究路径,为优化并行调度策略提供了新的视角和工具。原创 2025-10-12 14:14:33 · 21 阅读 · 0 评论 -
22、超大规模计算的分区并行作业调度与并行作业工作负载的高分辨率分析
本文探讨了超大规模计算环境下的分区并行作业调度优化与并行作业工作负载的高分辨率分析方法。通过引入流水线通信、分区调度、JO分发优化和中央管理器调度改进,显著提升了作业调度的性能与可扩展性。同时,提出基于真实负载条件的高分辨率分析方法,利用气泡图和热图揭示调度器在不同负载下的行为特征,克服了传统评估方法的人为偏差。结合实际应用案例,展示了该方法在科研超算中心和企业云计算平台中的有效性,并展望了智能化调度、绿色计算和跨平台调度的未来发展趋势。原创 2025-10-11 12:32:22 · 41 阅读 · 0 评论 -
21、大规模计算的分区并行作业调度优化
本文介绍了一种面向大规模计算环境的分区并行作业调度优化方法,通过多线程资源匹配和流水线通信等技术显著提升了作业调度与分发的性能。新设计在作业管理器内存消耗、中央管理器调度时间、作业分发效率等方面均优于旧设计,尤其在引入流水线优化后,网络表分发延迟大幅降低。实验基于Power6集群验证了方案的有效性,结果表明该方法可为未来高性能计算系统提供高效、可扩展的调度解决方案。原创 2025-10-10 16:49:08 · 21 阅读 · 0 评论 -
20、超大规模计算的分区并行作业调度
本文探讨了超大规模高性能计算(HPC)环境下的分区并行作业调度方法,针对传统集中式调度架构在扩展性和资源消耗方面的瓶颈,提出了一种结合分布式与并行特性的混合调度架构——分区调度。通过将节点本地资源(如网络窗口、核心映射)的调度任务下放到计算节点,并引入多线程调度器优化和流水线式作业对象(JO)与网络表(NTBL)分发机制,显著降低了中央管理器的CPU和内存负担,提升了调度效率与系统可扩展性。实验结果表明,该方法在中等规模集群上实现了数倍至数量级的性能提升,为未来16K节点级超大规模系统的调度提供了可行解决方原创 2025-10-09 12:11:23 · 26 阅读 · 0 评论 -
19、评估大型HPC集群上RJMS的可扩展性和效率
本文评估了大型HPC集群上资源与作业管理系统SLURM的可扩展性和效率,重点分析了不同拓扑配置(中等与精细)对系统性能的影响,以及在不同规模集群和工作负载下的系统行为。通过Light-ESP基准测试和模拟实验,揭示了SLURM在8192节点以上出现的响应延迟、系统利用率下降等问题,主要瓶颈在于结束语完成消息的处理机制。研究提出了优化拓扑选择、调整EpilogMsgTime参数和降低控制器处理复杂度等改进方法,并总结了使用模拟集群和合成工作负载的评估策略。结果表明,SLURM在4096节点以下表现良好,可扩展原创 2025-10-08 11:13:24 · 23 阅读 · 0 评论 -
18、大型HPC集群上RJMS的可扩展性和效率评估
本文评估了资源和作业管理系统(RJMS)在大型高性能计算(HPC)集群上的可扩展性和效率。通过基于合成工作负载的ESP模型和结合实际规模与仿真技术的实验方法,分析了SLURM在作业提交数量可扩展性及网络拓扑感知调度方面的表现。实验结果表明,使用defer参数可显著提升提交吞吐量,优化调度逻辑能应对大规模作业提交,而合理的拓扑配置可提高作业放置效率。文章还提出了实际应用建议,并展望了未来在提交模型优化、仿真技术和拓扑调度算法方面的研究方向。原创 2025-10-07 14:43:01 · 31 阅读 · 0 评论 -
17、芯片多处理器作业调度与资源管理系统评估
本文探讨了芯片多处理器环境下的最优协同调度问题,提出通过算法最小化并发作业总完成时间,并分析其计算复杂性。同时评估了大型HPC集群中资源与作业管理系统(RJMS)SLURM的可扩展性和网络拓扑感知调度效率。采用基于合成工作负载的实际与仿真实验方法,在Tera-100等大规模集群上验证SLURM在不同规模下的表现。结果表明,SLURM具备良好的可扩展性,且拓扑感知调度显著提升作业执行效率和资源利用率。未来研究将聚焦于调度算法优化、实际工作负载建模及新型资源管理策略探索,以应对不断增长的高性能计算需求。原创 2025-10-06 11:55:11 · 43 阅读 · 0 评论 -
16、芯片多处理器上最小化完工时间的最优协同调度
本文研究了在芯片多处理器(CMP)环境中最小化工序完工时间的最优协同调度问题,提出并评估了A*-cluster、贪婪算法和局部完美匹配等多种调度算法。通过实验验证了这些算法在不同场景下的性能表现,比较了其与暴力搜索及随机调度的优劣,并分析了调度开销、问题规模和是否允许作业迁移等因素对结果的影响。研究表明,不同算法适用于不同条件:A*-cluster适用于较大核心数(u>2)的情况,局部匹配算法在双核环境下兼具高质量与高效率,而贪婪算法则适合对调度开销敏感的应用。此外,文章还探讨了相关工作的对比、实际应用限制原创 2025-10-05 12:05:29 · 32 阅读 · 0 评论 -
15、芯片多处理器上最小化完工时间的最优协同调度
本文研究了芯片多处理器环境下最小化完工时间的最优协同调度问题,分析了不同核心数和迁移策略下的问题复杂度:当每个芯片核心数u≥3时问题为NP完全,而u2且不允许迁移时可在多项式时间内求解。针对不同场景提出了基于完美匹配、A*搜索的最优算法,并设计了组合聚类等近似算法以提升可扩展性。文章还探讨了实际调度器性能评估方法与未来研究方向,为多核系统任务调度提供了理论基础与实践指导。原创 2025-10-04 13:20:34 · 21 阅读 · 0 评论 -
14、GPU 辅助 HPC 系统与多核处理器调度策略研究
本文研究了GPU辅助高性能计算(HPC)系统中的动态内核/设备映射策略与多核处理器的最优协同调度问题。针对GPU调度,分析了自适应机制在不同数据/计算比和网络条件下的有效性及其可扩展性,提出了AR、AG等策略的性能优势与局限。对于多核处理器,定义了最小化完成时间的协同调度问题,证明其NP完全性,并设计了多项式时间算法、A*搜索与贪心算法进行求解。实验验证了算法的有效性与近似性能。文章进一步探讨了实际应用场景、面临挑战及未来发展方向,包括上下文机制利用、进程同步影响、算法优化与多目标调度,为提升HPC系统资源原创 2025-10-03 12:46:39 · 24 阅读 · 0 评论 -
13、面向GPU辅助HPC系统的动态内核/设备映射策略
本文探讨了在GPU辅助的高性能计算(HPC)系统中,动态内核/设备映射策略对系统性能的影响。提出了三种动态策略:全局预留策略(GR)、自适应贪婪策略(AG)和自适应随机策略(AR),并与静态映射策略(ST)进行对比。通过构建离散事件模拟器,在不同工作负载混合、负载均衡和工作负载强度等场景下评估各策略的GPU利用率和平均等待时间。实验结果表明,动态映射策略在存在未充分利用GPU资源的混合工作负载场景下显著提升系统性能,尤其在轻负载条件下效果更优。同时分析了网络带宽敏感性及关键应用资源竞争问题,指出动态策略在实原创 2025-10-02 11:49:36 · 19 阅读 · 0 评论 -
12、工作流调度与GPU动态映射策略优化系统性能
本文探讨了高性能计算(HPC)中工作流调度与GPU动态内核/设备映射策略的优化方法。通过对比公平共享(FS)与基于关键路径的优先级调度(CPPS)算法,验证了CPPS在降低端到端延迟方面的优势。针对传统GPU静态映射导致的利用率不足和过度订阅问题,提出了一种基于GREMM的动态映射框架,并设计了基于等待时间、负载均衡和数据局部性的三种映射策略。模拟结果显示,动态映射显著提升了GPU利用率和计算吞吐量。未来研究方向包括用户与系统动态适应、分布式调度算法及与现有工作流系统的集成。原创 2025-10-01 11:17:28 · 23 阅读 · 0 评论 -
11、工作流调度的端到端性能优化:CPPS 算法解析
本文深入解析了基于关键路径的优先级调度(CPPS)算法在工作流端到端性能优化中的应用。通过理论分析、算法设计、数值示例及模拟与真实气候建模工作流实验,系统阐述了CPPS如何通过动态资源分配和关键路径优化显著缩短执行时间。研究显示,在模块密集映射和高资源共享场景下,CPPS相比公平份额调度可实现最高超过20%的MED性能提升。文章还总结了算法的优势与局限,并提出了未来改进方向,为复杂科学工作流的高效调度提供了有效解决方案。原创 2025-09-30 10:23:52 · 35 阅读 · 0 评论 -
10、分布式网络环境中工作流调度以实现端到端性能优化
本文研究分布式网络环境中科学工作流的调度优化问题,旨在最小化端到端延迟(MED)。将工作流建模为有向无环图(DAG),在给定映射方案下,提出基于关键路径的优先级调度(CPPS)算法,通过优先执行关键路径上的模块来提升整体性能。证明了该调度问题为NP完全问题,并设计了精确的端到端延迟计算方法extED。通过模拟和实际气候建模工作流实验验证,CPPS算法相比传统公平共享策略显著减少了延迟,平均性能提升达25%-30%。研究为科学计算中复杂工作流的高效执行提供了有效解决方案。原创 2025-09-29 16:27:55 · 20 阅读 · 0 评论 -
9、多目标处理器集选择:原理、评估与配置解析
本文深入探讨了多目标处理器集选择的原理、评估方法与配置策略。基于真实一周作业跟踪数据,分析了工作负载特征,并通过Lisp原型和SGE实现对处理器集选择算法进行了评估,验证了简单算法在实际应用中的高效性与选择质量。文章详细解析了包含队列、处理器集、成本向量和约束定义的配置文件机制,提出了非均匀成本结构对优化选择的积极作用。结合操作流程图与关键技术点总结,为提升系统性能和资源利用率提供了完整的理论支持与实践指导。原创 2025-09-28 15:23:24 · 18 阅读 · 0 评论 -
8、计算集群系统的多目标处理器集选择
本文研究了计算集群系统中的多目标处理器集选择问题,提出了一种形式化的建模方法,并证明该问题是强NP难的。针对此问题设计了一个基于字典序成本比较的简单选择算法,虽不能保证最优解,但在实际应用中表现出良好效果。通过实验和真实集群系统的应用验证,该方法显著缩短了作业执行时间,提升了资源利用率并降低了能耗。文章还探讨了未来在启发式搜索、并行优化和动态成本调整方面的改进方向,为提升并行系统调度效率提供了有效思路。原创 2025-09-27 12:51:12 · 21 阅读 · 0 评论 -
7、利用检查点改进大规模系统中的作业调度
本文提出了一种基于检查点的回填调度算法,旨在解决大规模高性能计算(HPC)系统中用户运行时间估计不准确导致的调度效率低下问题。通过引入检查点机制,算法能够在保证系统利用率的同时显著改善作业等待时间、减速因子和队列长度,最高提升达40%。文章评估了不同估计准确性对经典与检查点算法的影响,分析了检查点/重启操作的实际开销,并结合真实系统跟踪数据验证了方法的有效性。结果表明,尽管存在一定的I/O开销,但仅少量作业需要检查点操作,资源浪费低于1.5%,整体开销可忽略不计。此外,文中还对比了多种现有调度策略,突出了基原创 2025-09-26 09:55:16 · 26 阅读 · 0 评论 -
6、利用检查点改进大规模系统作业调度
本文介绍了一种基于检查点的回填作业调度算法,旨在解决经典回填算法中因用户高估运行时间导致资源利用率低的问题。通过引入检查点/重启机制,该算法能够更积极地调度回填作业,并在必要时暂停而非终止作业,从而提高系统资源利用率、减少作业等待时间,同时保障高优先级作业的执行优先权。结合真实工作负载的模拟实验表明,该方法在多种性能指标上优于传统算法,尤其在p0.1或0.2时整体性能最佳。文章还提供了参数调优建议和实际应用指导,适用于具备检查点能力的大规模并行系统。原创 2025-09-25 13:18:33 · 20 阅读 · 0 评论 -
5、分布式查询调度与大规模系统作业调度策略解析
本文深入分析了分布式查询调度中的多种策略,重点对比了DEMB、Fixed、DEMA和轮询调度在不同查询分布下的缓存命中率、负载均衡与查询响应时间表现。研究表明,DEMB在动态查询场景下性能最优,且可通过自动调整窗口大小进一步优化。同时,文章探讨了大规模系统中基于检查点的积极回填作业调度策略,相比传统FCFS回填算法,在提升资源利用率和作业调度性能方面显著改进,仅需少量检查点开销。综合来看,不同调度策略适用于不同场景,合理选择与参数调优可显著提升系统整体效率。原创 2025-09-24 16:18:49 · 27 阅读 · 0 评论 -
4、DEMB:分布式查询处理的缓存感知调度
本文介绍了一种新型的分布式查询调度策略DEMB(Distributed Exponential Moving Boundary),旨在解决传统DEMA策略在动态查询分布下出现的负载不平衡问题。DEMB通过维护最近查询的滑动窗口,利用Hilbert空间填充曲线将多维查询映射到一维空间,并基于累积概率密度函数动态调整各服务器的边界,实现查询的均衡分配。该策略在不同查询分布(如均匀、正态、Zipf及CBMG)下均表现出良好的负载平衡能力和较高的缓存命中率。文章详细阐述了DEMB的实现机制、关键参数(窗口大小、权重原创 2025-09-23 15:30:56 · 22 阅读 · 0 评论 -
3、Web 规模作业调度与分布式查询处理调度策略
本文探讨了Web规模作业调度与分布式查询处理中的关键调度策略。在Web规模作业调度方面,分析了计算与存储资源混合带来的挑战、存储对调度灵活性的影响以及多SLA层级下的调度需求。在分布式查询处理方面,对比了传统仅考虑负载均衡的调度方法与考虑缓存的LARD等策略,重点介绍了DEMA和DEMB两种先进调度算法:DEMA通过指数移动平均聚类相似查询以提升缓存命中率,而DEMB进一步引入概率分布估计,在保证负载均衡的同时显著降低查询响应时间,实验显示其性能优于DEMA。最后总结了当前研究的关键要点,并展望了未来在复杂原创 2025-09-22 09:10:47 · 20 阅读 · 0 评论 -
2、Web 规模作业调度:挑战与解决方案
本文深入探讨了Web规模作业调度中的核心挑战与解决方案,涵盖资源共享与会计核算的权衡、高可用性运营要求、面向用户作业的服务质量保障机制(如Google的任务包模型)、安全隔离策略及未来发展趋势。文章分析了如何通过备份任务和准入控制实现集群级保障,并介绍了动态调整、负载均衡、自动化运维等优化手段,旨在提升系统性能、可靠性与资源效率,满足大规模在线服务的严苛需求。原创 2025-09-21 12:59:34 · 20 阅读 · 0 评论 -
1、网络规模作业调度:挑战与策略
本文探讨了网络规模作业调度的关键挑战与策略,分析了网络数据中心与传统HPC在工作负载和运营限制上的差异,阐述了不同服务等级协议(SLA)的需求分类,并介绍了提升服务质量的多种技术手段,如备份任务、资源分区与动态分配。同时讨论了负载均衡、故障检测与恢复及安全管理等关键问题,旨在实现高效、稳定且安全的大规模集群调度。原创 2025-09-20 11:39:19 · 16 阅读 · 0 评论
分享