gin88
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
43、云环境中的RAN数据包处理与eBPF可扩展半虚拟化技术
本文探讨了云环境中RAN数据包处理的挑战与优化策略,提出通过核心调度在不禁用超线程的情况下平衡实时性与吞吐量。同时,介绍了一种基于eBPF的可扩展半虚拟化技术,无需修改来宾内核即可实现CPU亲和性等资源调度提示的跨虚拟机传递,显著提升系统性能,尤其在高负载下效果突出。结合测试结果与未来研究方向,展示了该技术在灵活性、可扩展性和性能优化方面的优势,并展望了其在大规模部署、功耗控制和高级调度策略中的潜力。原创 2025-10-09 01:23:08 · 33 阅读 · 0 评论 -
42、基于多Intel x86 CPU的虚拟基带应用CPU配置与性能优化
本文探讨了在多Intel x86 CPU平台上运行虚拟基带应用时的CPU配置与性能优化策略。重点分析了端到端响应时间的构成及其对实时调度的影响,评估了动态电压频率缩放(DVFS)、CPU空闲状态和超线程技术对确定性执行的干扰。通过实验对比了多种CPU配置(如默认、固定频率、禁用空闲状态、核心调度和实时配置)在确定性和随机执行时间下的响应表现,结果表明‘实时CPU配置’和‘核心调度’能显著提升实时性能的可预测性。同时,文章还讨论了在存在背景非实时应用时,如何通过核心调度机制在保证实时性的同时兼顾系统整体吞吐量原创 2025-10-08 16:03:08 · 31 阅读 · 0 评论 -
41、高性能计算中单体内核支持分析及Linux实时特性在RAN数据包处理中的应用
本文探讨了单体内核在高性能计算中的性能表现及其优势,重点分析了HermitCore和HermiTux在Bots和Rodinias基准测试中的执行效率差异,揭示了单体内核在频繁系统调用场景下的显著加速能力。同时,研究了Linux实时特性在云化无线接入网(cRAN)基带数据包处理中的应用,通过硬件与软件协同优化,实现了低延迟、高可预测性的数据处理,支持5G超可靠低时延通信需求。研究表明,合理配置下可在不牺牲吞吐量的前提下满足严格实时性要求,为未来边缘计算和网络虚拟化提供了可行路径。原创 2025-10-07 12:32:16 · 19 阅读 · 0 评论 -
40、高性能计算中的容器化与单内核技术研究
本文探讨了在Kubernetes中运行高性能计算(HPC)工作负载的方法,通过引入虚拟集群和集成Slurm与自定义调度器Genisys,有效提升了资源利用率和任务执行效率。同时研究了单内核技术(如HermitCore和HermiTux)在HPC中的应用潜力,实验表明其快速系统调用特性可显著加速操作系统密集型应用,但目前仍存在稳定性问题如崩溃与死锁。文章最后总结了当前研究成果,并展望了未来在单内核稳定性改进、更广泛应用场景及与其他技术融合的研究方向。原创 2025-10-06 12:33:44 · 29 阅读 · 0 评论 -
39、虚拟集群:Kubernetes 中隔离的、容器化的 HPC 环境
本文提出了一种在Kubernetes中构建虚拟集群的方法,用于运行高性能计算(HPC)工作负载。通过集成Slurm与自定义调度器Genisys,实现了HPC与数据中心工作负载的高效共置和资源隔离。虚拟集群提供完整的MPI支持,并利用InfiniBand网络实现低延迟通信。Genisys调度器基于运行时性能反馈动态调整资源分配,支持最少负载和最大负载两种放置策略,在保证性能的同时显著提升集群资源利用率。实验结果表明,相比无管理配置和静态分区方案,Genisys在总执行时间和CPU利用率方面均有明显优势,是融合原创 2025-10-05 15:39:14 · 30 阅读 · 0 评论 -
38、基于容器化的高性能计算可视化与资源管理工作流
本文提出了一种基于容器化的高性能计算可视化与资源管理工作流,涵盖原位可视化和Kubernetes中虚拟集群的设计与实现。通过Docker/Singularity容器封装LAMMPS、SENSEI、Catalyst等科学计算工具,结合WebSocket实现渲染数据流式传输,并构建可重复的容器化环境。同时,在Kubernetes中引入虚拟集群概念,集成Slurm作业调度系统,实现HPC与数据中心工作负载的共置与高效资源利用。系统具备良好的兼容性、可移植性和资源利用率,为现代混合计算需求提供了创新解决方案。原创 2025-10-04 15:54:04 · 26 阅读 · 0 评论 -
37、基于容器化的可视化工作流:Cinema Transfer
本文介绍了一种基于容器化的可视化工作流Cinema Transfer,旨在实现高性能计算中模拟数据的原位分析与远程可视化。该工作流由数据生产者、消费者和轻量级WebSocket应用三阶段构成,支持Docker与Singularity容器环境,具备良好的可移植性和可扩展性。通过在PRP和ALCF平台上的实验,验证了其在不同MPI配置下的运行效果,并利用tmpfs和Cinema Transfer工具优化图像存储与传输。评估结果显示,系统瓶颈主要在于并行渲染性能,未来将聚焦于算法优化、内存数据传递和功能扩展以提升原创 2025-10-03 13:21:41 · 22 阅读 · 0 评论 -
36、大规模油气藏模拟模型的交互式可视化与Cinema传输工作流
本文介绍了大规模油气藏模拟模型的交互式可视化与Cinema传输的容器化工作流程。通过基于MPI的并行加载和高效的CPU/GPU切片算法,显著提升了数十亿单元格级别模型的数据加载与切片效率,实现了接近实时的交互式可视化。同时,结合ParaView/Catalyst与SENSEI框架,利用Cinema数据库方法和自研的'cinema transfer'WebSocket工具,构建了支持原位分析与远程可视化的容器化流程,有效缓解了超算环境中FLOPs与I/O能力之间的瓶颈。该技术在油藏建模优化与多站点协同研究中具原创 2025-10-02 16:20:07 · 38 阅读 · 0 评论 -
35、普适原位分析与可视化(P - ISAV)的需求
随着异构计算和原位处理的快速发展,科学计算面临数据量、速度和多样性带来的严峻挑战。传统的可视化方法难以适应复杂、分布式的科研环境,亟需一种普适的原位分析与可视化(P-ISAV)解决方案。P-ISAV以敏捷性、弹性和智能性为核心特性,依托服务导向架构(SOA),通过标准化数据模型、可扩展的服务部署和智能化的任务编排,解决跨异构数据源摄取、框架集成成本高、资源利用效率低和系统缺乏通用性等关键问题。本文探讨了P-ISAV的关键研究问题及其对四大挑战的应对机制,并展望了技术融合、标准制定和多领域应用等未来发展方向,原创 2025-10-01 14:11:27 · 33 阅读 · 0 评论 -
34、神经元网络模拟中的实时分析与可视化技术
本文介绍了Insite管道和P-ISAV在神经元网络模拟与大规模科学计算中的实时分析与可视化应用。Insite通过低开销、易用的插件化架构支持实时数据处理与可视化,已在NEST Desktop和VIOLA 3D时空视图中成功应用,性能测试显示其对模拟时间影响低于5%。P-ISAV则致力于实现跨HPC与边缘计算的普遍实时可视化,应对分布式异构环境下的协作、弹性与可扩展性挑战。未来发展方向包括数据格式优化、多模拟器集成、控制能力增强以及工具的协作性与异构架构适配提升。原创 2025-09-30 10:09:32 · 27 阅读 · 0 评论 -
33、大规模粒子场与神经元网络模拟的原位分析与可视化
本文介绍了大规模粒子场的原位可视化分析与神经元网络模拟的In-transit分析管道Insite。针对大规模粒子场,研究采用密度阈值和连通性过滤技术识别气泡特征,并在Summit超算上验证了方法的有效性;对于神经元网络模拟,Insite通过REST API、JSON格式和可扩展插件架构,实现了无需修改模拟代码的实时数据分析与可视化。两者分别应用于工业、环境、天体物理及神经科学、人工智能、教育等领域,展现出强大的应用潜力。未来将优化算法性能,融合机器学习,并提升系统兼容性与可扩展性。原创 2025-09-29 10:33:57 · 21 阅读 · 0 评论 -
32、原位可视化技术进展与应用实践
本文综述了原位可视化技术的最新进展与应用实践,涵盖在极端规模粒子模拟中的创新方法。通过构建基于ParaView Catalyst的原位分析管道,结合AMReX数据结构与VTK处理流程,实现了对MFiX-Exa多相流模拟中气泡特征的高效可视化。提出并对比了原始粒子可视化与密度场可视化的效果,展示了密度场方法在大规模数据下清晰呈现宏观结构的优势。此外,原位生成的密度场支持灵活的事后分析,如气泡提取与动态追踪。研讨会还探讨了容器化工作流、普遍原位分析需求(P-ISAV)等前沿方向,展望了算法优化、跨领域应用及与A原创 2025-09-28 14:32:54 · 35 阅读 · 0 评论 -
31、HPC系统中的热异常检测与原位可视化工作坊
本文介绍了HPC系统中的热异常检测方法与原位可视化工作坊的实践。在热异常检测方面,通过引入多个标志(如节点温度异常、机箱热排名变化等)计算异常严重程度及其移动平均值,有效识别潜在物理故障前兆,并结合实际案例分析三个关键点(A、B、C)的异常特征与成因。同时,介绍了第6届原位可视化工作坊(WOIV’22)的目标与流程,强调原位方法在缓解HPC I/O瓶颈中的作用,鼓励分享未达预期的方法和原位软件新发展,促进跨领域合作。该研究为提升HPC系统的稳定性、性能及故障预防提供了有效手段。原创 2025-09-27 09:21:57 · 19 阅读 · 0 评论 -
30、数据中心设施监控与热异常检测方法解析
本文介绍了数据中心设施监控与Tier-0高性能计算(HPC)系统热异常检测的综合方法。通过开发灵活的监控系统,结合自动元数据提取和基于物理动机的可视化,提升了监控效率与可维护性。采用模板化方法降低运维开销,并引入基于规则的统计异常检测机制,在Marconi100 HPC集群上验证了对冷却短缺、温度越限和高导数变化等热异常的有效识别。研究涵盖242个关键指标,定义了281个标志,利用ExaMon框架实现数据采集与分析。相比传统方法和机器学习方案,该方法在准确性、可解释性和易部署性方面具有优势。未来将向智能化、原创 2025-09-26 14:47:35 · 24 阅读 · 0 评论 -
29、高性能计算监控与数据分析:MODA22及数据中心监测实践
本文介绍了第三届国际监测与数据分析研讨会(MODA22)的组织结构、论文成果及会议流程,并重点分享了美国国家可再生能源实验室(NREL)在数据中心监控中的实践,包括基于物理的异常监测方法和多层级数据架构。文章探讨了当前HPC监控领域面临的数据影响分析、数据解读标注、开源数据集稀缺等挑战,并展望了智能化监控、跨领域融合及标准化发展的未来方向。原创 2025-09-25 09:48:23 · 29 阅读 · 0 评论 -
28、紧急高性能交互式超级计算工作流与监测数据分析
本文探讨了CWL工作流在高性能计算(HPC)环境中的应用,特别是在紧急交互式空间天气集合模拟中的高效资源利用与调度优势。通过在ARCHER2上的性能实验,验证了CWL散射模式结合MPI的配置在大规模集合模拟中的优越性。同时介绍了第3届国际监测与运营数据分析研讨会(MODA22),聚焦HPC系统监测数据的收集、分析与智能化应用,推动未来超算系统的协同设计与优化。原创 2025-09-24 15:08:37 · 23 阅读 · 0 评论 -
27、高性能交互式超级计算工作流助力紧急决策
本文探讨了如何利用高性能交互式超级计算工作流来支持紧急决策,特别是在自然灾害和公共卫生事件中的应用。通过结合实时数据、用户交互与HPC模拟,提出基于VESTEC编排控制系统和CWL驱动的HPC端工作流的双层架构。以空间天气预测为例,展示了从数据采集、预处理到模拟提交与耦合执行的完整流程。文章强调工作流在提升响应速度、系统可扩展性和跨平台可移植性方面的优势,并指出未来在数据处理效率、调度优化及AI融合方向的研究潜力。原创 2025-09-23 11:36:42 · 18 阅读 · 0 评论 -
26、在 HPC 上使用 KNoC 实现交互式云原生工作流
本文介绍了KNoC,一种在高性能计算(HPC)环境中实现交互式云原生工作流的解决方案。KNoC基于虚拟kubelet架构,通过Door代理将Kubernetes调度的容器工作负载无缝转发至HPC集群,利用Slurm和Singularity执行任务,支持Argo等主流工作流引擎。文章详细阐述了其设计原理、核心组件、实现方式及与Argo的集成方法,并评估了其在NAS基准测试和生物信息学基因型插补工作流中的应用效果。同时分析了跨平台数据可用性挑战,提出了同步、共享存储和缓存等解决方案,总结了KNoC在统一作业语言原创 2025-09-22 16:34:23 · 42 阅读 · 0 评论 -
25、高性能计算中可塑特性与电源栈融合及云原生工作流的探索
本文探讨了高性能计算(HPC)中可塑特性与电源栈的融合及云原生工作流的集成。通过分层动态资源管理架构,结合作业管理器、节点管理器、监控器和系统管理器的协同工作,实现精细化资源调度与电源优化。文章介绍了在FLUX、Slurm等系统上的软件工具集成进展,并提出KNoC架构以实现Kubernetes与HPC集群的无缝融合,支持跨平台科学工作流。未来,该技术将在科学研究、工业制造和医疗健康等领域发挥重要作用,推动HPC向更高效、灵活和可持续方向发展。原创 2025-09-21 16:32:11 · 36 阅读 · 0 评论 -
24、内存存储系统与高性能计算资源管理的前沿探索
本文探讨了面向数据密集型应用的内存存储系统IMSS及其在分布式场景下的性能优势,同时深入分析了高性能计算(HPC)系统在功耗与资源利用率方面的挑战。针对未来过度配置和功率受限的HPC系统,提出融合可扩展性、协同调度与电源管理的软件架构解决方案,涵盖作业分类、动态资源分配策略及由系统管理器、作业管理器和节点管理器构成的参考架构。通过调度器改进、通信库优化和监控系统完善等集成工作,推动HPC系统在能效与资源利用上的突破,为下一代高性能计算提供技术支撑。原创 2025-09-20 13:55:06 · 20 阅读 · 0 评论 -
23、IMSS:数据密集型应用的内存存储系统
IMSS(In-Memory Storage System)是一种面向数据密集型应用的内存存储系统,采用客户端-服务器架构,通过基于ZeroMQ的通信机制和灵活的部署策略,提升数据局部性和系统性能。相比传统系统如Hercules和Redis,IMSS在通信模式、并行性设计和元数据管理方面具有优势。博文详细介绍了IMSS的架构设计、部署策略,并通过实验评估了其在不同块大小、客户端数量和数据分布策略下的性能表现,重点分析了读写性能、可扩展性及元数据开销。结果表明,LOCAL策略在读取操作中显著提升性能,而合理的原创 2025-09-19 16:45:17 · 28 阅读 · 0 评论 -
22、多核处理器上使用可变BLAS的QR分解与内存存储系统IMSS
本文探讨了在多核处理器上通过将可变性集成到BLIS框架中的QR分解优化方法,提升了并行资源利用率和性能;同时介绍了一种新型专用内存存储系统IMSS,其采用客户端-服务器架构、多线程设计和多种数据集级别分布策略,利用主内存实现高速数据访问,有效缓解数据密集型应用的I/O瓶颈。IMSS在科学计算、工程仿真和大数据分析等场景中展现出显著优势,并具备与云计算、人工智能集成的潜力,未来将在性能优化和安全性方面持续发展。原创 2025-09-18 09:55:46 · 20 阅读 · 0 评论 -
21、多核处理器上使用可塑BLAS的QR分解并行化方案与性能评估
本文探讨了在多核处理器上利用可塑BLAS实现QR分解的并行化方案,提出了一种增强的TA+TL模式,结合带前瞻的块算法以提升资源利用率和计算性能。通过对比SA+SL、SA+TL、TA+SL和TA+TL等多种并行策略,并基于实际实验数据评估MKL、SQR+MKL/BLIS、TQR+LA与TQR+MLB等实现方案的性能表现,结果表明所提出的可塑机制能有效动态调整线程分配,在不同核心数和矩阵规模下显著提升GFLOPS速率。研究为科学计算中的矩阵分解问题提供了更高效、灵活的并行解决方案。原创 2025-09-17 10:35:24 · 22 阅读 · 0 评论 -
20、探索OpenMP可塑性与自由代理线程及DLB的结合应用
本文探讨了OpenMP编程模型中可塑性与自由代理线程及动态负载平衡(DLB)的结合应用,通过在ParMmg和Alya两个高性能计算应用中的实验,验证了角色转换线程模型相比传统双池模型在资源利用效率、灵活性和性能上的优势。同时,研究还将线程级可塑性应用于QR分解中的BLAS内核,提出任务并行与多线程BLIS结合的混合并行方案,显著提升了负载不平衡场景下的执行效率。结果表明,该方法在真实科学计算中实现了1.2x至1.62x的加速比,展示了其在HPC领域广泛的适用前景。原创 2025-09-16 14:52:00 · 20 阅读 · 0 评论 -
19、利用自由代理线程和DLB挖掘OpenMP的可扩展性
本文提出了一种基于角色转换的自由代理线程实现,结合动态负载平衡(DLB)库,增强了OpenMP在混合MPI+OpenMP应用中的可扩展性和资源利用率。通过在LLVM OpenMP运行时中引入线程角色动态转换机制,避免了传统双线程池模型的过度订阅和管理开销,并与DLB的Lend When Idle模块集成,实现了运行时自动化的负载均衡。实验结果表明,该方法在两个真实HPC应用上显著缩短了执行时间,提升了负载平衡度和资源利用率,且无需用户手动配置参数,提高了易用性和可移植性。原创 2025-09-15 11:49:10 · 18 阅读 · 0 评论 -
18、使用MPI会话的动态资源仿真层
本文介绍了一种基于MPI会话的动态资源仿真层,提出改进的API查询方式和进程集管理接口,实现libmpidynres库以模拟动态资源环境。通过案例研究验证了接口的有效性,展示了应用程序如何处理资源增减。未来工作包括扩展编程模式支持、集成p4est/PETSc等工具及研究创新调度算法,为并行计算中的动态资源管理提供了可行方案。原创 2025-09-14 10:21:35 · 17 阅读 · 0 评论 -
17、高性能计算中的动态资源管理与应用干扰检测
本文探讨了高性能计算中的两个关键问题:应用性能预测与干扰检测,以及动态资源管理。通过介绍 LIMITLESS 框架,展示了其在生成应用代理、实现性能预测和干扰检测方面的优势;同时,基于 MPI Sessions 提出了一种新型的动态资源管理方法,利用进程集实现对运行时资源变化的高效处理。文章还介绍了 libmpidynres 库的验证过程和应用示例,并展望了未来研究方向,包括更精确的应用表征、接口完善及与其他技术的融合,旨在提升超级计算机环境下的资源利用率和应用执行效率。原创 2025-09-13 14:58:40 · 18 阅读 · 0 评论 -
16、应用代理在性能预测与干扰检测中的应用研究
本研究提出一种基于应用代理的性能预测与干扰检测方法,通过生成无需分析器或逆向工程的应用代理,在不处理原始代码和数据的情况下再现应用的CPU、内存和通信行为。利用Jacobi、Bodytrack等基准测试验证了代理在性能行为上的高保真度,并采用多变量分析与机器学习算法(如AdaBoost、支持向量机)进行性能预测,平均准确率达87.5%。通过静态与可变代理对比实验,显著缩短干扰评估时间,证明该方法在提升调度决策效率方面的有效性。研究还展示了与Pintools、PerfProx等相关工作的差异,突出了其在避免复原创 2025-09-12 12:12:11 · 14 阅读 · 0 评论 -
15、利用可塑应用代理检测应用间干扰并改进调度
本文介绍了一种基于可塑应用代理的系统——LIMITLESS,用于检测大规模集群中的应用间干扰并改进调度策略。通过结合系统与应用监控,LIMITLESS生成不泄露专有信息但性能相似的可执行代理,支持在不运行原始应用的情况下进行性能预测和干扰分析。系统利用ElasticSearch和Kibana实现数据存储与可视化,提供基于监控、预测和代理利用的三种调度策略。代理还可用于扩充训练数据集,提升机器学习预测准确性,并通过FlexMPI动态调整配置来评估不同负载下的干扰情况。该方法有效提升了集群资源利用率和调度智能化原创 2025-09-11 11:04:21 · 15 阅读 · 0 评论 -
14、异构AI工作负载能耗精准测量与高性能计算可扩展性技术应用
本文探讨了异构AI工作负载在不同计算节点上的能耗特性,揭示了GPU在训练和推理任务中相较于CPU在能耗和运行时间上的显著优势,并分析了Jupyter环境与批处理作业的能耗相似性。同时,文章介绍了高性能计算(HPC)中可扩展性技术的研究挑战与应用前景,涵盖资源动态调整、编程模型、调度算法及能源效率优化等方面。通过实际案例分析,展示了可扩展性技术在提升系统资源利用率、灵活性和能效方面的潜力。最后,文章展望了异构AI与可扩展性技术融合的未来方向,提出根据工作负载特性动态分配资源以实现性能与能耗的最优平衡,为构建高原创 2025-09-10 14:43:56 · 24 阅读 · 0 评论 -
13、异构AI工作负载的精确能耗测量
本文针对异构AI工作负载的能耗问题,通过对图像分类和时间序列预测两类典型深度学习应用在不同硬件环境下的全节点能耗进行精确测量,揭示了GPU与CPU在训练和推理阶段的能耗表现差异。研究发现,GPU在运行时间和能源效率上普遍优于CPU,但CPU-only在特定推理场景下能耗相当;同时,闲置GPU带来的额外功耗不可忽视,且Jupyter使用中的空闲时间会增加能耗。文章为用户合理选择计算资源、优化AI工作负载能效提供了实践参考。原创 2025-09-09 13:23:12 · 19 阅读 · 0 评论 -
12、GPUAPI模块与AI工作负载能耗测量研究
本文介绍了GPUAPI模块在多节点CPU+GPU平台上的应用及其与GPUIterator模块结合使用的性能与生产力评估,展示了其在不同级别API下无显著性能差异且高级API可大幅提升代码简洁性的优势。同时探讨了AI工作负载在不同类型计算节点上的能耗测量问题,强调准确测量全系统功耗的重要性,并指出训练与推理在不同硬件上的能效差异。研究还对比了相关PGAS语言到GPU的编译工作,突显了该方法在实际分布式应用中的实用性和可扩展性。未来计划将GPUAPI和能耗测量方法推广至更多复杂应用场景,推动高性能计算与AI的可原创 2025-09-08 09:46:25 · 23 阅读 · 0 评论 -
11、多级别平台无关GPU API:设计与实现
本文介绍了多级别平台无关GPU API在Chapel语言中的设计与实现,旨在简化GPU编程并提升开发效率。通过MID-LOW和MID两个级别的API,开发者既能精细控制GPU资源,又能利用Chapel的高级特性实现简洁高效的代码。文章详细阐述了各层级API的特点、使用示例及适用场景,并探讨了异步调用的支持方式与未来发展方向,为并行计算领域的开发者提供了实用的参考方案。原创 2025-09-07 13:01:42 · 19 阅读 · 0 评论 -
10、GPU加速系统中的高效算法及API设计
本文介绍了在GPU加速系统中实现高效计算的Pipelined CG算法系列(Hybrid-PIPECG-1/2/3),通过任务与数据并行优化不同规模稀疏矩阵的求解性能。针对小、中、大三类规模矩阵,提出了相应的方法选择策略,并展示了在K40和V100系统上的实验结果,验证了混合方法在执行效率和可扩展性上的优势。同时,提出多级别GPU API模块(GPUAPI),为高级编程模型提供MID-level抽象,提升GPU编程的生产力、可移植性并减少错误。该方案有效支持大规模线性方程组求解,推动异构计算发展。原创 2025-09-06 11:33:27 · 21 阅读 · 0 评论 -
9、边缘计算中的矩阵乘法性能分析与流水线共轭梯度法高效执行策略
本文研究了边缘计算环境下的矩阵乘法性能优化与流水线共轭梯度法的高效执行策略。在矩阵乘法方面,评估了B3A2C0、C3B2A0和B3C2A0三种gemm算法变体在不同微内核维度下的表现,结合MobileNetV1的实际层参数分析最优配置,并探讨了SIMD指令、DMA控制器和内存模型等未来优化方向。在求解稀疏线性系统方面,提出基于PIPECG的Hybrid-PIPECG-1和Hybrid-PIPECG-2方法,利用CPU-GPU混合执行减少同步开销,显著提升计算效率,实验显示最高可达8倍加速,尤其适用于大规模问原创 2025-09-05 16:30:27 · 22 阅读 · 0 评论 -
8、边缘深度学习矩阵乘法性能分析与AI基准测试进展
本文探讨了边缘深度学习中矩阵乘法(gemm)的性能优化及其在物联网设备上的应用,重点分析了不同分块算法变体(如B3A2C0、C3B2A0和B3C2A0)在异构架构下的实现机制。基于GAP8处理器平台构建性能模拟器,并通过实验验证其准确性,展示了算法选择、微内核优化与缓存管理对整体性能的影响。同时介绍了AI基准测试的意义,旨在推动科学界在算法评估与教学中的标准化实践。最后提出了多线程扩展、新算法探索及与其他深度学习任务集成等未来研究方向。原创 2025-09-04 16:12:57 · 19 阅读 · 0 评论 -
7、AI科学基准测试:进展与成果
本文介绍了三个面向科学领域的AI基准测试:STEMDL用于会聚束电子衍射图像的分类与重建,CANDLE-UNO用于基于肿瘤细胞分子特征的药物反应预测,tevelop用于地震时间序列的演化预测。每个基准测试涵盖背景、目标、数据详情及参考实现,并展示了在不同硬件平台上的初始评估结果,涉及准确率、吞吐量、NNSE等指标。文章还总结了通用评估流程与挑战,强调未来将扩展更多符合FAIR原则的基准测试,以推动AI在科学研究中的应用与发展。原创 2025-09-03 12:28:21 · 54 阅读 · 0 评论 -
6、高性能计算代码中的规模溢出错误检测与科学AI基准测试
本文探讨了高性能计算(HPC)代码中规模诱导的溢出错误检测方法,介绍了基于静态分析和动态追踪的技术进展,包括对Xcompact3d、OPlus和ParMETIS等应用的分析。同时,文章详细阐述了MLCommons科学工作组在推动AI for Science方面的努力,重点介绍了四项科学AI基准测试:云掩码、固态材料空间群分类、时间演化算子预测地震以及肿瘤药物反应预测。这些基准不仅为科学研究提供了标准化评估平台,还促进了技术创新与跨学科合作。最后,文章展望了HPC与AI融合发展的未来趋势,强调其在推动科学发现原创 2025-09-02 16:05:05 · 19 阅读 · 0 评论 -
5、检测生产型 HPC 代码中由规模引发的溢出错误
本文介绍了一种用于检测高性能计算(HPC)生产代码中由规模引发的整数溢出错误的工具OFT(Overflow Tool)。OFT扩展了现有方法,支持Fortran应用程序和模块化代码结构,通过结合静态与动态分析,采用反向/正向追踪算法,有效识别受MPI进程数或输入规模影响的潜在溢出指令。文章详细阐述了OFT的技术原理、实现机制,并通过Xcompact3d和OPlus Parallel Library两个实际案例验证其有效性。同时提出了未来改进方向,如支持宏定义变量和动态链接库追踪,旨在提升HPC应用的正确性与原创 2025-09-01 14:17:05 · 17 阅读 · 0 评论 -
4、基于跟踪的多面体分析实现轻量级数组收缩
本文提出了一种基于跟踪的轻量级数组收缩方法,结合多面体模型与执行跟踪分析,通过插值推断出依赖程序参数的通用存储映射。该方法从少量输入参数实例生成执行跟踪,利用活性分析和连续最小值思想计算维度模数,并通过仿射插值得到参数化收缩规则。实验表明,相比传统的连续取模技术,该方法在多个PolyBench内核上实现了显著的性能加速,尤其在处理复杂循环嵌套和多数组场景时优势明显。作者实现了名为PoLi的自动代码生成工具,并验证了其在存储优化中的有效性,同时提出了未来在参数选择、映射复杂度和编译集成方面的改进方向。原创 2025-08-31 15:38:45 · 22 阅读 · 0 评论
分享