A3B4C5
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
33、并行计算中的数据分区与循环并行化技术
本文探讨了并行计算中的两项关键技术:多分区数据分布和递归LRPD测试。多分区通过为每个处理器分配多个等大小块,提升并行性、负载均衡与通信效率,是构建过度分区框架的基础。递归LRPD测试则针对难以静态分析的复杂循环,动态提取最大可用并行性,结合NRD与RD两种执行策略,在保证正确性的同时最小化性能损失。文章还介绍了其在复杂访问模式和多线程环境下的应用优化,并通过性能模型与实验对比展示了该技术在执行时间、加速比和可扩展性方面的优势。未来研究方向包括更复杂的依赖处理、技术融合与自适应策略优化。原创 2025-10-20 09:20:28 · 36 阅读 · 0 评论 -
32、利用多分区实现可扩展并行性的编译器支持
本文探讨了利用多分区策略实现可扩展并行性的编译器支持,重点介绍了在dHPF编译器中对多分区的实现机制。多分区通过将多维数组划分为多个瓦片,在保证完美负载均衡的同时仅需粗粒度通信,显著提升了并行效率。文章详细阐述了虚拟处理器模型、内存布局、代码与通信生成、运行时支持等关键技术,并分析了瓦片调度、集合约束和可用性分析等关键问题及其解决方案。实验结果表明,尽管dHPF生成的多分区代码在通信聚合和标量性能方面仍存在改进空间,但其整体并行化效果接近手工优化的MPI版本。未来工作将聚焦于编译器优化、应用拓展和理论深化,原创 2025-10-19 12:43:31 · 24 阅读 · 0 评论 -
31、异构环境下的线程迁移、负载均衡及多分区编译支持
本文探讨了在异构计算环境下,如何通过线程迁移与负载均衡策略提升系统性能和资源利用率,并深入分析了多分区编译技术在解决紧密耦合计算问题中的优势。文章介绍了CVM运行时系统对异构处理器间数据格式转换、栈迁移处理的实现机制,以及Rice dHPF编译器中多分区技术的设计与实现。多分区通过偏斜循环分布实现平板内完全并行计算,显著优于传统块分区和粗粒度流水线,在NAS SP和BT基准测试中表现出更优的执行时间和加速比。最后展望了未来在算法优化、技术融合与系统开销降低方面的研究方向。原创 2025-10-18 11:27:21 · 27 阅读 · 0 评论 -
30、模拟真实CPU工作负载与线程迁移负载均衡技术解析
本文介绍了两种提升并行与分布式系统性能的关键技术:一是基于Unix负载平均值的主机负载跟踪回放技术,通过playload工具在不同操作系统上生成真实可重复的CPU竞争负载,并评估其在Digital Unix、Solaris、FreeBSD和Linux上的性能差异;二是针对异构环境中负载不平衡问题,提出基于CVM软件分布式共享内存系统的线程迁移机制,结合负载监测、迁移决策与自适应均衡策略,有效提升系统资源利用率和应用加速比。初步实验结果表明,该方案在多种应用和配置下均能显著改善性能。未来工作将聚焦于优化Lin原创 2025-10-17 12:36:06 · 23 阅读 · 0 评论 -
29、计算网格中的监测与管理基础设施及主机负载跟踪回放技术
本文介绍了计算网格中的监测与管理基础设施,基于传感器、执行器和网格事件服务构建,支持灵活、可扩展的系统监测与控制,并应用于元计算目录服务和参数研究应用的故障管理。同时提出主机负载跟踪回放技术,通过记录和回放Unix负载平均值生成逼真且可重复的CPU工作负载,用于评估分布式中间件系统性能。该技术由playload工具实现,具备高逼真性、可重复性和灵活性,未来将进一步优化基础设施与回放工具以提升系统评估与管理能力。原创 2025-10-16 13:06:51 · 26 阅读 · 0 评论 -
28、主动框架系统与计算网格监控管理:技术解析与应用评估
本文深入解析了主动框架系统在分布式计算中的应用,涵盖静态、创建时和交付时三种调度策略,并结合远程可视化工具Dv以Quakeviz为例展示了大规模数据处理流程。通过单主机、流水线和扇形三种配置的性能评估,验证了主动框架在提升系统响应性与资源利用率方面的优势。同时,文章提出了一种模块化、可扩展的计算网格监控管理基础设施,基于传感器、执行器和事件服务实现故障检测与动态恢复,适用于Globus等复杂网格服务。最后对比现有监控系统,突显该基础设施在安全性、灵活性和适应性方面的领先优势,并展望未来优化方向。原创 2025-10-15 14:53:51 · 19 阅读 · 0 评论 -
27、InterWeave与自适应重量级服务框架:分布式系统的创新探索
本文探讨了InterWeave与自适应重量级服务框架在分布式系统中的创新应用。InterWeave作为分布式共享状态中间件,支持灵活的一致性管理与跨节点数据共享,适用于高性能可视化与并行计算场景;自适应重量级服务框架通过活动帧机制实现计算资源的动态聚合与自适应调度,有效应对异构网络与资源波动挑战。两者结合为科学计算、工业智能等领域提供了高效、可扩展的解决方案,未来将在容错、安全与智能化方向持续演进。原创 2025-10-14 10:29:21 · 26 阅读 · 0 评论 -
26、InterWeave:用于分布式共享状态的中间件系统
InterWeave 是一个用于分布式共享状态管理的中间件系统,旨在解决分布式环境中数据同步、一致性和异构平台协作的问题。它采用机器和语言无关的接口描述语言类型系统,支持跨架构和跨语言的程序交互。系统通过基于URL的共享单元和与机器无关的指针实现数据访问,并提供多种一致性模型(如完全一致性、时间一致性等)以适应不同应用场景。通过哈希机制保障因果连贯性,并利用指针换名技术处理异构环境下的引用转换。当前实现中每个数据段由独立服务器管理,客户端通过读写锁与服务器交互,使用双胞胎机制构建差异更新。实验表明,在小规模原创 2025-10-13 09:45:13 · 20 阅读 · 0 评论 -
25、分布式共享状态运行时系统与中间件技术
本文深入分析了分布式共享状态运行时系统与中间件技术,重点对比了TreadMarks和DOSA在细粒度、粗粒度及垃圾回收应用中的性能表现。DOSA通过减少错误共享、采用懒对象分配以及与垃圾回收机制的协同优化,在多数场景下显著优于TreadMarks。同时介绍了InterWeave中间件系统,其通过共享段版本管理、哈希向量时间戳和自动数据转换等机制,为异构分布式环境提供高效透明的数据共享支持。文章还总结了各系统的适用场景,并提出了未来在性能优化、应用场景拓展和技术融合方面的展望。原创 2025-10-12 15:22:16 · 22 阅读 · 0 评论 -
24、类型化语言中分布式共享的运行时支持
本文介绍了一种面向类型化语言的高效分布式共享内存运行时系统DOSA。DOSA利用类型信息实现基于对象的细粒度共享,通过句柄表和虚拟内存技术进行访问检测,有效消除假共享问题。系统支持懒对象存储分配和基于OID的一致性协议,在细粒度应用(如Barnes-Hut、Water-Spatial)中性能较TreadMarks最高提升98%,在垃圾回收应用中最高提升65%,而在粗粒度应用中性能损失控制在6%以内。结合编译器优化,DOSA在保持透明分布式编程模型的同时显著提升了执行效率。原创 2025-10-11 11:41:27 · 18 阅读 · 0 评论 -
23、软件分布式共享内存系统的编译和运行时优化
本文探讨了软件分布式共享内存(SDSM)系统在科学计算中的性能优化问题,重点解决多维分区带来的虚假共享、碎片化和通信延迟等挑战。通过集成编译器与运行时技术,提出编译器管理的受限一致性、共享缓冲区、点对点同步及选择性急切更新等优化方法,显著提升了常规与不规则应用的执行效率和可扩展性。实验结果表明,在NAS BT基准测试中,结合所有优化策略可大幅降低通信开销并提高加速比,验证了该方法的有效性。同时,文章对比了相关工作,并展望了未来在复杂应用和智能优化方向的发展潜力。原创 2025-10-10 15:17:15 · 22 阅读 · 0 评论 -
22、分布式共享数据一致性成本测量与优化
本文探讨了分布式共享内存(DSM)系统中的一致性成本测量与优化方法。通过分析三种一致性协议(OD、UB、DU)及其对性能的影响,比较了AT、WT和CWT三种开销测量方法的优缺点,并结合Water、IS和SOR实验验证其预测准确性。同时,针对软件分布式共享内存(SDSM)在规则应用中的性能瓶颈,提出了编译器管理的受限一致性和共享缓冲区两种优化技术,有效减少虚假共享并消除数据碎片化。研究结果表明,合理选择一致性协议与编译优化可显著提升系统性能,未来方向包括动态协议分配与更智能的编译器支持。原创 2025-10-09 12:37:58 · 19 阅读 · 0 评论 -
21、基于页面的软件系统可扩展性中的争用影响及分布式共享数据一致性协议选择
本文探讨了页面式软件系统中争用和协议负载不平衡对可扩展性的影响,分析了Tmk和HLRC等协议在Barnes-Hut和SOR等应用中的性能表现。研究指出,即使采用条带化技术,争用问题依然存在。针对一致性协议选择难题,文章提出了一种基于测量的自适应方法,通过三种测量开销的方式——简单统计法、时间测量法和综合评估法,动态选择最优协议。实验结果表明,该方法相比启发式方法能更准确地匹配应用程序需求,显著提升性能。未来工作将聚焦于降低测量开销并实现广播与负载平衡的自动化。原创 2025-10-08 11:49:49 · 17 阅读 · 0 评论 -
20、基于页面的软件系统可扩展性中争用的影响
本文研究了在基于页面的软件系统中,共享数据争用对系统性能和可扩展性的影响,重点分析了Tmk和HLRC两种延迟释放一致性(LRC)协议在处理争用时的表现。通过在32节点奔腾II平台上运行SOR、3D FFT、Gauss和Barnes-Hut四个程序,实验揭示了单页与多页争用如何显著增加响应时间并导致协议负载不平衡。结果表明,HLRC在负载均衡方面优于Tmk,而Tmk可通过带宽优化提升性能。针对不同争用类型,采用重构访问模式、广播关键数据和条带化等优化策略,显著提升了加速比并降低了响应时间与协议负载。文章最后提原创 2025-10-07 13:18:50 · 21 阅读 · 0 评论 -
19、检测 Java 中的只读方法及共享内存系统争用分析
本文介绍了一种通过线程逃逸分析和读写分析来检测 Java 程序中只读方法的方法,并结合共享内存系统中的争用分析,探讨了多线程环境下程序性能优化的可能性。研究表明,约31%的 JDK 核心库方法为只读,可利用此特性实现更高效的并发控制。同时,在分布式共享内存系统中,处理访问争用可显著提升性能。文章还对比了相关工作,并提出了未来研究方向,如同步块分析和优化收益评估。原创 2025-10-06 14:54:02 · 17 阅读 · 0 评论 -
18、显式并行程序中互斥同步优化与Java只读方法检测
本文探讨了显式并行程序中互斥同步的优化技术,如锁无关代码移动(LICM)和互斥体主体本地化(MBL),并通过Water和Ocean应用案例展示了其在减少同步开销和锁竞争方面的效果。同时,介绍了Java中只读方法的检测方法,结合形状分析、线程逃逸分析和读写分析,识别可并发执行的只读方法,提升程序并发性能。文章还分析了这些技术在提高性能、减轻程序员负担和促进并行编程发展方面的意义,并指出了实际应用中的注意事项。原创 2025-10-05 12:41:57 · 23 阅读 · 0 评论 -
17、显式并行程序中互斥同步的优化
本文介绍了显式并行程序中互斥同步的两种关键优化技术:锁无关代码移动(LICM)和互斥体本地化(MBL)。通过算法分析与实验验证,展示了如何减少锁竞争、提升程序并发性能。结合实际案例说明了LICM与MBL的应用步骤与效果,并对两种技术进行了对比总结。最后展望了未来在自适应优化和多技术融合方向的发展潜力。原创 2025-10-04 11:30:29 · 22 阅读 · 0 评论 -
16、OpenMP任务并行程序的自适应并行性与互斥同步优化
本文探讨了OpenMP任务并行程序的自适应并行执行机制,分析了进程加入与离开事件在独立和常规应用程序中的性能差异,指出独立应用因数据分布独立于进程标识而具有更低的适应成本。同时,介绍了基于CSSAME形式的显式并行程序互斥同步优化技术,包括锁无关代码移动(LICM)和互斥体主体本地化(MBL),通过减少关键区代码量和共享内存访问提升程序性能。这些技术在SUIF框架上实现,并应用于SPLASH程序,展示了其在提高并行效率和降低同步开销方面的有效性,为并行计算优化提供了实用方案。原创 2025-10-03 15:12:11 · 27 阅读 · 0 评论 -
15、OpenMP任务并行程序的自适应并行性
本文探讨了OpenMP任务并行程序中实现自适应并行性的机制与性能表现,基于TreadMarks系统的扩展支持动态的进程加入与离开。通过修改OpenMP运行时系统,在任务队列应用(如Quicksort和TSP)中实现了低开销的自适应能力。文章详细描述了加入和离开事件的处理流程,包括三次屏障同步、垃圾回收与页面状态转移,并分析了不同应用场景下的适应成本。实验结果表明,独立应用程序适应成本低,尤其在高带宽网络和较多进程参与时性能更优。最后提出针对应用类型、网络环境和进程规模的优化建议,为高效灵活的并行计算提供了实原创 2025-10-02 13:50:38 · 19 阅读 · 0 评论 -
14、OpenMP应用性能评估与自适应并行性探讨
本文探讨了OpenMP应用的性能评估及其在任务并行程序中实现自适应并行性的方法。通过对FFT、矩阵乘法等应用程序的实验分析,比较了Omni与Omni/ST在不同并行特性下的性能表现,揭示了Omni/ST在处理深度嵌套和不规则任务时的优势。同时,提出了一种基于TreadMarks DSM系统的自适应机制,支持在多用户工作站网络中动态调整计算资源,实现了低开销、透明化的并行适应能力。系统利用OpenMP标准模型,结合SUIF编译器自动转换代码,并通过插入Tmk leave原语实现适应点控制,具备良好的实用性和扩原创 2025-10-01 14:16:36 · 22 阅读 · 0 评论 -
13、嵌套并行OpenMP应用程序的性能评估
本文探讨了嵌套并行在OpenMP中的实现与性能评估,提出了一种基于细粒度线程库StackThreads/MP的高效实现方法Omni/ST。通过对比传统实现方案,展示了Omni/ST在支持嵌套并行方面的优势:对于最外层并行性充足的应用,性能开销极小;对于并行性不足的应用(如递归、分治算法),能显著提升可扩展性和加速比。实验结果表明,Omni/ST有效解决了现有OpenMP系统对嵌套并行支持不足的问题,增强了并行库的性能透明性与代码重用能力,为未来高性能并行计算提供了可行路径。原创 2025-09-30 15:22:12 · 30 阅读 · 0 评论 -
12、UPMLIB:优化OpenMP程序内存性能的运行时系统
UPMLIB是一个用于优化OpenMP程序内存性能的运行时系统,通过集成编译器、操作系统和页面迁移引擎,实现高效的页面放置与迁移。博文详细介绍了其在NAS BT基准测试中的应用、基于硬件参考计数器和调度信息的迁移决策机制、两种执行模式(默认机制与主线程执行机制),以及在不同页面放置策略和多程序负载下的实验表现。结果表明,UPMLIB显著提升了程序对操作系统页面策略的免疫力,在BT基准测试中性能提升高达28%,并在多任务环境下接近理论最优性能。未来研究方向包括适应细粒度访问模式、定制调度策略协同及统一页面与线原创 2025-09-29 10:06:11 · 20 阅读 · 0 评论 -
11、UPMLIB:优化OpenMP程序内存性能的运行时系统
UPMLIB是一种优化OpenMP程序内存性能的运行时系统,通过集成编译器、操作系统和运行时系统的反馈信息,实现动态页面迁移以提升数据局部性。它在可扩展共享内存多处理器上有效应对NUMA架构带来的远程内存访问延迟问题,利用热点内存区域识别、竞争性与预测性页面迁移算法以及线程迁移检测机制,在专用和多程序环境下显著提升程序性能,并对操作系统的页面放置策略具有免疫力。原创 2025-09-28 16:32:55 · 26 阅读 · 0 评论 -
10、不规则代码局部性转换的比较
本文研究了不规则科学应用中的局部性转换技术,对比了多种数据重排序算法(如gpart、rcb、metis、rcm和cpack)在不同应用(Irreg、Nbf、Moldyn)和数据集上的缓存缺失率与执行性能影响。实验结果表明,分区类算法在缓存局部性和性能提升方面优于简单遍历方法,其中gpart在保持较低开销的同时获得了接近最佳的优化效果,尤其适用于迭代次数未知或需频繁重新优化的应用场景。研究还强调了局部性优化对并行计算的重要价值。原创 2025-09-27 10:42:27 · 23 阅读 · 0 评论 -
9、高效寄存器分配框架与不规则代码局部性转换技术
本文介绍了一种高效寄存器分配框架与多种不规则代码局部性转换技术,旨在提升程序性能。寄存器分配框架通过选择性降级和全局溢出成本分析,在高寄存器压力下显著优化代码质量,并在MIPSPRO编译器中验证了其有效性。针对不规则内存访问模式,文章综述了字典排序、cpack、rcm、rcb和metis等技术,并重点提出低开销的gpart图分区算法,该算法基于层次聚类,在保持接近metis性能的同时大幅降低开销,适用于运行时未知的程序优化。实验表明,这些技术能有效提高缓存利用率和执行效率,具有广泛的应用前景。原创 2025-09-26 16:45:08 · 30 阅读 · 0 评论 -
8、高效寄存器分配框架:提升代码性能的关键策略
本文提出了一种基于选择性降级的全局寄存器分配框架,旨在解决传统寄存器分配算法中因高寄存器压力导致的溢出效率低下问题。通过识别高寄存器压力区域、确定降级候选变量、合并降级区域并做出最优降级决策,该框架在分配前主动降低寄存器压力,显著减少了溢出代码数量,并将其置于低频执行路径,从而提升程序运行效率。文章详细阐述了框架的核心步骤、优势创新点、实际应用案例及与传统方法的对比,并探讨了其实现要点与未来研究方向,为寄存器分配领域的优化提供了高效且可扩展的解决方案。原创 2025-09-25 16:48:55 · 19 阅读 · 0 评论 -
7、静态分析与寄存器分配优化技术
本文介绍了静态分析与寄存器分配优化技术,涵盖控制等价性分析、保护感知的数据依赖分析、数据流分析以及高效的寄存器分配框架。通过这些技术,可有效减少代码冗余、提升并行性、优化变量生命周期管理,并改进寄存器分配策略,从而提高程序执行效率和编译器优化能力。文章还提供了具体的应用步骤与操作流程,为软件开发中的性能优化提供了系统化的解决方案。原创 2025-09-24 16:21:43 · 23 阅读 · 0 评论 -
6、数据密集型计算的高级编程方法及带保护代码的静态分析
本文探讨了数据密集型计算的高级编程方法与带保护代码的静态分析技术。在数据密集型计算方面,研究通过实验评估了编译器生成代码与手工编码的性能差异,并提出了从XQL查询到数据并行Java的转换方法。在静态分析方面,针对带保护执行带来的挑战,提出了静态语义推理机制及多种带保护感知的分析技术,包括控制流、数据依赖和数据流分析,有效提升了程序分析的准确性与优化潜力。未来方向包括编译器优化、应用扩展和技术融合。原创 2025-09-23 14:23:05 · 22 阅读 · 0 评论 -
5、数据密集型计算的高级编程方法
本文探讨了数据密集型计算的高级编程方法,提出基于Java的面向对象和基于XQL的声明式两种编程模型。通过扩展Java支持域、foreach循环和归约接口,提升多维数据处理的抽象层级;同时扩展XML/XQL以支持多维集合表达与计算操作,并实现向Java的转换。设计了一个基于静态过程间切片技术的原型编译器,可高效提取运行时所需函数,利用ADR运行时系统优化执行性能。实验结果表明,该编译器在虚拟显微镜和环境模拟等应用中优于手工编码版本,展现出良好的并行效率与应用前景。原创 2025-09-22 10:11:58 · 22 阅读 · 0 评论 -
4、实现 Java 中强大且可扩展的集群 I/O
本文深入探讨了基于Java的高性能集群I/O系统Tigris,重点介绍了其核心组件如水库调度算法(随机选择、彩票算法、确定性水库)、Jaguar技术在避免本地方法开销和提升I/O性能方面的优势,以及TigrisMgr通过Java RMI实现的模块化控制机制。文章分析了Tigris在不同节点规模和性能扰动下的扩展性与稳定性,并以TigrisSort为例展示了其在并行排序中的高效表现。同时对比了与River及其他相关项目的技术差异,指出了Tigris在动态资源适应、类型安全和高性能通信上的创新。最后展望了Jav原创 2025-09-21 15:09:55 · 19 阅读 · 0 评论 -
3、实现高性能集群 I/O:编译器分析与 Java 技术的应用
本文探讨了提升大规模科学计算和集群计算中I/O性能的两种关键技术:基于编译器分析的集体I/O方案和Java实现的Tigris系统。前者通过分析数据访问模式并优化存储策略来减少I/O延迟,后者利用分布式队列和数据流模型实现资源自动负载均衡与高效通信。Tigris系统支持多种流实现方式,具备良好的可扩展性和开发便捷性,并通过Tigris-Sort等应用验证了其高性能与实用性。这些技术为解决I/O瓶颈问题提供了有效途径,具有重要的研究与应用前景。原创 2025-09-20 09:20:56 · 17 阅读 · 0 评论 -
2、基于编译器分析的集体 I/O 方案
本文提出一种基于编译器分析的集体I/O方案,通过分析循环嵌套和并行化信息进行访问模式检测,结合生产者-消费者关系进行存储模式选择,并据此自动插入最优I/O策略(独立或集体I/O)。实验结果表明,该方法在多种配置下显著提升了I/O性能和整体执行效率,尤其在高I/O活动和多处理器场景中优势明显。方案有效验证了访问与存储模式检测的关键作用,为科学计算中的高性能I/O提供了自动化、智能化的解决方案。原创 2025-09-19 16:47:57 · 14 阅读 · 0 评论 -
1、可扩展计算机的语言、编译器和运行时系统相关研究
本文介绍了第五届关于可扩展计算机的语言、编译器和运行时系统的研讨会(LCR 2000)的主要内容,重点探讨了基于编译器分析的集体I/O优化方案。该方案通过构建加权通信图(WCG)分析程序中数据集的产生与使用模式,自动判断并插入独立并行I/O或集体I/O调用,以提升I/O性能。实验结果表明,编译器导向版本接近用户手动优化的性能水平。此外,博文还涵盖了静态分析、OpenMP支持、同步机制、软件分布式共享内存、异构计算、负载均衡等多个相关研究方向,展示了可扩展计算机系统在语言、编译器和运行时层面的最新进展与未来发原创 2025-09-18 10:40:39 · 22 阅读 · 0 评论
分享