寂静夜空35
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
100、缓存无关DGEMM是否可行及并行不完全分解的分区与分块问题
本文探讨了缓存无关DGEMM的可行性以及并行不完全分解中的分区与分块问题。分析了内存带宽与块大小的关系,比较了朴素递归和迭代DGEMM例程的性能瓶颈,指出递归调用开销大而迭代缓存缺失严重。研究了递归与迭代微内核的设计与优化,发现迭代微内核结合合理分块可接近峰值性能,而递归方法受限于预取困难和编译器支持不足。同时讨论了新型浮点单元和数据结构(如NDS)对流式传输和性能的影响,并提出在并行不完全分解中应优化分区与分块策略以提升效率。最后总结了实际应用场景下的方法选择建议,并展望未来研究方向,包括编译器优化、递归原创 2025-10-26 07:35:23 · 29 阅读 · 0 评论 -
99、网页排名并行计算与矩阵乘法的优化策略
本文探讨了网页排名(PageRank)并行计算的优化策略与矩阵乘法(DGEMM)的高效实现方法。针对PageRank,提出了基于页面和基于站点的行划分技术,实验表明基于站点的划分在预处理时间、通信量和加速比方面均显著优于传统方法。对于DGEMM,比较了缓存无关(递归)与缓存感知(迭代)实现,分析指出迭代微内核结合预取策略能更有效利用硬件资源,提升性能。研究综合展示了在大数据环境下优化计算效率的关键技术路径。原创 2025-10-25 16:43:10 · 32 阅读 · 0 评论 -
98、利用哈希高效组装稀疏矩阵及基于网站的并行PageRank计算分区技术
本文探讨了两种高效计算技术:一是利用哈希结构高效组装稀疏矩阵,适用于无结构或动态变化的稀疏矩阵场景,相比传统压缩存储格式在复杂访问模式下表现更优;二是基于网站的并行PageRank计算分区技术,通过网站级压缩和扩展超图模型,显著减少预处理开销与通信量,提升并行效率。文章通过实验对比展示了两种技术在各自应用场景中的优势,并提供了根据实际需求选择合适技术的指导建议。原创 2025-10-24 16:05:15 · 26 阅读 · 0 评论 -
97、数值树代码并行化与稀疏矩阵哈希组装的高效方法
本文探讨了数值树代码并行化与稀疏矩阵哈希组装的高效方法。在数值树并行化方面,分析了自动并行化的局限性,提出通过代码注释引导消息传递优化性能,并介绍了基于数据依赖分析和代码生成系统的实现路径,结合不同平台的实验结果比较了MPI、pThreads及混合模型的性能表现。在稀疏矩阵组装方面,针对传统格式在随机更新场景下的低效问题,提出基于哈希表的存储方法,显著提升组装速度,并可转换为CRS等标准格式用于后续计算。文章总结了两类技术的应用建议,展望了未来在智能并行化、哈希优化和分布式处理等方面的发展趋势,为科学计算中原创 2025-10-23 11:25:55 · 20 阅读 · 0 评论 -
96、外延表面生长与数值树代码并行化的数据依赖分析
本文探讨了外延表面生长模拟与数值树代码并行化中的关键问题,重点分析了并行化策略、数据依赖关系及其实现方法。在外延生长模拟中,采用复制式域分解和队列结构优化任务分配,并通过SPRNG库验证随机数生成的可行性;在数值树代码并行化中,提出基于路径矩阵的数据依赖分析方法,结合领域特定语言实现自动并行化,并以二维快速多极子方法为例详细解析各阶段的数据依赖与通信模式。研究结果表明,合理的并行策略和依赖分析能显著提升计算效率与模拟准确性,为科学计算中的复杂问题提供了有效解决方案。原创 2025-10-22 10:15:03 · 17 阅读 · 0 评论 -
95、并行科学计算中的 I/O 性能与外延表面生长模拟研究
本文研究了PVFS2、NFS和Lustre三种文件系统在并行科学计算中的I/O性能,重点分析了不同访问模式(如Level 0-3)和优化策略对性能的影响。结果表明,PVFS2在使用文件数据类型的集体I/O(Level 3)时性能最佳,适合大规模非连续访问;NFS适用于小规模客户端的小文件请求;Lustre在独立读取方面表现优异。同时,文章介绍了基于蒙特卡罗方法的外延表面生长并行模拟,探讨了域分解策略与通信开销的平衡,并提出了算法与缓存优化建议。最后,结合应用场景给出了文件系统选择指南,并展望了未来在可扩展性原创 2025-10-21 11:06:36 · 30 阅读 · 0 评论 -
94、分布式并行计算中的矩阵计算与I/O性能研究
本文探讨了分布式并行计算中的矩阵计算与I/O性能问题。介绍了Trilinos、SILC和Amesos等矩阵计算库的特点与差异,重点分析了SILC系统在语言无关性、通用接口和数据并行传输方面的优势,并通过实验验证其在使用ScaLAPACK和Lis时的加速比。同时,文章深入研究了并行科学计算中I/O性能瓶颈,以COOLFluiD框架为例,阐述了并行随机访问、非并行随机访问和非并行顺序访问三种I/O策略及其适用场景。通过在VIC集群上的测试,评估了不同文件系统(PVFS2、Lustre、NFS)、API(HDF5原创 2025-10-20 16:11:27 · 19 阅读 · 0 评论 -
93、分布式SILC:基于MPI的并行矩阵计算库的易用接口
本文介绍了一种名为简单库集合接口(SILC)的易用应用框架,旨在解决传统矩阵计算库在源代码层面依赖性强、移植性差的问题。SILC通过客户端-服务器架构,将用户程序与底层并行计算库解耦,支持多种基于MPI的矩阵计算库和计算环境。用户可通过简洁的文本表达式发起计算请求,无需修改代码即可切换不同库或计算平台。文章详细描述了SILC的三种系统配置,并在稠密线性系统和偏微分方程求解问题上进行了实验验证。结果表明,在处理大规模问题时,尽管存在数据通信开销,SILC仍能利用更强大的远程计算资源实现显著加速比,同时为顺序和原创 2025-10-19 15:06:39 · 20 阅读 · 0 评论 -
92、扩展HPC - ICTM地理分类模型以用于网格计算
本文探讨了HPC - ICTM模型在网格计算环境下的扩展与应用,介绍了其在集群和OurGrid平台上的并行实现方式。通过采用消息传递接口(MPI)和主从模式,在不同问题分解策略下对多层地理区域进行高效分类。研究重点包括按层、功能、域和单元的分解方法,并在OurGrid环境中将ICTM建模为Bag-of-Tasks应用程序以利用分布式资源。实验结果表明,按层分解在处理多属性大型地理区域时具有良好的加速效果,尤其适用于数据本地化存储的场景。同时,文章分析了集中式与分布式地理数据对执行效率的影响,指出分布式架构能原创 2025-10-18 15:58:52 · 18 阅读 · 0 评论 -
91、OpusIB:基于InfiniBand互连的Opteron集群系统
OpusIB是一个基于Opteron处理器和InfiniBand高速互连的高性能计算集群系统,作为CampusGrid和D-Grid项目的关键组成部分,支持多种科学应用。该集群采用先进的水冷技术和64位Linux操作系统,配备TORQUE/MAUI与LoadLeveler双调度系统,通过Quattor实现自动化管理,并集成Kerberos认证与Active Directory。系统使用StorNext文件系统和Globus Toolkit 4中间件,具备出色的数据吞吐量和并行计算性能。博文详细介绍了其软硬件原创 2025-10-17 12:17:44 · 19 阅读 · 0 评论 -
90、基于代理的网格资源共享、中介与分配社会架构
本文提出了一种基于代理的网格资源共享、中介与分配的社会架构,借鉴微观经济学和社会交互模型,设计了能够支持合作与竞争并存的高级资源中介系统。该架构由生产网格代理和社会网格代理构成,通过禀赋、需求与供给机制实现资源的动态分配,并支持个体交互、交换型社会和生产型社会等多种组织形态。文章还探讨了构建真实网格资源市场的潜力,并提出了自上而下与自下而上相结合的研究路径,旨在开发具备经济与共情功能的实验原型,为未来网格计算中的资源管理提供创新解决方案。原创 2025-10-16 13:56:35 · 20 阅读 · 0 评论 -
89、Clusterix 网格下的动态集群:连接、架构与优化
本文介绍了Clusterix网格下的动态集群架构与连接机制,以Cumulus网格为例,详细阐述了静态与动态集群的集成方式、网络架构设计及性能优化策略。通过IPSec VPN和IP-over-IP隧道实现安全高效的集群连接,结合SSH自动化连接与分离流程,并提出基于X.509证书的认证方案以增强安全性。文章还分析了当前架构中的潜在瓶颈及未来改进方向,如支持本地网格接入、硬件防火墙升级和基于SSL/TLS的安全服务替代SSH。整体方案具备高扩展性、易配置性和广泛应用前景,已在多个科研项目中成功应用。原创 2025-10-15 10:07:18 · 17 阅读 · 0 评论 -
88、UGSF与动态集群:新一代网格的技术突破
本文介绍了UGSF(Universal Grid Streaming Framework)与动态集群技术在新一代网格计算中的突破性应用。UGSF通过高级流操作、灵活的数据流组合和强化的安全机制,显著提升了数据传输效率与安全性,并支持多种流类型如TCP、UDP、文件与视频流。性能测试显示其吞吐量远超传统Web服务。同时,动态集群通过自动化程序灵活接入Clusterix国家网格,扩展了计算资源的可用性与灵活性。两者结合为科学计算、实时数据处理等领域提供了高效、可扩展的解决方案,未来将在安全、性能和集成方面持续演原创 2025-10-14 11:55:00 · 22 阅读 · 0 评论 -
87、增强数据资源与流式框架的技术革新
本文探讨了OGSA-DAI与UniGrids流式框架(UGSF)在数据资源集成与流式传输领域的技术革新。OGSA-DAI通过可扩展性、健壮性、新资源模型和ODTuple数据格式等改进,提升数据处理与集成能力;UGSF则结合Web服务控制与高效流式传输,解决传统Web服务在流式场景中的性能瓶颈。两者分别在数据集成与实时流式传输方面展现优势,适用于科学研究、工业控制和多媒体等高性能需求场景,未来有望深度融合并推动数据处理技术发展。原创 2025-10-13 10:32:11 · 17 阅读 · 0 评论 -
86、利用 OGSA - DAI 实现数据资源的网格赋能
本文介绍了OGSA-DAI在网格环境中实现数据资源访问与集成的应用,阐述了其架构、工作流程及五大部署场景,包括简单中介、持久中介、重定向器、协调器和网络组装。文章还探讨了未来在事务处理、角色映射器优化及跨平台移植方面的规划,展示了OGSA-DAI在科研与数据密集型领域中的广阔应用前景。原创 2025-10-12 12:58:41 · 23 阅读 · 0 评论 -
85、网格计算在遗传学和蛋白质组学中的应用
本文介绍了一种基于Perl脚本的网格计算解决方案,旨在简化生物学家在遗传学和蛋白质组学研究中使用网格资源的过程。该方案通过自动化代理设置、作业提交、并行执行与结果收集,实现了对大规模计算任务的高效处理。在全蛋白质组序列相似性分析和全基因组基因型模拟中的应用表明,该方法显著缩短了计算时间,提升了研究效率。文章还探讨了其优势、局限性及未来发展方向,展示了网格技术在生物信息学领域的广泛应用潜力。原创 2025-10-11 12:35:35 · 25 阅读 · 0 评论 -
84、拓扑操作的计算框架
本文提出了一种用于科学计算领域的拓扑操作计算框架,旨在解决不同离散化方案中拓扑元素间复杂关联的高效遍历与数据访问问题。通过引入原型概念、广义迭代器和属性映射机制,该框架实现了灵活的拓扑遍历、低内存开销和高代码复用性。框架支持顶点、边、面、单元等多维元素间的自动关联推导,适用于有限体积法、混合有限元等多种离散化方案,并能与STL等标准库无缝集成。文章还分析了其在PDE离散化、网格处理中的应用,探讨了性能优势及未来在并行计算和跨领域融合的发展潜力。原创 2025-10-10 12:17:03 · 23 阅读 · 0 评论 -
83、流体力学数值计算中的负载均衡与科学数据集自适应粗化压缩方法
本文介绍了一种用于流体力学数值计算中的负载均衡算法和科学数据集的自适应粗化压缩方法。负载均衡通过加权平均法实现处理器间列转移,保持域分解结构的同时提升计算效率,在高负载下性能提升可达45%。自适应粗化是一种上下文感知的多分辨率有损压缩技术,依据后处理操作符和误差阈值选择性粗化数据,在保证精度的前提下显著提高压缩比,适用于一维、二维科学数据集,并展现出在医学影像、GIS等领域的应用潜力。未来将探索更复杂的插值方法、三维扩展及自动化策略,二者结合有望进一步提升大规模科学计算的整体效能。原创 2025-10-09 16:21:22 · 21 阅读 · 0 评论 -
82、并行计算中的网格细化与负载均衡策略
本文探讨了并行计算中的关键问题:网格细化的并行化策略与负载均衡技术。通过分析不同规模网格在多处理器环境下的细化性能,揭示了通信开销对扩展性的影响。介绍了基于外推扩散(EDF)的负载均衡方法及其加速技术,提升了收敛速度。同时,针对大气模型中NS方程的数值求解,提出了结合局部修正SOR方法和区域分解的负载转移策略,优化了计算效率与通信成本之间的平衡。整体方案有效提高了大规模并行模拟的性能和可扩展性。原创 2025-10-08 14:10:11 · 22 阅读 · 0 评论 -
81、FDEM程序包网格细化算法的并行化
本文介绍了一种基于非结构化有限元网格的有限差分单元法(FDEM),结合了有限差分法的高精度与有限元法处理复杂几何域的优势。通过一维区域分解和消息传递接口(MPI)实现高效的并行计算,支持大规模偏微分方程(PDE)系统的数值求解。文章重点阐述了差分与误差公式的生成机制、离散化误差估计方法、误差方程构建以及自适应网格细化算法,特别是细化级联过程中的通信策略。通过实际测试验证了该方法在误差控制和并行效率方面的有效性,并提出了未来在参数优化、通信改进和应用扩展方面的研究方向。原创 2025-10-07 16:44:46 · 51 阅读 · 0 评论 -
80、适用于网格计算的新型区域分解方法
本文介绍了一种适用于网格计算环境的新型区域分解方法——概率区域分解(PDD)方法,该方法结合蒙特卡罗模拟与经典区域分解技术,有效解决了传统方法在高延迟、异构性和容错性方面的局限。通过数值实验对比PDD与传统DD方法在不同系统中的性能,结果表明PDD在可扩展性、容错性和适应异构计算方面具有显著优势,尤其适合基于偏微分方程求解的大规模科学计算应用。原创 2025-10-06 11:55:31 · 25 阅读 · 0 评论 -
79、3D非定常流动模拟与多物理场问题自适应有限元求解
本文介绍了3D非定常流动模拟与多物理场问题的自适应有限元求解方法。通过超音速和亚音速绕方柱流动测试验证了模拟程序的准确性,结果与实验数据高度吻合;在不同集群系统上的效率研究表明,随着问题规模增大,并行效率显著提升。针对多物理场问题,提出基于后验误差估计的自适应策略,利用对偶加权残差方法实现网格自适应细化,有效控制误差。该方法在航空航天、能源及环境科学等领域具有广泛应用前景,并展现出向多尺度模拟、多物理耦合与人工智能融合的发展趋势。原创 2025-10-05 09:04:21 · 30 阅读 · 0 评论 -
78、有限元方法与三维非定常流模拟的C++实现
本文介绍了基于C++的变分表述语言在有限元和谱元方法中的应用,以及用于三维粘性气体流动模拟的并行程序复合体的设计与实现。通过特定领域语言(DSEL)和表达式模板技术,提升了代码可读性与计算效率;采用显式动力学一致有限差分(KCFD)格式结合几何并行性原则,实现了高效、可扩展的三维非定常流场模拟。文章还分析了技术优势、应用场景,并展示了良好的并行效率,展望了未来在多物理场耦合、机器学习融合等方面的发展潜力。原创 2025-10-04 11:28:31 · 34 阅读 · 0 评论 -
77、有限元和谱元方法的统一C++实现概述
本文介绍了一个用于有限元和谱元方法的统一C++框架Life,旨在实现1D、2D和3D中偏微分方程求解的数学导向、高性能与可扩展性。框架支持多种数值类型和线性代数后端(如gmm、PETSc、Trilinos),采用Dubiner和Legendre等L2正交多项式作为素基,并通过Boost库构建灵活的多项式库与网格数据结构。FunctionSpace抽象支持多物理场建模,代码设计遵循数学抽象,便于教学、研究与工程应用。文章还分析了其实现细节、性能优化路径,并与其他框架进行了比较,展示了其在科学计算中的广阔前景。原创 2025-10-03 15:47:12 · 15 阅读 · 0 评论 -
76、高性能计算与有限元库的研究与应用
本文探讨了高性能计算与有限元方法中的两个重要工具:HPC-MW和SyFi。HPC-MW作为一个问题解决环境,显著提升了有限元应用的开发效率和并行计算性能,在中型模型上实现了约94%的并行效率,并减少了57%的代码开发步骤。SyFi是一个基于C++和Python的开源符号有限元库,支持复杂有限元的定义与变分形式的评估,并能自动生成高效C/C++代码,特别适用于Darcy和Stokes流等复杂问题。文章还分析了二者在不同场景下的性能对比、未来发展趋势及实际应用案例,建议根据需求选择或结合使用这两个工具,以提升科原创 2025-10-02 14:02:17 · 30 阅读 · 0 评论 -
75、并行软件框架下的混合海啸模拟器与HPC - MW问题求解环境
本文介绍了基于并行软件框架的混合海啸模拟器与HPC-MW问题求解环境。混合海啸模拟器通过面向对象设计和加法Schwarz算法,实现了对现有串行代码(如C++有限元和F77有限差分代码)的高效集成,支持多种空间离散化方法,提升了海啸模拟的灵活性与精度。HPC-MW是一个面向并行FEM应用开发的问题求解环境,具备通用性、易实现性和优化性,提供I/O、矩阵构建、求解器等通用子例程,并通过CRS格式和自动消息传递机制简化并行化开发。两者均显著提高了开发效率与计算性能,在大规模科学计算中具有广泛应用前景。原创 2025-10-01 10:57:47 · 24 阅读 · 0 评论 -
74、计算流体力学与海啸模拟的并行算法与模型应用
本文介绍了用于求解雷诺平均纳维-斯托克斯(RANS)方程的并行CFD代码和基于子域的混合并行海啸模拟器的软件框架。通过隐式格式、近似线性化与有限差分Jacobian矩阵计算,结合两步迭代策略和多种预条件器,并行CFD代码在RAE2822翼型和Stanitz弯头问题中实现了高效收敛。混合并行海啸模拟器采用子域分解与Schwarz迭代,支持不同区域使用不同数学模型和求解器,提升了模拟灵活性与计算效率。文章还分析了两种技术的优势与挑战,探讨了其在航空航天和海洋灾害预警中的应用,并展望了未来在算法优化、多物理场耦合原创 2025-09-30 09:18:36 · 49 阅读 · 0 评论 -
73、迭代求解器模板库与并行CFD代码解析
本文介绍了迭代求解器模板库(ISTL)与用于非结构化网格上Euler和Navier-Stokes问题模拟的并行CFD代码。ISTL通过抽象算子、递归预条件器和块递归内核,提供高效灵活的线性方程组求解方案,并支持无矩阵运算和并行计算。并行CFD代码采用波动分裂法进行空间离散化,结合RANS方程与Spalart-Allmaras湍流模型,适用于高雷诺数流动模拟。文章还展示了初步实验结果,分析了收敛性、精度和并行性能,并探讨了未来在模型改进、算法优化和应用拓展方面的方向。原创 2025-09-29 14:11:18 · 27 阅读 · 0 评论 -
72、流体流动模拟数据的交互式可视化与迭代求解器模板库
本文介绍了流体流动模拟数据的交互式可视化技术与迭代求解器模板库(ISTL)的应用与发展。在可视化方面,探讨了渲染优化、远程渲染与实时模拟控制,结合高性能计算与网络传输实现高效交互;在ISTL部分,重点分析了其针对有限元离散化线性系统的块结构支持、向量与矩阵接口设计以及块递归算法的优势。文章还展示了二者结合的应用流程,并展望了未来在性能提升、多物理场耦合及人工智能融合方向的发展趋势。原创 2025-09-28 14:44:42 · 22 阅读 · 0 评论 -
71、生物信息与科学可视化技术解析
本文深入解析了生物信息学中的结构锚定隐马尔可夫模型(saHMM)技术与科学可视化中的交互式流体流动模拟数据体可视化技术。saHMM技术通过算法选择、3D叠加和模型构建,实现对蛋白质序列的高效分类与结构预测,并通过FISH服务器提供用户友好的搜索功能;而交互式体可视化技术则利用HV-文件处理、数据复制与渲染优化,支持对高达两TB的流体模拟数据进行实时探索。文章对比了两种技术的特点、优势与挑战,并展望了其在数据库扩展、算法优化、多领域融合等方面的发展趋势,展示了它们在科研中的重要应用价值。原创 2025-09-27 14:07:49 · 24 阅读 · 0 评论 -
70、分子生物学中的数值模拟与FISH服务器算法解析
本文介绍了分子生物学中的数值模拟方法与FISH服务器的算法应用。重点解析了化学主方程的Fokker-Planck子空间近似及其在基因调控系统中的混合模拟方法,比较了SSA与混合方法在均值和方差上的模拟结果。同时,详细阐述了FISH服务器中用于构建午夜ASTRAL集的两种算法,并分析其性能差异。最终展示了FISH服务器在蛋白质功能预测、结构域识别及同源发现等方面的应用价值,展望了数值模拟与序列分析在生物信息学中的发展前景。原创 2025-09-26 10:35:41 · 22 阅读 · 0 评论 -
69、多维QTL搜索与化学主方程近似方法研究
本文探讨了多维数量性状位点(QTL)搜索的并行实现与化学主方程(CME)的近似求解方法。在多维QTL搜索方面,对比了静态与动态分区方案在SMP和SweGrid系统中的性能,指出静态分区在网格环境中更具效率,并提出了适用于不同分析场景的并行策略。在化学主方程求解方面,介绍了基于Fokker-Planck方程(FPE)的近似方法,通过状态空间划分、离散化求解及与随机模拟算法(SSA)的结合,有效降低计算复杂度。文章还总结了两种方法的应用场景、优化策略及未来发展趋势,包括与人工智能融合、跨学科合作和应用领域拓展,原创 2025-09-25 09:58:08 · 17 阅读 · 0 评论 -
68、利用并行计算和网格系统进行数量性状基因定位
本文探讨了利用并行计算和网格系统解决高维数量性状基因座(QTL)定位中的计算难题。通过结合静态与动态负载平衡的混合两级并行化策略,实现了在共享内存服务器和分布式网格环境(如SweGrid)中的高效QTL搜索。研究重点在于评估穷举网格搜索在多QTL模型中的可行性,并为更复杂的优化算法提供基准和基础。实验结果表明,该并行方案显著提升了计算效率,支持最多六维QTL的同时定位,展示了其在遗传学研究中的巨大潜力。原创 2025-09-24 16:32:54 · 27 阅读 · 0 评论 -
67、分子轨道计算的主从式特征求解器
本文提出了一种用于解决分子轨道计算中广义特征值问题的主从式特征求解器,结合基于矩的方法与瑞利-里兹过程以提高数值稳定性。该方法利用轮廓积分将原问题转化为小规模矩阵束求解,并通过并行计算线性方程组实现高效分布式求解。数值实验表明,该方法在解析问题和实际分子轨道计算中均具有高精度和良好的并行性能。通过GridRPC系统在大规模PC集群上的测试验证了其在广域网环境下的可行性与效率。未来工作包括引入并行预处理器、处理更大规模矩阵以及拓展至其他科学计算领域。原创 2025-09-23 14:33:46 · 25 阅读 · 0 评论 -
66、基于多线程BLAS的带状矩阵Cholesky分解
本文提出了一种基于多线程BLAS的带状矩阵Cholesky分解方法,针对LAPACK中因操作碎片化导致的并行性能下降问题,设计了两个新例程dpbtrf A和dpbtrf B。通过在矩阵底部填充零或使用额外复制操作,合并原有分解步骤,减少BLAS调用次数,提升并行效率。实验在Xeon和Itanium2平台上验证了新例程的优越性,并探讨了BLAS内核局限性、块大小影响及未来多核架构下的优化方向。原创 2025-09-22 12:59:05 · 30 阅读 · 0 评论 -
65、新型核外多波前求解器的设计
本文介绍了新型核外多波前求解器HSL MA77的设计与性能分析。该求解器采用多波前方法处理稀疏对称矩阵的分解,结合栈结构和块混合格式提升计算效率,并通过HSL OF01实现高效的虚拟内存管理,支持将矩阵数据、因子和栈存储在磁盘上以应对大规模问题。文章详细阐述了其数据结构、核心算法、各阶段流程及与MA57的性能对比,表明HSL MA77在内存受限情况下具有显著优势。尽管目前主要面向正定系统,未来将在不定问题、并行化和用户接口方面进一步优化,具备广阔的应用前景。原创 2025-09-21 11:51:26 · 18 阅读 · 0 评论 -
64、分布式内存机器上三角系统求解的新数据分布与多核求解器设计
本文提出了一种用于分布式内存机器上三角系统求解的新型数据分布方法和一种新的多核求解器HSL MA77设计。新数据分布通过优化三角矩阵在处理器网格上的布局,显著减少了传统块循环分布中的内存浪费(从约50%降至最低3%),并在多个处理器平台上实现了优于标准PBLAS例程(如PSTRSV和PSTRSM)的性能。同时,针对大型稀疏线性系统求解中的内存瓶颈问题,设计了基于磁盘存储的多核直接求解器HSL MA77,利用虚拟内存管理和高效的多核算法(如静态凝聚与装配树),有效降低了内存压力并提升了求解可靠性。实验结果表明原创 2025-09-20 12:43:57 · 25 阅读 · 0 评论 -
63、矩阵运算中的非规范数组布局与性能优化
本文探讨了矩阵运算中非规范数组布局对性能优化的影响,重点分析了方形块格式(SB)和超矩阵布局(HM)的优劣。研究表明,SB格式通过提升数据局部性和缓存命中率,在多种平台上显著优于递归式的HM布局。结合自底向上的设计方法、高效的内部内核(如SML)、平铺技术和循环顺序优化,可大幅提升矩阵乘法和Cholesky分解等操作的性能。文章还总结了影响性能的关键因素,并提出了面向未来的优化趋势与实践建议。原创 2025-09-19 10:50:22 · 19 阅读 · 0 评论 -
62、矩阵处理算法与格式的研究与性能分析
本文探讨了矩阵原位转置算法与矩形全填充(RFP)数据格式在稠密线性代数中的应用与性能表现。研究对比了多种原位转置算法,如ACM算法467、380等,分析其在不同场景下的效率与优劣,并重点介绍了RFP格式如何结合全存储与填充格式的优点,在保持最小存储空间的同时利用3级BLAS实现高性能计算。通过串行与SMP并行环境下的实验数据,验证了RFP格式在Cholesky分解、矩阵求逆和求解系统方程等方面的显著性能优势。文章还提供了针对不同应用场景的算法与数据格式选择建议,为矩阵运算的优化提供了实用指导。原创 2025-09-18 10:22:26 · 15 阅读 · 0 评论 -
61、矩形矩阵的原地转置算法研究
本文介绍了一种新的矩形矩阵原地转置算法MIPT,该算法通过引入BABE(Burn At Both Ends)技术,在最坏情况下实现O(N log N)的时间复杂度,并支持使用位向量优化存储。算法基于对置换P的循环结构进行跟踪,避免了传统方法中的重复计算,同时修复了ACM Alg. 467中的整数溢出问题。研究还对比了MIPT与ACM Alg. 467及非原地转置算法DGETMO的性能,结果显示在内存受限场景下MIPT具有显著优势,尤其适用于嵌入式系统、实时处理和大规模科学计算等对存储敏感的应用环境。原创 2025-09-17 16:44:22 · 27 阅读 · 0 评论
分享