- 博客(763)
- 资源 (28)
- 收藏
- 关注
原创 全文 part1 - DGEMM Using Tensor Cores, and Its Accurate and Reproducible Versions
本文提出了一种在 NVIDIA 图形处理器(GPU)的张量核心(Tensor Cores,仅含 FP16、INT8 等 GEMM 计算功能)上实现FP64(双精度,DGEMM)和FP32(单精度,SGEMM)稠密矩阵乘法的方法。张量核心是一种特殊的处理单元,可对FP16输入执行内联图形矩阵乘法并以FP32精度运算,最终返回FP32精度的结果。该方法采用Ozaki方案 ——一种基于无误差变换的精确矩阵乘法算法。所提方法具有三大显著优势:其一,可基于cuBLAS库的例程,借助张量核心操作构建;其二,
2025-08-21 17:19:50
354
原创 MPICH 的包安装、编译安装及运行示例步骤整理
确保编译时链接了 MPICH 库(使用。的完整步骤,适用于 Linux/macOS 系统。是否包含 MPICH 的。
2025-08-19 15:59:51
337
原创 alma linux 安装 lsmod rmmod insmod 等的工具包: kmod
在 AlmaLinux 中,lsmodrmmod和insmod是用于管理内核模块的工具,它们属于 kmod包,这是 Linux 系统中核心的工具集。通常情况下,这些工具会默认安装在 AlmaLinux 中,因为它们属于基础系统组件。
2025-08-19 10:13:39
196
原创 Alma Linux 8 中解决掉 Failed to set locale, defaulting to C.UTF-8
在AlmaLinux 8中遇到"Failed to set locale, defaulting to C.UTF-8"错误提示,通常是因为系统尝试设置的区域设置(locale)不可用或未生成。
2025-08-18 12:47:02
282
原创 全文 - Error-free transformations of matrix multiplication by using fast routines of matrix mult
本文研究浮点算术下的精确矩阵乘法。近期,Rump等人(SIAM J Sci Comput 31(1):189–224, 2008)提出了一种精确求和算法,其核心是通过。
2025-08-17 21:00:26
1203
原创 Blackwell 和 Hopper 架构的 GPGPU 新功能全面综述
Blackwell 和 Hopper 架构通过 TMA、集群共享内存、增强的 FP8 支持等功能,显著提升了 GPU 的计算能力和效率。这些新特性特别适合现代 AI 和高性能计算工作负载,能够提供更高的性能和能效比。开发者可以通过合理利用这些新功能来优化现有应用程序或开发新的高性能计算解决方案。请注意,要运行这些示例代码,需要:支持 Hopper 或 Blackwell 架构的 GPUCUDA 12.0 或更高版本适当的编译标志 (如或。
2025-08-16 21:54:20
936
原创 2^{-53} 单位舍入误差、机器精度、舍入的最大相对误差界限
在 IEEE 754 双精度浮点数(binary64)中,有效位数(尾数)为 52 位(隐含最高位 1,共 53 位精度)。(unit roundoff),而非“相对舍入误差单位”。有时也被定义为可表示的大于 1 的最小浮点数与 1 的差(即。在数值算法中(如矩阵乘法、求解线性方程组),误差累积常以。浮点运算(加、减、乘、除等)的每一步都可能因精度限制引入舍入误差,而。下的严格定义,直接关联于 53 位有效精度。这里的“单位”指“1个单位”的舍入误差,即。),但更常见的定义与单位舍入误差。
2025-08-16 20:55:58
415
原创 全文 第1第2节 - ACCURATE FLOATING-POINT SUMMATION PART I: FAITHFUL ROUNDING
给定一个浮点数向量,其精确和为【注,数学精确和】,我们提出一种算法来计算的忠实舍入,即结果是的紧挨着的浮点邻居之一。若和本身是浮点数【注,计算机能表示的浮点数集合double 类型的】,我们证明该算法的结果就是。该算法能去适应求和的条件数,即对于条件数适中的求和,算法速度很快,且计算时间随条件数的对数增长而成比例地缓慢增加。所有结论在存在下溢的情况下仍然成立【注,正规数区间,相邻两个正规数之间的步长为,如果发生减法,结果可能为或者其几倍数,远小于最小正规数,发生下溢。
2025-08-13 14:14:08
939
3
原创 IEEE754 double 类型步长规律,从1.0的二进制表示、紧挨着1.0略大和略小的数开始归纳
在 IEEE 754 双精度(double)浮点数格式(64 位)中,给定的二进制表示 对应于 1.0。其结构如下: 符号位(1 位):(正数) 指数位(11 位):(十进制值 1023,实际指数为 1023 - 1023 = 0) 尾数位(52 位):(隐含前导 1,因此尾数值为 1.0)2.0 比1.0 略大的那个 double 数 在浮点数表示中,相邻的可表示数是通过增加尾数的最小有效位(LSB)得到的。尾数有 52 位,因此最小可表示的增量(
2025-08-11 19:36:22
1071
原创 Knuth‘s TwoSum Algorithm 原理详解
特性说明等号含义数学精确相等(非浮点近似)误差补偿捕获了的舍入误差适用条件IEEE 754 双精度 + 四舍五入模式 + 无溢出精度保证利用亚正规数表示微小量应用场景高精度求和算法的基础(如 Kahan 求和、补偿求和)该算法通过巧妙的误差分离,在浮点数系统中实现了数学精确性,是数值计算中处理精度的基石技术。yb%29。
2025-08-10 21:36:41
822
1
原创 IEEE 754 中的 正规浮点数(Normal Floating-Point Numbers) 和 亚正规浮点数(Subnormal Floating-Point Numbers)
IEEE 754 双精度的亚正规浮点数:通过指数域全 0 + 尾数域非 0标识;;核心意义:以逐渐损失精度为代价,避免下溢归零,增强数值稳定性;
2025-08-10 17:57:00
1014
原创 矩阵的条件数 向量的条件数
条件数() 衡量输入微小变化时,函数或系统输出的敏感程度。在数值分析和线性代数中,条件数常用于评估矩阵或问题的稳定性。条件数越大,问题越“病态”(输出对输入变化越敏感);条件数越小,问题越“良态”。对于非奇异矩阵,其条件数定义为:其中是矩阵的 p-范数。常用的是:): 基于奇异值,):向量的条件数通常指其范数的条件数。例如,对于向量,其 p-范数的条件数是:对于线性函数,向量的条件数与矩阵的条件数相关。
2025-08-09 17:44:21
737
原创 量子查询模型(Quantum Query Model)
经典查询:经典算法通过输入索引 ii 查询黑箱函数的值(例如:是数据库,查询返回第 3 项的值)。量子查询:量子算法通过量子叠加态同时查询多个,利用干涉(interference)提取全局信息。设是一个布尔函数,量子查询模型通过量子 oracle实现查询:其中:是输入寄存器(是辅助量子比特( 通常初始化为是模 2 加法(XOR)。查询复杂度:算法调用的次数称为量子查询复杂度(Quantum Query Complexity)。
2025-08-09 01:16:34
744
原创 酉矩阵(Unitary Matrix)和随机矩阵
酉矩阵(Unitary Matrix)是复数域上的方阵,满足以下条件:其中:是的共轭转置(即 Hermitian 转置,是单位矩阵。特殊情形(实数域):如果是实矩阵,则随机矩阵(也称为概率矩阵或马尔可夫矩阵)是指满足以下两个条件的非负实矩阵行和为1(行随机矩阵):元素非负:变体:列随机矩阵:列和为 1(即是行随机矩阵)。双随机矩阵:行和与列和均为 1。
2025-08-07 18:50:53
1232
1
原创 ubuntu 22.04 中安装python3.11 和 3.11 的 pip
22.04 中默认apt 源中只有 3.10 python.如果手上有一个 cp311 的 python wheel,这时候最好安装一个 python3.11,作为 python3 来使用。
2025-08-06 17:45:57
290
原创 AlmaLinux8 平替 manylinux_2_28-python 的 GPG密钥管理、安装 cuda sdk
https://hub.docker.com/r/almalinux/8-base/tags下载镜像: 创建一个容器: 1. Alma 安装软件 以安装 wget 为例:2. 安装软件时报 Error: GPG check FAILED 在 AlmaLinux 8 中使用 安装软件包时遇到 GPG 检查失败()的问题,通常是由于软件源的 GPG 密钥未正确导入或已过期。 在 AlmaLinux(及其他基于 RPM 的 Linux 发行版)中,GPG(GNU
2025-08-05 16:01:05
314
1
原创 量子物理学的前沿意义虚无、形式混乱
主流学术界认为,物理学前沿的“混乱”反映了量子物理正在突破经典框架的边界。这种“虚无”并非无意义,而是新物理诞生前的阵痛——类似20世纪初量子力学革命前的“紫外灾难”。关键在于找到连接数学抽象与物理实在的新桥梁。
2025-08-03 18:55:58
1326
原创 Munge 安全认证和授权服务的工作原理,以及与 Slurm 的配合
Munge 是一个专门为高性能计算(HPC)环境设计的轻量级认证服务,它在 Slurm 等作业调度系统中扮演着关键的安全角色。
2025-08-02 21:29:17
1023
原创 量子测量的物理场景与理论
特性投影测量一般测量(POVM)测量算符正交投影算符任意正算符正交性必须正交可非正交测量后状态严格坍缩到可能非唯一坍缩实验场景理想探测器、Stern-Gerlach非理想探测器、量子态层析数学工具厄密算符正算符一般测量(POVM)适用于所有量子测量,包括非理想情况(如探测器效率损失)。而投影测量是一种理想化的测量,要求测量算符是正交投影算符。而且,进一步,态矢量和密度矩阵均可用于计算测量概率:纯态混合态投影测量是量子计算中最常用的测量方式。
2025-07-31 15:28:59
1041
原创 矩阵指数函数 e^A
方面,对角化法适用于可对角化矩阵,而数值方法(如级数截断)处理一般情况。通过泰勒级数,矩阵指数将抽象的线性算子与具体的物理操作(如量子门)联系起来,成为量子理论与计算的核心数学工具。为底、指数部分包含矩阵的泰勒级数展开,是描述矩阵指数函数。的泰勒级数是理解量子演化、线性系统和控制理论的基础。的展开直接对应量子门的实现(如旋转门、哈密顿模拟)。代表不同阶的量子相互作用,级数收敛保证幺正性。对无法对角化的矩阵,截断泰勒级数前。:泰勒级数收敛可能较慢,需大量项才能精确。是一个方阵)的核心工具。
2025-07-30 17:58:14
906
原创 量子图灵机 Quantum Turing Machine, QTM
定义量子图灵机由以下几个核心组件构成,量子态空间(Hilbert Space)经典图灵机的配置(状态、磁带内容、读写头位置)被推广为量子态,允许叠加形式:其中为复数概率幅,满足。有限状态集包含初始状态和接受/拒绝状态(测量时坍缩到这些状态)。字母表磁带符号(含空白符号),支持量子叠加的符号写入。量子转移函数对每个,输出一组可能的及其概率幅,需满足幺正性(即整体演化算符是幺正的:。在量子图灵机(QTM)的转移函数定义中,符号的数学含义和物理意义接下来分开说明。
2025-07-30 16:37:23
1029
原创 数学家、图灵机、计算理论、计算机、程序设计语言和编译器
已解决:问题3、5、10、15、17、18(部分)、21、22等。部分解决:问题1、2、7、8、9、11、16、19、20等。未解决:黎曼猜想(问题8之一)、哥德巴赫猜想(问题8之二)、希尔伯特第16问题的完整解等。希尔伯特的23个问题塑造了现代数学的格局,推动了数理逻辑、计算理论、代数几何、拓扑学等领域的革命性发展。2. 希尔伯特23问题与图灵机的关系乔姆斯基的形式语言理论与自动机分类工作,奠定了编译原理的基础(词法分析→语法分析→代码生成)。连接了图灵机、自动机与编程语言,揭示计算能力的层次结构。
2025-07-29 12:47:28
1149
原创 概率有限自动机定义与示例
定义概率有限自动机(PFA)是有限状态自动机(FA)的扩展,它在状态转移中引入概率,用于建模随机过程或不确定性系统。形式上,一个 PFA 是一个五元组:其中::有限状态集合:有限输入字母表:概率转移函数,满足:初始状态:接受状态集合:终止概率函数(某些定义中可省略)关键点每一步转移是概率性的,而非确定性;同时,接受一个字符串的概率 = 所有接受路径概率之和(归一性)。
2025-07-28 18:09:36
934
原创 简明量子态密度矩阵理论知识点总结
问题类型纯态描述缺陷密度矩阵解决方案经典-量子混合不确定性完全失效子系统描述无法定义约化密度矩阵系综等价性无法区分物理等价系综密度矩阵是唯一不变量开放系统演化仅适用幺正演化Lindblad方程/ Kraus表示量子资源量化无法定义熵、相干性等基于的泛函度量量子测量理论局限于投影测量广义测量算符作用于量子统计力学无法描述热平衡态正则密度矩阵根本结论:密度矩阵是量子力学最完备的状态描述方式,它做到了如下效果,统一了量子与经典概率解决了子系统描述问题。
2025-07-28 15:58:58
1065
2
原创 量子力学的基本假设
量子力学的基本假设(公设)是理论体系的基石,不同文献表述方式略有差异,但核心内容一致。以下是从主流教科书中普遍接受的四个核心假设及其物理内涵。
2025-07-27 18:52:13
888
原创 Schmidt 分解 ⚙️ 与 SVD 之间的本质联系
Schmidt 分解是 SVD 在张量空间(量子态)上的推广:SVD 适用于矩阵。Schmidt 分解适用于量子态(可以看作高阶张量)。两者都是基于正交展开:SVD:矩阵被分解为正交基和的线性组合。Schmidt 分解:量子态被分解为正交基和的张量积。核心数学工具相同:都依赖于特征分解/谱分解。都用于提取主要成分(奇异值/Schmidt 系数)。
2025-07-25 17:16:34
1226
原创 矩阵的极分解
矩阵的极分解(Polar Decomposition)是将一个矩阵分解为一个酉矩阵(或正交矩阵)和一个半正定矩阵的乘积。极分解类似于复数的极坐标表示(),其中半正定矩阵对应“模长”,酉矩阵对应“相位”。
2025-07-25 14:26:15
722
原创 矩阵谱分解的证明及计算示例
矩阵的谱分解(也称为特征分解)是将一个矩阵分解为一系列由其特征向量和特征值构成的矩阵乘积的过程。对于条件更强的正规矩阵(如 Hermitian 矩阵、实对称矩阵),谱分解总是可行的,且特征向量可以选为正交的。<2.> 矩阵是正规矩阵(Normal Matrix),对于复矩阵,如果矩阵。个线性无关的特征向量)或为条件更强的正规矩阵,对应的分解方式有点差异。以下做一个简单的证明,为什么可对角化的矩阵可以做谱分解。是正规矩阵(如 Hermitian 矩阵),则。实对称矩阵是正规矩阵的特例。
2025-07-25 12:45:54
930
原创 奇异值分解(Singular Value Decomposition, SVD)
使用数值软件:LAPACK,openblas,cusolver),而非手动计算(除非矩阵很小)。它不仅在理论分析中非常有用,还在机器学习、信号处理、统计学、图像压缩等领域有广泛的应用。奇异值分解(SVD) 是线性代数中一个极其重要的矩阵分解方法,适用于任意。SVD 可用于矩阵近似、降维、求伪逆、PCA、图像压缩等。(1)矩阵求逆与伪逆(Moore-Penrose 伪逆)是一个对角矩阵,其前 r 个对角元素是。的列向量(奇异向量)不唯一(可以乘以。是左奇异向量矩阵(列向量是。是右奇异向量矩阵(列向量是。
2025-07-24 17:42:24
458
原创 Open64 WHIRL
Open64 是一个开源的、高性能的编译器基础设施,最初由 SGI(Silicon Graphics) 开发,后来由 HP、Intel、AMD 等公司共同维护。它支持多种架构(如x86、IA-64、MIPS等),并广泛应用于高性能计算(HPC)、嵌入式系统和科研领域。Open64 的主要特点支持 C、C++、Fortran 等语言。提供强大的 跨过程优化(Interprocedural Optimization, IPO) 和 循环优化。采用 WHIRL IR 作为统一的中间表示,便于多阶段优化。
2025-07-20 21:44:41
853
原创 精通 triton 使用 MLIR 的源码逻辑 - 第002节:再掌握一些 triton 语法 — 通过 02 softmax
为,Softmax 函数的。
2025-07-18 12:31:58
921
1
原创 精通 triton 使用 MLIR 的源码逻辑 - 第001节:triton 的应用简介
OpenAI Triton 是一个开源的编程语言和编译器,旨在简化 GPU 高性能计算(HPC) 的开发,特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码,又不必过度关注底层硬件细节。这样,通过简化高性能计算,可以加速新算法的实现和实验。传统 GPU 编程(如 CUDA)需要深入理解硬件架构和复杂的优化技术,而 Triton 旨在提供更高层次的抽象,降低开发门槛,但是设计 triton 语言及其编译器本身,门槛却非常高。
2025-07-17 12:18:45
826
NS基础与安装---NS2 是一款开放源代码的网络仿真软件
2008-11-05
bootia32.efi
2018-04-07
tbb2017_20170226oss_win.zip
2017-03-22
chisel官方教程20201010版本.7z
2020-10-11
带几何解释的线性代数讲义
2020-12-02
英中双语版_flex与bison_pdf.7z
2020-11-03
Digital Design With Chisel_20201010edition.7z
2020-10-11
llvm_cookb_LLVM_IR骨架语法领进门资料.7z
2021-04-25
python27_d.lib python27_d.dll python27_d.pdb
2017-09-13
FIRRTL_spec_2020Oct_EditionPDF.7z
2020-10-19
Downloads.zip
2020-07-21
ACPI spec 4.0 and 3.0
2024-08-24
bash-shell matrix-computations llvm-cook loader-linker sparse-ma
2024-01-23
Linux kernel 高并发开发
2024-01-14
mpi学习教程等-都志辉-配合下文https环境搭建
2023-12-29
代数多重网格理论资料 AMG AMGX原理
2023-09-28
opencl 学习资源pdf and source code
2023-05-22
常用数值算法集C语言与 Numerical Methods Using Matlab 4th Ed Mathews
2023-04-12
比利时的 鲁汶大学 计算机系教授 Philip Dutré 的全局光照教程,和他与合作者在 2002年 SIGGRAPH ppt
2022-09-17
LLVM IR MLIR: Scaling Compiler Infrastructure for Domain Specifi
2022-05-06
SSA_LLVMCookBook_DirectMethodSparseLinearSystem
2022-05-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人