blogSpaceX-优快云博客

原创 CPU进程绑定以及对MPI+OMP混合并行的影响

现代处理器均采用NUMA 架构，每个 socket 通过内存控制器连接本地内存（local memory），通过 socket 间的高速总线访问属于其他 socket 的远端内存（remote memory）。我们将直接连接的 CPU core 和内存和其他外设（如网卡、GPU）称为一个NUMAdomain（或 NUMA node），在同一个 domain 中（intra-domain）的访存性能（包括带宽和延迟）通常显著高于跨 NUMA（inter-domain）的性能，这种现象被称为NUMA 效应。

2025-06-22 21:41:14 977

原创 C++如何自己实现一个shared_ptr

C++中的shared_ptr智能指针是行为类似于指针的类对象，，从而实现了的思想。shared_ptr 内部是利用引用计数来实现内存的自动管理，每当复制一个 shared_ptr，引用计数会 + 1。当一个 shared_ptr 离开作用域时，引用计数会 - 1。当引用计数为 0 的时候，则 delete 内存。

2025-06-14 18:45:08 963 1

原创从内存角度透视现代C++关键特性

4个W来拷问内存机制。

2025-06-07 16:03:09 233

原创泛型编程技巧——使用std::enable_if实现按类型进行条件编译

std::enable_if是C++模板编程中的重要工具，利用SFINAE机制实现编译期条件判断。它可以三种方式使用：1)作为模板参数控制类/函数特化；2)作为返回类型；3)作为附加函数参数

2025-06-04 21:23:25 389

原创 CUDA编程——性能优化基本技巧

在经典的冯诺依曼架构下，ALU (Arithmetic Logic Unit，计算逻辑单元，可以简单理解为加法器、乘法器等) 要从内存中取操作数，进行对应的计算（如乘法），并写回内存。通过这种方式，可以将矩阵的子块加载到 Shared Memory 中，减少全局内存的访问次数，并提高内存访问的局部性。然而，内存带宽是有上限的，且每一个 Transaction 的大小都是 32 Byte，这注定了每一秒 GPU 核心可以发起的 Transaction 数量是有上限的。我们可以计算它的 “算存比”，也即，

2025-05-10 15:46:35 1443

原创生成式AI系列（二） LLM生成质量改善的方法——RAG检索增强生成

检索增强生成(RAG)是一种利用信息检索来优化LLM输出的技术，通过在生成结果之前引用训练数据之外的知识库，丰富了上下文，从而增强生成内容的准确性。

2025-03-08 20:44:39 558

原创代码重构——表驱动替代if-else或者switch-case (C++版）

表驱动方式代码量少，逻辑清晰，更符合设计模式思想，方便函数增添或者删除。但是在c++里需要用到函数指针、指针数组，对新手不友好。但是如果采用合理的索引表，在数据量较大的情况下可以有效提升程序运行速度。表驱动优化if-else[c++]_switch case 修改为c++驱动表-优快云博客。

2024-12-14 20:22:27 533

原创 leetcode股票买卖系列题目（动态规划）

最近A股大火，那么收集一下leetcode股票买卖系列题目来刷刷。股票买卖系列题目这类问题都可以用动态规划DP来解决。上述的第二和第三步，合起来就是建立。

2024-11-24 12:10:33 364

原创区间特征值求解技术——围道积分法（Contour Intergral Method）

区间特征值问题：求解Ax = λBx 在区间[λmin, λmax]的特征值。

2024-11-20 17:38:48 1483

原创数据结构可视化网站

Data Structure VisualizationCurrently, we have visualizations for the following data structures and algorithms:

2024-10-05 17:43:58 908 1

原创稀疏线性方程组求解技术——超节点法（Supernodal）简介

直接法的基础是矩阵的分解，常见的分解形式有LU分解、Cholesky分解、LDL分解等。直接法通过将A矩阵分解成两个或多个因子的乘积，使得原方程组转化为若干个较容易求解的子问题。例如LU分解A=LU，其中L是单位下三角矩阵，U是上三角矩阵。原方程转化为LUx=b，可以通过依次求解Ly=b和Ux=y两个三角方程组来得到原方程的解。稀疏线性方程组的两类常见直接求解算法分别为方法和法，其主要思想是将完整的稀疏矩阵的分解任务转化成许多个相对稠密的子矩阵的分解任务。

2024-09-25 15:59:37 1922

原创 C++如何进阶？ -- 整理一些学习资料

在学习完C++最基础的知识后，需要对C++有更近一步的认知。看门见山，首先贴出学习资料：侯捷老师的这几个视频是每个学习C++的人都应该仔细看几遍下来的，只看一遍是绝对记不住的具体来说必看的两本书，或者说，必看的两本书和一章节是STL源码剖析、Effective C++、深度探索C++对象模型第三章（虚函数）。而选看的两本书: More Effective C++、深度探索C++第三章以外的部分。

2024-09-22 12:00:52 507

原创 C++返回值优化（Return Value Optimization, RVO）与移动语义（Move Semantics）

在C++编程中，返回值优化（Return Value Optimization, RVO）与移动语义（Move Semantics）是提高程序效率、减少不必要的对象复制的重要机制。

2024-09-19 20:51:38 505

原创生成式AI系列（一）一文入门生成式AI（理解ChatGPT的原理）

以ChatGPT为代表的生成式AI，是对已有的数据和知识进行，总结出数据的。从而在生成内容时，根据用户需求，结合关联字词的。可以这么联想，ChatGPT就是一个的机器，他会根据你给出的关键词，自动生成关键词的下一个最有可能衔接的词语。比如你说，“世界上最高的山”，ChatGPT就会回答“喜马拉雅山”。大模型需要：算力、数据/存力、算法这三大要素。算力：即需要GPU、NPU这些硬件进行训练。数据/存力：生成式AI需要处理和存储大量的数据。以GPT-3为例，光是训练参数就达到了1750亿个，

2024-09-17 22:14:00 1850 1

原创钥匙和房间的题解——使用dfs或bfs进行图遍历

这 n 个房间看成有向图中的 n 个节点，在x号房拿到了打开y号房的钥匙，可以看作是图中的 x 号点到 y 号点的一条有向边。这样一来，问题就变成了给定一张有向图，询问从 0 号节点出发是否能够到达所有的节点。

2024-09-17 11:35:03 402

原创线性方程组求解——预处理Preconditioning介绍

通俗地说, 预处理就是将难以求解的问题转化成等价的容易求解的新问题对于线性方程组而言, 预处理就是对(病态) 系数矩阵进行适当的线性变换,转换为一个(良态) 新矩阵, 从而达到改善迭代法收敛性的目的.预处理子选取基本准则：一个好的预处理子P 通常需满足下面两个要求:(1)具有更小的条件数和(或) 更好的特征值分布;P是A的一个很好的近似。(2) 线性方程组Pz = r 容易求解, 即预处理子P 的使用成本低廉.▶ 第一条是为了确保预处理后的线性方程组更容易求解, 即预处理子有效。

2024-09-11 16:08:24 1779

原创混合精度、异构计算——杂记

SM是streaming multiprocessor的简写，4个处理单元组成一个SM，如Figure 2。每个SM有64个INT32，64个FP32，32个FP64的CUDA core；每个SM还有4个Tensor Core。SM内共享L1缓存。CUDA Core是用作通用计算的，Tensor Core是专门针对深度学习优化的，负责矩阵运算、混合精度运算。Figure 1Figure 3展示了NVDIA不同代GPU的特性。Figure 3. 各代GPU架构。

2024-08-04 10:34:25 639

原创好书推荐——《Parallel and High Performance Computing》（并行计算与高性能计算）

本书是由Robert Robey和Yuliana Zamora合著的专业著作，不仅从基础概念讲起，逐步深入到高级主题，还涵盖了最新的并行计算技术，如多核处理器、GPU加速和分布式计算系统。通过案例分析和实际应用，本书使理论与实践相结合，详细介绍了。等行业内标准工具的使用，适合计算机科学与工程专业的学生、研究人员、开发者以及对高性能计算技术感兴趣的技术爱好者。，任职于美国洛斯阿拉莫斯国家实验室，30多年来一直活跃在并行计算领域。出版日期：2021年。

2024-07-22 12:57:05 1158 1

原创 C++常用但难记的语法

static和inline联合使用既能提高程序的运行效率又能让其声明后被多个.c文件使用。

2024-07-22 11:43:25 468

原创内存问题检测工具——Valgrind

Valgrind 可以用来检测程序是否有非法使用内存的问题，例如访问未初始化的内存、访问数组时越界、忘记释放动态内存等问题。Valgrind最好和GCC编译器配合使用。或者，MPI分布式运行。

2024-07-22 11:31:53 284

原创非线性系列（三）—— 非线性求解器算法分类

CAE中的非线性方程组求解主要依赖牛顿法（及牛顿法的变体），步骤如下。

2024-07-10 20:03:31 706 1

原创 slurm常用命令——多线程、多进程设置

这个命令是在用户的bashrc文件中添加一个名为"sq"的别名，用于列出当前用户的所有作业信息。具体来说，它使用了squeue命令来查询当前用户的所有作业信息，并将结果输出到终端。输出的信息包括作业ID、作业所属的分区、作业名称、作业提交者、作业状态、作业使用的内存、作业运行时间、作业的优先级等。这是一个用于查看当前用户正在运行的作业的命令。它将显示作业的ID、分区、作业名称、用户、状态、内存使用情况、节点和运行时间。

2024-05-09 17:43:44 1787

原创 c++中constexpr的一个用法——在泛型编程中的作用

constexpr`是C++11引入的关键字，用于指示编译器在编译时进行计算和优化，以便在运行时获得更好的性能。在这个特定的上下文中，`constexpr`用于在编译时检查一个条件，并根据该条件的结果在编译时执行不同的代码。如果条件为`true`，则编译器将执行`if`语句中的代码块。如果条件为`false`，则编译器将忽略`if`语句中的代码块。这在泛型编程（运用模版）中很有作用，由于模板的typename类型可以改变，但是如果我们某段代码需要执行只有Type类型的变量才有的方法/属性。

2024-05-08 16:53:44 321

原创 c++多线程2小时速成

c++多线程基础需要掌握这三个标准库的使用：std::thread,std::mutex, andstd::async。

2024-05-04 17:36:18 1395

原创 Linux易错指令：文件覆盖＞和文件追加＞＞

指令 > : 如果文件存在，将原来文件的内容覆盖；原文件不存在则创建文件，再添加信息。指令 >>:不会覆盖原文件内容，将内容追加到文件的尾部。

2024-04-18 16:08:47 205 1

原创非线性系列（二）—— 共轭梯度法 Conjugate Gradient Method （线性及非线性）

CG方法第一次被用来解非线性优化问题，是由Fletcher和Reeves提出的。（英语：BiConjugate gradient method）提供了一种处理非对称矩阵情况的推广。共轭梯度法（英语：Conjugate gradient method），是求解系数矩阵为。共轭梯度法中，搜索方向p，是关于A共轭的，即。最后的解为 [1, 1]，f(x)最小值为0。其中delta为方向，beta为步长。共轭梯度法是一个迭代方法，它适用于。的线性方程组的数值解的方法。1. 求解线性方程组，首先安装自动微分工具。

2024-04-14 08:10:46 2907

空空如也

空空如也