- 博客(9)
- 收藏
- 关注
原创 CUDA 并行归约算法:为什么 Interleaved Addressing 更快?
如果你希望,我可以帮你扩展这篇博客的后半部分,加上 Nsight Compute 的实际性能对比表(例如 warp_stall_divergence、shared_conflict、global_hit_rate 等指标),让它成为一篇可直接发布的技术文章。在现代 GPU 上,真正拉开性能差距的,是 warp 分化(divergence) 和 共享内存 bank 冲突。减小 前几轮跨度是 32 的倍数,几乎无冲突。interleaved addressing 的优秀,本质不是算法上的花哨,
2025-10-31 17:10:42
259
原创 CUDA资源分配链条
Block:像一批工人,他们来工厂干活时,SM 给他们分配一块公共区域(shared memory)和若干私人物品柜(registers)。GPU 就像一栋大楼(device),每层楼(SM)都有自己的储物柜(registers)和会议室(shared memory)。Thread:单个工人,只能用自己的私人工具(registers),但能和同组工人共用公共区(shared memory)。SM:像一个小工厂,内部有一定数量的机器(ALU)、工具柜(寄存器)和公共工作区(共享内存)。
2025-10-29 10:03:12
424
原创 IEEE-754 浮点数全解析:float 的结构、规格化数与范围详解
规格化数指的是可以写成:的浮点数形式。阶码 ≠ 0 且 ≠ 255此时计算公式为:隐含位为 1,不存储。在 C++ 中,float尾数域 23 位(隐含 1 位 → 有效 24 位)阶码偏移量为 127规格化区间:(2^{-126} \sim 2^{127})非规格化区:(2^{-149} \sim (1 - 2{-23})×2{-126})最大值约 (3.4×10^{38}),最小值约 (1.4×10^{-45})作者:赵盼盼。
2025-10-25 22:02:01
646
原创 MATLAB 值类 vs 句柄类性能对比实验
特性值类(默认,不继承 handle)句柄类(继承 handle)赋值/传参拷贝新对象引用同一对象函数修改只改副本,原对象不变改原对象,外部同步变化大数据性能每次调用都复制,效率低无需复制,效率高适用场景独立数据计算共享状态、频繁修改通过这个实验可以看到,MATLAB 的面向对象设计虽然灵活,但在大数据场景下是否继承handle会直接决定性能表现。在工程应用中(比如雷达信号处理的大规模数据处理链路),选择合适的类设计方式,可以避免无谓的内存拷贝,大幅度提升效率。
2025-09-28 21:53:04
276
原创 MATLAB产生固定信噪比的单音信号
在 MATLAB 中,向一个复单音信号添加具有**指定信噪比(SNR)**的噪声是一个经典操作,通常用于信号处理算法的性能验证。下面我一步一步为你梳理整个过程,并提供专业解释与实现代码。当然可以,下面是你提供的内容,按照标准 Markdown 格式进行排版,并补充了公式部分的 LaTeX 语法(使用$$
2025-04-04 11:06:43
904
原创 ARM-GCC交叉编译工具
如果 glibc 安装在正确的 sysroot 目录结构中,GCC 会自动找到它;否则,可能会导致 cannot find -lc 这样的错误。/aarch64-none-linux-gnu/libc就是是 GCC 默认的 sysroot,包含标准库和头文件。让编译器 自动检测本地 CPU(仅在本机运行编译时有效)。其中libraries:开头的表示搜索库的路径。这些路径就是 GCC 默认的头文件搜索路径。库文件(libraries)查找路径。头文件(headers)查找路径。
2025-03-04 22:35:56
718
原创 正弦波的阶梯函数近似
xtAsin2πftϕxtAsin2πftϕAAA是振幅,fff是频率,ϕ\phiϕ是初始相位。将正弦波近似为阶梯函数时,我们可以在每个时间间隔 ( T_s ) 内保持正弦波的值不变。stAsin2πfnTsϕnTs≤tn1TsstAsin2πfnTsϕnTs≤tn1Ts这种方法相当于将连续信号“分段”并在每个时间段内保持一个常数值,直到下一个时间段才更新。
2025-01-30 22:14:22
2109
原创 LM Studio + CodeGPT 在 VSCode 中构建自己的离线代码分析软件
CodeGPT 是一款 Visual Studio Code 扩展,在多种编程语言中生成、解释、重构和文档化代码片段。CodeGPT支持ollama和LM Studio,本人主要关注在离线机器上的使用,但是在网上搜索了ollama相关教程,发现在安装过程仍然需要使用网络。于是自己根据网上的资料,整理了一份LM Studio+CodeGPT配置教程。
2024-12-28 19:31:20
4444
原创 现代雷达系统分析与设计学习笔记一
新世纪,随着现代战争的需要,雷达将是高性能、多功能的综合体,即集雷达与通信、指挥控制、电子战等于一体。为了减小天线孔径、提高机动性并降低成本,雷达将由过去集中式大孔径天线向分布式小孔径雷达方向发展;从频率源、发射到接收,雷达已从模拟向数字化方向发展,提出了数字化雷达的概念。数字化雷达在每个脉冲重复周期采用不同的信号形式,提高了抗干扰能力。从信号处理和检测的角度,雷达将向智能化方向发展。综合利用多部雷达协同探测与雷达组网,可以提高雷达的探测能力和覆盖范围。同时,雷达将向网络化方向发展。
2024-08-01 17:25:33
2172
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅