自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 CUDA 并行归约算法:为什么 Interleaved Addressing 更快?

如果你希望,我可以帮你扩展这篇博客的后半部分,加上 Nsight Compute 的实际性能对比表(例如 warp_stall_divergence、shared_conflict、global_hit_rate 等指标),让它成为一篇可直接发布的技术文章。在现代 GPU 上,真正拉开性能差距的,是 warp 分化(divergence) 和 共享内存 bank 冲突。减小 前几轮跨度是 32 的倍数,几乎无冲突。interleaved addressing 的优秀,本质不是算法上的花哨,

2025-10-31 17:10:42 259

原创 CUDA资源分配链条

Block:像一批工人,他们来工厂干活时,SM 给他们分配一块公共区域(shared memory)和若干私人物品柜(registers)。GPU 就像一栋大楼(device),每层楼(SM)都有自己的储物柜(registers)和会议室(shared memory)。Thread:单个工人,只能用自己的私人工具(registers),但能和同组工人共用公共区(shared memory)。SM:像一个小工厂,内部有一定数量的机器(ALU)、工具柜(寄存器)和公共工作区(共享内存)。

2025-10-29 10:03:12 424

原创 IEEE-754 浮点数全解析:float 的结构、规格化数与范围详解

规格化数指的是可以写成:的浮点数形式。阶码 ≠ 0 且 ≠ 255此时计算公式为:隐含位为 1,不存储。在 C++ 中,float尾数域 23 位(隐含 1 位 → 有效 24 位)阶码偏移量为 127规格化区间:(2^{-126} \sim 2^{127})非规格化区:(2^{-149} \sim (1 - 2{-23})×2{-126})最大值约 (3.4×10^{38}),最小值约 (1.4×10^{-45})作者:赵盼盼。

2025-10-25 22:02:01 646

原创 MATLAB 值类 vs 句柄类性能对比实验

特性值类(默认,不继承 handle)句柄类(继承 handle)赋值/传参拷贝新对象引用同一对象函数修改只改副本,原对象不变改原对象,外部同步变化大数据性能每次调用都复制,效率低无需复制,效率高适用场景独立数据计算共享状态、频繁修改通过这个实验可以看到,MATLAB 的面向对象设计虽然灵活,但在大数据场景下是否继承handle会直接决定性能表现。在工程应用中(比如雷达信号处理的大规模数据处理链路),选择合适的类设计方式,可以避免无谓的内存拷贝,大幅度提升效率。

2025-09-28 21:53:04 276

原创 MATLAB产生固定信噪比的单音信号

在 MATLAB 中,向一个复单音信号添加具有**指定信噪比(SNR)**的噪声是一个经典操作,通常用于信号处理算法的性能验证。下面我一步一步为你梳理整个过程,并提供专业解释与实现代码。当然可以,下面是你提供的内容,按照标准 Markdown 格式进行排版,并补充了公式部分的 LaTeX 语法(使用$$

2025-04-04 11:06:43 904

原创 ARM-GCC交叉编译工具

如果 glibc 安装在正确的 sysroot 目录结构中,GCC 会自动找到它;否则,可能会导致 cannot find -lc 这样的错误。/aarch64-none-linux-gnu/libc就是是 GCC 默认的 sysroot,包含标准库和头文件。让编译器 自动检测本地 CPU(仅在本机运行编译时有效)。其中libraries:开头的表示搜索库的路径。这些路径就是 GCC 默认的头文件搜索路径。库文件(libraries)查找路径。头文件(headers)查找路径。

2025-03-04 22:35:56 718

原创 正弦波的阶梯函数近似

xtAsin⁡2πftϕxtAsin2πftϕAAA是振幅,fff是频率,ϕ\phiϕ是初始相位。将正弦波近似为阶梯函数时,我们可以在每个时间间隔 ( T_s ) 内保持正弦波的值不变。stAsin⁡2πfnTsϕnTs≤tn1TsstAsin2πfnTs​ϕnTs​≤tn1Ts​这种方法相当于将连续信号“分段”并在每个时间段内保持一个常数值,直到下一个时间段才更新。

2025-01-30 22:14:22 2109

原创 LM Studio + CodeGPT 在 VSCode 中构建自己的离线代码分析软件

CodeGPT 是一款 Visual Studio Code 扩展,在多种编程语言中生成、解释、重构和文档化代码片段。CodeGPT支持ollama和LM Studio,本人主要关注在离线机器上的使用,但是在网上搜索了ollama相关教程,发现在安装过程仍然需要使用网络。于是自己根据网上的资料,整理了一份LM Studio+CodeGPT配置教程。

2024-12-28 19:31:20 4444

原创 现代雷达系统分析与设计学习笔记一

新世纪,随着现代战争的需要,雷达将是高性能、多功能的综合体,即集雷达与通信、指挥控制、电子战等于一体。为了减小天线孔径、提高机动性并降低成本,雷达将由过去集中式大孔径天线向分布式小孔径雷达方向发展;从频率源、发射到接收,雷达已从模拟向数字化方向发展,提出了数字化雷达的概念。数字化雷达在每个脉冲重复周期采用不同的信号形式,提高了抗干扰能力。从信号处理和检测的角度,雷达将向智能化方向发展。综合利用多部雷达协同探测与雷达组网,可以提高雷达的探测能力和覆盖范围。同时,雷达将向网络化方向发展。

2024-08-01 17:25:33 2172

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除