- 博客(3)
- 资源 (4)
- 收藏
- 关注
原创 CUDA访存优化(1)
CUDA访存优化我们知道,在对CUDA程序进行优化的时候,除了计算部分的优化之外,访存部分的优化也是非常重要。因此,我们需要深入了解NVIDAI GPU的内存架构,然后做相应的访存优化。latency:延迟off-chip:片外on-chip:片内, 片内指的是lauch kernel:运行并行程序CUDA的内存结构global memory,全局内存off-chip,高latencylocal memory,局部内存off-chip,芯片结构上与全局内存在同一个地方
2022-03-20 15:58:23
732
原创 基于RISC-V的GCC内联汇编
内联汇编优化浮点操作数 在使用时,constraint (约束) 需要定义为"f"(浮点寄存器),整型单元一般都是"r"(通用寄存器)+ 表示该操作数既可以读也可以写;通常使用在内联汇编含多个指令的情况,需要复用该输出操作数的值= 表示该操作数可写,通常用在输出操作数若操作数前面不加符号,表示只读操作数,通常用在输入操作数 float32_t multAcc_32x32_float32(float32_t a, float32_t x, float32_t y,
2021-12-26 23:05:29
2693
原创 主流语音前处理算法
AEC,回声消除算法,主要用于消除麦克风播放出来,在房间产生的回声VAD,人声检测算法Bss,盲源分离算法,将接收到的信号分离,例如将人声与环境噪声分离;在多数情况下用于去噪Beamforming,多麦克风信号处理,可用于降噪和说话人角度定位WPE,混响消除,与AEC不同的是,WPE主要用于消除说话人产生的混响,而不是麦克风ANC,主动降噪...
2021-12-25 23:27:28
2556
matlab 语音处理
2018-11-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人