- 博客(5)
- 收藏
- 关注
原创 OpenCL简介
gd里面的每个数据点都有一个独立的工作线程来处理数据,比如一个3维数据有几十M数据时,OpenCL会将这些数据均分到GPU的计算单元上,尽最大可能并行计算。但如果想做一个自身的成熟产品,则使用OpenCL更加合适,因为硬件的选择面更广,产品可以不依赖N社硬件,更稳定。可以运行在各种硬件,CPU, GPU,甚至FPGA上,自身支持vector计算以及含有数学库,在不同硬件上运行时的精度是有保证的。单精度和双精度在GPU上的计算时间成本是不同的,基本两倍,主要是因为数据本身的大小导致。因为它们在同一个线程。
2025-02-23 18:28:19
281
原创 管道过滤器架构
为管道符,连接各阶段处理,而各个阶段的处理cat sort gunzip 就是一个过滤器(相对穿过它们的真正的文本数据而言)大致结构为:source -> pipe -> filter -> pipe -> filter -> pipe -> sink。filter:流水线的处理单元,在上个例子中的cat, sort, gunzip,管道过滤器中的数据都会顺次接受处理。pipe:一般用队列实现,起到缓冲或者同步的作用。4,处理流中,实现用户交互,控制各部状态比较复杂。1,过滤器可以重用,自由组合。
2025-02-10 21:03:50
183
原创 交叉编译简介
MCU的系统资源不充足,没法直接在MCU上开发代码。往往在电脑上配置相应MCU的编译工具链,开发完成后在电脑上使用交叉编译工具生成可执行文件,将可执行文件烧写进MCU即可执行。定义:在一个硬件平台上编译的文件,可以放到另一种硬件平台上运行。目的:解决跨平台的编译运行问题。
2025-02-07 20:42:39
99
原创 关于TMS320单核处理器
于2000年前后面世,有6个ALU(每个ALU在1cycle中可以做8次32bit的算数逻辑运算),和两个乘法器(每个CPU周期可以执行4次16bit乘法或者8次8bit乘法)EMIFA: external memory interface A,16位数据线。单核,工作频率 720MHz-900MHz,C64x。L1datacache和programecache都各有32K。在当时属于是高并发高性能的一款DSP,很适合图像处理任务。TI的DSP,C6000系列沿革。
2025-02-04 18:06:18
160
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人