37、基于CUDA的Where - What网络与增强可变大小HOG特征的快速人体检测

Python

于 2025-09-21 09:30:53 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：神经网络前沿探秘文章标签： CUDA Where-What网络 WWN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/python/article/details/153549578

神经网络前沿探秘专栏收录该内容

65 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于CUDA的Where - What网络与增强可变大小HOG特征的快速人体检测

1. Where - What网络（WWN）的CUDA并行化

核心操作本质上是排序，这是计算机科学中著名的NP问题，有许多并行算法可供选择，这里采用了专为并行机器设计的双调排序网络。因此，在详细的算法层面，WWN也可以并行化。

在实现上，基于GPU的并行计算作为PC上有吸引力的并行处理技术之一，发展迅速。GPU已演变成高度并行、多线程、多核的处理器（核心数远多于CPU），且具有非常高的内存带宽。在GPU编程技术中，NVIDIA设计的通用并行计算架构CUDA被大多数程序员广泛接受，本研究使用GPU/CUDA对WWN进行并行化。

预响应计算的并行化 ：从公式可知，每个神经元预响应计算的主要操作是自底向上权重与自底向上输入的内积。实验中，此计算分配给27个块中的6840个线程，即每个线程为V2中的一个神经元执行内积，使6840个相同操作可并发执行，节省大量时间。
Hebbian学习的并行化 ：与预响应计算的并行化类似，Hebbian学习更新的自底向上和自顶向下权重也分配给线程。不同的是，由于数据量小，块内每个线程对应共享内存（低延迟）中向量的一两个元素，而非全局内存（高延迟）中向量的所有元素。此外，考虑到分支结构会极大影响并行处理的加速效果，在网络训练前，将公式所需的查找表从CPU传输到GPU。
Top - k竞争的并行化 ：排序中读写操作频繁，因此应尽可能使用低延迟的内存单元，CUDA中共享内存是最佳选择。由于同一块内的线程（实验中GPU

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。