深度学习
c3255
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
tensorflow添加自定义OP(GPU版本)
今天试了下注册GPU支持的OP。 GPU内核 GPU内核分两部分实现:OpKernel和CUDA内核及其启动代码。 有时OpKernel的实现在CPU和GPU内核之间很常见,比如检查输入和分配输出。在这种情况下,建议的实施是: 定义在Device上模板化的OpKernel和张量的基本类型。 为了完成输出的实际计算,Compute函数调用模板函子结构。 该函数对CPUDevice的专门化定...原创 2018-09-08 15:53:04 · 3489 阅读 · 5 评论 -
解决nvprof工具使用报错的问题
今天编译了个算矩阵相乘的程序,想用nvprof工具来分析kernel的运行状况。 输入nvprof ./matrix.out 结果报错======== Error: unified memory profiling failed. 改为 nvprof --unified-memory-profiling off ./matrix.out 成功!...原创 2018-09-09 17:37:44 · 2519 阅读 · 0 评论 -
tensorflow创建动态库文件来自定义op
目前正在学习tensorflow自定义OP,刚学会如何添加和添加简单的op代码。 预备技能 对 C++ 有一定了解. 已经下载 TensorFlow 源代码并有能力编译它. 第一步:找一个文件夹存放你要编译的文件my_add.cc并调用 REGISTER_OP 宏来定义 Op 的接口. 该OP接受两个int32 类型tensor 作为 输入,并将这两个tensor进行求和并将第一位置0输...转载 2018-09-07 10:02:46 · 1807 阅读 · 2 评论
分享