- 博客(5)
- 收藏
- 关注
原创 cutlass入门: 调用cutlass做通用矩阵乘法Gemm(附代码)
cutlass是CUDA C++模板抽象的集合,用于实现CUDA中所有级别和规模的高性能矩阵乘法(GEMM)和相关计算。相较于cuBLAS和cuDNN,cutlass中包含了更多可重用的模块化软件组件,这使得cutlass相较于前两者更为灵活。本文将展示如何用cutlass实现最基本的矩阵计算。cutlass的使用流程与普通kernel大致相同:先在host端分配空间生成数据,再将host端的数据传入device端的buffer中,输入参数调用cutlass模块进行运算,最后将device端的数据传
2022-05-28 13:59:06
9007
2
原创 AT&T汇编基础指令(更新中)
1. 指令后缀所表示的操作位数: 后缀名 对应英文 操作位数(bit) 指令示例 b Byte 8 movb %al, %bl w Word 16 movw %ax, %bx l Long word
2022-04-21 21:43:45
1554
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人