- 博客(8)
- 收藏
- 关注
原创 用cuBLASLt实现LLM中涉及的通用矩阵乘法
使用cublasLtMatmulAlgoGetHeuristic()函数根据给定的矩阵乘法配置和偏好设置搜索cuBLASLt库中最优的算法,通过启发式方法(Heuristic)从cuBLASLt支持的算法中筛选出符合当前配置和约束条件的最优算法,并将推荐算法及其参数存入heuristic中并通过returnedResults返回实际找到的算法数量。根据相应情形设置epilogue的值,并用其修改描述符的相应属性。当有偏置时,按照输入的偏置矩阵的精度设置描述符中偏置的数据类型属性,并设置指向偏置矩阵的指针。
2025-02-24 16:22:53
925
原创 fused_classifier函数的高性能计算实现(前向传播和反向传播)
x指向当前block需要处理的样本概率分布所在位置,这里是倒序处理,也就是后面的block处理前面的样本,这里i = (V+x128::size-1)/x128::size + threadIdx.x - blockDim.x是向上取整,然后也是倒序处理,block先处理样本最后blockDim*x128::size个数据,对于可能访问越界的线程,判断当线程处理的数据位置是否大于V,如果大于则该线程break,不进行数据处理。不生成完整的归一化logits矩阵,仅对当前样本的目标标签位置进行精确计算;
2025-02-21 16:23:20
599
原创 将YOLOv11模型转换为tfjs格式
所以引入原生的tfjs格式的文件是一个很好的解决方案。本文通过将Ultralytics官方的YOLO模型导出并保存为saved_model格式,再将saved_model格式文件转换为tfjs文件实现的。使用官方文档中的方法通常是行不通的,这是因为支持ultralytics的环境往往不支持tensorflowjs中的某些模块(‘tensorflow_decision_forest’冲突)导致的,所以我们要现将我们训练好的模型导出为saved_model格式,再在另一个环境中导出为tfjs格式。
2025-01-25 16:56:45
991
原创 nn.Module类自定义模型
在自定义网络模型时,继承nn.Module类,并重写__init__()和forward()两个方法对于具有可学习参数的层(如全连接层、卷积层等)一般放在__init__()中;
2025-01-09 16:45:49
1239
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅