自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 用cuBLASLt实现LLM中涉及的通用矩阵乘法

使用cublasLtMatmulAlgoGetHeuristic()函数根据给定的矩阵乘法配置和偏好设置搜索cuBLASLt库中最优的算法,通过启发式方法(Heuristic)从cuBLASLt支持的算法中筛选出符合当前配置和约束条件的最优算法,并将推荐算法及其参数存入heuristic中并通过returnedResults返回实际找到的算法数量。根据相应情形设置epilogue的值,并用其修改描述符的相应属性。当有偏置时,按照输入的偏置矩阵的精度设置描述符中偏置的数据类型属性,并设置指向偏置矩阵的指针。

2025-02-24 16:22:53 925

原创 fused_classifier函数的高性能计算实现(前向传播和反向传播)

x指向当前block需要处理的样本概率分布所在位置,这里是倒序处理,也就是后面的block处理前面的样本,这里i = (V+x128::size-1)/x128::size + threadIdx.x - blockDim.x是向上取整,然后也是倒序处理,block先处理样本最后blockDim*x128::size个数据,对于可能访问越界的线程,判断当线程处理的数据位置是否大于V,如果大于则该线程break,不进行数据处理。不生成完整的归一化logits矩阵,仅对当前样本的目标标签位置进行精确计算;

2025-02-21 16:23:20 599

原创 将YOLOv11模型转换为tfjs格式

所以引入原生的tfjs格式的文件是一个很好的解决方案。本文通过将Ultralytics官方的YOLO模型导出并保存为saved_model格式,再将saved_model格式文件转换为tfjs文件实现的。使用官方文档中的方法通常是行不通的,这是因为支持ultralytics的环境往往不支持tensorflowjs中的某些模块(‘tensorflow_decision_forest’冲突)导致的,所以我们要现将我们训练好的模型导出为saved_model格式,再在另一个环境中导出为tfjs格式。

2025-01-25 16:56:45 991

原创 如何构建一个基本的决策树

机器学习决策树的构建

2025-01-20 17:00:51 228

原创 nn.Module类自定义模型

在自定义网络模型时,继承nn.Module类,并重写__init__()和forward()两个方法对于具有可学习参数的层(如全连接层、卷积层等)一般放在__init__()中;

2025-01-09 16:45:49 1239

原创 YOLO-v3如何从配置文件中构建网络骨架

介绍了如何从config文件中读取定义好的网络架构参数,并构建网络骨架

2025-01-08 16:55:45 350

原创 YOLO-v3训练如何处理图像数据

对coco数据集的图像和标签进行预处理

2025-01-07 15:30:56 296

原创 Anaconda3安装

安装anaconda的基本步骤

2025-01-06 12:58:15 1027

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除