Learning CUDA step-by-step

部署运行你感兴趣的模型镜像

作者 | 微动变量  编辑 | 自动驾驶之心

原文链接:https://zhuanlan.zhihu.com/p/715018829

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心CUDA技术交流群

本文只做学术分享,如有侵权,联系删文

学习某种工具最好的办法就是实践,深入浅出,首先对CUDA的概念和关键定义有个了解,在脑子里形成简易记忆,知道下次遇到这个概念去哪里翻找;下一步定一个实践目标,例如去魔改某个开源库或者整合几个开源库。

step1: 概念

查看本专栏其他几篇关于CUDA的文章

step2: 实践

< Probing the Efficacy of Hardware-Aware Weight Pruning to Optimize the SpMM routine on Ampere GPUs > , PACT2022

https://gac.udc.es/~basilio/papers/Castro22-MLSparse.pdf

GitHub - UDC-GAC/CLASP: CoLumn-vector pruning-Aware SPmm kernel

<MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models>

https://github.com/IST-DASLab/Sparse-Marlin

https://www.microsoft.com/en-us/research/uploads/prod/2023/05/N_M_Sparse_kernels__MLSys23.pdf

https://github.com/microsoft/SparTA/tree/nmsparse

《Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity》

https://arxiv.org/pdf/2309.10285

https://github.com/AlibabaResearch/flash-llm

其他参考:

https://github.com/NVIDIA/CUDALibrarySamples

https://github.com/zchee/cuda-sample

GitHub - google-research/sputnik: A library of GPU kernels for sparse matrix operations.

https://github.com/wangsiping97/FastGEMV

https://github.com/Guangxuan-Xiao/SPMM-CUDA

整合以上三篇工作,对比它们在N:M剪枝方法中常见稀疏矩阵运算的性能。

  1. 参考https://github.com/microsoft/SparTA/tree/nmsparse, 定义稀疏矩阵测试样例

  2. 构建一个合适的project目录

结果记录:

c241499a79f1e5e9b136e059bfa20eb0.png

step3 (进阶):

<ELSA: Exploiting Layer-wise N:M Sparsity for Vision Transformer Acceleration> how to choose best N:M + 《VENOM: A Vectorized N:M Format for Unleashing the Power of Sparse Tensor Cores》 kernel supports arbitray N:M

『自动驾驶之心知识星球』欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

16cfa68d27c9d4ecb7089d0a515beb72.png

① 全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

063474b8ccbe9f6e0f5eb87ac982f29a.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业,近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

38e3892d018474fc8699bb1e404f22c3.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

2fd61408a3cbcbe4503c28486e68d650.jpeg

④【自动驾驶之心】全平台矩阵

37d01a0241e95ea2511ef31b53510b9f.png

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

**项目名称:** 基于Vue.js与Spring Cloud架构的博客系统设计与开发——微服务分布式应用实践 **项目概述:** 本项目为计算机科学与技术专业本科毕业设计成果,旨在设计并实现一个采用前后端分离架构的现代化博客平台。系统前端基于Vue.js框架构建,提供响应式用户界面;后端采用Spring Cloud微服务架构,通过服务拆分、注册发现、配置中心及网关路由等技术,构建高可用、易扩展的分布式应用体系。项目重点探讨微服务模式下的系统设计、服务治理、数据一致性及部署运维等关键问题,体现了分布式系统在Web应用中的实践价值。 **技术架构:** 1. **前端技术栈:** Vue.js 2.x、Vue Router、Vuex、Element UI、Axios 2. **后端技术栈:** Spring Boot 2.x、Spring Cloud (Eureka/Nacos、Feign/OpenFeign、Ribbon、Hystrix、Zuul/Gateway、Config) 3. **数据存储:** MySQL 8.0(主数据存储)、Redis(缓存与会话管理) 4. **服务通信:** RESTful API、消息队列(可选RabbitMQ/Kafka) 5. **部署与运维:** Docker容器化、Jenkins持续集成、Nginx负载均衡 **核心功能模块:** - 用户管理:注册登录、权限控制、个人中心 - 文章管理:富文本编辑、分类标签、发布审核、评论互动 - 内容展示:首页推荐、分类检索、全文搜索、热门排行 - 系统管理:后台仪表盘、用户与内容监控、日志审计 - 微服务治理:服务健康检测、动态配置更新、熔断降级策略 **设计特点:** 1. **架构解耦:** 前后端完全分离,通过API网关统一接入,支持独立开发与部署。 2. **服务拆分:** 按业务域划分为用户服务、文章服务、评论服务、文件服务等独立微服务。 3. **高可用设计:** 采用服务注册发现机制,配合负载均衡与熔断器,提升系统容错能力。 4. **可扩展性:** 模块化设计支持横向扩展,配置中心实现运行时动态调整。 **项目成果:** 完成了一个具备完整博客功能、具备微服务典型特征的分布式系统原型,通过容器化部署验证了多服务协同运行的可行性,为云原生应用开发提供了实践参考。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值