大模型时代的基础架构读书笔记

SteveJrong

已于 2025-04-12 19:34:49 修改

阅读量224

点赞数 1

分类专栏：技术类读书笔记文章标签：机器学习 GPU 硬件架构 CUDA 容器 NVLink 虚拟化

于 2025-03-27 09:18:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u010737252/article/details/146548051

版权

参见：零基础学机器学习读书笔记。

第一章 AI与大模型时代对基础架构的需求

机器学习或深度学习中最常执行的运算都是基于乘加运算的向量卷积运算。
所以提高机器学习或深度学习的训练或推理效率，就是要加快向量卷积运算的速度。
能执行向量卷积运算的硬件设备：

第二章软件程序与专用硬件的结合

在GPU上执行运算的简要步骤：
nVIDIA GPU的CUDA Core执行运算的简要步骤：
关于机器学习框架
1. 产生原因：
  1. 提供综合、统一、便捷的框架给开发者使用。避免自己单独造各种机器学习算法的轮子。
  2. 单纯面向底层硬件编程，不但学习曲线陡峭、上手难度高，而且产出效率低。不利于 AI 产品的快速落地。
2. 支持的训练方式：

第三章 GPU硬件架构剖析 & 第四章 GPU服务器的设计与实现 & 第五章机器学习所依托的I/O框架体系

nVIDIA GPU的产品形态：
主核心硬件架构：
以Ada Lovelace架构为例。

其中，缓存速度由快到慢依次为：
1. 位于流式多处理器（Stream Multiprocessor）单元每象限内的、被每象限内CUDA Core和Tensor Core共用的寄存器文件（Register File）。
2. 位于流式多处理器（Stream Multiprocessor）单元每象限内的、被每象限内CUDA Core和Tensor Core共用的零级指令缓存（i-Cache，即：Instruction Cache）。
3. 位于流式多处理器（Stream Multiprocessor）单元每象限内的、被所有CUDA Core和Tensor Core共用的一级数据缓存（L1 Data Cache，即：Level-1 Data Cache）。
4. 位于整颗单裸片（Die）内的、被所有GPU处理集群（GPC，即：GPU Processing Cluster）共用的二级缓存（L2 Cache，即：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。