大模型时代的基础架构 读书笔记

参见:零基础学机器学习 读书笔记

第一章 AI与大模型时代对基础架构的需求

  1. 机器学习或深度学习中最常执行的运算都是基于乘加运算的向量卷积运算。
    所以提高机器学习或深度学习的训练或推理效率,就是要加快向量卷积运算的速度。
  2. 能执行向量卷积运算的硬件设备:
    在这里插入图片描述

第二章 软件程序与专用硬件的结合

  1. 在GPU上执行运算的简要步骤:
    在这里插入图片描述
  2. nVIDIA GPU的CUDA Core执行运算的简要步骤:
    在这里插入图片描述
  3. 关于机器学习框架
    1. 产生原因:
      1. 提供综合、统一、便捷的框架给开发者使用。避免自己单独造各种机器学习算法的轮子。
      2. 单纯面向底层硬件编程,不但学习曲线陡峭、上手难度高,而且产出效率低。不利于 AI 产品的快速落地。
    2. 支持的训练方式:
      在这里插入图片描述

第三章 GPU硬件架构剖析 & 第四章 GPU服务器的设计与实现 & 第五章 机器学习所依托的I/O框架体系

  1. nVIDIA GPU的产品形态:
    在这里插入图片描述
  2. 主核心硬件架构:

    以Ada Lovelace架构为例。
    在这里插入图片描述
    其中,缓存速度由快到慢依次为:

    1. 位于流式多处理器(Stream Multiprocessor)单元每象限内的、被每象限内CUDA Core和Tensor Core共用的寄存器文件(Register File)。
    2. 位于流式多处理器(Stream Multiprocessor)单元每象限内的、被每象限内CUDA Core和Tensor Core共用的零级指令缓存(i-Cache,即:Instruction Cache)。
    3. 位于流式多处理器(Stream Multiprocessor)单元每象限内的、被所有CUDA Core和Tensor Core共用的一级数据缓存(L1 Data Cache,即:Level-1 Data Cache)。
    4. 位于整颗单裸片(Die)内的、被所有GPU处理集群(GPC,即:GPU Processing Cluster)共用的二级缓存(L2 Cache,即:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值