DDR GDDR HBM

DRAM基础

  • DRAM中的存储概念:rank/bank/page;
  • 每个rank最多包括16个bank;
  • 每个bank中只能有一个page处于“open”状态;
  • 让一个page处于“open”需要DRAM的控制器发送“ACT激活”command,并设定好rank/bank和row,然后controller等待Trcd时间才可以CAS;
  • 读写数据需要发送“CAS”command并指定好rank/bank/column,然后controller等待Tcas_latency时间
  • 让一个page“close”需要控制器发送“PRECHARGE”command,并指定rank/bank,然后控制器等待Trp时间
  • 如果需要的page没有“open”,而是同一rank bank中其他page“open”,这是会发生“page conflict”,此时需要控制器先发送“PRECHARGE”命令将不需要的“open”page送回,再“ACT激活”command去open需要的page;
  • 当然,使用前必须初始化;
  • 此外,一些细节内容需要结合实际+真正工作中使用到才能了解;

DDR技术

https://blog.youkuaiyun.com/cy413026/article/details/82024291
DDR的I/O频率=核心频率*预取位数
核心频率很难做上去,一般在100MHz-200MHz间,预取位数为2(DDR1), 4(DDR2), 8(DDR3), 16(DDR4)
所谓通过预取来匹配计算端频率与DDR核心频率就是将一次性取的并行信号通过串并转换变成串行信号。

单个DDR芯片内部结构

下图是一个DDR3芯片的内部结构,micron的MT41K256M16TW-107为例,MT41K为型号,256M16表示大小为256M*16 = 4Gb

  • 存储容量为2^(3+15+7+3)个16bit,第一个3为bank位宽,15为行地址位宽,7为列地址位宽,第二个3做8位预取的平衡,总容量为512MB
  • bank数目为8;
  • 128到16的8位预取;
  • 经过行列选择后的每个块存储单元为128bit;
  • 地址复用,先行再列;
  • 单颗16bit位宽IO
    在这里插入图片描述

多个DDR组成一个rank,多个rank组成一个DIMM

  • 这块内存条是4GB 2Rx8,其中4GB是整个内存条的储存空间。2Rx8表示该内存条是2 Rank 每颗ddr位宽8bit。
  • 每一个黑块就是一个DDR芯片;
  • rank就是DIMM中所有共享地址总线进行索引的DDR的集合,也就是直接把每颗DDR的位宽提升了
  • 多个DIMM条就相当于组成了多通道了
    在这里插入图片描述

DDR内存技术的进化

DDR4在单个DDR3内部的bank又做了一个分组,形成bank group,bank group间是独立的,
在DDR在发展的过程中,一直都以增加数据预取值为主要的性能提升手段。但到了DDR4时代,数据预取的增加变得更为困难,所以推出了Bank Group的设计。每个Bank Group可以独立读写数据,这样一来内部的数据吞吐量大幅度提升,可以同时读取大量的数据,内存的等效频率在这种设置下也得到巨大的提升。对应DDR4的接口上添加了一个BG(bank group),
DDR4架构上采用了8n预取的Bank Group分组,包括使用两个或者四个可选择的Bank Group分组,这将使得DDR4内存的每个Bank Group分组都有独立的激活、读取、写入和刷新操作,从而改进内存的整体效率和带宽。
如果内存内部设计了两个独立的Bank Group,相当于每次操作16bit的数据,变相地将内存预取值提高到了16n,如果是四个独立的Bank Group,则变相的预取值提高到了32n。
在这里插入图片描述
下图可以看出DDR4的变化,分组,好处的个人理解是:

  • 根据之前的结构分析,每个块存储单元是128bit的
  • bank group的独立意味着可以源源不断的产生128bit数据,而没有group概念的时候,一定会

在这里插入图片描述

GDDR

用于显卡的DDR颗粒,可理解为gpu的内存。特点是位宽频率更高,发热更小。
GPU与GDDR间显存数据位宽更大,而CPU与DDR间的数据位宽也就64bit或128bit。
优点是带宽比较高,功耗比较低。
缺点是,适合并发,不适合随机访问;时序复杂,工艺要求高;不适合配合CPU的Cache line的读取。
在这里插入图片描述
参考:https://www.sohu.com/a/272922967_463982

GDDR位宽/bit预取/bit等效频率/GHz电压/V读写通道单颗容量最大带宽/GB/s标准制定
GDDR16/3220.92.5共用16/32MB3.6-
GDDR232412.5共用32MB4-
GDDR33242.51.8读写独立128MB10NV
GDDR432841.5读写独立128MB16ATI
GDDR532881.5QDR1GB32-
GDDR5X32/6416161.35QDR(独立读写)2GB56/128NV+美光
GDDR632/6416161.35QDR4GB56/128-

这里我的理解是:从GDDR3代开始,就采用了QDR技术,包括DDR技术和独立的读写通道,相当于4倍速率,NV的显卡都是基于32/64的倍数进行组合。但是单颗芯片能提供的最大带宽需要进一步确认。
等效频率=显存时钟*2或4,取决于DDR还是QDR

HBM技术

一款由三星电子、超微半导体和SK海力士发起的一种基于3D堆栈工艺的高性能DRAM,适用于对高存储器带宽有需求的应用场合。例如图形处理器、网络交换及转发设备(如路由器、交换器)等就是HBM的典型应用场景。

原文链接:https://www.xianjichina.com/news/details_279979.html

核心就是:高带宽、片上3D堆叠
https://www.tomshardware.com/news/rambus-shares-hbm3-details-1075-tbps-of-bandwidth-16-channels-16-hi-stacks
在这里插入图片描述

HBM位宽/bitchannelIO速率/GbpsIO频率/GHz电压/Vmax die per stack容量/stack最大带宽/GB/sBL提出时间product
HBM11024(128*8)81.00.51.316(16-Hi)1GB128BL2~2015GPU
HBM21024(128*8)82.0-2.411.28(8-Hi)8GB307BL4~2016GPU/AI
HBM2e102483.2-3.61.81.212(12-Hi)16GB460BL4~2020GPU/AI
HBM31024(64*16)164.8-6.4-7.22.61.14(4H-i)16-32GB819BL8~2022GPU/AI/HPC/CPU
HBM3+1024168.44.21.1-16-32GB1075.2BL8-

HBM结构

参考:https://www.amd.com/system/files/documents/high-bandwidth-memory-hbm.pdf
首先,完整的HBM芯片集成后的结构:

  • 3D堆叠:HBM die通过TSV(硅通孔)实现信号的共享与分配,TSV这个信道的好处就是超高带宽,之前研究生论文的时候简单研究过;
  • 2.5D结构:类似于多个chiplet通过silicon interposer(硅中阶层)进行将多个die进行片内互联,当然要相同的互联协议去保证;
  • 每个HBM DRAM die有两个channel,共有2*4=8个channel,可独立访问,每个channel位宽128bit,每个HBM stack位宽1024bit
  • 每个HBM channel中包含16个bank

在这里插入图片描述
其次是HBM的堆叠结构,如何分配内存??
HBM相对于GDDR5,以base die为单位的话,优势显而易见。这里我想说以下几点:

  1. GDDR5的IO频率已经高达1.75GHz,基本已经是单die的极限了,况且再经过substrate基板的衰减,对信号的电气特性极为苛刻。
  2. HBM把基板的信道换成interposer,信道带宽可以大幅度提升;
  3. 通过3D堆叠技术的集成与散热能力的提升,把大容量放到片内成为可能;
  4. 以IO数目的增加换来了更低的IO速率,为下一代的速度提升提供可能;

在这里插入图片描述
能效比大幅度提升的关键在于改善了信道,相信研究过互连小伙伴能感受到物理层的收发器最占功耗。
面积的节省不言而喻。
在这里插入图片描述

HBM的pseudo channel mode

  • 物理的channel是128bit/channel,每个channel会虚拟的再划分64bit/pseudo channel;
  • 相当于每个物理channel被划分为独立的读写通道;
  • 之所以称为pseudo,是因为有些command是可以指定为pseudo channel,有些command必须指定到物理的channel,比如一些powerdown;这种特性的设定很符合正常的逻辑;
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值