手撕烂笔头-Nvidia数据中心GPU A100 H100的一些硬件规格情况

文章详细介绍了Nvidia的三条主要产品线——GeForce,Quadro和Tesla,以及其GPU的技术迭代,包括微架构的发展,如Amper和Hopper,以及关键指标如算力、内存技术和PCIe版本的提升。文章还提到了美国出口限制对中国市场的影响,例如H800和A800的调整。

Nvidia 3条产品线

        - PC市场的GeForce产品线,比如RTX3090 4090 5090

        - 工作站市场的Quadro产品线

        - 数据中心高性能计算的Tesla产品线,比如V100 A100 H100

目前大模型主要依赖Tesla系列,比如chatgpt 就用了几千张A100或者H100训练

NVIDIA 数据中心的GPU大约2年推出一种微架构,从06年开始大概历史:(工艺不太准确 供参考级别)

1. 06年 Tesla特斯拉微架构 大概65nm工艺

2. 10年 Fermi费米微架构 大概40nm工艺

3. 12年 Kepler开普勒微架构 28nm,比如K110

4. 14年 Maxwell麦斯威尔微架构 28nm

5. 16年 Pascal帕斯卡微架构 12nm 用了FinFET工艺

6. 17年 Volta伏特微架构 10nm,智能音箱行业在17年左右突起,有些用了它

7. 20年 Amper安培微架构 台积电7nm,比如典型的A100(540亿晶体管)

8. 22年 Hopper赫柏(琥珀)微架构 台积电4nm,比如典型的H100(800亿晶体管)

预估下一代是AdaLovelace架构

另外所谓A100 H100的前缀A就是安培的Amper的A,H就是琥珀Hopper的H。如果下一代是AdaLovelace估计容易混淆,叫ADxxx了。

另外Nvidia的GPU迭代感觉基本2年一代,每一代封装工艺基本提升一代,但是封装工艺和当时最好的工艺基本差一代。比如22年3nm,H100用了4nm。20年5nm,A100用了7nm。GPU的封装工艺底层逻辑有一个依赖,就是封装工艺。

而且每一代微架构用一个科学家名字替代。比如Hoppe

在使用 NVIDIA H100 GPU 时,如果 `nvidia-smi` 显示的功耗为 500W,这可能表示 GPU 正在以接近其最大功率限制运行。以下是一些排查和解决方法: 1. **检查当前的功率限制** 使用 `nvidia-smi -q` 命令查看当前 GPU 的功率限制和实际功耗情况。例如: ```bash nvidia-smi -q -d POWER ``` 这将显示当前 GPU 的功率限制(Power Limit)和默认功率限制(Default Power Limit)。如果当前功率限制接近 500W,则可能是系统或应用程序主动设置了较高的功率限制。 2. **调整功率限制** 如果需要降低 GPU 的功耗,可以通过以下命令设置一个较低的功率限制(例如 300W): ```bash nvidia-smi -pl 300 ``` 这将把 GPU 的功率限制设置为 300W。如果希望在系统重启后仍然保持该设置,可以将其写入持久模式: ```bash nvidia-smi -pm 1 nvidia-smi -pl 300 ``` 3. **检查 GPU 使用情况** 使用 `nvidia-smi` 命令监控 GPU 的使用情况,确保没有不必要的进程占用 GPU 资源: ```bash nvidia-smi --query-gpu=index,utilization.gpu --format=csv ``` 如果发现有未知或不必要的进程占用 GPU,可以使用以下命令终止它们: ```bash nvidia-smi --query-gpu=index,name,processes.pid --format=csv kill -9 <PID> ``` 4. **检查 GPU 驱动和固件版本** 确保使用的 NVIDIA 驱动和固件版本是最新的,因为旧版本可能存在功率管理相关的问题。可以使用以下命令检查当前驱动版本: ```bash nvidia-smi --query-gpu=driver_version --format=csv ``` 5. **检查系统 BIOS 和硬件配置** 某些系统 BIOS 设置可能会影响 GPU 的功率管理行为。检查 BIOS 中的电源管理设置,确保其配置为允许 GPU 动态调整功率。 6. **使用持久模式** 启用持久模式可以确保 GPU 在系统重启后保持功率限制设置: ```bash nvidia-smi -pm 1 ``` 通过以上步骤,可以有效地排查和解决 `nvidia-smi` 显示 H100 GPU 功耗为 500W 的问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值