PF-days是什么？

最新推荐文章于 2025-03-24 21:35:32 发布

鱼儿会飞吗

最新推荐文章于 2025-03-24 21:35:32 发布

阅读量294

点赞数 3

文章标签：人工智能深度学习机器学习

本文链接：https://blog.youkuaiyun.com/qq_34425255/article/details/144542822

版权

AIGC发展到现在，训练模型参数从千亿级飙升到了万亿级。为了完成这么大规模的训练，底层支撑的GPU数量，也达到了万卡级别规模。

以ChatGPT为例，他们使用了微软的超算基础设施进行训练，据说动用了10000块V100 GPU，组成了一个高带宽集群。一次训练，需要消耗算力约3640 PF-days（即每秒1千万亿次计算，运行3640天）。

一块V100的FP32算力，是0.014 PFLOPS（算力单位，等于每秒1千万亿次的浮点运算）。一万块V100，那就是140 PFLOPS。

也就是说，如果GPU的利用率是100%，那么，完成一次训练，就要3640÷140=26（天）。

GPU的利用率是不可能达到100%，如果按33%算（OpenAI提供的假设利用率），那就是26再翻三倍，等于78天。

可以看出，GPU的算力、GPU的利用率，对大模型的训练有很大影响。

一亿是 9 位数。具体表示为 100,000,000，其中包括数字 1 和后面的 8 个零。

一亿是 1 乘以 10 的 8 次方。

1千万亿就是 10 的 15 次方。

https://zhuanlan.zhihu.com/p/623534723

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

鱼儿会飞吗

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

6Days_Lab-v1.0.1 - linux

战神/calmness的博客

01-22

469

目录 Download 信息收集目录遍历文件包含调用了src函数账户密码配置文件 passwd信息查看apache默认配置信息 Python 通过ssrf+sql注入获取当前数据库中的表获取表中字段名获取所需账号密码信息 SSH perl反弹shell 内核提权搜索exp 参考链接 Download Back to the Top Please remember that VulnHub is a free community resource..

【87 backtrader期权策略】基于50ETF期权的covered-call-strategy

云金杞

06-30

885

前段时间有读者希望能够实现一个期权策略的模板，这段时间通过akshare下载了期权的数据，并进行了清洗，写了一个最简单的期权策略，供大家参考。

参与评论您还未登录，请先登录后发表或查看评论

PFlop/s-day算力单位

qq_15821487的博客

03-30

1732

预计，训练一次ChatGPT模型需要的算力约27.5PFlop/s-day。据OpenAI团队发表于2020年的论文《Language Models are Few-Shot Learners》，训练一次13亿参数的GPT-3 XL模型需要的全部算力约为27.5PFlop/s-day，训练一次1746亿参数的GPT-3模型需要的算力约为3640 PFlop/s-day。

大模型平台

wjw7869的专栏

05-08

1168

OpenAI Five的总练习量相当于打了45000年Dota，每天的训练大概相当于人类打180年游戏。当然，在新版本Rerun中，OpenAI做了训练优化，但算力消耗也在150 pfs-day左右。比如，OpenAI衡量它家的强化学习模型OpenAI Five（就是那个19年战胜了DOTA职业战队OG的模型）训练量，就达到了800 pfs-day。据报道，GPT3.5 的训练使用了微软专门建设的 AI 计算系统，由 1 万个 V100 GPU 组成的高性能网络集群，总算力消耗约。

V100架构效能深度解析

tiangang2024的博客

02-28

1064

NVIDIA Tesla V100架构效能深度解析：基于Tensor Core与CUDA核心协同设计，深度剖析Volta架构在深度学习训练场景中的性能突破，重点解读5120个流处理器集群的并行计算机制、混合精度计算优化策略，以及HBM2显存带宽对大规模矩阵运算的加速原理，结合AI推理与HPC场景实测数据对比FP32/FP64运算性能差异。

各种芯片简述以及算力解释：

热门推荐

weixin_42012149的博客

05-24

2万+

给学习做个总结，写的不对处希望大家指出。芯片算力： 1、TOPS：（Tera/Trillion Operations Per Second）： ①每秒运行10^12（万亿）次，是指GPU的乘积累加矩阵处理器的运算能力： ②影响TOPS的算力因素：取决于温度与电压，设计电路时，仿真或EDA给出3种分析状态： Ⅰ：WCS：最坏状态，过程慢，温度高，电压低； Ⅱ：TYP：标准状态，标准过程，额定温度，额定电压； Ⅲ：BCF：最佳状态，过程快，低温，高压； Ⅳ：TOPS宣称的算力都是在BCF下

人工智能带来的事业浪潮或将提前到来

东方佑

09-20

285

未来几年内人工智能会取代人类

通往AGI之路：揭秘英伟达A100、A800、H800、V100在高性能计算与大模型训练中的霸主地位

LANHYGPU的博客

06-29

6286

一位AI从业者提到，他所在的公司曾考虑使用一家非NVIDIA的GPU厂商，对方的芯片和服务报价更低，也承诺提供更及时的支持，但他们最终判断，使用其他GPU会导致整体训练和开发成本高于使用NVIDIA，并且还需要承担结果的不确定性和花费更多的时间。因此，使用性能较低的GPU越多，计算力的损耗就越大。Transformer基于显著性的注意力机制为输入序列中的任何位置提供上下文信息，使得它具有强大的全局表征能力、高度并行性、位置关联操作不受限，通用性强，可扩展性强等优势，从而使得GPT模型具有优异的表现。

潮流电力系统进阶指南：掌握PSD-PF定义、应用与最新演进

首先介绍了潮流电力系统的基本概念和功率系统的物理结构与数学模型，随后详细阐述了PSD-PF模型的定义、构建过程以及潮流计算的各种算法原理。文章的第三部分重点分析了PSD-PF模型在电力系统规划、故障分析和市场环境

常用linux的37个命令

weixin_42976659的博客

10-21

689

终端机必备工具包 Linux包含大量命令，但是我们从这里选择了37个最重要的命令。学习这些命令，您将在Linux命令提示符下有更多的家。下面的列表按字母顺序显示。命令在列表中的位置并不代表其有用或简单。有关命令用法的最终字词，请参阅其手册页。 man命令当然在我们的列表中，它是“ manual”的缩写。 1.别名使用alias命令可以给命令或命令序列指定自己的名称。然后，您可以输入您...

SSL基础：20:使用x509子命令为其他证书签名

知行合一止于至善

12-15

6757

ca子命令使用事前准备的CSR文件，可通过-selfsign选项指定私钥生成自签名证书。使用req子命令也可以生成自签名证书，自签名证书在实际的使用中用处一般是用来创建ca证书的，这篇文章介绍一下如何使用x509子命令结合自签名的ca证书对其他证书签名请求CSR文件进行签名。

大模型内容分享(二)：浮点运算——CPU 和 GPU 算力是如何计算的

之乎者也·的博客

01-08

4784

算力最基本的计量单位是 FLOPS，英文 Floating-point Operations Per Second，即每秒执行的浮点运算次数。浮点运算其实就是带小数的加减乘除运算。举个例子：1.1+2.2 就是典型的浮点运算，估计你已经心算出结果是 3.3 了。不过对计算机来说，这个问题并不简单。我们知道，计算机是以 0 和 1 构成的二进制数字进行运算的，比如在基础的二进制里，1 就是 1，2 就变成了 “10”，3 是 “11”，这也带来一个问题：计算机能够处理的数字只有整数。

大模型中的Scaling Law计算方法

Kaiyuan_sjtu的博客

11-27

1270

作者|nghuyonghttps://zhuanlan.zhihu.com/p/667489780后台留言『交流』，加入 NewBee讨论组在大模型的研发中，通常会有下面一些需求：1.计划训练一个10B的模型，想知道至少需要多大的数据？2.收集到了1T的数据，想知道能训练一个多大的模型？3.老板准备1个月后开发布会，给的资源是100张A100，应该用多少数据训多大的模型效果最好？4.老板对现...

算力单位详解

pangxing6491的博客

09-02

1万+

算力详解

训练10B的模型需要多大的数据？详解大模型中的Scaling Law

Paper weekly

12-12

4675

©作者 |nghuyong单位 |腾讯在大模型的研发中，通常会有下面一些需求：计划训练一个 10B 的模型，想知道至少需要多大的数据？收集到了 1T 的数据，想知道能训练一个多大的模型？老板准备 1 个月后开发布会，给的资源是 100 张 A100，应该用多少数据训多大的模型效果最好？老板对现在 10B 的模型不满意，想知道扩大到 100B 模型的效果能提升到多少？以上这些问题都可以基于 Sc...

NVIDIA V100驱动AI计算新纪元