英伟达强势投资xAI,资金转一圈又回到口袋。更像是“算力入股”

引言 |

英伟达对 xAI 的投资!这就像一颗重磅炸弹,在 AI 领域掀起了惊涛骇浪。

xAI最新一轮融资情况:

xAI最新一轮融资达200亿美元,英伟达股权部分投资20亿美元,早些时候xAI已融资约100亿美元。英伟达在总融资比例上也不容小觑。

黄仁勋觉得投的还不够!

即便如此听说黄仁勋还是觉得英伟达此次投资遗憾的一点是没有给更多的投资。并且还表示:“希望参与马斯克所有业务”

马斯克不愧是神一样的存在,老黄也非常看好他的眼光和魄力。

(*声明:图片由元器创作)

英伟达的资金转一圈回到自己口袋

特别的投资方式

此次英伟达投资马斯克创建的初创公司xAI,是通过特殊目的公司(SPV)的参与,购买英伟达的处理器,然后租给xAI为其项目研发配备超级算力武器。这一举措在我看来真的像极了“算力投资”。英伟达的投资风险降到了极低。

这也是实现共赢的好方式

AI的核心三要素“算法、算力、数据”中的算力由英伟达鼎力相助。对于xAI来说当然是相当利好,老黄赚钱,老马得到重要算力基础硬件支撑可谓是双赢呀!

为什么说老黄精明呢?

1.投钱给你,但你得拿这个钱来租用我的处理器,左口袋出右口袋进,黄仁勋真的妥妥打了一手好牌呀。
2.2025年这一被认为是AI元年的时代。巨头联手将大幅提升AI市场的集中度与创新门槛。

看到今年各大企业AI大模型、AI聊天工具、AI编程工具、AI生图和视频创作工具智能程度突飞猛进。生成内容作品效果逐步赶超人类成果。xAI在马斯克的带领下太有机会在AI局势里占据一席之地,这次英伟达的强强联手更是巩固了这一地位的预测。

3
NVIDIA B200 是一款专为高性能计人工智能工作负载设计的 GPU。BF16(Bfloat16)是一种半精度浮点数格式,广泛用于机器学习训练和推理任务中,因为它在保持较高动态范围的同时减少了内存带宽和存储需求。 NVIDIA B200 支持 BF16 格式的计,并且在 BF16 方面表现出色。根据 NVIDIA 官方提供的性能指标,B200 的 BF16 可以达到 4 petaFLOPS(即每秒 4 千万亿次浮点运)。这一性能水平使得 B200 成为了处理大规模 AI 模型和高性能计任务的理想选择[^1]。 此外,B200 还支持 FP16(半精度浮点数)计,这进一步增强了其在深度学习和其他计密集型应用中的适用性。FP16 和 BF16 的支持不仅提高了计效率,还减少了内存使用和数据传输的开销,从而提升了整体性能[^1]。 ### BF16 与 FP16 的比较 尽管 BF16 和 FP16 都是 16 位的浮点数格式,但它们在精度和动态范围上有显著的区别: - **FP16**:IEEE 754 标准定义的半精度浮点数,具有 1 位符号、5 位指数和 10 位尾数。FP16 提供了高的精度,但动态范围较小。 - **BF16**:Bfloat16 是一种非标准的浮点数格式,具有 1 位符号、8 位指数和 7 位尾数。BF16 的设计目的是为了在保持与 FP32 相似的动态范围的同时,减少内存带宽和存储需求。 BF16 特别适合于那些对动态范围要求较高但对精度要求相对较低的应用,如深度学习训练和推理。 ### 示例代码:使用 CUDA 进行 BF16 计 以下是一个简单的 CUDA C++ 示例代码,展示了如何在 NVIDIA GPU 上执行 BF16 计: ```cpp #include <cuda_runtime.h> #include <iostream> #include <cuda_bf16.h> __global__ void bf16_add(__nv_bfloat16* a, __nv_bfloat16* b, __nv_bfloat16* c, int n) { int i = threadIdx.x; if (i < n) { c[i] = a[i] + b[i]; } } int main() { int n = 5; __nv_bfloat16 h_a[] = {1.0f, 2.0f, 3.0f, 4.0f, 5.0f}; __nv_bfloat16 h_b[] = {1.0f, 2.0f, 3.0f, 4.0f, 5.0f}; __nv_bfloat16 h_c[n]; __nv_bfloat16 *d_a, *d_b, *d_c; cudaMalloc(&d_a, n * sizeof(__nv_bfloat16)); cudaMalloc(&d_b, n * sizeof(__nv_bfloat16)); cudaMalloc(&d_c, n * sizeof(__nv_bfloat16)); cudaMemcpy(d_a, h_a, n * sizeof(__nv_bfloat16), cudaMemcpyHostToDevice); cudaMemcpy(d_b, h_b, n * sizeof(__nv_bfloat16), cudaMemcpyHostToDevice); bf16_add<<<1, n>>>(d_a, d_b, d_c, n); cudaMemcpy(h_c, d_c, n * sizeof(__nv_bfloat16), cudaMemcpyDeviceToHost); for (int i = 0; i < n; i++) { std::cout << "h_c[" << i << "] = " << static_cast<float>(h_c[i]) << std::endl; } cudaFree(d_a); cudaFree(d_b); cudaFree(d_c); return 0; } ``` 这段代码定义了一个简单的 BF16 向量加法内核,并在主机上初始化了输入数据,然后将其复制到设备内存中,执行内核,并将结果复制回主机内存。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值