Amazon EC2 Inf2 实例正式可用 助力更低成本、更高性能的生成式 AI 推理(第三部分)

数据类型 —— Amazon Inferentia2 支持多种数据类型,包括 FP32、TF32、BF16、FP16 和 UINT8,用户可以为工作负载选择最合适的数据类型。它还支持新的可配置 FP8(cFP8) 数据类型,该数据类型特别适用于大模型,因为它减少了模型的内存占用和 I/O 要求。

动态执行和动态输入形状 —— Amazon Inferentia2 具有支持动态执行的嵌入式通用数字信号处理器 (DSP),因此无需在主机上展开或执行控制流运算符。Amazon Inferentia2 还支持动态输入形状,这些形状对于具有未知输入张量大小的模型(例如处理文本的模型)至关重要。

自定义运算符 —— Amazon Inferentia2 支持用 C++ 语言编写的自定义运算符。Neuron 自定义 C++ 运算符使用户能够编写在 NeuronCore 上天然运行的 C++ 自定义运算符。用户可以使用标准的 PyTorch 自定义运算符编程接口将 CPU 自定义运算符迁移到 Neuron 并实现新的实验运算符,所有这些都无需对 NeuronCore 硬件有任何深入了解。

NeuronLink v2 —— Inf2 实例是 Amazon EC2 类型中首个将 NeuronLink V2 用于推理优化的实例,NeuronLink v2 为 Inferentia2 芯片间的提供超高速连接,加强分布式推理性能。NeuronLink v2 使用 all-reduce 等聚合通信(CC)运算符,将高性能推理管道扩展到所有的推理芯片上。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值