Intel® Extension for PyTorch* v2.6.0+cpu:为英特尔®至强®6平台带来全面AI优化
Intel® Extension for PyTorch*是英特尔为PyTorch深度学习框架提供的性能优化扩展库,专门针对英特尔硬件平台进行了深度优化。该扩展库能够显著提升PyTorch在英特尔CPU上的性能表现,特别是在AI推理和训练场景中。
全面支持英特尔®至强®6平台
最新发布的v2.6.0版本带来了对英特尔®至强®6 P-core平台的全面优化支持。至强®6处理器采用了全新的微架构设计,提供了更多核心数量、更高的内存带宽和卓越的I/O性能。此次更新在v2.5版本基础优化之上,进一步扩展了对多种典型AI模型的优化支持,包括:
- 推荐系统模型:DLRM
- 自然语言处理模型:Bert-Large
- 计算机视觉模型:ViT
- 生成式AI模型:Stable Diffusion、LCM
- 大语言模型:GPT-J、Llama等
这些优化使得开发者能够在至强®6平台上获得更出色的性能表现,充分发挥新硬件平台的潜力。
大语言模型(LLM)优化新特性
v2.6.0版本在大语言模型优化方面带来了多项重要更新:
-
权重仅量化(WQ)增强:
- 支持基于INT8的计算,充分利用至强®6的AMX-INT8指令集
- 在张量并行模式下支持GPTQ/AWQ量化方法
- 支持加载INT4量化检查点并进行张量并行处理
-
低精度计算优化:
- 引入FP8 KV缓存技术,减少内存占用
- 支持FP16通用数据类型
- 为NF4权重启用INT8低精度模式
-
新模型支持:
- 新增对Falcon3、DeepSeek V2.5和Jamba等最新发布的大语言模型的优化支持
这些优化使得开发者能够在保持模型精度的同时,显著提升推理性能,降低内存需求,为部署大语言模型提供了更多灵活性。
性能优化与问题修复
除了新特性外,v2.6.0版本还包含了一系列性能优化和问题修复:
- 对大语言模型推理性能进行了多方面优化,包括内核改进和内存访问模式优化
- 修复了Llama3-11b-vision模型在权重仅量化模式下的正确性问题
- 升级底层oneDNN库至v3.6.2版本,带来更优的矩阵运算性能
- 改进了GPTQ策略下的分片检查点加载功能
这些改进不仅提升了扩展库的稳定性和可靠性,也为开发者提供了更加流畅的使用体验。
总结
Intel® Extension for PyTorch* v2.6.0+cpu版本为开发者提供了针对英特尔最新硬件平台的全面优化支持,特别是在大语言模型领域带来了多项创新特性。无论是对于推荐系统、计算机视觉还是生成式AI应用,这个版本都能帮助开发者在英特尔平台上获得最佳性能表现。
对于正在使用或考虑使用PyTorch框架在英特尔平台上部署AI应用的开发者来说,升级到这个新版本将能够充分利用最新硬件特性,获得显著的性能提升和更丰富的功能支持。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考