- 博客(1)
- 收藏
- 关注
原创 利用Intel transformers拓展包加速CPU大模型推理
Intel Extension for Transformers 使用了多种优化技术来提升深度学习模型的性能。主要包括:量化(Quantization):通过减少模型参数的位数来减小模型大小并加速推理过程。提供了包括AWQ,SmoothQuant在内的先进量化技术;混合精度(Mixed Precision):使用不同的数据类型(如bfloat16、int8)来平衡计算速度和精度;与Intel CPU的SIMD指令结合加速推理;FP8数据类型:使用8位浮点数来进一步压缩模型;
2024-05-28 19:02:25
812
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人