结论:1. 单机内部,tp并行,速度比tp并行,要快。
分析:并发较少时,tp并行,所有卡都忙碌;pp并行,同时只有1张卡在忙碌。
2. tp并行,增大并发数,吞吐量显著增大。400个请求,串行:225秒全部完成,4路并行:128秒全部完成。(和线上A10卡的结论有偏差,线上并行比串行只增加10%的吞吐量)。
3. context并行,基本和tp并行的性能持平,没有变化。
4. int8_kv_cache,性能:基本和tp并行的性能持平;精度:60--跌到-->30
5. 中文xiaoice chat的calibration数据集,相比英文的数据集,精度不升反降。
Triton+TensorRT-LLM在70B模型上的多组实验
最新推荐文章于 2025-03-05 19:58:31 发布