[模型量化]-大模型量化效果评价-Qwen2.5-72B

1.量化评价评价

本文主要对qwen2.5-72B-Instruct模型的量化效果进行评价,分别从模型精度损失和模型推理服务性能提升两个方面进行评测。

评测工具使用evalscope,该工具可以对模型的精度和性能进行评测,简单易用,且带有ui界面方面效果对比。

2.量化过程

2.1 量化工具

msit/msmodelslim

msit/msmodelslim/example/Qwen · Ascend/msit - AtomGit | GitCode

2.2 量化命令过程

w8a8

python3 quant_qwen.py \
        --model_path {/path/to/origin_weights} \
        --save_directory {/path/to/quantize_weight} \
        --device_type npu \
        --calib_file {/path/to/common/qwen_mix_dataset.json} \ 
        --w_bit 8 --a_bit 8 \
         --anti_method m4 --act_method 1 --trust_remote_code True

w4a16

python quant_qwen.py \
          --model_path {/path/to/origin_weights} \
          --save_directory {/path/to/quantize_weight} \
          --device_type npu \
          --calib_file {/path/to/common/qwen_mix_dataset.json} \
          --w_bit 4 \
          --a_bit 16 \
          --is_lowbit True \
          --open_outlier False \
          --group_size 128 \
          --anti_method m3 \
          --trust_remote_code True

3.量化效果评价

3.1 模型精度损失评价

评测工具evalscope

测试数据集工包括9个子集,包括mmlu-pro、ceval、math-500、aime2024等,共计3030条数据(各子集最大500条,如果超过500进行随机采样,不足500按实际样本数量)

精度

code

math&science

chinese

english

最大精度损失

bf16

0.2912

0.7349

0.8532

0.8300

0

w8a8

0.2802

0.7225

0.8484

0.8258

0.012

w4a16

0.2747

0.7088

0.8436

0.8320

0.0261

3.2 模型性能评价

性能评价使用2个case——输入1k输出128,输入2k输出2k,分别进行1-60并发,步长10的梯度压测。

同等部署资源8卡,时延优先, 对比可提供的并发路数。

SLO要求10token/s(TPOP 100ms)

1k输出ttft,5s;2k输出ttft,10s

精度

单实例部署卡数

单实例并发路数

1k-128

8卡并发

提升倍率

bf16

8

70

70

1

w8a8

4

35

70

1.125

w4a16

2

10

40

0.53

同等部署资源-8卡,吞吐优先, 对比可提供的并发路数。

端到端时延1k-128 < 25s。2k-2k <180s:

精度

单实例部署卡数

单实例吞吐

1k-128

8卡吞吐

提升倍率

bf16

8

5

5

1

w8a8

4

3.7

7.4

1.46

w4a16

2

0.9

3.6

0.58

3.2.1 baseline

inputoutputpool_numTTFT_p90TPOT_avge2e_P90QPS
102412810.2150.0314.5590.243
100.430.0426.3481.726
200.7330.0548.2432.687
302.9480.06210.6863.332
402.6150.07212.7593.785
502.9660.08414.4844.11
605.040.09416.6874.36
705.0580.10618.5514.571
804.7740.11620.9394.735
906.8920.12823.0414.86
1006.9940.13725.2275.001

3.2.2 w8a8

1k-128:

### 输入1k 输出128
╭──────────────────────────────────────────────────────────╮
│ Performance Test Summary Report                          │
╰──────────────────────────────────────────────────────────╯

Basic Information:
┌───────────────────────┬──────────────────────────────────┐
│ Model                 │ Qwen2p5_72B_Instruct_w8a8        │
│ Total Generated       │ 148,400.0 tokens                 │
│ Total Test Time       │ 401.95 seconds                   │
│ Avg Output Rate       │ 369.20 tokens/sec                │
└───────────────────────┴──────────────────────────────────┘


                                    Detailed Performance Metrics                                    
┏━━━━━━┳━━━━━━┳━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┓
┃      ┃      ┃      Avg ┃      P99 ┃    Gen. ┃      Avg ┃     P99 ┃      Avg ┃     P99 ┃   Success┃
┃Conc. ┃  RPS ┃  Lat.(s) ┃  Lat.(s) ┃  toks/s ┃  TTFT(s) ┃ TTFT(s) ┃  TPOT(s) ┃ TPOT(s) ┃      Rate┃
┡━━━━━━╇━━━━━━╇━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━┩
│    1 │ 0.24 │    4.652 │    4.706 │   33.32 │    0.221 │   0.281 │    0.032 │   0.032 │    100.0%│
│   10 │ 1.50 │    6.659 │    6.709 │  210.02 │    1.288 │   1.672 │    0.039 │   0.042 │    100.0%│
│   20 │ 2.28 │    8.747 │    8.813 │  318.60 │    2.662 │   3.201 │    0.044 │   0.062 │    100.0%│
│   30 │ 2.75 │   10.913 │   11.009 │  384.46 │    3.661 │   4.848 │    0.052 │   0.077 │    100.0%│
│   40 │ 3.10 │   12.897 │   12.989 │  433.73 │    4.592 │   6.345 │    0.060 │   0.091 │    100.0%│
│   50 │ 3.36 │   14.878 │   15.037 │  470.00 │    5.325 │   7.962 │    0.069 │   0.105 │    100.0%│
│   60 │ 3.56 │   16.857 │   16.944 │  497.80 │    6.204 │   9.494 │    0.077 │   0.119 │    100.0%│
└──────┴──────┴──────────┴──────────┴─────────┴──────────┴─────────┴──────────┴─────────┴──────────┘


               Best Performance Configuration               
 Highest RPS         Concurrency 60 (3.56 req/sec)          
 Lowest Latency      Concurrency 1 (4.652 seconds)  

3.2.3 w4a16

1k-128

###########################################################
## 输入1k 输出128

Basic Information:
┌───────────────────────┬──────────────────────────────────┐
│ Model                 │ Qwen2p5_72B_Instruct_w4a16       │
│ Total Generated       │ 148,400.0 tokens                 │
│ Total Test Time       │ 1081.93 seconds                  │
│ Avg Output Rate       │ 137.16 tokens/sec                │
└───────────────────────┴──────────────────────────────────┘


                                    Detailed Performance Metrics                                    
┏━━━━━━┳━━━━━━┳━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┓
┃      ┃      ┃      Avg ┃      P99 ┃    Gen. ┃      Avg ┃     P99 ┃      Avg ┃     P99 ┃   Success┃
┃Conc. ┃  RPS ┃  Lat.(s) ┃  Lat.(s) ┃  toks/s ┃  TTFT(s) ┃ TTFT(s) ┃  TPOT(s) ┃ TPOT(s) ┃      Rate┃
┡━━━━━━╇━━━━━━╇━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━┩
│    1 │ 0.14 │    8.049 │    8.141 │   19.28 │    0.548 │   0.580 │    0.054 │   0.055 │    100.0%│
│   10 │ 0.66 │   15.048 │   15.247 │   92.93 │    3.703 │   4.791 │    0.082 │   0.103 │    100.0%│
│   20 │ 0.77 │   25.883 │   26.033 │  108.09 │    7.744 │   9.387 │    0.131 │   0.179 │    100.0%│
│   30 │ 0.96 │   31.306 │   31.401 │  134.08 │   10.431 │  13.898 │    0.150 │   0.216 │    100.0%│
│   40 │ 1.08 │   37.150 │   37.236 │  150.67 │   13.209 │  18.607 │    0.172 │   0.261 │    100.0%│
│   50 │ 1.18 │   42.518 │   42.672 │  164.55 │   15.641 │  23.223 │    0.193 │   0.296 │    100.0%│
│   60 │ 1.24 │   48.241 │   48.378 │  174.06 │   18.295 │  28.012 │    0.215 │   0.341 │    100.0%│
└──────┴──────┴──────────┴──────────┴─────────┴──────────┴─────────┴──────────┴─────────┴──────────┘


               Best Performance Configuration               
 Highest RPS         Concurrency 60 (1.24 req/sec)          
 Lowest Latency      Concurrency 1 (8.049 seconds)  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值