2024软件学院创新项目实训(9)--多次评估比对

 本篇文章在记录(6)的基础上,进一步对微调前的模型进行测评,观察微调后的模型是否有更好的表现性能。

执行下列指令对微调前的模型在相同的数据集上进行评估:

python run.py --datasets ceval_gen 
--hf-path /hy-tmp/7B21/internlm2_chat_7b
--tokenizer-path /hy-tmp/7B21/internlm2_chat_7b
--tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True 
--model-kwargs trust_remote_code=True device_map='auto' 
--max-seq-len 1024 
--max-out-len 16 
--batch-size 2 
--num-gpus 1 
--debug

 得到结果:

与上次评估的结果针对最后几行进行对比

量化前

量化后

 可以发现正确率有明显的提高,由此可以得出通过微调,我们得到了一个表现能力和性能更好的模型。

并且对微调后的模型在另一数据集ceval_clean_ppl上进一步评估:

python run.py --datasets ceval_clean_ppl
--hf-path /hy-tmp/7B21/merged 
--tokenizer-path /hy-tmp/7B21/merged 
--tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True 
--model-kwargs trust_remote_code=True device_map='auto' 
--max-seq-len 1024 
--max-out-len 16 
--batch-size 2 
--num-gpus 1 
--debug

得出结果 

C-Eval是目前权威的中文AI大模型评测数据集之一,C-Eval数据集主要用于评测大模型的知识和逻辑推理能力,即大模型是否能够认识和理解广泛的世界知识,并类似人类一样对事物进行推理规划。正确率较高,进步验证微调的结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值