【Task2】【Datawhale AI夏令营】模型蒸馏

学习链接:
Datawhale task2

赛题解读

本次比赛的核心任务是:
基于提供的开源高等数学题数据集,通过模型蒸馏技术,训练出一个轻量级、推理能力强、可生成完整推理过程(CoT链)的学生模型

解题思考过程

我们可以将建模过程分为 5 步:

数据准备
清洗官方提供的数据
补充格式统一的公开数学题(可选)
格式为:{“input”: 题目, “output”: 推理过程 + 答案}

教师模型生成推理链数据(CoT)
使用 deepseek_r1生成高质量思维链数据作为训练目标

蒸馏训练学生模型
选择轻量模型deepseek_r1_qwen_7b / 14b / 32b(支持 LoRA)
使用步骤2中的数据进行模型精调
控制训练方式避免资源浪费(选择LoRA精调)

模型评估与调优
验证模型在测试题上的解答准确性与推理质量
调整蒸馏数据比例、模型结构、训练参数等

模型发布与提交
使用讯飞星辰平台部署模型,获得 resourceid
提交用于评测并优化得分(准确率 + 逻辑性 + 效率 + 体积)

批量推理

推理后创建数据集,按照task1的方法进行零代码精调,可以得到更好的新成绩。

数据集

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值