学习链接:
Datawhale task2
赛题解读
本次比赛的核心任务是:
基于提供的开源高等数学题数据集,通过模型蒸馏技术,训练出一个轻量级、推理能力强、可生成完整推理过程(CoT链)的学生模型
解题思考过程
我们可以将建模过程分为 5 步:
数据准备
清洗官方提供的数据
补充格式统一的公开数学题(可选)
格式为:{“input”: 题目, “output”: 推理过程 + 答案}
教师模型生成推理链数据(CoT)
使用 deepseek_r1生成高质量思维链数据作为训练目标
蒸馏训练学生模型
选择轻量模型deepseek_r1_qwen_7b / 14b / 32b(支持 LoRA)
使用步骤2中的数据进行模型精调
控制训练方式避免资源浪费(选择LoRA精调)
模型评估与调优
验证模型在测试题上的解答准确性与推理质量
调整蒸馏数据比例、模型结构、训练参数等
模型发布与提交
使用讯飞星辰平台部署模型,获得 resourceid
提交用于评测并优化得分(准确率 + 逻辑性 + 效率 + 体积)

推理后创建数据集,按照task1的方法进行零代码精调,可以得到更好的新成绩。

395

被折叠的 条评论
为什么被折叠?



