Datawhale AI 夏令营：从零开始的数学推理模型蒸馏实践之旅-优快云博客

前言

最近参加了 Datawhale AI 夏令营第二期，主题是"让AI学会数学推理"的模型蒸馏实践。通过科大讯飞的星辰 MaaS 平台，完成了从跑通 Baseline 到模型优化的完整流程。整个过程收获颇丰，特此记录分享。

本次夏令营聚焦在「基于CoT范式的DeepSeek模型蒸馏驱动数学推理解题优化挑战赛」的模型优化实践。主要目标是：

整个学习过程分为三个 Task：

Task1: 跑通 Baseline，体验「让AI学会数学推理」
Task2: 学习「让AI学会数学推理」的重难点
Task3: 学习并持续实践大模型推理，上分

首先需要完成比赛报名，然后下载官方提供的微调数据集。初始的 Baseline 数据集包含 200 条数据，文件大小为1.04MB，格式为 JSONL。

数据集的结构采用 Alpaca 格式：

instruction：数学问题文本
output：包含完整 CoT 推理链的解答过程

在星辰 MaaS 平台上，必须选择 DeepSeek-R1-Distill-Qwen-7B 模型进行微调。这一点在教程中被反复强调，选错模型会不符合题目要求。

创建数据集时需要注意数据映射配置：

prompt 字段映射到：instruction
response 字段映射到：output

第一次训练使用的参数配置如下：

训练完成后，需要点击"发布为服务"，获取 resourceId，然后在比赛平台提交结果。
初始结果：评分 76 分

通过 Task2 的学习，我深入理解了模型蒸馏的核心原理：

教师模型生成推理链数据：使用 DeepSeek-R1 生成高质量思维链数据作为训练目标
蒸馏训练学生模型：选择轻量模型进行 LORA 精调
控制训练方式：避免资源浪费，选择 LORA 精调方式

在优化过程中，我使用了批量推理功能来扩充数据集。通过教师模型对测试集进行推理，获得了更多高质量的训练数据。

在数据上传过程中遇到了格式验证失败的问题，错误提示：文件内容校验失败：请检查文件第1行，instruction 字段未填写。

为了解决这个问题，DataWhale 群里的专业助教助攻了一把，他分享了一个用于处理数据格式转换脚本，通过脚本处理，将原始的推理结果文件转换为符合要求的格式，生成了新的数据集filtered_output.jsonl，包含 400 条数据，文件大小 0.67MB。

基于 Task2 的学习和数据优化，我调整了训练参数：

数据集	使用处理后的 filtered_output.jsonl	400条数据
学习率	调整为 8e-5	降低学习率
训练次数	减少为1	避免过拟合
LoRA随机丢弃	降低为0.01	减少随机性
LoRA缩放系数	提高为32	增强适配器作用
其他参数保持不变