学习心得：从Datawhale-AI夏令营活动看大模型蒸馏实践关键点-优快云博客

一、核心认知突破

API调用细节决定成败
- 多次强调Authorization头部必须包含Bearer前缀（如"Bearer <token>"），否则导致数据生成失败（如空JSON文件）。
- 启示： 文档的精确匹配与社区经验（如评论中用户Chryl-K的提醒）能避免低级错误。
高质量数据集是模型蒸馏的生命线
- 用户Asteroid指出：教师模型（如GPT-4）生成答案时可能引入错误，污染训练数据。
- 解决方案：
  - 人工模板控制问题多样性（如小梦的方法）：固定问题模板（例：{车次}号车的检票口是？），确保问题与表格字段强相关。
  - 答案校验机制：需设计规则过滤教师模型的错误输出（如对缺失数据生成“未知”的合理性待验证）。
模型蒸馏的本质是能力迁移
- 通过教师模型生成SFT数据集 → 学生模型（如Qwen3-8B）微调，实现：
  - 低成本推理：小模型部署更高效
  - 保留核心能力：学生模型学会“如何从结构化数据中推理答案”而非死记硬背（回应天朗的疑问）。

数据清洗必须前置
- 针对缺失数据（如无到站时间），官方建议清洗而非回答“未知”（🐱🐱Amy回复）；但用户努力努力再努力认为需明确处理逻辑，避免评分模糊。
- 行动建议： 在数据预处理阶段补充缺失值或过滤无效条目。
Baseline的随机性与优化空间
- 分数波动（如53分 vs 57分）源于大模型生成答案的随机性（🐱🐱Amy解释）。
- 优化方向：
  - 更换教师模型（如更大参数模型）提升SFT数据质量
  - 引入LoRA等轻量微调技术降低计算成本（小梦提到）。
Prompt设计的陷阱
- 避免开放式问题导致教师模型“虚构答案”（如推荐类问题）。
- 正确路径：
  - 硬编码问题模板 → Text2SQL定位数据行 → 生成答案指令（🐱🐱Amy回复阿白）。

心得多维度总结