- 博客(12)
- 收藏
- 关注
原创 创新项目实训-“师说”——模型微调部分答辩
前者是通过让学生模型模仿教师模型的计算过程,以层间的对齐从而提高学生模型的泛化能力,这需要对模型的结构有较深入的理解,(被Qwen的技术报告劝退)考虑到学习难度选择了后者;但学校提供的是deepseek r1(671B)的调用API,只能得到调用的结果,这也是实践中常用的情景,称为“黑盒蒸馏”,但也是有不错的效果的,常用的方式是:准备某一垂直领域的问答对,调用黑盒模型的api获得问题对应的输出,将此打包成新的问答对作为训练数据来监督微调一个小模型,从而提高小模型在某一垂直领域的能力。
2025-06-14 22:02:57
943
原创 山东大学「师说」项目博客(三)
目前,已完成文本风格迁移任务的核心实现工作,包括技术选型和风格化数据获取同时完成了 Prefix-Tuning 方法的初步实现,并与 LoRA 和 Prompt 工程进行了对比验证。接下来,将重点缓解 Prefix-Tuning 方法的过拟合问题,计划通过引入内容Prefix和任务Prefix,同时采用三种损失函数来进一步优化模型表现。
2025-05-06 18:31:02
1755
原创 山东大学「师说」项目博客(二)
在本地部署 Qwen2.5‑7B‑Instruct作为“Judge”,用于对比模型输出与参考答案的一致性;目的:将带有 Chain‑of‑Thought的问答样本,打包成 SFT 所需的 Chat 格式输入–输出对,供后续微调脚本直接加载。利用 TRL 库中的 SFTTrainer 对 Qwen 系列模型进行指令微调,仅优化模型“回答”阶段的生成质量。对数据进行三轮筛选——质量、难度、多样性,确保最终训练数据既具备严谨性,又富有挑战性和代表性。:快速搭建一套可行的蒸馏流程,提高学生模型在垂直领域的表现。
2025-05-05 23:03:58
1282
原创 师说——基础知识补充(2)
粗读《Improved Knowledge Distiling via Teacher Assistant》并提出我们的蒸馏框架
2025-04-18 22:04:51
410
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅