自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 创新项目实训-“师说”——模型微调部分答辩

前者是通过让学生模型模仿教师模型的计算过程,以层间的对齐从而提高学生模型的泛化能力,这需要对模型的结构有较深入的理解,(被Qwen的技术报告劝退)考虑到学习难度选择了后者;但学校提供的是deepseek r1(671B)的调用API,只能得到调用的结果,这也是实践中常用的情景,称为“黑盒蒸馏”,但也是有不错的效果的,常用的方式是:准备某一垂直领域的问答对,调用黑盒模型的api获得问题对应的输出,将此打包成新的问答对作为训练数据来监督微调一个小模型,从而提高小模型在某一垂直领域的能力。

2025-06-14 22:02:57 943

原创 山东大学「师说」项目博客(三)

目前,已完成文本风格迁移任务的核心实现工作,包括技术选型和风格化数据获取同时完成了 Prefix-Tuning 方法的初步实现,并与 LoRA 和 Prompt 工程进行了对比验证。接下来,将重点缓解 Prefix-Tuning 方法的过拟合问题,计划通过引入内容Prefix和任务Prefix,同时采用三种损失函数来进一步优化模型表现。

2025-05-06 18:31:02 1755

原创 山东大学「师说」项目博客(二)

在本地部署 Qwen2.5‑7B‑Instruct作为“Judge”,用于对比模型输出与参考答案的一致性;目的:将带有 Chain‑of‑Thought的问答样本,打包成 SFT 所需的 Chat 格式输入–输出对,供后续微调脚本直接加载。利用 TRL 库中的 SFTTrainer 对 Qwen 系列模型进行指令微调,仅优化模型“回答”阶段的生成质量。对数据进行三轮筛选——质量、难度、多样性,确保最终训练数据既具备严谨性,又富有挑战性和代表性。:快速搭建一套可行的蒸馏流程,提高学生模型在垂直领域的表现。

2025-05-05 23:03:58 1282

原创 师说——知识蒸馏总框架

应用型知识蒸馏框架

2025-04-27 16:34:06 1399

原创 师说——模型微调具体方案(4)—评估

数学推理能力的评估方式及代码

2025-04-27 15:21:15 486

原创 师说——模型微调具体方案(3)—训练数据

s1-main的SFT训练方式

2025-04-27 14:55:23 251

原创 师说——模型微调具体方案(2)—数据预处理

s1-main的数据预处理方式

2025-04-27 14:34:41 241

原创 师说——模型微调具体方案(1)——数据集处理

数据集处理

2025-04-18 22:50:07 494

原创 师说——基础知识补充(2)

粗读《Improved Knowledge Distiling via Teacher Assistant》并提出我们的蒸馏框架

2025-04-18 22:04:51 410

原创 师说——基础知识补充(1)

精读《Distiling Knowledge in a Neural Network》

2025-04-18 20:42:50 201

原创 山东大学「师说」项目博客(一)

山东大学项目实训——师说

2025-03-09 19:01:56 215

原创 山东大学2022级项目实训——师说(张重)

山东大学2022级项目实训博客

2025-03-09 18:38:56 148

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除