Datawhale AI夏令营——「基于CoT范式的DeepSeek模型蒸馏驱动数学推理解题优化挑战赛」的模型优化实践

原创于 2025-07-23 09:43:49 发布 · 273 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

微调数据集格式类型
Alpaca
shareGPT
背景
起源于Stanford，用于对 LLaMA 模型进行微调
起源于 OpenAI 的 ChatGPT 分享平台
数据格式

{
“instruction”: “请给我一道鸡尾酒相关的数学题”,
“input”: “”,
“output”: “如果一杯白兰地鸡尾酒含酒精30%，另一杯含酒精20%，混合后含酒精25%，问各用了多少毫升？”
}

instruction：让模型做什么的提示
input：可选，补充条件
output：模型应该生成的内容
{
“conversations”: [
{ “role”: “user”, “content”: “你知道什么是白兰地吗？” },
{ “role”: “assistant”, “content”: “当然，白兰地是一种用葡萄酒蒸馏制成的烈酒…” },
{ “role”: “user”, “content”: “可以推荐一种鸡尾酒吗？” },
{ “role”: “assistant”, “content”: “你可以试试 Sidecar，它以白兰地为主料…” }
]
}
每次对话是一个json对象，包含一个conversation数组，里面有role（gpt/人）和content（应该怎么说）

instruction input output——单轮对话
conversations包含角色和内容——多轮对话
场景
指令模型微调、任务执行类
聊天模型微调、对话理解
[图片]
提升能力的两个方面：修改蒸馏的数据集 / 改微调参数

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。