Datawhale AI夏令营——「基于CoT范式的DeepSeek模型蒸馏驱动数学推理解题优化挑战赛」的模型优化实践

微调数据集格式类型
Alpaca
shareGPT
背景
起源于Stanford,用于对 LLaMA 模型进行微调
起源于 OpenAI 的 ChatGPT 分享平台
数据格式

{
“instruction”: “请给我一道鸡尾酒相关的数学题”,
“input”: “”,
“output”: “如果一杯白兰地鸡尾酒含酒精30%,另一杯含酒精20%,混合后含酒精25%,问各用了多少毫升?”
}

instruction:让模型做什么的提示
input:可选,补充条件
output:模型应该生成的内容
{
“conversations”: [
{ “role”: “user”, “content”: “你知道什么是白兰地吗?” },
{ “role”: “assistant”, “content”: “当然,白兰地是一种用葡萄酒蒸馏制成的烈酒…” },
{ “role”: “user”, “content”: “可以推荐一种鸡尾酒吗?” },
{ “role”: “assistant”, “content”: “你可以试试 Sidecar,它以白兰地为主料…” }
]
}
每次对话是一个json对象,包含一个conversation数组,里面有role(gpt/人)和content(应该怎么说)

instruction input output——单轮对话
conversations包含角色和内容——多轮对话
场景
指令模型微调、任务执行类
聊天模型微调、对话理解
[图片]
提升能力的两个方面:修改蒸馏的数据集 / 改微调参数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值