#DataWhale AI 冬令营 || 2.1 定制垂类大模型

问题:嬛嬛会出现关系错乱,语言冷淡,胡言乱语的情况

1.前置知识:定制垂类大模型 = 优质数据集 + 开源大模型
做微调的目的是定制一个针对某种情况的垂类大模型

为了实现这点,我们需要定制数据集以及使用上游开源大模型

知识点一:过拟合
 

知识点二:数据集
对于语言模型来说,微调数据必须是文本。如果你的数据源是WORD、PDF等格式,需要使用专门的解析工具,提取其中的文本。如python的docx、PyPDF2包。

其次,微调数据除了当前对话的输入和输出之外,还有一些其他的属性,如想要大模型扮演的角色、对话历史等等。因此,为了更好地对数据进行处理,通常会对数据进行结构化,并以json或者jsonl的格式进行存储。

数据集的内容决定了一个模型的方向和效果,下面我将从数据集格式和数据集收集方法进行讲解

数据集的格式
具体来说,目前主流的数据集有两种格式: Alpaca 格式和 ShareGPT 格式,其主要特点如下表所示。

详细的AIpaca格式

详细的ShareGPT格式

数据集的收集(重点)
以甄嬛传为例

第一步
我们可以上网搜索甄嬛传剧本或者使用Chat-嬛嬛团队 从网络渠道所搜集到的剧本文档

第十一集
 
第203幕(续)
甄嬛:兔子急了也会咬人的。
眉庄:可是连苏培盛都棘手的事,陵容却能解决得这么干脆利落,实在是让我太意外了。
甄嬛:虽然意外,可陵容毕竟也是为了咱们。
眉庄:话是如此

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值