#DataWhale AI 冬令营 || 2.1 定制垂类大模型

原创

已于 2024-12-16 15:35:37 修改 · 399 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #开发语言

于 2024-12-15 21:32:33 首次发布

问题：嬛嬛会出现关系错乱，语言冷淡，胡言乱语的情况

1.前置知识：定制垂类大模型 = 优质数据集 + 开源大模型
做微调的目的是定制一个针对某种情况的垂类大模型

为了实现这点，我们需要定制数据集以及使用上游开源大模型

知识点一：过拟合

知识点二：数据集
对于语言模型来说，微调数据必须是文本。如果你的数据源是WORD、PDF等格式，需要使用专门的解析工具，提取其中的文本。如python的docx、PyPDF2包。

其次，微调数据除了当前对话的输入和输出之外，还有一些其他的属性，如想要大模型扮演的角色、对话历史等等。因此，为了更好地对数据进行处理，通常会对数据进行结构化，并以json或者jsonl的格式进行存储。

数据集的内容决定了一个模型的方向和效果，下面我将从数据集格式和数据集收集方法进行讲解

数据集的格式
具体来说，目前主流的数据集有两种格式： Alpaca 格式和 ShareGPT 格式，其主要特点如下表所示。

详细的AIpaca格式

详细的ShareGPT格式

数据集的收集（重点）
以甄嬛传为例

第一步
我们可以上网搜索甄嬛传剧本或者使用Chat-嬛嬛团队从网络渠道所搜集到的剧本文档

第十一集

第203幕（续）
甄嬛：兔子急了也会咬人的。
眉庄：可是连苏培盛都棘手的事，陵容却能解决得这么干脆利落，实在是让我太意外了。
甄嬛：虽然意外，可陵容毕竟也是为了咱们。
眉庄：话是如此，可是我总还觉得这不像我日日面对的那个陵容。
（陵容在屏风外听得对话，默然离去。）

第204幕
（翊坤宫）
华妃：死绝了？
颂芝：死得透透的了，拉去乱葬岗的时候，有人亲眼瞧见。下手可真够狠的，脖子都勒断了半根，可吓人了。
华妃：那些没根儿的东西，做事倒是挺利落的。也难怪呀，她连皇上身边的人都敢得罪，活该她有今天。她没说漏了嘴吧？
颂芝：一句都没有。
华妃：算她识相。从前小看了那个病歪歪的甄

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。