问题:嬛嬛会出现关系错乱,语言冷淡,胡言乱语的情况
1.前置知识:定制垂类大模型 = 优质数据集 + 开源大模型
做微调的目的是定制一个针对某种情况的垂类大模型
为了实现这点,我们需要定制数据集以及使用上游开源大模型
知识点一:过拟合
知识点二:数据集
对于语言模型来说,微调数据必须是文本。如果你的数据源是WORD、PDF等格式,需要使用专门的解析工具,提取其中的文本。如python的docx、PyPDF2包。
其次,微调数据除了当前对话的输入和输出之外,还有一些其他的属性,如想要大模型扮演的角色、对话历史等等。因此,为了更好地对数据进行处理,通常会对数据进行结构化,并以json或者jsonl的格式进行存储。
数据集的内容决定了一个模型的方向和效果,下面我将从数据集格式和数据集收集方法进行讲解
数据集的格式
具体来说,目前主流的数据集有两种格式: Alpaca 格式和 ShareGPT 格式,其主要特点如下表所示。
详细的AIpaca格式
详细的ShareGPT格式
数据集的收集(重点)
以甄嬛传为例
第一步
我们可以上网搜索甄嬛传剧本或者使用Chat-嬛嬛团队 从网络渠道所搜集到的剧本文档
第十一集
第203幕(续)
甄嬛:兔子急了也会咬人的。
眉庄:可是连苏培盛都棘手的事,陵容却能解决得这么干脆利落,实在是让我太意外了。
甄嬛:虽然意外,可陵容毕竟也是为了咱们。
眉庄:话是如此