1.1 收集可能的数据集素材
可以百度自己自己大模型的数据,比如我的心灵氧吧,我就会去找心理治疗的类似对话。
1.2 构建对应格式的数据集
自己找来的格式不一定是Alpaca或者是ShareGPT,需要修改自己的数据集。像我找的心灵谈话数据集就比较大,一个一个处理比较麻烦,所以我写了一段python代码自动处理。
1.3选择合适的基础模型(maa5平台)
可以通过不同基础模型来测试那个基础模型对自己的数据集处理能力最强来选择。
1.4 配置微调参数
参数,在我学的知识中,这种可以调节的参数被称为超参数,对于模型影响的效果不亚于基础模型对结果的影响。所以谨慎的选择适合自己模型的超参数至关重要。
最后
我想谈谈我做这个垂直模型的初衷,因为我觉得生活中大多数人或多或少都有心理疾病,但是因为成本,或者不希望别人知道等原因不愿意去线下的心理治疗,但是有这个的话就可以帮助到这么一部分人。