领域LLM九讲——第1讲 通过LLM构建问答语料数据集

部署运行你感兴趣的模型镜像

1.1 技术背景

通过Esay Dataset构建用于LLM SFT的问答语料数据,并用于lamma-factory微调

1.2 技术流程

1.2.1 Easy Dataset 镜像启动

源码Code

1) 免去中间一些繁杂步骤,直接通过docker pull 下载最新的imgae:

docker pull passerbyjia/easy-dataset:latest

2)启动镜像并访问

Note: 注意更换 {data_save_path}为本地预储存路径;另外网路要用全局:–network=host

docker run -d -p 1717:1717 -v {data_save_path}:/app/local-db  --network=host  --name  easy-dataset passerbyjia/easy-dataset:latest 

访问l链接:http://localhost:1717/

1.2.2 构建数据集合

1) 创建并上传多个样本数据

准备对应领域的txt、doc数据样本进行构建;这里我用了一篇哲学书籍为实例,具体按如下图所示:

  1. 通过ollama构建LLM
    由于Easy-Dataset只支持api或者ollama方式,为了省¥,直接本地构建即可,建议构建两个模型,一个容易出错:在这里插入图片描述

  2. 生成文本快chunk

  3. 生成chunk对应问题
    在这里插入图片描述

  4. 构建数据在这里插入图片描述

  5. 导出数据集为llama-factory格式
    在这里插入图片描述

1.2.3 导入到llama-factoru项目中

前面我们指定了data_save_path,注意是本地路经而不是镜像里的路径; 将data_info.json(架构)和alpaca.json(问答对)放入到llama-factory/data文件夹下的文件

这里给一个data_info.json示例:
在这里插入图片描述

到这里,我们已经完成了数据集的制作和导入

1,3 下一步工作

虽然上面的数据以及可以构建起LLM 微调工作,但是LLM选择和幻觉问题仍然是比较头痛的事情,因此下一步工作我们会详细挑选一个领域(跑分),针对于小模型微调,使其能够达到其更大参数量模型的效果。

附录

本人github项目地址:https://github.com/oncecoo
欢迎关注!

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值