csg-wukong-1B模型:OpenCSG让高端AI技术走向大众

文章介绍了OpenCSG团队的csg-wukong-1B预训练模型,该模型具有小参数量、低推理成本和强大的性能,使用了多个阶段的训练策略和优化的训练框架。模型已在Huggingface社区获得大量下载,且团队将持续改进和扩展模型系列。

01   关于csg-wukong模型

csg-wukong是OpenCSG算法团队自研的预训练模型系列,其中base模型csg-wukong-1B是具有1B参数量的small language model(SLM)预训练模型。csg-wukong-1B具有参数量小、推理成本低、性能强悍等优点,可支持多种适用场景并灵活适配下游微调任务。

csg-wukong-1B模型在预训练阶段第一阶段采用了1T (3 epoch)tokens英文通用语料数据,其中包括了the pile、wikipedia、Commoncrawl、C4、StackExchange、Github、arxiv等数据集;在第二阶段训练使用了30B tokens合成数据,它们是通过gpt4、mixtral 8X7B、QWEN-72B 综合蒸馏得到的高质量训练数据,通过合适的数据配比完成了第二阶段的训练。

csg-wukong-1B在16张H800卡上进行了为期43天的预训练,这个消耗是很多研究者、企业、高校都可以接受的范围;同时由于模型仅有1B参数量,部署成本非常低,可以在个人PC、手机、各类IOT边端设备上进行部署,所以这是一个每个人都能负担得起的模型。

csg-wukong-1B模型下载与体验地址:

传神社区下载:https://opencsg.com/models/OpenCSG/csg-wukong-1B

传神社区模型在线体验:https://opencsg.com/spaces/OpenCSG/csg-wukong-1B

Huggingface社区:https://huggingface.co/opencsg/csg-wukong-1B

其中cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值