书生大模型全链路开源开放体系

书生大模型全链路开源开放体系笔记

书生大模型全链路开源开放体系是由上海人工智能实验室推出的一套完整的大模型生态系统。该体系包含了从数据收集整理、数据标注、模型训练、模型微调、模型评测,到基于模型的agent、RAG、搜索引擎,最后到AI应用的部署的全链路解决方案,并且所有工具和方案都已开源。

书生大模型的开源之路始于2022年7月6日,当时InternLL模型(即书生浦玉大模型)7B模型率先免费开源并免费商用,并发布了全链条的开源工具体系,包括X-Tuner微调工具和LM Deploy部署工具等。随后,Intern LM 20B中量级模型于2022年9月底发布,适用于中小企业和科研机构。2023年1月,Intern LM 2.0开源,性能超越同量级开源模型。2023年7月初,Intern LM 2.5开源,性能获得质的飞跃。

书生大模型全链路开源开放体系的核心技术思想是不断反馈的过程。通过发布第一版模型后,不断对数据进行过滤、智能评估、指令生成辅助标注、对齐数据和预训练数据,从而获得第二个版本的模型,循环往复迭代过程。数据质量驱动模型性能,高质量的合成数据使用了基于规则的数据构造、基于模型的数据扩充和基于反馈的数据生成等策略。

书生大模型全链路开源开放体系还包含了预训练框架Intern Evo、微调框架X-Tuner、评测体系OpenCompass、部署框架LM Deploy、智能体框架Lagent、搜索引擎MindSearch和企业级知识库构建工具huixiangdou等。这些工具和框架均支持多种开源模型和国产大模型,提供了丰富的功能和接口,方便用户进行模型训练、微调、部署和评测等操作。

书生大模型全链路开源开放体系的推出,为用户提供了从数据到预训链、微调、部署、评测到应用的全链路解决方案,降低了大模型研发和应用门槛,加速了通用人工智能的发展。

书生大模型全链路开源开放体系的内容还包括了以下几个方面:

  1. 数据方面:书生万卷预训练预料库包含了30多个模态的数据集,总共7700多个数据集,数据大小达到180TB,包括60亿图像、1万亿token的语料、2万小时音频、8亿片段视频以及100万个3D模型。

  2. 数据提取工具:MinerU是一站式的开源高质量数据提取工具,可以直接从PDF、网页、电子书等生成文本内容。Label LLM和Label U是用于NLP任务和图像分割、分类、检测等任务的标注工具,支持AI辅助标注。

  3. 预训练框架:Intern Evo进行了显存优化和分布式训练通信优化,降低了硬件要求,提高了效率。

  4. 微调框架:X-Tuner支持增量域训练、指令微调、多模态微调和QLORA、LORA等算法的微调,兼容多种开源数据格式,基于OpenMM Lab的MM Engine引擎进行优化加速。

  5. 评测体系:OpenCompass是开源社区最完善的评测体系之一,提供高时效性的高质量评测机,支持高效评测和能力分析,发布权威榜单,助力通用人工智能发展。

  6. 部署框架:LM Deploy支持多种开源模型和国产大模型的部署,提供Python、RESTful、GRPC等推理接口,支持TurboMind和PyTorch推理引擎,以及LayOpenAI服务和Gradial、TreeTone推理服务。

  7. 智能体框架:Legend支持React、ReWoo和AutoGBT三种智能体框架,支持多种大语言模型,可以调用本地Intern LM或GBT。

  8. 搜索引擎:MindSearch是基于AI和搜索结果的搜索引擎,可以模拟人脑的思维逻辑,进行问题分析和解决。

  9. 企业级知识库构建工具:HuixiangDou支持检索增强生成RAG和知识图谱的可解释行为,已构建1500多个知识库和500多个用户群,具有安全、简单、便宜、扩展性强等特点。

书生大模型全链路开源开放体系的推出,为用户提供了从数据到预训链、微调、部署、评测到应用的全链路解决方案,降低了大模型研发和应用门槛,加速了通用人工智能的发展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值