书生大模型实战营第四期L1G1000（书生大模型全链路开源体系）

stinkypudding

于 2024-11-04 13:17:14 发布

阅读量764

点赞数 17

分类专栏：书生大模型实战营文章标签：开源语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/stinkypudding/article/details/143482074

版权

书生大模型实战营专栏收录该内容

12 篇文章

订阅专栏

书生大模型实战营第四期L1G1000（书生大模型全链路开源体系）

书生浦语开源时间线

2023.7.6：InternLM-7B开源率先免费商用发布全链条开源工具体系
2023.9.20：InternLM-20B开源，开源开源工具链全线升级
2024.1.17：InternLM2开源，性能超最新同量级开源模型
2024.7.4：InternLM2.5开源

InternLM性能天梯

在这里插入图片描述

InternLM2.5概览

InternLM2.5（书生浦语2.5）是最新一代的书生浦语大模型，其具有领先的推理能力，支持100万字上下文，同时具有自主规划何搜索完成复杂任务的能力。

核心技术思路

书生浦语构建了模型能力飞轮，持续迭代优化模型新能，广泛使用模型参与自身迭代，加速能力提升。

在这里插入图片描述

大模型训练需要海量数据，数据的质量会决定模型的性能。书生浦语自主构建了高质量的合成数据集，融合多种数据合成方案，提升合成数据质量。

基于规则的数据构造：加入代码，数学公式，数学题解等半格式化的数据。
基于模型的数据扩充：利用已有模型对已有数据进行扩充，比如给代码添加注释。
基于反馈的数据生成：利用人类反馈来生成更符合人类偏好的数据。

模型亮点

综合推理能力领先社区开源模型，相对InternLM2性能提升20%。

在这里插入图片描述

100万 Token 的理解和精确处理，性能处于开源模型前列。下图展示了模型的大海捞针能力：

在这里插入图片描述

通过信息搜索和整合，针对复杂问题撰写专业回答，效率提升60倍。

在这里插入图片描述

开源模型谱系

书生浦语开源了多类型，多规模的模型，适应不同的应用场景。

按参数规模：

1.8B：超轻量级，可用于端侧应用或者开发者快速学习上手
7B：模型轻便但性能不俗，为轻量级的研究和应用提供强力支撑
20B：模型的综合性能更为强劲，可以有效支持更加复杂的实用场景
102B：性能强大的闭源模型，典型场景表现接近GPT-4

按应用场景：

InternLM-XComposer（灵笔）：写作
InternLM-Math（数学）：解答数学问题
InternLM-WQX(文曲星)：考试

书生浦语大模型开源链条

书生浦语大模型实现了全链条开源，涵盖了数据集构建，模型预训练，微调对齐，模型部署，性能评测和模型应用的所有方面。

同时，书生浦语与Hugging Face，vLLM等社区生态无缝衔接。

在这里插入图片描述

数据

拥有丰富多样的开放数据，向外提供多种服务和工具，方便数据集的使用。
在这里插入图片描述

数据预处理工具箱

开放了Miner U， Label LLM和Label U等工具，支持对多种模态数据的提取和标注。

在这里插入图片描述

预训练 IternEvo

在这里插入图片描述

大规模训练：支持干卡以上规模训练，千卡加速比可达92%

极致性能优化：4D并行+RingAttention，最高支持1M长文训练

软硬件生态：兼容HuggingFace生态，支持NV与910B等集群

全场景训练：预训练+微调+RLHF，全场景覆盖

微调 XTuner

在这里插入图片描述

适配多种生态
- 多种微调算法
  
  多种微调&偏好对齐算法，覆盖各类应用场景
- 适配多种开源生态
  
  支持加载HuggingFace、ModelScope模型或数据集
- 自动优化加速
  
  开发者无需关注复杂的显存优化与计算加速细节
  
  支持千亿参数+百万上下文训练
适配多种硬件
- 训练方案覆盖NVIDIA20系以上所有显卡
- 最低只需8GB显存即可微调7B模型

XTuner在很多方面都做出了优化

在这里插入图片描述

零显存浪费的偏好对齐训练方案

在这里插入图片描述

OpenCompass 评测体系

OpenCompass是开源的大模型性能评测体系，被广泛应用于头部的大模型企业和科研机构，也是大模型评测国标的主要参与单位。

OpenCompass是工具－基准－榜单单三位一体的评测体系。

在这里插入图片描述

部署 LMDeploy

LMDeploy支持多种开源的LLM和VLM部署，提供多种模型量化方案，拥有领先的推理性能。

在这里插入图片描述

智能体

给大模型加上行动执行能力，将大模型扩展为智能体，可以拓展大模型在获取知识和交互等方面的局限性。

在这里插入图片描述

链条提供了轻量级的智能体框架Lagent，支持多种类型的智能体能力，兼容多种大模型。

智能体demo

在这里插入图片描述

MindSearch

具有互联网信息搜索能力和CoT的搜索智能体。

在这里插入图片描述

知识库构建 HuixiangDou

结合了RAG和KG的企业级知识库构建工具，让大模型的回答更精确，更专业，更符合价值观。

开源：BSD-3-Clasue，免费商用
实战派：应用RAG和KG，1500+知识库，500+用户群，业务数据实测精度
领域知识：7种文档格式，更新立即生效
安全：支持私有化部署，数据不上传
简单便宜：最低仅2G显存，支持现有客户群
扩展性强：2类IM软件，9个LLM接口

总结

书生浦语大模型开源体系涵盖了从数据到训练，从科研到应用，从开发到部署的方方面面，并仍将不断更新，以高质量的开源赋能创新。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。