书生大模型全链路开源开放体系是一个涵盖数据处理、模型预训练、微调、评测、推理以及智能体开发框架等应用的全流程的开放平台,旨在为学术研究者、开发者和行业应用提供全面的支持。该体系由多个模块组成,包括数据处理的书生·万卷、预训练框架InternEvo、微调工具Xtuner、评测体系OpenCompass、推理框架LMDeploy、应用包含思索式搜索引擎MindSearch、智能体开发框架Lagent、高效文档解析工具MinerU,以及基于专业知识库的群聊助手HuixiangDou。
一、数据处理书生·万卷
“书生·万卷”是大模型语料数据联盟开源发布的高质量大模型多模态预训练语料。“书生·万卷” 1.0包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。该语料数据包含超过5亿个文本,2,200万个图文交错文档,1,000个节目影像视频,具备多元融合、精细处理、价值对齐、易用高效等四大特征。
1、万卷文本数据集1.0
数据集由来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料组成,数据总量超过5亿个文档,数据大小超过1TB。该语料将html、text、pdf、epub等多种格式的数据统一处理为字段统一的jsonl格式,并经过细粒度的清洗、去重、价值对齐,形成了一份安全可信、高质量的预训练语料。
2、万卷图文数据集1.0
数据集主要来自公开网页,经处理后形成图文交错文档。文档总量超过2200万个,数据大小超过140GB(不含图片),覆盖新闻事件、人物、自然景观、社会生活等多个领域。数据均为统一的jsonl格式,其中图片以url的形式给出。
3、万卷视频数据集1.0
数据集主要来自中央广播电视总台和上海文广集团等,包含多种类型的节目影像,视频文件数超过1000个,数据大小超过900GB。内容覆盖军事、文艺、体育、自然、真实世界、知识类、影像艺术、媒体、美食、历史纪录片、科教类等方面。
二、预训练框架InternEvo
InternEvo是书生体系中的核心预训练框架,集成了主流的Transformer架构优化技术,支持大规模分布式训练。InternEvo不仅能够对大规模通用数据进行高效预训练,还具备适应领域特定任务的能力。该框架支持多种硬件加速技术,能够充分利用算力资源,提高训练效率。此外,InternEvo还内置了多种预训练策略,如自监督学习和多模态融合,以进一步提升模型的泛化能力。
三、微调工具Xtuner
Xtuner是书生体系中的高效微调工具,专为适应不同下游任务的需求而设计。它支持各种微调策略,如参数高效微调(PEFT)、领域适应微调等,帮助开发者快速将大模型应用到实际场景中。Xtuner还具备自动超参数搜索功能,能够智能化地选择最佳微调配置,从而在保证精度的同时减少计算资源的消耗。Xtuner适配多种硬件,最低只需8GB显存即可微调7B模型。
四、评测体系OpenCompass
OpenCompass是书生体系中开放且全面的评测平台,覆盖了自然语言理解、生成、对话、推理等多种任务场景。OpenCompass提供标准化的评测指标和基准数据集,支持定制化评测流程,帮助开发者全面评估模型在不同任务上的表现。该平台还包含跨领域评测功能,能够检验模型在不同领域的适应性,为模型的优化提供精确指导。
五、推理框架LMDeploy
LMDeploy是书生大模型的推理部署框架,专为大规模模型的高效推理而设计。该框架支持多平台部署,如云端、边缘端及本地设备,并提供了灵活的模型压缩与量化工具,显著降低推理时的计算资源消耗。LMDeploy还支持异构硬件加速和模型裁剪技术,帮助开发者在不同计算环境下实现最优的推理性能。
六、典型应用场景
1. 思索式搜索MindSearch
MindSearch是书生体系中的智能搜索引擎,采用了思索式搜索(cognitive search)技术,通过理解用户意图和上下文语境,为用户提供精准的多模态搜索结果。MindSearch不仅支持常规的文本搜索,还具备图像、音频、视频等多模态数据的搜索能力,是知识获取和信息探索的重要工具。
2. 智能体框架Lagent
Lagent是书生体系中的智能体开发框架,支持多种智能体的构建与调试。Lagent提供了模块化设计的架构,开发者可以根据需求自由组合功能模块,快速创建面向特定任务的智能体。该框架还内置了行为建模和决策推理工具,帮助开发者实现复杂环境下的自主智能体开发。Lagent广泛应用于机器人、虚拟助手及智能监控等领域。
3. 高效文档解析工具MinerU
MinerU是书生体系中的高效文档解析工具,专注于从复杂文档中提取结构化信息。该工具支持多种文档格式,并结合自然语言处理与信息抽取技术,能够从半结构化或非结构化的文本中快速提取出有价值的信息。MinerU特别适用于合同解析、学术文献处理等场景,帮助用户高效完成信息的收集与整理。
4. 群聊助手HuixiangDou
HuixiangDou是一款基于专业知识库的群聊助手,能够在群体对话中提供智能化的知识支持与协作建议。通过结合领域知识与自然语言处理技术,HuixiangDou能够准确理解对话中的问题,并基于知识库快速生成有针对性的回答和建议。该工具特别适用于学术、科研以及专业领域的协同讨论与决策。
书生大模型全链路开源开放体系涵盖了从数据处理到模型应用的完整流程,集成了多个先进工具和框架。通过书生体系,开发者能够高效构建、优化并部署各种大模型应用,实现从理论到实践的无缝连接。