第四期书生训练营-Level1 G1 打卡

wonderbell

已于 2025-02-07 23:58:36 修改

阅读量413

点赞数 3

CC 4.0 BY-SA版权

文章标签：笔记

于 2025-02-06 21:01:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wonderbell/article/details/145481880

书生大模型全链路开源开放体系笔记

1. 体系概述

书生大模型全链路开源开放体系由上海人工智能实验室（AI Lab）推出，是一套覆盖数据、预训练、微调、评测、部署、应用六大环节的完整生态系统。该体系以开源为核心，旨在降低大模型研发与应用门槛，推动通用人工智能发展，尤其强调高性能、多模态支持与全链条工具链的整合。

2. 核心组成与工具链

（1）数据层

书生·万卷多模态语料库：包含文本（1.6万亿Token）、图像（2200万+文件）、视频（1000+文件）等多模态数据，总量超2TB，覆盖科技、教育、法律等领域。数据经过精细清洗、去重与安全过滤，确保高质量与价值对齐。
数据工具：
- MinerU：从PDF、网页等提取文本的一站式工具；
- Label LLM/Label U：支持AI辅助标注的NLP与图像标注工具。

（2）预训练

框架：基于InternLM-Train，支持千卡级分布式训练，显存与通信优化显著，千卡训练效率达90%。
模型迭代：
- InternLM 7B/20B：轻量级与中量级模型，适用于不同场景；
- InternLM 2.5（最新版）：支持百万Token级长文本处理，推理能力提升20%，综合性能超越同量级开源模型。

（3）微调

XTuner工具：支持全参数微调、LoRA/QLoRA等低成本算法，最低仅需8GB显存即可微调7B模型，兼容Llama、ChatGLM等主流模型。

（4）评测

OpenCompass评测体系：覆盖80+评测集、40万道题目，涵盖语言、知识、推理、安全等六大维度，支持零样本、小样本及思维链评测，确保模型性能透明可复现。

（5）部署

LMDeploy框架：支持TurboMind高效推理引擎，量化技术（4/8bit）与有状态对话管理，每秒生成超2000 Token，显著降低部署成本。

（6）应用开发

智能体框架：
- Lagent：轻量级框架，支持ReAct、AutoGPT等模式，集成搜索、计算器等工具；
- AgentLego：多模态工具库，支持视觉、语音等任务。
企业级工具：如茴香豆（知识库构建工具）、MindSearch（AI搜索引擎）。

3. 技术亮点

长上下文处理：支持百万Token级文本窗口，通过“大海捞针”实验验证其精准定位能力。
数据驱动迭代：基于反馈循环优化数据质量，结合规则构造、模型扩充与人工反馈，持续提升模型性能。
多模态融合：书生·万卷语料库与InternVL2.5模型支持文本、图像、视频等多模态任务。

4. 应用场景

通用任务：文本生成、翻译、问答、代码生成等。
行业应用：
- 智能客服：多轮对话与工具调用；
- 医疗：辅助诊断与知识检索；
- 教育：个性化学习与智能评测。
复杂场景：通过智能体框架实现跨API调用、数据库操作等环境交互任务。

5. 开源生态与社区

开源历程：自2023年起逐步开源模型（如InternLM 7B/20B）及工具链，支持免费商用。
开发者支持：
- 实战营与挑战赛：提供案例与算力资源（如中国算力网试验场）；
- GitHub资源：完整代码库、文档与社区协作。
产学研合作：与高校、企业共建生态，推动技术落地。

参考资料：

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。