帮助LLM初学者快速入门
在大型语言模型(LLM)领域,模型如GPT、LLaMA、GLM等虽然表现出色,但它们庞大的参数量(高达100亿)使得个人设备难以承担训练和推理的显存需求。仅仅通过如LoRA等微调技术来让这些大模型学习新指令的方式并未触及大模型学习的本质。同时,市面上充斥着大量付费课程和订阅服务,它们提供的AI教程质量参差不齐,进一步增加了学习者理解LLM的难度。

本文推荐的开源项目旨在大幅降低使用LLM的门槛,完全从0开始,最快仅用3小时!即可训练出仅为26M大小的微型语言模型MiniMind!
-
MiniMind的体积仅为GPT-3的千分之一,使得即使是最普通的个人GPU也能轻松进行快速推理和训练。
-
MiniMind在DeepSeek-V2和Llama3的基础上进行了改进,涵盖了数据处理、预训练、监督式微调(SFT)、LoRA微调以及直接偏好优化(DPO)等完整阶段,并集成了混合专家(MoE)模型。
-
该项目不仅是一个开源模型,也是一个LLM入门教程,旨在激发更多创新。
项目链接:https://jingyaogong.github.io/minimind/
在线体验:https://www.modelscope.cn/studios/gongjy/minimind
- 开源项目内容概述及模型简介
=================
期望这个项目能够成为LLM初学者的快速入门工具,项目包含:
-
公开MiniMind模型代码(包含Dense和MoE模型)、Pretrain、SFT指令微调、LoRA微调、DPO偏好优化的全过程代码、数据集和来源。
-
兼容transformers、accelerate、trl、peft等流行框架。
-
训练支持单机单卡、单机多卡(DDP、DeepSpeed)训练。训练过程中支持在任意位置停止,及在任意位置继续训练。
-
在Ceval数据集上进行模型测试的代码。
-
实现Openai-Api基本的chat接口,便于集成到第三方ChatUI使用(FastGPT、Open-WebUI等)。
minimind训练了3个型号模型,最小仅需26M(0.02B),即可具备流畅的对话能力!
| 模型 (大小) | tokenizer长度 | 推理占用 | release | 主观评分(/100) |
|---|---|---|---|---|
| minimind-v1-small (26M) | 6400 | 0.5 GB | 2024.08.28 | 50’ |
| minimind-v1-moe (4×26M) | 6400 | 1.0 GB | 2024.09.17 | 55’ |
| minimind-v1 (108M) | 6400 | 1.0 GB | 2024.09.01 | 60’ |
该分析在一个带有Torch 2.1.2、CUDA 12.2和Flash Attention 2的RTX 3090 GPU上运行。

MiniMind-Dense(和Llama3.1一样)使用了Transformer的Decoder-Only结构,跟GPT-3的区别在于:
-
采用了GPT-3的预标准化方法,也就是在每个Transformer子层的输入上进行归一化,而不是在输出上。具体来说,使用的是RMSNorm归一化函数。
-
用SwiGLU激活函数替代了ReLU,这样做是为了提高性能。
-
像GPT-Neo一样,去掉了绝对位置嵌入,改用了旋转位置嵌入(RoPE),这样在处理超出训练长度的推理时效果更好。

2. 数据源及对话效果
Pretrain数据:Seq-Monkey通用文本数据集由多种公开来源的数据汇总清洗而成,包括网页、百科、博客、开源代码、书籍等。数据以JSONL格式整理,并经过严格筛选和去重,确保全面性、规模、可信性和高质量。数据总量约10B token,适合中文大语言模型的预训练。
SFT数据:匠数大模型SFT数据集是一个完整、格式统一、安全的大模型训练和研究资源。该数据集从网络上的公开数据源收集并整理了大量开源数据集,进行了格式统一和数据清洗,包含10M条数据的中文数据集和2M条数据的英文数据集。总量约3B token,适合中文大语言模型的SFT。
DPO数据:大约合并后共8万条dpo数据,这些人工标注的偏好数据均来自活字模型,可用于训练奖励模型,优化模型回复质量,使其更符合人类偏好。
更多数据集:HqWu-HITCS/Awesome-Chinese-LLM 在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料。

对话测试效果

对话测试效果
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

MiniMind助力大模型AI快速入门学习

被折叠的 条评论
为什么被折叠?



