
书生·浦语大模型实战营(第二期)
文章平均质量分 61
本专栏包括书生·浦语大模型实战营(第二期)的学习笔记
Thomas Bob
这个作者很懒,什么都没留下…
展开
-
第2节笔记
实战部署InternLM2-Chat-1.8B实战部署 优秀作品 八戒-Chat-1.8B实战进阶 运行Lagent智能体Demo实战进阶 灵笔InternLM-XComposer2其中,第一个内容是基础作业,需要使用 InternLM2-Chat-1.8B 模型生成 300 字的小故事(据我所知,不是所有模型版本都有1.8B的,这个1.8B的模型应该是专门开源出来便于大家实践的,相较于7B和20B,这个1.8B的模型就小很多,在本地也可以比较方便地实现);原创 2024-04-25 23:27:48 · 365 阅读 · 1 评论 -
第3节笔记
茴香豆是一个基于LLM的群聊助手。原创 2024-04-25 23:22:51 · 622 阅读 · 1 评论 -
第5节笔记
可扩展的KV 缓存器 类似于内存池和页式管理,用到了kv cache。涵盖了LLM任务的全套轻量化、部署和服务功能包。原创 2024-04-25 23:18:40 · 351 阅读 · 1 评论 -
第4节笔记
很多大语言模型基本是为了普遍性的任务去做预训练的,叫做底座模型或者foundation模型;如果想利用它来完成特定的下游任务的话,就需要进行领域内的微调。除了添加System、User等,还需要对数据添加起始符和结束符,大部分模型都是使用。,数据中会有input和output,所以只需要对output部分计算loss。QLoRA 加载4bit量化后的模型和adapter的优化器。可以看下图所做的操作算是旁路分支,增加了两层。LoRA 加载模型和adapter的优化器。全参数微调 加载模型和参数优化器。原创 2024-04-25 23:15:51 · 283 阅读 · 1 评论 -
第7节笔记
面向未来拓展能力维度评测体系需增加新能力维度,如数学、复杂推理、逻辑推理、代码和智能体等,以全面评估模型性能。扎根通用能力 聚焦垂直行业在医疗、金融、法律等专业领域,评测需结合行业知识和规范,以评估模型的行业适用性。高质量中文基准针对中文场景,需要开发能准确评估其能力的中文评测基准,促进中文社区的大模型发展。性能评测反哺能力迭代通过深入分析评测性能,探索模型能力形成机制,发现模型不足,研究针对性提升策略。原创 2024-04-25 20:52:57 · 1580 阅读 · 1 评论 -
第7节作业
OpenCompass大模型评测实战作业文章目录OpenCompass大模型评测实战作业基础作业进阶作业基础作业使用 OpenCompass 评测 internlm2-chat-1_8b 模型在 C-Eval 数据集上的性能进阶作业将自定义数据集提交至OpenCompass官网原创 2024-04-25 20:52:28 · 269 阅读 · 1 评论 -
第6节作业
使用 Lagent 或 AgentLego 实现自定义工具并完成调用。完成 Lagent Web Demo 使用。完成 AgentLego WebUI 使用。完成 AgentLego 直接使用部分。用 AgentLego 自定义工具。用 Lagent 自定义工具。原创 2024-04-25 16:19:03 · 264 阅读 · 1 评论 -
第6节笔记
大语言模型的局限性幻觉模型可能会生成虚假信息,与现实严重不符或脱节。时效性模型训练数据过时,无法反应最新趋势和信息。可靠性面对复杂任务时,可能频发错误输出现象,影响信任度。可以感知环境中的动态条件。能采取动作影响环境。能运用推理能力理解信息、解决问题、产生推断、决定动作。原创 2024-04-25 16:16:01 · 872 阅读 · 1 评论 -
第5节作业
以命令行方式与 InternLM2-Chat-1.8B 模型对话。使用Transformer库运行模型。配置 LMDeploy 运行环境。使用LMDeploy与模型对话。原创 2024-04-23 00:33:35 · 179 阅读 · 0 评论 -
第4节作业
XTuner微调LLM:1.8B、多模态、Agent作业文章目录XTuner微调LLM:1.8B、多模态、Agent作业基础作业基础作业训练自己的小助手认知训练过程训练结束微调后的对话测试微调前的对话测试Web demo 部署原创 2024-04-22 23:38:44 · 238 阅读 · 0 评论 -
第3节作业
【代码】第3节作业。原创 2024-04-14 23:32:43 · 1980 阅读 · 1 评论 -
第2节作业
浦语·灵笔2。原创 2024-04-02 23:35:09 · 273 阅读 · 1 评论 -
第1节笔记
团队使用了一个高效、轻量级的预训练框架InternEvo进行模型训练,该框架使团队能够在数千个GPU上扩展模型训练。为了进一步提高GPU内存效率,InternEvo集成了各种零冗余优化器策略,显著减少训练所需的内存占用。此外,为了提高硬件利用率,团队采用了FlashAttention技术和混合精度训练与BF16。InternEvo在数千个GPU上训练InternLM时表现出强大的扩展性能,如下图所示。InternEvo还表现出强大的序列长度缩放。大模型成为发展通用人工智能的重要途径。原创 2024-03-30 21:00:48 · 999 阅读 · 0 评论