- 博客(6)
- 收藏
- 关注
原创 书生大模型实战营第五课笔记
有状态的推理是指在缓存中存储内容和token,第一次请求时会创建新的序列,并将token和KV的block存储在缓存中。有状态的推理支持无限长的上下文,但在实际使用中,可能只支持较长的上下文。动态处理是大模型和新设计方法的特点,原来的模型多为生成模型和encoder模型。1. 模型部署是将训练好的模型在特定软硬件环境cpu、tpu、npu啥的上运行,并接受输入并输出特定输出的过程。3. 大模型是动态的,在推理过程中需要将模型放在batch中,并且生成的token数量是动态变化的。
2024-02-21 17:21:36
191
原创 书生大模型实战营第四课笔记
这课不同于第三课,第三课是给模型外挂一个知识库,将用户输入的问题和知识库都传送进interlm,得到最后的输出。这节课是微调模型,自己感觉可能微调的性能会更好(看完这节课再说)。大语言模型是在很多很多数据上进行无监督或半监督训练。增量预训练很好理解,指令跟随不太清楚指令跟随,感觉是像在问问题之前,给系统设定一个某个专业方向的身份,让回答专业一些。感觉是在用户输入之前加了很大一段设定(系统身份)的话,让回答更加准确。这个看起来像是监督训练,给定数据和标签,然后计算输出和标签的损失,将其降到最小。
2024-02-20 19:21:08
1826
原创 书生大模型实战营第三课笔记
对于用户输入,转化成向量,找到相似文本,写到prompt template中,最后交给interlm 最后输出。输入文本向量化,匹配相似文本,嵌入prompt,输入interlm,输出结果。只包含更新时间点之前到知识,高昂的训练成本导致多次训练保证时效性无法实现。第三课:基于 InternLM 和 LangChain 搭建你的知识库。本地文档,转化为文本,分割,转化成向量,存到向量数据库。具有较好的知识广度,细挖垂直领域的专业知识就不行了。新建demo文件夹,新建create_db.py文件。
2024-02-18 23:39:29
244
原创 书生大模型实战营第二课笔记
第二课:两个demo:对话、lagent工具调用。大模型:大量数据训练、参数数十亿,性能惊人。上海人工智能实验室开源两个:interlm-7B和20B灵笔是视觉语言大模型:可创作图文。interlm-7B动手实践:lagent工具调用灵笔图文创作安装包的时候快一些。创建开发机三种开发方式bash # 请每次使用 jupyter lab 打开终端时务必先执行 bash 命令进入 bash 中。
2024-01-15 00:11:01
1348
1
原创 书生大模型实战营第一课笔记
关注不同维度的能力,选型,评估业务场景,复杂的话 要微调,要交互的话 构建智能体,微调后试用并评测,最后解决部署问题,资源占用和吞吐量。万卷数据2TB、预训练 优化了训练效率、微调 全参数和低成本微调、 部署 全链路部署、 评测 公开排行榜、 应用 轻松搭建智能体。介绍了书生浦语全链条的开源开放体系,包括从数据到云训练到微调、到部署、到评测、到应用的完整流程。有精度微调是让模型理解和遵循指令的过程。数据:文本、图像和视频数据,涵盖了科技、文学、媒体、教育和法律等领域。跟Llama70B差不多。
2024-01-14 21:22:29
801
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人