菜叶子_-优快云博客

原创 AI Agent学习：MetaGPT之我的工作

对于llm 如果max_model_len不能承受更多的话，需要修改metagpt\provider\openrouter_reasoning.py对于rag案例：需要修改metagpt\rag\schema.py。

2025-12-16 19:01:19 295

原创 AI Agent学习：MetaGPT项目之debate.py

从debate函数开始看。

2025-12-14 21:02:44 817 1

原创 AI Agent学习：MetaGPT项目之RAG

examples文件夹下分析rag_pipeline.py用到的类RAGExample。

2025-12-14 16:34:23 966

原创集群网络技术2：流量控制与拥塞管理PFC & ECN/DCQCN

它负责处理突发的、剧烈的流量洪峰，防止缓冲区溢出导致丢包。它保证的是。

2025-11-05 20:04:46 469

这个过程涉及多次上下文切换（用户态/内核态切换）和内存拷贝，消耗大量的CPU周期和内存带宽。它的核心思想是绕过操作系统内核，实现网络中一台计算机的网卡直接访问另一台计算机的内存。InfiniBand：专为RDMA设计的网络，从硬件层就原生支持RDMA，性能最好，但需要专用的交换机和网线，成本高。iWARP：另一种在TCP/IP上实现RDMA的协议，但由于TCP的复杂性，其性能和延迟通常不如RoCE。1.零拷贝：数据直接从应用的用户态内存发送到远程网卡，并写入远程应用的用户态内存，无需经过内核缓冲区。

2025-11-05 20:01:56 341

原创 sglang笔记1：后端详细阅读版

对应2 return await raw_request.app.state.openai_serving_completion.handle_request(

2025-07-15 19:39:55 1359

原创结合猛猿博客阅读VLLM代码6：Model_runner内部机制和 load_model

由前面的图可知每个worker内部的工作都是让model_runner去做初始化：_initialize_model 函数一个key（hf类），然后它会去找这个key在vllm中对应的python class实现（vllm类），最终用这个vllm类做实例化。利用registry.py 建立这样一个key->value的mapping关系加载模型参数：load_weights 函数self._get_all_weights函数。

2025-07-12 11:00:00 808

原创结合猛猿博客阅读VLLM代码5: 离线和在线推理

六.倒回去看llm.py llm类看函数 generate函数和chat函数这个放在下面异步和同步的内容offline看benchmarks\benchmark_throughput.pymain函数入手backend 为vllm ，async_engine==False为default(1)进入run_vllm函数定义LLM 到vllm\entrypoints\llm.pyLLM 定义LLEngine 到vllm\v1\engine\llm_engine.py。

2025-07-11 10:00:00 776

原创结合猛猿博客阅读VLLM代码4: KV Cache Manager

已计算3token] [缓存4token] [新6token] [块1:3token] [块2:4token] [块3:4token] [块4:2token][已计算8token] [新3token] [预分配] [块1:4token] [块2:4token] [块3:3token] [块4:空][已计算6token] [新5token] [块1:4token] [块2:4token] [块3:3token]场景 1: 基础分配（无前缀缓存）场景 3: 带预分配的复杂场景。场景 2: 前缀缓存命中。

2025-07-10 09:45:00 1073

原创结合猛猿博客阅读VLLM代码3：Scheduler

四. 在__init__函数定义sheduler(vllm/vllm/v1/engine/core.py的init) 这里延伸要看vllm/vllm/v1/core/shed/scheduler.py。目标：在每个调度步骤（step）中，分配计算资源（如 GPU 算力），使各请求的 num_computed_tokens 尽可能接近 num_tokens_with_spec。这个调度器设计实现了高效、公平的资源分配，同时支持多种高级优化技术，是大规模语言模型推理的关键组件。无阶段划分，统一调度。

2025-07-09 11:52:47 1355

原创结合猛猿博客阅读VLLM代码2:Worker和Executor

然后到vllm/vllm/v1/engine/core.py分支1.看initialize_kv_caches函数分支2.看step函数。

2025-07-09 11:47:33 492

原创结合猛猿博客阅读VLLM代码1：EngineCoreClient

看这个博主讲VLLM讲得得很好，但是具体找到这个位置和如何走到这个位置我这篇博文更详尽把我找代码脱丝剥茧的过程写详尽，并且穿插猛猿老师的博客内容。然后找到 vllm/vllm/v1/engine/core_engine.py。然后到 vllm/vllm/v1/engine/core_client.py。设计目标：提供不同并发模型下与引擎核心（EngineCore）通信的方案。ZMQ + 后台进程 + asyncio。适用：高并发API服务（如Web服务器）AsyncLLM（高并发异步服务）

2025-07-08 17:47:35 556

原创如何用一台服务器用dify私有部署通用的大模型应用？

Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务（Backend as Service）和LLMOps的理念，使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员，也能参与到 AI 应用的定义和数据运营过程中。由于 Dify 内置了构建 LLM 应用所需的关键技术栈，包括对数百个模型的支持、直观的 Prompt 编排界面、高质量的 RAG 引擎、稳健的 Agent 框架、灵活的流程编排，并同时提供了一套易用的界面和 API。

2025-06-18 22:31:17 1287

原创 MCP简介及简单实践教程

随着 Agent 应用的快速普及，开发者在工具开发和接入方面普遍遇到一系列挑战，工具开发缺乏统一的规范，导致开发效率低下；重复适配不同平台，增加了开发成本和时间；开源社区组件质量参差不齐，高质量工具的整合和维护往往耗费大量精力。MCP 协议正是在这一需求下应运而生，为行业带来了新的解决思路和价值。MCP（Model Context Protocol）协议是由 Anthropic 推出的业界领先的开放标准，旨在构建大模型与数据源之间的安全双向链接，解决了社区中工具实现风格不统一、难以跨模型共享的问题。

2025-04-26 09:33:08 870

原创 AI创作教程：用deepseek和猫箱做互动故事游戏

年轻的时候我看过典型的玛丽苏文学、小妞文学，老了虽然识破这是给女孩编织的琉璃般的梦，看起来梦幻美丽其实一击就碎，会伤人的碎渣渣。【叠甲完毕】现在我来造梦玛丽苏梦。这个梦境里让所有聪明、强壮的男人都为我疯狂！首先，我先联系自身背景开始写一个背景。请你帮我写一个橙光互动游戏剧本，假如故事女主角是AI芯片公司的技术支持工程师，和同事在外抢修设备的故事，还有外出出差遇见前男友，以及和同居男友，玩家互动剧本要体现三男一女的爱恨纠葛以及体现女生的职业专业素养。是的，万人迷且专业。

2025-02-25 17:08:02 2410

原创 AI视频创作教程：如何用AI让古画动起来。

AI作画让古画焕发生机

2025-02-16 16:05:50 1367

原创 Deepseek系列从v3到R易背面经版

训练时：1. 把前一个block中input tokens经过embedding layer和transformer block的输出，进入output head之前的内容记为h，与下一个block的input tokens经过embedding layer输出的内容都经过rmsnorm后concat 再送入projection和block。这是causal chain的连接关系，在embedding层增加了残差链接。

2025-02-09 09:34:30 1526

原创 AI智能体实验: AI黄小厨教你做菜

实验范围：扣子、AgentBuilder/AppBuilder【简称ABs】、智谱清言实验设计：构造黄小厨为大家做菜你是黄小厨，一位自学成才的天才厨师。你在常年的家庭做饭经验中总结并积累了自己的烹饪原则，你在教授用户具体的操作步骤和烹饪方法时，需要严格遵循你的烹饪原则。你的烹饪原则如下：豆角从来不煮熟，豆角煮熟会有营养的流失，你要向用户传达这一点；任何炖煮类的菜肴，你都遵循不加一滴水，用两斤黄酒熬煮来代替；炒菜时能徒手操作的步骤不使用工具，比如打鸡蛋用手搅、西红柿直接用手捏碎；

2024-12-21 10:43:08 1021

原创菜叶子芯酸笔记4：大模型训练、分布式训练、显存估算

大模型训练任务主要分为以下三种模型训练过程。预训练pretrain监督微调 supervised finetune training奖励模型 reward model。

2024-11-15 12:42:57 1034

原创菜叶子芯酸笔记3：GPU、GPGPU、CUDA之间的关系；CUDA之外；Tensor Core

接手CPU传来的顶点数据，包括顶点的位置、法线、颜色、纹理坐标等，对其进行转换、光照处理以及坐标空间变换，计算得到每个顶点的最终属性。早期阶段，GPU的渲染管线被称为固定功能管线，此时渲染管线各阶段的处理单元是固定的，开发人员不可以改动，不能直接控制GPU内部的计算过程。主要发生在CPU中，CPU准备后续渲染所需的数据，将数据，包括3D模型的顶点、纹理、光照、摄像机参数等，发送给GPU。对以上得到的片元进行裁剪测试、透明度测试、深度测试、模板测试和混合等操作，然后写入到帧缓冲区，最终显示在计算机屏幕上。

2024-10-26 11:27:11 1546

原创菜叶子芯酸笔记2：服务器、互联技术和AI芯片参数解读

这种架构的系统只具有垂直扩展能力，当需要扩展系统时，通过在节点上增加更多的CPU、内存和硬盘来扩大系统的能力。AI服务器主要有两种架构，一种是混合架构，可以将数据存储在本地，另一种是基于云平台的架构，使用远程存储技术和混合云存储（一种联合本地存储和云存储的技术）进行数据存储。是新一代的总线接口。它采用了目前业内流行的点对点串行连接，比起PCI以及更早期的计算机总线的共享并行架构，每个设备都有自己的专用连接，不需要向整个总线请求带宽，而且可以把数据传输率提高到一个很高的频率，达到PCI所不能提供的高带宽。

2024-10-22 11:08:09 1015

原创菜叶子芯酸笔记1：芯片的基本概念、种类、产业链和生产工序

对于客户（ODM，Original Design Manufacturer，原始设计制造商，比如华勤，闻泰做AIoT的，还有很多很多啦）提出需求后，在芯片设计部分，主要分模拟芯片设计和数字芯片设计，这里数字芯片设计，基本上都会用到EDA（Electronic design automation）设计工具，EDA服务供应商做得较为有名的有Synopsys（‌新思科技）、‌Cadence（‌楷登电子）和‌Siemens EDA（原‌Mentor Graphics，被‌西门子收购后更名）；图是GPU的设计结构。

2024-10-13 21:58:35 2266

原创超详细有手就行的0基础入码攻略：新手学习编程

我觉得以我浅薄一年的工作经验来看，做IT工程师是很容易有成就感的，也是一直反复于陷入难题的痛苦，解决问题的快乐的循环状态的工作。我工作之后觉得纸上得来终觉浅，还是要不停在实践上摸爬滚打，现实里的问题多好多，比如需求定义，寻找工具，学习接口文档，快速实现原型，怎么与人合作，怎么在甲方现场摆平事情等等。的课，线代讲义照样刷，我觉得线性代数是非常重要的，和研究生的矩阵计算课程可谓小巫见大巫，前后承接，包括我现在搞cuda，简化加速代码都用到这里的知识，非常感恩遇到李永乐老师！这个我菜我是知道的。

2024-07-04 22:26:52 686

原创国产化AI推理部署系统集成工作的经验心得

一般来说，很多厂商的给的SDK demo都名目繁多，比如华为的昇腾推理的示例超级多，并且超级乱，cann samples还有mindx，谁看谁迷糊，有机会一定要问，提issue或者观察一下人家写的和自己内部要兼并的SDK有无共同之处。如果有一些对齐变量的需求，比如格式转换，图片格式，变量格式等等，一般厂商提供的某个相关的库里会有用到的函数，注意版本如果不是最新，翻看最新的版本文档。比如python的版本要求，还有不同的系统之分，多的我也不懂了，反正得有这一步，因为我之前有因为版本的原因重新搞一遍的。

2024-06-25 21:25:31 451

原创深入浅出细嗦Remini黏土特效技术原理

Remini黏土特效实现原理：带你点亮AIGC技能的入门理解！

2024-06-06 14:43:18 1412

原创 AI冲击浪潮下，AI工程师的技术壁垒在哪里？

他说补充基础是必要的，还给我推了一些国外有名的相关课程，说最好把lab做做，自己简单造点轮子。【well, very interesting,bro】他不想研究这个，认为包括DL（深度学习）这些没有道理的东西都不要搞，最好回归数据库或者基础设施类的研究，除去DL，别有洞天，这些也是容易建立资历和技术壁垒的研究领域。我内心是认同他的观点的，可能是经过长时间“优绩主义”好学生思维的洗脑，也可能是因为我并没有受过正统规范的CS（计算机科学技术）教育，我一直感觉我基础不是很好，我读研期间没有规划，总是在玩。

2024-05-29 12:35:07 595 1

原创本地私有部署LLM的开源资源分享与评鉴

ollama是一个简明易用的本地大模型运行框架，可以在消费级计算机运行llama.cpp项目的16位浮点精度(FP16)或4-bit量化的模型。Langchain-chat chat这是一个由国内开发者基于当下流行的LangChain进一步开发的推理框架，它同时支持多种国内外本地大语言模型和在线模型API，除了基础的LLM对话，还集成了文档阅读、本地向量知识库、在线搜索引擎API、Agent等。我们会很偶然地遇到有这种本地部署，不联网的需求，至于为什么我已经不愿解释，因为我也不懂为什么。

2024-05-29 11:31:57 1144

原创初级菜鸟学Langchain实录！

https://gitee.com/cyz6668/langchain-simple-rag 整理好了，欢迎踩踩。

2024-04-25 22:38:39 683 1

原创 GAI在游戏业务场景应用的困境

除此之外，游戏会给予一定的反馈。比如游戏中的山鲁佐德对于国王的反应解读：“我要注意自己的言行了，国王会生气，把我杀了”，此时玩家就要注意回应AI的说法。游戏玩家将扮演在古老的波斯帝国中嫁给残暴国王的山鲁佐德新娘，为了向邪恶的国王复仇，用魔法将语言化为现实，采集讲故事过程中与国王对话得到的珍奇武器，最后杀死国王。他们都有属于自己的人生，特定的性格，玩家通过互动参与或插手各类NPC的江湖事务、配合或主导奇案的侦破，遵循市井传闻的蛛丝马迹触发奇遇，这些都会在游戏中产生蝴蝶效应，彻底改变他们的命运轨迹与剧情导向。

2024-03-27 08:59:56 1094

原创高效使用AI辅助办公：提示词已经不那么重要！

直接一句“请帮我写一个关于xxx的论文”“请给我讲一个好笑的故事”等等都是不ok 的.比如你需要写一篇关于新能源汽车的论文，或者科研工作。比如说学习React框架，不要问说学习React框架有什么内容，而是说我要用React框架做一个个人博客网页，要实现xxxx功能，问具体可以参考文档什么部件，有什么开源代码之类的。从模型训练来说，这个就是指一定大的体量的模型在一定大体量的数据训练经过一定时间而涌现出来的与人类智力表现相似的能力。可以在对话中进行一定的反馈，chatGPT可以根据你的反馈优化生成的内容。

2024-03-06 20:24:56 516 1

原创 Stable diffusion不同模型变量的work pipeline：checkpoint、lora、vae等等到底是怎么work together的？

SD里面有很多不同种类的模型参数，比如embedding、vae、checkpoint、hypernetwork、controlNet、clip还有lora，我看了很多博客，发现它们都是言语寥寥几句说什么改变风格，用于调整和改善生成图片的色彩之类的有点废话的废话。但是，卡片目录不是将您定向到特定的书，而是为图书馆中的每本书列出一个列表，并且为每本书提供附加说明。打个比方：SD生成一张随机噪声，去图书馆，拿出与提示中第一个标记匹配的书，在书本说要寻找的随机噪声中寻找特征，然后根据书上的说明进行小的改动。

2024-02-21 21:16:08 2812

原创在Tensorrt、openvino的YOLOv5预处理与后处理

也就是src_img到dst_img的变换是以(-scale * src_width * 0.5 + dst_width * 0.5,-scale * src_height * 0.5 + dst_height * 0.5)为左上起点，宽高以scale倍数拉拉长拉拉宽。我的理解是这里取了dst_img像素个数多的线程存块用于计算，一个线程所在的位置代表在dst_img的位置，位置之间的关系是position=dy*dst_width+dx。由此得到lx，ly，hx，hy，为到向上和向下取整的距离。

2024-02-05 15:04:40 2319 2

原创我用Stable Diffusion做电商！

如果你要开淘宝网店，那么在淘宝网页上展示的商品就要漂亮精致，紧紧抓住消费者的心♥！这里介绍很简单的利用AI绘画局部逐渐美化女装商品展示图的方法。面向不同的人群市场可以做不同的模特，不用请人了哦！借鉴了一些视频和方法，我总结了一些我觉得实用性较高，也比较简单的步骤。ok, 比如我（不具有做模特资质的小美女）穿好了我卖的漂亮衣服摆好pose摆几张啦！我这里选的是很经典的majicmixRealistic_v7。一定要是realistic的，真人照片风格的底模。我是运营网店的女装店主，我没有钱请模特了。

2024-02-01 22:02:29 2005 1

原创超详细NCNN内存分配算法（小白必看，不懂打我）

ncnn分配内存

2023-12-08 21:03:07 1078

qq_64955200的博客