Zrpchuang-优快云博客

原创从Attention到Flashattention

给定批大小 (B)、头数 (H)、序列长 (N)、每头维度 (d)（因此DH⋅dDH⋅dQ∈RN×dK∈RN×dV∈RN×dQ∈RN×dK∈RN×dV∈RN×dSQK⊤d形状N×N\quad (\text{形状 } N \times N)SdQK⊤形状N×NPsoftmax⁡S（逐行 softmax）\quad \text{（逐行 softmax）}P。

2025-10-17 10:41:10 620 3

传统的数据并行和模型并行方案会造成大量参数、梯度、优化器状态的重复存储，显著浪费显存，导致模型规模无法继续扩展。ZeRO 的目标是，让单个设备能够承载更大的模型。并行训练往往面临的问题，拖慢整体训练速度。ZeRO 通过优化内存分布与并行策略，在减少冗余的同时保持，实现近乎线性的扩展。模型并行虽然能扩展规模，但实现复杂、调试困难，非系统专家难以使用。ZeRO 提供了一种通用、透明的方式，使研究者能在的情况下，直接训练更大的模型。所以，

2025-09-15 14:58:03 719

原创 FastAPI：Python 高性能 Web API 框架

通过 HTTP/HTTPS 暴露服务（多为 JSON）；强调稳定的“接口契约”（路径、方法、参数、返回、状态码）。SGI（Asynchronous Server Gateway Interface）是什么：Python Web 领域的（可理解为 WSGI 的下一代）。它规定了之间如何协作，统一了调用接口，使不同的 ASGI 服务器（Uvicorn/Hypercorn/Daphne）能跑同一种“ASGI 应用”（Starlette/FastAPI/Quart 等）。为什么需要它（WSGI 的局限）

2025-09-11 15:11:57 2038

原创 Docker入门

→ 私有镜像仓库地址（相当于 Docker Hub，但这是公司内部的 Registry）。，自带了 PyTorch 2.6、Python 3.10 和 Ubuntu 22.04。私有：Harbor、阿里云镜像服务。容器本身稳定，可能在提供长期服务（例如模型推理 API）。常见：bridge（默认）、host、overlay。每个容器都有唯一 ID，用于管理和操作容器。解决“容器删除 → 数据丢失”的问题。容器与容器、容器与外部通信的方式。包含运行所需的程序、库、配置。容器可以启动、停止、删除。

2025-09-11 10:03:08 542

原创 128. 最长连续序列

该算法通过哈希集合存储数字，以O(1)时间判断元素是否存在。遍历时，仅对每个连续序列的起始数字（即num-1不存在的数字）进行处理，向后查找连续数字并更新最大长度。这种方法确保每个数字最多被访问两次（插入和查找），整体时间复杂度为O(n)。示例1中，最长连续序列[1,2,3,4]长度为4；示例2序列[0,1,...,8]长度为9。算法高效解决了无序数组的最长连续序列问题。

2025-09-04 14:08:38 234

原创强化学习PPO-＞DPO

本文介绍了大模型训练中从PPO到DPO的技术演进。主要内容包括：1）RLHF三阶段流程（预训练语言模型、训练奖励模型、强化学习微调）；2）PPO算法的局限性，如依赖额外奖励模型、训练成本高、偏差问题等；3）DPO方法的数学推导，通过直接优化偏好数据避免独立奖励模型训练。文章通过公式详细展示了如何从PPO目标函数推导出DPO，最终实现更高效的对齐优化。

2025-09-04 09:14:17 1817 1

原创 49. 字母异位词分组（哈希）

该算法将字母异位词分组，通过排序字符串作为键建立哈希映射。具体步骤：1)遍历字符串数组，对每个字符串排序得到键；2)将原始字符串存入对应键的哈希桶中；3)最后收集所有哈希桶作为结果。时间复杂度主要取决于排序，为O(nklogk)，其中n是字符串数量，k是字符串最大长度。空间复杂度为O(nk)。给你一个字符串数组，请你将字母异位词组合在一起。可以按任意顺序返回结果列表。1.字母异位词映射到同一个桶。2.映射方式是通过排序实现。

2025-09-03 18:31:06 216

原创 Qwen2.5-VL

Qwen2.5-VL 的整体架构由。

2025-09-02 15:16:14 415 1

原创 N皇后问题的排列树做法（递归&非递归）

回溯法，俗称暴力搜索。用排列树的方法的话实际上是枚举全排列，因为皇后不可能在同一列，因此列数不可能一样因此可以使用全排列的方式来做这道题目。

2024-11-06 10:38:36 1665

weixin_61704900的博客