- 博客(9)
- 收藏
- 关注
原创 从Attention到Flashattention
给定批大小 (B)、头数 (H)、序列长 (N)、每头维度 (d)(因此DH⋅dDH⋅dQ∈RN×dK∈RN×dV∈RN×dQ∈RN×dK∈RN×dV∈RN×dSQK⊤d形状N×N\quad (\text{形状 } N \times N)SdQK⊤形状N×NPsoftmaxS(逐行 softmax)\quad \text{(逐行 softmax)}P。
2025-10-17 10:41:10
620
3
原创 (训练-并行技术)ZeRO系列
传统的数据并行和模型并行方案会造成大量参数、梯度、优化器状态的重复存储,显著浪费显存,导致模型规模无法继续扩展。ZeRO 的目标是,让单个设备能够承载更大的模型。并行训练往往面临的问题,拖慢整体训练速度。ZeRO 通过优化内存分布与并行策略,在减少冗余的同时保持,实现近乎线性的扩展。模型并行虽然能扩展规模,但实现复杂、调试困难,非系统专家难以使用。ZeRO 提供了一种通用、透明的方式,使研究者能在的情况下,直接训练更大的模型。所以,
2025-09-15 14:58:03
719
原创 FastAPI:Python 高性能 Web API 框架
通过 HTTP/HTTPS 暴露服务(多为 JSON);强调稳定的“接口契约”(路径、方法、参数、返回、状态码)。SGI(Asynchronous Server Gateway Interface)是什么:Python Web 领域的(可理解为 WSGI 的下一代)。它规定了之间如何协作,统一了调用接口,使不同的 ASGI 服务器(Uvicorn/Hypercorn/Daphne)能跑同一种“ASGI 应用”(Starlette/FastAPI/Quart 等)。为什么需要它(WSGI 的局限)
2025-09-11 15:11:57
2038
原创 Docker入门
→ 私有镜像仓库地址(相当于 Docker Hub,但这是公司内部的 Registry)。,自带了 PyTorch 2.6、Python 3.10 和 Ubuntu 22.04。私有:Harbor、阿里云镜像服务。容器本身稳定,可能在提供长期服务(例如模型推理 API)。常见:bridge(默认)、host、overlay。每个容器都有唯一 ID,用于管理和操作容器。解决“容器删除 → 数据丢失”的问题。容器与容器、容器与外部通信的方式。包含运行所需的程序、库、配置。容器可以启动、停止、删除。
2025-09-11 10:03:08
542
原创 128. 最长连续序列
该算法通过哈希集合存储数字,以O(1)时间判断元素是否存在。遍历时,仅对每个连续序列的起始数字(即num-1不存在的数字)进行处理,向后查找连续数字并更新最大长度。这种方法确保每个数字最多被访问两次(插入和查找),整体时间复杂度为O(n)。示例1中,最长连续序列[1,2,3,4]长度为4;示例2序列[0,1,...,8]长度为9。算法高效解决了无序数组的最长连续序列问题。
2025-09-04 14:08:38
234
原创 强化学习PPO->DPO
本文介绍了大模型训练中从PPO到DPO的技术演进。主要内容包括:1)RLHF三阶段流程(预训练语言模型、训练奖励模型、强化学习微调);2)PPO算法的局限性,如依赖额外奖励模型、训练成本高、偏差问题等;3)DPO方法的数学推导,通过直接优化偏好数据避免独立奖励模型训练。文章通过公式详细展示了如何从PPO目标函数推导出DPO,最终实现更高效的对齐优化。
2025-09-04 09:14:17
1817
1
原创 49. 字母异位词分组(哈希)
该算法将字母异位词分组,通过排序字符串作为键建立哈希映射。具体步骤:1)遍历字符串数组,对每个字符串排序得到键;2)将原始字符串存入对应键的哈希桶中;3)最后收集所有哈希桶作为结果。时间复杂度主要取决于排序,为O(nklogk),其中n是字符串数量,k是字符串最大长度。空间复杂度为O(nk)。给你一个字符串数组,请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。1.字母异位词映射到同一个桶。2.映射方式是通过排序实现。
2025-09-03 18:31:06
216
原创 N皇后问题的排列树做法(递归&非递归)
回溯法,俗称暴力搜索。用排列树的方法的话实际上是枚举全排列,因为皇后不可能在同一列,因此列数不可能一样因此可以使用全排列的方式来做这道题目。
2024-11-06 10:38:36
1665
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅