自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 从Attention到Flashattention

给定批大小 (B)、头数 (H)、序列长 (N)、每头维度 (d)(因此DH⋅dDH⋅dQ∈RN×dK∈RN×dV∈RN×dQ∈RN×dK∈RN×dV∈RN×dSQK⊤d形状N×N\quad (\text{形状 } N \times N)Sd​QK⊤​形状N×NPsoftmax⁡S(逐行 softmax)\quad \text{(逐行 softmax)}P。

2025-10-17 10:41:10 620 3

原创 (训练-并行技术)ZeRO系列

传统的数据并行和模型并行方案会造成大量参数、梯度、优化器状态的重复存储,显著浪费显存,导致模型规模无法继续扩展。ZeRO 的目标是,让单个设备能够承载更大的模型。并行训练往往面临的问题,拖慢整体训练速度。ZeRO 通过优化内存分布与并行策略,在减少冗余的同时保持,实现近乎线性的扩展。模型并行虽然能扩展规模,但实现复杂、调试困难,非系统专家难以使用。ZeRO 提供了一种通用、透明的方式,使研究者能在的情况下,直接训练更大的模型。所以,

2025-09-15 14:58:03 719

原创 FastAPI:Python 高性能 Web API 框架

通过 HTTP/HTTPS 暴露服务(多为 JSON);强调稳定的“接口契约”(路径、方法、参数、返回、状态码)。SGI(Asynchronous Server Gateway Interface)是什么:Python Web 领域的(可理解为 WSGI 的下一代)。它规定了之间如何协作,统一了调用接口,使不同的 ASGI 服务器(Uvicorn/Hypercorn/Daphne)能跑同一种“ASGI 应用”(Starlette/FastAPI/Quart 等)。为什么需要它(WSGI 的局限)

2025-09-11 15:11:57 2038

原创 Docker入门

→ 私有镜像仓库地址(相当于 Docker Hub,但这是公司内部的 Registry)。,自带了 PyTorch 2.6、Python 3.10 和 Ubuntu 22.04。私有:Harbor、阿里云镜像服务。容器本身稳定,可能在提供长期服务(例如模型推理 API)。常见:bridge(默认)、host、overlay。每个容器都有唯一 ID,用于管理和操作容器。解决“容器删除 → 数据丢失”的问题。容器与容器、容器与外部通信的方式。包含运行所需的程序、库、配置。容器可以启动、停止、删除。

2025-09-11 10:03:08 542

原创 128. 最长连续序列

该算法通过哈希集合存储数字,以O(1)时间判断元素是否存在。遍历时,仅对每个连续序列的起始数字(即num-1不存在的数字)进行处理,向后查找连续数字并更新最大长度。这种方法确保每个数字最多被访问两次(插入和查找),整体时间复杂度为O(n)。示例1中,最长连续序列[1,2,3,4]长度为4;示例2序列[0,1,...,8]长度为9。算法高效解决了无序数组的最长连续序列问题。

2025-09-04 14:08:38 234

原创 强化学习PPO->DPO

本文介绍了大模型训练中从PPO到DPO的技术演进。主要内容包括:1)RLHF三阶段流程(预训练语言模型、训练奖励模型、强化学习微调);2)PPO算法的局限性,如依赖额外奖励模型、训练成本高、偏差问题等;3)DPO方法的数学推导,通过直接优化偏好数据避免独立奖励模型训练。文章通过公式详细展示了如何从PPO目标函数推导出DPO,最终实现更高效的对齐优化。

2025-09-04 09:14:17 1817 1

原创 49. 字母异位词分组(哈希)

该算法将字母异位词分组,通过排序字符串作为键建立哈希映射。具体步骤:1)遍历字符串数组,对每个字符串排序得到键;2)将原始字符串存入对应键的哈希桶中;3)最后收集所有哈希桶作为结果。时间复杂度主要取决于排序,为O(nklogk),其中n是字符串数量,k是字符串最大长度。空间复杂度为O(nk)。给你一个字符串数组,请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。1.字母异位词映射到同一个桶。2.映射方式是通过排序实现。

2025-09-03 18:31:06 216

原创 Qwen2.5-VL

Qwen2.5-VL 的整体架构由。

2025-09-02 15:16:14 415 1

原创 N皇后问题的排列树做法(递归&非递归)

回溯法,俗称暴力搜索。用排列树的方法的话实际上是枚举全排列,因为皇后不可能在同一列,因此列数不可能一样因此可以使用全排列的方式来做这道题目。

2024-11-06 10:38:36 1665

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除