CYuNuo-优快云博客

原创 page attention

系统会为每个请求预先分配一块连续的内存空间，大小基于最大可能长度(比如2048个token)，但实际请求长度往往远小于最大长度，这导致预分配的内存有大量空间被浪费。：为将来可能的 token 预留的空间，这些空间被保留但暂未使用，其他请求无法使用这些预留空间；page attention目的是为了优化KV cache；：不同内存块之间的零散空闲空间，虽然总空闲空间足够，但因不连续而难以使用。

2025-12-09 23:40:05 128

原创 Attention 的发展

目前学术界和工业界提出的注意力（Attention）变种已超过200 种，但根据应用场景和核心技术路径的差异，可归纳为以下六大类（含50 + 主流变种）。一、基础型注意力（19 种）

2025-11-02 08:40:46 602

差异在输入与计算策略：二者的区别源于输入序列长度（长序列 vs 单个 token）和注意力计算的范围（全序列依赖 vs 基于缓存的增量计算），目的是在保证生成质量的前提下，通过缓存机制大幅提升 decode 阶段的效率（避免重复计算历史序列）。decode 阶段：输入是单个新 token，自注意力机制只需计算该 token 对所有历史 token 的依赖（借助 prefill 阶段缓存的 Key/Value），无需重新计算历史 token 的注意力，大幅节省计算量。

2025-08-22 09:41:12 1396

原创 LLM推理性能评估

推理速度评估的核心是延迟和吞吐量，需在固定硬件和输入条件下测试，同时结合模型优化技术和实际应用场景（如实时对话需低延迟，批量处理需高吞吐量）。推理速度是衡量大模型实际部署效率的关键指标，直接影响用户体验（如响应延迟）和系统成本（如算力消耗）。硬件：GPU（如 A100 速度远快于 T4）、CPU（多核高频 CPU 更适合轻量模型）、内存 / 显存带宽（带宽不足会导致数据传输瓶颈）。模型本身：参数量（参数量越大，计算量通常越高，延迟越长）、架构（如 MoE 模型的路由机制可能增加计算开销）。

2025-08-22 05:55:15 549

原创 attention 概述

2025-08-21 09:44:55 653

原创多头注意力机制概述

一、现有优化手段的技术图谱。

2025-08-21 09:21:08 639

原创 LLM推理优化概述

彩云科技团队提出的动态组合机制解除了 MHA 中查询（Q）与键值（KV）的固定绑定，允许不同头的 QK 和 OV 回路动态组合，使小模型（如 6.9B）性能超越更大模型（如 12B）。KV 缓存增长带来的内存压力：LLM 推理的解码阶段，KV 缓存会随着序列长度和批处理大小的增加而不断增长，其内存占用甚至可能超过模型权重本身，成为推理优化的核心内存瓶颈。从 NLP 到 CV 的注意力机制迁移需重新设计位置编码和 KV 交互方式，如 CLIP-MMA 在图像生成任务中的推理速度仅为文本任务的 60%。

2025-08-20 15:56:36 289

原创整数取余数

整数取余数，是信号处理中常见的运算，对于取余数运算，一般的嵌入式平台不会基于硬件进行支持。所以将取余数运算转化成硬件平台所能支持的加减乘除及其移位运算。17%8 为例，转换成二进制为 1 0001 % 1000，对于这个运算的商为 1 0001 >> 3, 而向右移位的三位 001 为余数。1000 取反 0111。

2023-08-15 10:47:34 362 1

原创均匀分布的随机数---C66x

随机数的产生，是仿真不可缺少的函数，本节是对均匀分布的随机数据进行说明。通过混合同余法产生均匀分布的随机函数。2. C66x_scalar 计算实现。是随机数的种子（seed），表示输出，生成的随机数输出。1. C 语言的直接实现。

2023-08-08 22:51:08 328

原创深度学习中常见数据类型

浮点数：double/float/float16/bfloat16/float8/bfp16/bfp13(block float point)（1）“抽样”，就是以相等的间隔时间来抽取模拟信号的样值，使连续的信号变成离散的信号。（2）“量化”，就是把抽取的样值变换为最接近的数字值，表示抽取样值的大小。整形：int8/int16/int32/long/long long/（3）“编码”，就是把量化的数值用一组二进制的数码来表示。量化类型：对称量化和非对称量化，线性量化和非线性量化。

2023-07-31 22:54:42 466 1

原创指数（底数为e）近似实现及性能评估-v1.0

是单调递增的，若x为bf16的数据类型，首先bf16的数据format为1，8，7，则可表示的精度为1/2^7, x的取值范围-2^128 ~ 2^128，是部分非线性算子组成部分，如tanh，cosh，sinh等，所以指数基于嵌入式的快速实现，是高性能算法的基础之一。1）. 指数的快速实现包含泰勒级数展开，多项式拟合，指数近似计算等，本文介绍级数的泰勒级数展开。对于多项式拟合的话，我认为初步是确定好参数ai，多项式的项数和确定好表示精度。最小二乘的含义就是预测值与真实值的差的平方和最小。

2023-07-14 20:03:57 913 1

原创并行算法实现的一些思考

(5) 并行算法的设计. 对于软件人员来说，（1）~ （4）是基于指令集，编译器，内核的算法实现，也就是说利用三者已经设计好的并行行为完成算法的实现。(4) 常用算子的实现，什么是常用算子，你可以理解为某方面算法的公共算法行为，如数字信号处理中的FFT等，深度学习中的softmax等，这些算子一般由初等函数构成；）的实现，微架构实现了基本的运算行为，那么算法实现的第一步就是对初等函数的实现，如何高效的实现指数函数，三角函数等，是算法实现的基础（基础知识为数值分析）。c. 如何编程（编译器的行为）;

2023-03-13 05:34:02 156

原创深度学习算法实现过程中初等函数调研

深度学习算法的基于嵌入式实现，嵌入式硬件往往仅支持Load/Store，乘加运算，移位运算等，但是初等函数确无法通过硬件的实现，需要将这些初等函数转化成硬件所支持的运算的方式实现。这里我们对深度学习过程中需要的初等函数进行统计。基本初等函数：幂函数、指数函数、对数函数、三角函数、反三角函数、常数函数。有理运算：加，减，乘，除，有限次开方，有限次乘方。下面初等函数是需要在实现过程中采用近似方法实现的。2.1 有理运算：除法与有限次开方。4）三角函数与反三角函数。5）双曲函数/反双曲函数。

2023-02-24 21:11:13 190

原创浮点数的二进制计算-乘法及移位运算

浮点数bfloat16二进制存储形式及二进制计算

2023-02-18 16:06:35 2528

原创常用并行机性能评估指标

常用的并行机分别从机器，算法，程序三方面对并行机的性能进行评估。

2023-02-18 09:09:15 623

原创指令并行——单核并行编程说明1

本文描述DSP及AIE芯片的单核编程并行计算的处理：1）Instruction Level Parallelism (ILP)：指令集并行。（1）实现方式：VLIW（超长指令字）。（2）VLIW优缺点：优点：充分利用core内的计算单元，VLIW是通过编译器实现一个cycle多个指令的执行，减少了硬件的复杂度。缺点：增加了编译器的复杂度，需要一个强大的编译器。（3）dependency：（1）计算单元类型及个数；（2）指令集；（3）软件流水；（4）指令读取的带宽。（5）编译器的关键字。（4）学习目

2022-03-11 06:09:45 2854

weixin_43627680的博客