自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(567)
  • 资源 (10)
  • 收藏
  • 关注

原创 A Model-Driven Deep Learning Method for Normalized Min-Sum LDPC Decoding

来源Q. Wang, S. Wang, H. Fang, L. Chen, L. Chen and Y. Guo, “A Model-Driven Deep Learning Method for Normalized Min-Sum LDPC Decoding,” 2020 IEEE International Conference on Communications Workshops (ICC Workshops), Dublin, Ireland, 2020, pp. 1-6, doi: 10.1

2020-09-07 14:09:38 1015

原创 每日强化学习

20200901强化学习阅读:https://blog.youkuaiyun.com/qq_30615903/article/details/80739243

2020-09-01 15:23:39 144

原创 Relation extraction文章

Others2018No.FigureTitleAuthorsPub.Links5CASREL:A Novel Cascade Binary Tagging Framework for Relational Triple ExtractionKun Ho Kim, Oisin Mac Aodha, Pietro PeronaCVPR 2018 (Spotlight)paper4[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Xk

2020-06-12 07:58:29 838

原创 凸优化之内点法

Convex Optimization Stephen Boyd Department of Electrical Engineering Stanford University 第11章本文为笔者结合原书及博客https://blog.youkuaiyun.com/dymodi/article/details/46441783 记录自己相关解释原始问题原始问题对应的拉格朗日公式为:利用障碍函...

2020-04-05 11:37:35 1776

原创 GloVe: Global Vectors for Word Representation必记

关于算法原理参考:下面是Relation with skip gramskip gram:接下来在整个corPus 中训练:但在vast corpus 难以求所有的Qi,jQ_{i,j}Qi,j​,采用近似但对于两分布中的交叉熵损失是有弊端的:即低概率高权值并且上式中的Qi,jQ_{i,j}Qi,j​还是难以normalized,因此不归一化带来的问题是Qhat,Pha...

2020-03-04 11:41:32 251

原创 grahp attention networks(GAT 学习必记)

深入理解图注意力机制向往的GAT(图注意力模型)

2020-02-20 15:12:26 625

原创 semi -supervised classification with graph convolutional networks学习必记

1 主要解决的问题半监督学习:用于少量节点标签未知,例如文本、citation network、知识图谱分类2 主要思想采用图卷积中的一阶局部近似(即K=1),这部分的理解可以参考Chebyshev多项式作为GCN卷积核当K=1 时有两个参数,模型scales linearly in the number of graph edges ,同时可以表征局部图结构和节点的特征:3. 半...

2020-02-19 14:27:03 396

原创 Convolutional Sequence to Sequence Learning学习心得

为什么使用CNN学习序列表示和RNN相比,CNN产生的背景向量固定并且通过stacking 可以使 contex size 更大,如下图。和RNN相比,CNN产生的背景向量固定并且通过stacking 可以使 contex size 更大,如上图。Hierarchy representation如图1,只需要三次CNN operation ,而需要 7 次 r...

2020-02-18 16:25:43 660

原创 Sequence to Sequence Learning with Neural Networks学习笔记

论文的主要创新点提出了序列到序列的学习方法提出的背景DNN的限制:输入和输出向量维度固定,实际上很多序列问题中的序列长度不是已知先验单个RNN 的限制:输入和输出等长,且要一一对齐且对齐已知,无法应用到输入输出不等长且对应关系为非montonic解决方案两个RNN理论可行一个负责将输入充列map 为固定大小的vector(背景向量,含有整个输入句子的信息),另一个RNN将背景向列...

2020-02-17 16:44:20 346

原创 Attention Is All You Need(Transformer )

今天是2020年2月1日,笔者学习了Attention Is All You Need(Transformer )论文,可以在sequence to sequence 模型中用multi head self -attention 代替RNN,可以并行计算输出,其中multi head 的作用可以集成不同的上下文attention,由于knowledge leve有限,代码层面有待学习...

2020-02-01 16:54:11 179

原创 机器学习每日阅读更新

方差、偏差与欠拟合及过拟合

2020-01-30 12:54:25 178

原创 自然语言处理(机器翻译IBM模型 系列)

机器翻译方法概述直接转换法基于规则的翻译方法基于中间语言的翻译方法基于语料库的翻译方法- 基于事例的翻译方法- 统计翻译方法- 神经网络机器翻译基于规则的翻译过程分成6个步骤:(a) 对源语言句子进行词法分析(b) 对源语言句子进行句法/语义分析© 源语言句子结构到译文结构的转换(d) 译文句法结构生成(e) 源语言词汇到译文词汇的转换(f ) 译文词法选择与生成...

2019-12-25 16:29:35 3786

原创 概率图模型

例对于5节点,给定1和2,节点5和3,4都独立

2019-12-23 10:01:45 179

原创 【大模型推理】chunked prefill 优缺点分析

https://mp.weixin.qq.com/s?__biz=MzkxOTIwMDgxMg==&mid=2247489551&idx=1&sn=8c295e3195bfeb260b017f20b7f09aac&chksm=c0706486e1a89f2988b7cfc3998c9e944b53669d10c98e8bb036de902f88536b423753da446e#rd

2025-07-22 16:49:49 124

原创 VLLM专题(三十九)—自动前缀缓存

https://mp.weixin.qq.com/s?__biz=Mzk4ODcxMjk2Ng==&mid=2247484522&idx=1&sn=7dd9cb111b6ea976321d174295d185ef&chksm=c4b2122c95d12dd377191c506d660304f542f754031e8508d7f7b5fbc7bc8661499deb0db109#rd

2025-07-16 14:48:24 136

原创 【大模型推理】下一阶段学习计划

了解kubernets。

2025-07-04 16:26:02 134

原创 【大模型推理】工作负载的弹性伸缩

推荐采用 并发请求数(Concurrency) 或 队列深度(Queue Size) 结合GPU监控指标(显存/算力利用率),并依托Knative KPA、Fluid缓存、优先级调度等技术实现高效弹性伸缩[citation:6][citation:7][citation:8]。QPS无法体现这种资源消耗累积效应[citation:6]。并发数的本质:是实时反映资源占用的瞬时状态量,而非速率指标,尤其适合单次请求资源消耗大、处理时间长的业务(如LLM推理)[citation:1][citation:6]。

2025-07-04 16:13:17 708

原创 【大模型推理】Optimizing LLM Inference Throughput via Memory-aware and SLA-constrained Dynamic Batching

2025-07-01 16:53:48 127

原创 【大模型推理】高并发大模型推理服务中的动态实例池构建与资源感知调度策略实战

最近做项目,大模型集群调度,监控模型节点状态, 记录一下深受启发的文章。

2025-07-01 16:11:27 189

原创 【大模型推理】PD分离mooncake 学习

你理解的核心完全正确:Prefill阶段之所以要“着急忙慌”地、Layer-wise异步地将KVCache移出GPU(Offload到CPU或Transfer给Decode实例),其根本驱动力在于。

2025-06-20 11:18:20 990

原创 【大模型推理加速】PD分离资料

对于Prefill阶段,可以采用优先调度长请求的策略,因为长请求的计算量更大,先处理长请求可以充分利用GPU的计算资源;对于Decode阶段,可以根据请求的优先级和生成token的紧迫性进行调度,优先处理高优先级和需要快速生成token的请求。负载均衡:在PD分离架构中,存在多个Prefill工作节点和Decode工作节点,需要实现负载均衡,确保每个节点的负载相对均匀,避免出现某些节点负载过高而某些节点空闲的情况。如果预测到某个时间段内某个区域的请求量会增加,可以提前将任务分配到负载较低的节点上。

2025-06-16 17:42:35 243

原创 【大模型推理】RTP-LLM pd分离,decoder 如何拉取kvcache.

我们采用的是 Polling 机制,不断的检查 KVCache 是否产出,而 Polling 会占住一个 RPC 线程并最终等到超时。在 RPC 线程数固定的情况下,一旦有部分请求的 KVCache 没有产出,那么 RPC 线程超时,会使得后续请求的传输出现延后,从而带来雪崩现象 什么意思。

2025-06-16 17:37:58 278

原创 【大模型推理】PD分离场景下decoder负载均衡,如何选取decoder

在非 Local 场景下,Prefill 定时获取 Decode 的节点状态信息并进行检测,保证健康节点的服务,提供底线容灾能力,并基于此实现了 Prefill-Decode 之间的负载均衡。基于这个观察,我们开发了 WRR(加权 Round Robin),Prefill 实时获取 Decode 的剩余显存,动态决定负载均衡。这个方法进一步提高了系统的鲁棒性。WRR 策略,加权 RR 策略,根据 Decode 剩余可用显存分配权重,在动态变化的负载环境下维持系统的高稳定性和响应速度。

2025-06-16 17:23:42 375

原创 [大模型推理】PD分离阿里技术

https://mp.weixin.qq.com/s?__biz=Mzg4NTczNzg2OA==&mid=2247507420&idx=1&sn=4b32726abd205c7f94144bcb9105330f&chksm=ce64b9fc7f1d8de04a40b0153302dee52262c6f104c67195e2586e75c8093b8be493f252c8a3#rd

2025-06-16 16:59:09 155

原创 【大模型推理】FlashMLA学习资料

很不错:深度解析FlashMLA: 一文读懂大模型加速新利器

2025-06-13 16:59:30 123

原创 【大模型学习cuda】cuda调度波次wave

传统 GEMM 按固定分块划分任务,当任务总数超过 SM 数时,必然需要多个 Wave。

2025-06-13 15:23:49 852

原创 【大模型推理】CTA与SM关系

理解 CTA 是逻辑任务单元而 SM 是物理执行单元,以及它们之间“多对一”(多个 CTA 可映射到一个 SM)的映射关系,是理解 CUDA 并行执行模型和像 Stream-K 这类高级优化的基础。在 GPU 编程(特别是 CUDA)中,

2025-06-13 15:02:56 810

原创 【大模型推理学习】flashMLA (二)

条生产线(SM)同时开工,每条线只负责处理自己那一份零件。无论零件原来属于哪个产品(序列),每条线的工作量几乎相同。工厂一次启动(单 Wave)所有生产线,大家同时开始、同时结束(理想情况),没有等待,效率最高。个小组(CTA),每组负责完整做一个产品。结果做短产品的小组早早下班,做长产品的小组累死累活,工厂效率低下。Stream-K 的方法是:把所有产品拆解成零件(token),堆成一座零件山(超级序列)。,显著提升了 GPU 在 LLM 推理和训练中关键算子的计算效率。,实现了在变长序列处理上的。

2025-06-13 15:01:51 825

原创 【大模型推理学习】flashMLA

使用 get_mla_metadata() 函数生成动态调度计划(tile_scheduler_metadata),根据序列实际长度(cache_seqlens)和注意力头数(h_kv)计算任务分块策略(num_splits),实现负载均衡。📌 核心价值:Stream-K 通过 “硬件资源-任务粒度” 严格匹配 + 单波次全局调度,在保持低秩压缩(如 KV 缓存减少 93.3%)的同时,彻底释放 Hopper GPU 的并行潜力,成为大模型高吞吐推理的关键突破。

2025-06-13 14:59:35 449

原创 【【大模型训练】中短序列attention 和MOE层并行方式】(三)

AllReduce的通信量:2 * (N-1) * (V/N) [使用Ring AllReduce,分为Reduce-Scatter和AllGather阶段,每个阶段通信量为(N-1)* (V/N))。

2025-06-11 17:59:50 160

原创 【大模型训练】中短序列attention 和MOE层并行方式(二)

注意:矩阵乘法说明:input_local的隐层维度是hidden_size/TP,而weight_local.T的维度是 [hidden_size/TP_size, vocab_size],但这样乘出来的结果是 [batch_size, seq_len, vocab_size],但是注意,这个结果是不完整的,因为输入只是部分隐层。所以,在TP组内,All-Gather之后的隐层是该TP组负责的那部分batch(batch_size/DP_size)的完整隐层。这样每张卡计算一部分词表的logits。

2025-06-11 17:16:54 1050

原创 【大模型训练】中短序列attention 和MOE层并行方式

贯穿两层) 简化了实现,并最大化利用了设备间的通信链路(组内通信通常比跨组快)。在输入长度 ≤16K 的场景下,这种配置有效降低了 Attention 的通信压力并提升了其单卡计算效率,同时通过。的通信与计算实现方式,并结合你的具体配置(DP=4, TP=4 for Attention;MoE 层的输入来自于前一层(如前一个 Attention 或 FFN 层)。解决了 MoE 负载不均的核心痛点,提升了系统整体吞吐性能。(与 Attention 输出一致,分布在 TP 组上)。

2025-06-11 15:42:59 813

原创 【大模型训练】allgatherEP 过程及reduce-scatter的具体例子

在allgatherEP的Reduce-Scatter步骤中,通过按原始卡归属将输出划分为多个块,然后对每个块进行组内归约(通常为求和)并将结果发送到原始卡,最终使得每张卡只保留自己原始持有的Token中需要本组专家计算的Token的最终输出。

2025-06-11 15:12:59 890

原创 【无标题】MOE综述

https://www.cnblogs.com/rossiXYZ/p/18835426

2025-06-06 15:50:28 78

原创 【大模型推理】ray grpc

https://xujiahua.github.io/posts/20200807-ray-grpc-arrow/

2025-06-06 15:07:28 119

原创 【大模型推理学习】MOE中TP与Ep计算量

https://zhuanlan.zhihu.com/p/28680264165

2025-06-05 16:32:47 214

原创 【大模型学推理】MOE综述

动态路由提升了模型表达能力,但导致数据分发的不规则性和负载波动;而EP的All-to-All通信进一步放大了这一问题。解决这一矛盾的关键在于。,通过静态化路由、缓冲池设计、动态计算图优化等手段,在保持模型性能的同时提升计算资源利用率。EP引入“动态大shape”的本质是。在混合专家模型(MoE)中,

2025-06-05 15:59:48 726

原创 【大模型推理学习】小专家用TPmatmul 效率低,用EP,但EP通信更高, 但超节点下可以优化, MOE 为什么使用EP而不是TP

从GPT-4(16个大专家,单token激活280B参数)到DeepSeek(160个小专家,单token激活21B参数)的MoE架构演进,核心逻辑是。这种设计变化不仅提升了模型性能,还对训练和推理的硬件适配提出了新的优化方向(如EP并行)。以下是具体分析:小专家用TPmatmul 效率低,用EP,但EP通信更高, 但超节点下可以优化。

2025-06-05 15:49:02 546

原创 【大模型推理加速】MOE加速比与batchsize 关系

您的查询描述了Mixture of Experts (MoE) 模型在推理过程中不同批次大小(Batch Size, BS)下的性能特征,特别是在小批次、中间区域和大批次三种情况下的行为。我将针对您的问题“为什么大批次时MoE吞吐量更高”进行详细解释。:MoE模型由多个专家(experts)组成(如前馈神经网络层),每个输入token通过路由机制被分配到少数专家(通常k=1或2)。相比之下,稠密模型(dense model)对所有token使用相同的参数。

2025-06-05 15:11:30 1103

原创 【大模型推理】splitfuse

https://www.hiascend.com/doc_center/source/zh/mindie/10RC3/mindieservice/servicedev/mindie_service0129.html

2025-06-05 10:54:11 172

数字滤波器

数字滤波器设计及应用综合设计,各种matlab,各种程序

2017-12-24

小功率调幅发射机仿真报告

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

MATLAB频谱图

MATLAB关于频谱分析自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

小功率调幅发射机

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

电子线路课程设计

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

交通灯VHDL设计

很好用的交通灯,伴有铃声的程序,实现紧急状况的显示,

2017-12-27

电容振荡器

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

labview 2016y英文版安装及破解教程

详细的介绍了LabVIEW安装过程中遇到的问题以及解决方案,以及可能出现版本的不兼容的问题的操作

2017-12-27

模拟通信中信号角度的调制与解调

5.8基于Labview实现FM调制与检调 5.8.1相应参数设置 载波频率:50 幅度:2 调制信号频率:50 幅度:2 5.8.2 labview 程序框图 5.8.3正弦波调相

2018-04-20

labview实例

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除