自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 扩散模型有隐藏的可交换性:通过自投机并行DDPMs

扩散模型用途广泛前景光明,但推理速度慢,影响实时性应用。标准的DDPM在图像模型上去噪步数在1000左右,在机器人模型上约100步,减少步数意味着质量下降,理论分析过想要d维分布的高保真度样本,DDPM的采样步数得大概。很多工作也在解决推理慢这个问题,例如DDIM和DPMSolver,使用常微分方程(OED)求解器进行确定性推理(随机初始化噪声样本后整个去噪过程就确定了),减少采样步数,还有的工作新训练一个底层的模型,都是以牺牲质量为代价。

2025-09-19 11:37:39 818

原创 单机多卡间大张量传输迷惑行为?

老铁们我最近真的好惨😭,一个大模型在单机多卡上运行就是出错,debug看的老眼昏花,最后发现大张量在设备间直接传输会有很发癫的行为,还请大家帮我看看🙇‍。改用b = a.to("cpu").to(device1)借助CPU中转就正常了,b的元素也对的上。b的输出就是很随机很发癫,甚至有全零的情况🤦‍。摒弃屎山一样的代码,简单运行下列脚本。

2025-08-25 17:40:07 154

原创 我的老伙计

开着会笔记本忽然关机了,怎么也打不开,紧急买了个新的(国补看的我头疼),然后怕被维修的坑,试着把旧的拆开来看看。结果电池拔了放放电,还能用。这是我的第一台电脑,好像是联想小新pro14,是用了5年的老伙计了。缝缝补补陪着俺小菜鸡走了那么多年,辛苦啦~

2025-08-13 00:17:22 241

原创 DiT: Transformer上的扩散模型

DiTs(Diffusion Transformers)是首个基于Transformer架构的扩散模型!它在图像的潜在空间上进行训练,用transformer替换了常用的U-Net主干网络;DiTs具备,当增加Transformer的深度/宽度,或输入token的数量时,计算复杂度变高(Gflops↑),生成质量往往更好(FID↓);

2025-08-12 19:14:44 877

原创 通过渐进蒸馏实现扩散模型的快速采样

扩散模型用于生成建模前景光明,生成的样本比GANs的更具视觉真实感(感知质量,perceptual quality),对数据分布的建模能力(密度估计,density estimation)比自回归模型要强。但有个缺点就是采样时间太慢,生成高质量的样本需要几百甚至几千次的模型评估,作者提出两点解决这个问题:1. 新的扩散模型参数化方法,仅用很少的采样步骤就能提供更高的稳定性。2. 一种多步蒸馏的方法,从一个训练好的确定性扩散采样器中得到一个新的扩散模型,新模型采样步数减半,然后蒸馏新模型,反复迭代。

2025-07-12 17:04:23 996

原创 通过投机解码加速扩散模型

扩散模型是一种生成模型,通过模拟数据逐渐被噪声破坏(正向过程)和从噪声中逐步重建数据(反向过程)来生成样本,这两个过程都是马尔可夫过程,即当前状态只依赖于前一个状态,与更早的历史无关(简化建模),其过程是连续的(VS.时间步)。扩散模型是一个连续的、高维向量空间的马尔科夫链过程,逐步将噪声转换为目标数据样本。denoising diffusion models(DDMs)是近些年在多个领域表现SOTA的扩散模型的一种实现,用一个参数化模型(如UNet)来预测去噪方向,从而逐步恢复数据。

2025-06-18 16:27:16 969

原创 FlashAttention

论文链接🔗这篇最原始的版本发表于NeurIPS 2022,而后系列工作发表于ICLR 2024,发表于NeurIPS 2024。Transformer在应对长序列时有计算慢还老内存不足的问题,因为自注意力机制的时间复杂度和空间复杂度都与序列长度的平方成正比。近似注意力方法(如稀疏近似、低矩阵近似)尝试牺牲一定的模型质量来降低计算复杂度,但在挂钟时间上也没比标准注意力好到哪去,所以也没被广泛采用。

2025-06-04 14:51:11 822

原创 EAGLE代码研读+模型复现

要对代码下手了,加油(ง •_•)ง作者在他们自己的设备上展现了推理的评估结果,受第三方评估认证,EAGLE为目前最快的投机方法(虽然加速度是评估投机解码方法的主要指标,但其他点也值得关注。比如PLD和Lookahead无需额外参数,更容易和许多模型进行集成),所有用来评估的方法都和Spec-Bench对齐。设备:一台NVIDIA GeForce RTX 3090 GPU(24GB) ,带12个CPU核测试环境:Pytorch 2.0.1,CUDA 11.8。

2025-04-19 22:48:46 2593 4

原创 禁用Git状态标记

git clone一个项目后,一改里面的代码吧,它就给你那个文件高亮和打标记,又绿又黄的,下面这样。这样,文件资源管理器中的文件将不再显示 Git 状态标记(例如。),但 VSCode 仍然会执行 Git 操作。

2025-03-19 10:15:47 513

原创 学习如何将你的程序挂在后台从而可以放心地关闭前台?

后台运行少操心

2025-03-16 14:44:20 893

原创 EAGLE框架:投机解码需要重思考特征的不确定性

这篇代码开源!

2025-03-15 11:03:14 1617

原创 美杜莎:带多个解码头的简单LLM推理加速框架

MEDUSA的关键优势包括它的简单性、参数有效性、易于集成到现有系统,无需定制草稿模型,典型接受机制不像拒绝采样那般麻烦,还能提供合理的输出。通过两种训练方式,确保在各式模型和提示词下的高质量输出。作者将每类技术及其带来的加速列表如下图10. 各项技术带来的加速全篇下来为了简单只聚焦在batch size为1的场景,但作者特意强调所有提到的思想可以推广到更大规模的批处理设置中,这种设置已在TensorRT和Huggingface TGI等库中得到支持。kdVK+1K+1ks_k。

2025-03-08 23:27:30 1385

原创 DeepGEMM如何实现FP8通用矩阵乘法

(还是从DeepSeek-V3技术报告那窜出来的一个小课题)在技术报告中作者提出一种细粒度混合精度的训练框架,来看看它是怎么高效实现FP8通用矩阵乘法的。;(ง •_•)ง虽说低精度训练很有前景,但对激活值、权重、梯度中异常值很敏感。虽说在推理过程进行量化的研究已有不少成果,但将低精度技术成功应用到LLM预训练过程中的研究还是少。为了解决这些挑战并对FP8数据格式的动态范围进行有效扩展,作者推出一个细粒度量化策略:分成的小块(tile-wise grouping)或。

2025-03-04 14:46:49 1575

原创 Time-LLM架构分析

Time-LLM:通过重编译大语言模型进行时序预测》,这是一篇24年发表在ICLR上的论文。针对NLP、CV领域的任务,往往一个大模型就能解决各种问题,而时序预测领域的模型却要针对不同任务和应用进行不同的设计。研究表明LLM在复杂的token序列上有强大的模式识别和推理能力,但该,以利用这些能力呢?在这篇工作中推出了一个重编译框架Time-LLM,在保持主体的语言模型不变的情况下,将LLM应用到时序预测上。

2025-03-02 23:57:46 2220 2

原创 多token预测造就更好更快的LLM

这是一篇发表在24年ICML上的一篇论文,乍一看和博客里的那篇好像,当时讨论到怎么训练并行预测token的几个transformer头的时候,认为将每个头的交叉熵损失的均值作为整体损失的话,内存开销太大,改为每个批量就随机选一个子损失,企图从长期看这种估计无偏,这篇论文似乎直面并解决了这个内存开销的问题。在训练语料的一个位置,模型一次性预测未来n个token,学习目标为努力最小化交叉熵损失方便起见,假设大语言模型用一个共享主干来产生上下文的潜在表示,再加上n个独立的输出头。

2025-03-01 01:38:04 1051

原创 vscode一直下载服务器

再ssh到新服务器上,你ls是显示不出任何.vscode-server之类的东西的,因为“.”开头的是隐藏文件(夹),得用加个“-a”来显示包含隐藏文件的所有文件。PS:你当然可以找你的好兄弟给你一份他的.vscode-server.zip,但得保证他的vscode版本号和你的一样,打开vscode,点击帮助-》关于即可查看版本号啦!找一个你这破vscode的远程资源管理器能连上的服务器,找到下面的.vscode-server文件夹,压缩。再用vscode的远程资源管理器连来试试,成功~

2025-02-23 19:58:39 1928

原创 GShard中的其它

在上一篇博客中,着重于其中的MoE的相关介绍,GShard还有许多其他亮点,像自动并行训练、高效资源利用、弹性扩展等就搬到这里来吧(主要在附录部分)(请在开始本篇之前看看上篇)(写的有点零碎,俺菜鸡能力差点,还有一点小原因可能是实验部分多少有点)(越写越没有信心让大家看了😳)。别看他吹的神乎其神,说不定实际上就那样呢~(网络酸民口气.jpg)的神通众所周知,的计算能力是其必备需求,底层硬件在不断进步的同时,神经网络所依赖的系统也随之发展。

2025-02-22 23:51:08 1049 2

原创 GShard中的混合专家(MoE)

1991年,Geoffrey Hinton和Michael I. Jordan发表的论文被认为是MoE的奠基之作。通过引入专家网络和门控网络的组合,系统能够有效地给不同的专家,从而减少干扰。在论文的实验中希望对说话人的元音音素数据进行识别,那么每个专家可能就专注于区分某一对元音(例如[a]和[A])。2017年,Google发布《型神经网络:稀疏门控的MoE层》(后文简称为“2017年论文”)。通过条件计算显著提升模型的容量,同时保持计算效率。

2025-02-19 22:43:08 1016

原创 怎么快速将word文档中的英文和数字字体设置为新罗马?

一个个找可太费劲了,眼睛看瞎还易遗漏,不如试试一键替换~

2025-02-18 10:38:11 24096

原创 什么是旋转位置嵌入(RoPE)?

这篇论文提出RoPE技术,利用了旋转矩阵的几何性质来处理位置信息

2025-02-14 23:56:01 1367

原创 分块并行解码

在上一篇最后关于如何选取草稿模型的讨论中,第一种方法就是将草稿的生成集成到模型中,原论文中举例了18年的一篇工作——在transformer中多加几个头并行来产生多个token。

2025-02-13 16:28:20 1335

原创 pip安装太慢

默认的pip源是PyPI,位于国外,国内访问速度很慢,常用办法是切换到国内的pip镜像,加速库的下载。正好再设置一次记录一下(●'◡'●)但我没有这个文件😀,反倒是直接在终端配置后,自动生成了文件~/.config/pip/pip.conf,里面自有这句话,新pip版本喜好吧。有的方法是通过修改配置文件~/.pip/pip.conf来永久设置镜像,添加下列内容。我的就是啥输出也没有,可以在终端通过下列指令添加清华源(或者其他阿里镜像源等等)换了台服务器之后,先前的pip设置全丢了,这次。

2025-02-11 22:34:26 652

原创 基于FPGA的多通道触觉传感器阵列

我的本科毕设,先留个坑吧。

2025-02-08 23:42:35 163

原创 什么是投机解码?

(这一篇的产期太长,还请大佬们斧正)

2025-02-08 23:19:36 1342

原创 NVIDA驱动程序太老旧

想用gpu的时候报错说驱动太老旧,想装个新的,先看看适配信息,只需一条指令。

2025-01-18 00:22:42 631

原创 vscode连接远程服务器,打开一个新终端,总是显示两个conda环境

看着好膈应,虽然可以conda deactivate一次去掉(zsl),再conda deactivate一次去掉(base),但每次打开有两括号就很烦。原因在于每次“傻扣”会自动激活一次base环境,只需终端运行一次。这样每次新开一个终端就只显示上次的conda环境啦~

2025-01-14 21:01:56 364

原创 手搓单周期、流水线CPU

手搓cpu

2022-07-19 20:17:06 2956 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除