自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 禁用Git状态标记

git clone一个项目后,一改里面的代码吧,它就给你那个文件高亮和打标记,又绿又黄的,下面这样。这样,文件资源管理器中的文件将不再显示 Git 状态标记(例如。),但 VSCode 仍然会执行 Git 操作。

2025-03-19 10:15:47 257

原创 学习如何将你的程序挂在后台从而可以放心地关闭前台?

后台运行少操心

2025-03-16 14:44:20 551

原创 EAGLE框架:投机解码需要重思考特征的不确定性

这篇代码开源!

2025-03-15 11:03:14 829

原创 美杜莎:带多个解码头的简单LLM推理加速框架

MEDUSA的关键优势包括它的简单性、参数有效性、易于集成到现有系统,无需定制草稿模型,典型接受机制不像拒绝采样那般麻烦,还能提供合理的输出。通过两种训练方式,确保在各式模型和提示词下的高质量输出。作者将每类技术及其带来的加速列表如下图10. 各项技术带来的加速全篇下来为了简单只聚焦在batch size为1的场景,但作者特意强调所有提到的思想可以推广到更大规模的批处理设置中,这种设置已在TensorRT和Huggingface TGI等库中得到支持。kdVK+1K+1ks_k。

2025-03-08 23:27:30 770

原创 DeepGEMM如何实现FP8通用矩阵乘法

(还是从DeepSeek-V3技术报告那窜出来的一个小课题)在技术报告中作者提出一种细粒度混合精度的训练框架,来看看它是怎么高效实现FP8通用矩阵乘法的。;(ง •_•)ง虽说低精度训练很有前景,但对激活值、权重、梯度中异常值很敏感。虽说在推理过程进行量化的研究已有不少成果,但将低精度技术成功应用到LLM预训练过程中的研究还是少。为了解决这些挑战并对FP8数据格式的动态范围进行有效扩展,作者推出一个细粒度量化策略:分成的小块(tile-wise grouping)或。

2025-03-04 14:46:49 803

原创 Time-LLM架构分析

Time-LLM:通过重编译大语言模型进行时序预测》,这是一篇24年发表在ICLR上的论文。针对NLP、CV领域的任务,往往一个大模型就能解决各种问题,而时序预测领域的模型却要针对不同任务和应用进行不同的设计。研究表明LLM在复杂的token序列上有强大的模式识别和推理能力,但该,以利用这些能力呢?在这篇工作中推出了一个重编译框架Time-LLM,在保持主体的语言模型不变的情况下,将LLM应用到时序预测上。

2025-03-02 23:57:46 1071 2

原创 多token预测造就更好更快的LLM

这是一篇发表在24年ICML上的一篇论文,乍一看和博客里的那篇好像,当时讨论到怎么训练并行预测token的几个transformer头的时候,认为将每个头的交叉熵损失的均值作为整体损失的话,内存开销太大,改为每个批量就随机选一个子损失,企图从长期看这种估计无偏,这篇论文似乎直面并解决了这个内存开销的问题。在训练语料的一个位置,模型一次性预测未来n个token,学习目标为努力最小化交叉熵损失方便起见,假设大语言模型用一个共享主干来产生上下文的潜在表示,再加上n个独立的输出头。

2025-03-01 01:38:04 839

原创 vscode一直下载服务器

再ssh到新服务器上,你ls是显示不出任何.vscode-server之类的东西的,因为“.”开头的是隐藏文件(夹),得用加个“-a”来显示包含隐藏文件的所有文件。PS:你当然可以找你的好兄弟给你一份他的.vscode-server.zip,但得保证他的vscode版本号和你的一样,打开vscode,点击帮助-》关于即可查看版本号啦!找一个你这破vscode的远程资源管理器能连上的服务器,找到下面的.vscode-server文件夹,压缩。再用vscode的远程资源管理器连来试试,成功~

2025-02-23 19:58:39 420

原创 GShard中的其它

在上一篇博客中,着重于其中的MoE的相关介绍,GShard还有许多其他亮点,像自动并行训练、高效资源利用、弹性扩展等就搬到这里来吧(主要在附录部分)(请在开始本篇之前看看上篇)(写的有点零碎,俺菜鸡能力差点,还有一点小原因可能是实验部分多少有点)(越写越没有信心让大家看了😳)。别看他吹的神乎其神,说不定实际上就那样呢~(网络酸民口气.jpg)的神通众所周知,的计算能力是其必备需求,底层硬件在不断进步的同时,神经网络所依赖的系统也随之发展。

2025-02-22 23:51:08 820 2

原创 GShard中的混合专家(MoE)

1991年,Geoffrey Hinton和Michael I. Jordan发表的论文被认为是MoE的奠基之作。通过引入专家网络和门控网络的组合,系统能够有效地给不同的专家,从而减少干扰。在论文的实验中希望对说话人的元音音素数据进行识别,那么每个专家可能就专注于区分某一对元音(例如[a]和[A])。2017年,Google发布《型神经网络:稀疏门控的MoE层》(后文简称为“2017年论文”)。通过条件计算显著提升模型的容量,同时保持计算效率。

2025-02-19 22:43:08 757

原创 怎么快速将word文档中的英文和数字字体设置为新罗马?

一个个找可太费劲了,眼睛看瞎还易遗漏,不如试试一键替换~

2025-02-18 10:38:11 4371

原创 什么是旋转位置嵌入(RoPE)?

这篇论文提出RoPE技术,利用了旋转矩阵的几何性质来处理位置信息

2025-02-14 23:56:01 745

原创 分块并行解码

在上一篇最后关于如何选取草稿模型的讨论中,第一种方法就是将草稿的生成集成到模型中,原论文中举例了18年的一篇工作——在transformer中多加几个头并行来产生多个token。

2025-02-13 16:28:20 1012

原创 pip安装太慢

默认的pip源是PyPI,位于国外,国内访问速度很慢,常用办法是切换到国内的pip镜像,加速库的下载。正好再设置一次记录一下(●'◡'●)但我没有这个文件😀,反倒是直接在终端配置后,自动生成了文件~/.config/pip/pip.conf,里面自有这句话,新pip版本喜好吧。有的方法是通过修改配置文件~/.pip/pip.conf来永久设置镜像,添加下列内容。我的就是啥输出也没有,可以在终端通过下列指令添加清华源(或者其他阿里镜像源等等)换了台服务器之后,先前的pip设置全丢了,这次。

2025-02-11 22:34:26 281

原创 基于FPGA的多通道触觉传感器阵列

我的本科毕设,先留个坑吧。

2025-02-08 23:42:35 105

原创 什么是投机解码?

(这一篇的产期太长,还请大佬们斧正)

2025-02-08 23:19:36 1017

原创 NVIDA驱动程序太老旧

想用gpu的时候报错说驱动太老旧,想装个新的,先看看适配信息,只需一条指令。

2025-01-18 00:22:42 202

原创 vscode连接远程服务器,打开一个新终端,总是显示两个conda环境

看着好膈应,虽然可以conda deactivate一次去掉(zsl),再conda deactivate一次去掉(base),但每次打开有两括号就很烦。原因在于每次“傻扣”会自动激活一次base环境,只需终端运行一次。这样每次新开一个终端就只显示上次的conda环境啦~

2025-01-14 21:01:56 196

原创 手搓单周期、流水线CPU

手搓cpu

2022-07-19 20:17:06 1946 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除