- 博客(427)
- 资源 (3)
- 收藏
- 关注
原创 apt-get与apt的区别
针对用户apt是为终端用户设计的,提供更好的用户体验和简洁的命令。针对脚本apt-get更适合用在脚本和自动化任务中,因为它的命令更明确,不会影响脚本流,因为没有额外的用户交互。尽管apt提供了更好的用户体验,但apt-get仍然是一个稳定可靠的工具,尤其是在需要精细控制包管理过程的情况下。一般来说,用户可以根据自己的需求选择使用哪个工具。
2025-03-31 10:53:20
412
原创 大模型训练过程中KVCache与MLA
那么,一个token对应的qv的数量为2*64*80=10240;根据Transformer中注意力公式,每个token的q需要和之前所有的k计算注意力,然后经过Softmax函数后乘以之前所有token的V,得到最终的结果。注意的是,只有自注意力层进行KVcache的交互,其他部分不需要(position embedding、Laynorm、Feedforward 不需要)由于生成第一个token前没有KVcache,所以延迟较高,需要为提示中每一个token计算KV矩阵。为K计算新列,为V增加新行。
2025-03-28 17:35:52
398
原创 docker文件夹迁移
多人使用一台服务器,每个人新建一个docker,而docker默认挂载在根目录下,久而久之,根目录所在的磁盘就撑爆了。因此最好的方式或者说不得不做的方式就是修改docker挂载的磁盘。在此过程中踩了不少坑,提示一些需要注意的地方。一开始参考的内容是博客,该博客提供三种方式。其中用软链接的方式即可。这主要是因为其余两种方式会涉及到修改配置文件,根据。
2025-03-27 10:44:23
621
原创 mv过程中断会发生什么
在 Linux 或 macOS 终端中执行mv(移动文件)操作时,如果过程被中断(例如,按Ctrl + Cmvmv/home/mnt/usbmvmvmv。
2025-03-20 10:09:15
252
原创 conda commandNotFoundError Your shell has not been properly configured to use ‘conda activate‘.
激活环境后未使用退出环境就关闭终端参考https://blog.youkuaiyun.com/qq_33825817/article/details/88959785
2025-03-19 14:03:46
159
原创 Linux修改conda默认环境位置
package为缓存路径,envs为虚拟环境路径。以Ubuntu系统为例,默认情况下 /.conda路径排在第一位,表示默认环境安装路径。附:vim输入i进入编辑模式,输入esc退出编辑模式,输入 :wq 或者 :wq!退出保存修改文件condarc文件是 Conda 配置文件,其名称的含义如下:- conda:指的是 Conda 这个包管理和环境管理工具。- rc:是 “run commands” 的缩写,通常用于指代配置文件(类似于.bashrc.vimrc等)。因此,
2025-03-13 10:52:56
290
原创 PyTorch 和 Python关系
深度学习框架是一种软件库,旨在简化深度学习模型的开发、训练和部署过程。它提供了一套高层次的接口和工具,使得研究人员和开发者可以更有效地构建复杂的神经网络模型,而不需要深入了解底层的数学细节和硬件实现。PyTorch 和 Python 是两个不同但相互关联的工具,主要用于机器学习和深度学习领域。
2025-03-12 14:44:32
2520
原创 Find查找某个文件或者文件夹
在 Linux 中,find命令既可以查找文件,也可以查找目录。关键区别在于-type-type f-type d示例:查找/home目录下名为myfolder的目录。
2025-03-12 11:06:33
207
原创 DualPipe代码库解析
我们来重新整理和渲染这个表格,以便更清晰地展示每个 GPU 在不同步骤中的执行情况。文件是 Python 包中的一个特殊文件,它的作用是定义包的初始化行为。函数和类主要用于支持分布式训练场景下的权重梯度管理、张量分割与合并等操作。文件中写入代码时,这些代码会在导入包时自动执行。
2025-03-12 09:44:38
827
原创 conda 环境重命名
1.查询当前存在的虚拟环境及其信息2.虚拟环境更名如我这边需要对detectron2进行更名,那么找到detectron2对应的文件夹,直接将文件夹名称修改为任意你想要修改的名字即可!
2025-03-06 11:37:39
318
原创 conda的作用
这篇论文提出了KLOTSKI,一种高效的混合专家(MoE)推理引擎,旨在通过专家感知的多批次管道范式来减少推理过程中的气泡,从而提高推理效率。MoE (Mixture-of-Experts) 模型凭借其稀疏结构,使得语言模型可以扩展至万亿级参数,同时避免了计算成本的大幅增长。最近,基于 MoE 结构的模型备受关注,例如,近日火爆的DeepSeek V3和R1均采用MoE 架构,以较低的成本实现了更强的能力。然而,庞大的参数规模给推理带来了挑战,尤其是 GPU 内存增长速度难以匹配参数的增长。
2025-03-06 11:25:31
950
原创 Klotski_ Efficient Mixture-of-Expert Inference via Expert-Aware Multi-Batch Pipeline
这篇论文提出了KLOTSKI,一种高效的混合专家(MoE)推理引擎,旨在通过专家感知的多批次管道范式来减少推理过程中的气泡,从而提高推理效率。MoE (Mixture-of-Experts) 模型凭借其稀疏结构,使得语言模型可以扩展至万亿级参数,同时避免了计算成本的大幅增长。最近,基于 MoE 结构的模型备受关注,例如,近日火爆的DeepSeek V3和R1均采用MoE 架构,以较低的成本实现了更强的能力。然而,庞大的参数规模给推理带来了挑战,尤其是 GPU 内存增长速度难以匹配参数的增长。
2025-03-05 23:05:36
929
原创 INA(In-Network Aggregation)技术
In-Network Aggregation 通过“传输即计算”的方式,将计算任务卸载到网络设备,是突破分布式训练通信瓶颈的关键技术之一,尤其适用于大模型场景。
2025-03-03 22:10:44
327
原创 SFT与RLHF的关系
关系:SFT是RLHF的必要前置阶段,RLHF是SFT的深化和补充。是否替代:❌ 不可替代,需分阶段使用。RLHF需SFT提供初始化模型,SFT需RLHF解决复杂对齐问题。实践意义:两者结合能显著提升模型的安全性、有用性和可控性,是当前大模型对齐的主流方案(如InstructGPT、Claude)。
2025-03-03 22:01:28
356
原创 deepseek、腾讯元宝deepseek R1、百度deepseekR1关系
服务质量高低需分场景:C端实时交互:腾讯元宝满血版可能更优(低延迟、社交集成)。企业级数据处理:百度满血版或更具优势(结合百度AI平台)。通用性与灵活性:官网R1版本更适合技术开发者或需要自主定制的用户。建议选择依据:若追求与腾讯/百度生态无缝整合,选择对应合作版本。若需技术透明度和长期迭代保障,官网版本更可靠。实际决策前,建议参考官方白皮书、第三方评测(如MLPerf榜单)及试用体验。
2025-03-03 17:08:01
3513
原创 Continue Pretraining和Fine Tuning的区别与联系
区别点本质扩展模型的知识或领域适应性调整模型的行为以适应任务数据驱动数据量极大,无监督数据量较小,有监督输出形式保持通用能力(如文本生成)绑定到具体任务(如分类/翻译)参数影响底层表示可能被修改高层表示更易被调整。
2025-03-03 10:08:56
349
原创 人工智能的复兴与飞跃:2006年以来的关键节点与技术革命
从2006年深度学习的星星之火,到今日生成式AI的燎原之势,人工智能在短短十几年间完成了从“工具”到“伙伴”的蜕变。未来,AI将不仅是效率的引擎,更可能成为人类探索科学边界的“思维扩展器”。然而,如何在技术创新与伦理约束之间找到平衡,将是人类与AI共生的终极命题。延伸思考:当AI能够创作艺术、发现科学规律、甚至通过图灵测试时,人类如何重新定义创造力与智能的本质?这场革命或许刚刚拉开序幕。
2025-03-02 09:26:32
1095
原创 deepspeed、MegatronLM和Megatron-deepspeed的关系
主导,同时结合了 NVIDIA 的 Megatron-LM 技术。Megatron-DeepSpeed 是由。的,具体整合工作主要由。
2025-02-27 17:53:54
805
原创 Understanding Incast Bursts in Modern Datacenters
旨在探讨现代数据中心中常见的incast流量模式对网络性能的影响。
2025-02-27 11:19:39
314
原创 Alpa_Automating Inter- and Intra-Operator Parallelismfor Distributed Deep Learning
Alpa:旨在通过自动化模型并行训练来优化大规模深度学习模型的分布式计算。
2025-02-27 10:26:31
341
原创 SMARTMOE:通过结合离线与在线并行化高效训练稀疏激活模型
SMARTMoE通过扩展混合并行性空间并引入两阶段自适应自动并行化方法,解决了稀疏激活模型的并行化问题。与现有系统相比,SMARTMoE在端到端训练中实现了高达1.88倍的加速。SMARTMoE的设计为稀疏激活模型的分布式训练提供了有效的解决方案。这篇论文通过创新的方法和实验验证,展示了SMARTMoE在稀疏模型训练中的高效性和实用性。这篇论文提出了SMARTMoE系统,用于解决稀疏激活模型的并行化问题。
2025-02-27 09:56:17
342
原创 FASTMOE_A FAST MIXTURE-OF-EXPERT TRAININGSYSTEM
这篇论文介绍了FastMoE,一个开源的MoE模型训练系统,基于流行的PyTorch框架,支持在GPU上高效训练。FastMoE在单GPU上的性能经过优化,并且在多个GPU和节点上具有良好的可扩展性,能够进一步扩展模型规模。实验结果表明,MoE模型在使用FastMoE进行训练时表现出更好的性能。未来的工作包括支持专家之间的负载均衡和优化系统功能,以提高用户体验。这篇论文为大规模MoE模型的训练提供了有效的解决方案,并展示了其在实际应用中的潜力。这篇论文提出了FastMoE系统。
2025-02-27 09:03:29
750
原创 分布式并行中并行组
在分布式训练中,通常会采用 数据并行(DP)、张量并行(TP)、流水并行(PP) 结合的方式,以最大化计算效率和内存利用率。你的tp_groups和dp_groups。
2025-02-26 10:38:10
817
原创 MOE维度变化
展开 tokens (让每个 token 计算 gate,决定去哪些 experts。top-2 分派 (确定 token 在 expert buffer 中的位置,维护顺序。重新排列 (让每个 expert 处理C个 token,数据对齐。Expert 计算 (运行前馈网络,得到 expert 计算后的输出。合并输出 (按照 gate 权重加权求和,恢复 token 级输出。恢复 batch 结构 (让 Transformer 继续处理。
2025-02-26 10:22:24
975
原创 DeepEP通信库
DeepEP 是一个高效的专家并行通信库,专为 MoE 模型的训练和推理优化。它通过提供高吞吐量和低延迟的 GPU 内核(也称为 MoE 分发和组合操作),显著降低了 MoE 模型在分布式训练和推理中的通信瓶颈。根据 DeepSeek 的描述,DeepEP 旨在支持大规模 AI 工作负载,减少训练成本,提高性能,并使先进 AI 研究更加可访问。
2025-02-25 17:43:15
915
原创 Cassini_Network-Aware Job Schedulingin Machine Learning Clusters
这篇论文介绍了CASSINI,一种用于机器学习(ML)集群的网络感知作业调度器。
2025-02-25 10:22:25
871
原创 微调领域概述
2018年Google发布BERT模型,BERT出现之后,fine-tuning技术也随之流行。微调旨在利用相对较少的领域特定数据对预训练模型进行优化。
2025-02-24 09:32:36
468
原创 Agent领域概述
学术界和工业界对术语“AI Agent”提出了各种定义。其中,OpenAI将AI Agent定义为“**以大语言模型为大脑驱动的系统,具备自主理解、感知、规划、记忆和使用工具的能力,能够自动化执行完成复杂任务的系统**。”
2025-02-23 11:23:52
392
原创 DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models论文解析
u1Tl∈RT×dthtl∈RdNKgitsiteilKsfiPi̲?̲?^′{E1E2...ED}α1α1α2。
2025-02-13 09:58:33
637
原创 Stable Diffusion
最后总结说下 Stable Diffusion。上面整个过程和概念,是一个个解决问题的方法,把它们组合起来,逐渐建立起基于扩散模型生成图片的方法大厦,谁都可以用这些公开的理论方法建一套自己的生图模型。Stable Diffusion 就在这些基础上做一些改进,建立一套稳定的框架、训练出基础模型,开源让所有人可以用,整个 SD 就是多种能力的组合,这些能力可以分别不断升级替换,模型本身还有很多方式去做更强的控制干预(controlNet / LORA等),使得它可定制性可玩性很强,生态越来越繁荣。
2024-12-02 10:33:50
913
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人