DeepSpeed Mixture-of-Quantization (MoQ)

MoQ量化训练方法

原创

已于 2024-06-11 23:11:59 修改 · 577 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#性能优化

于 2024-06-11 22:32:00 首次发布

属于QAT (Quantization-Aware Training)的一种，训练阶段用量化。

特点是：

1. 从16-bit INT开始训练，逐渐减1bit，训练一些steps就减1bit，直至减至8bit INT；

2. （可选，不一定非用）多久减1bit，这个策略，使用模型参数的二阶特征来决定，每层独立的（同一时刻，每层的特征值们大小不一致，也就造成bit减少速度不一致，造成bit数目不同）；

参数：

quantizer_kernel：是否使用quantization kernel，默认不使用。我的理解是，量化版kernel目前还不是很ready。但是，如果不使用，那就要把模型参数再重新反量化为FP32/FP16，再计算？

quantize_type：对称量化，量化结果为signed int(-128~127)，就是float的0对应量化后int的0；非对称量化，量化结果为unsigned int(0~255)，就是float的0对应INT中的某个值（不一定是127、128）；

quantize_period: 首次训练这么多step，就减少1个bit；下次训练2*这么多step，减少1个bit；再下次训练4*这么多step，减少1个bit；。。。注意：自己算好，训练结束时，得下降到8bit；

schedule_offset: 刚开始训练的这些steps，不进行量化；为了保持开头训练的效果稳定性；

quantize_groups：所有参数分成这么多组，每组根据组内统计，使用自己的量化scale；

例子：

{
	......

    "quantize_training": {
      "enabled": true,
      "quantize_verbose": true,
      "quantizer_kernel": true,
      "quantize_type": "symmetric",
      "quantize_bits": {
        "start_bits": 12,
        "targ

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

smartcat2010

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

DeepSpeed超大规模模型训练工具

强化学习曾小健

05-18

949

DeepSpeed超大规模模型训练工具2021年 2 月份。这是一个开源深度学习训练优化库，包含的一个新的显存优化技术—— ZeRO（零冗余优化器），通过扩大规模，提升速度，控制成本，提升可用性，极大地推进了大模型训练能力。DeepSpeed 已经帮助研究人员，开发了图灵自然语言生成模型(Turing-NLG)，在发表时，为世界上最大的语言模型（拥有170 亿参数），有着最佳的精度。在2021年 5 月份。

DeepSpeed系列 -- 1 - 初识DeepSpeed

大海中的游鱼

12-18

5315

什么是DeepSpeed，它解决了什么痛点？

参与评论您还未登录，请先登录后发表或查看评论

万字长文解读深度学习——训练（DeepSpeed、Accelerate）、优化（蒸馏、剪枝、量化）、部署细节

分享包括但不限于计算机基础知识、数据结构与算法、Golang技术栈。年与时驰，意与日去，遂成枯落，多不接世，悲守穷庐，将复何及！

11-10

2399

面试资料收集者之万字长文解读【深度学习面试——训练（DeepSpeed、Accelerate）、优化（蒸馏、剪枝、量化）、部署细节】

【LLM算法工程】Megatron-LM | deepspeed | 量化/推理框架

发现问题，并解决问题，批判性思维

09-19

7133

当前比较主流的一些分布式计算框架 DeepSpeed、Megatron 等，都在降低显存方面做了很多优化工作，比如：量化、模型切分、混合精度计算、Memory Offload 等文章目录 note 大模型参数计算 1. 模型参数单位 2. 训练显存计算 3. 推理显存计算大模型的分布式训练 1. 数据并行 2. 模型并行 3. 流水并行 4. 混合并行模型量化 DeepSpeed ZeRO：零冗余优化 DeepSpeed Chat fastertransformer：LLM推理加速引擎 Megatro

ZeroQuant与SmoothQuant量化总结

LuchangLi 的专栏

03-16

8322

ZeroQuant SmoothQuant量化总结

部署 DeepSpeed以推理 defog/sqlcoder-70b-alpha 模型

keyboard专栏

11-27

1806

部署DeepSpeed来推理环境准备：安装 DeepSpeed 和相关依赖。DeepSpeed 配置：设置文件，启用 ZeRO 优化、混合精度（FP16）、激活卸载等。加载模型并应用 DeepSpeed：加载模型并使用 DeepSpeed 进行推理初始化。优化推理性能：使用模型并行、Tensor Parallelism 和激活卸载来优化显存和计算效率。量化推理：使用 INT8 量化推理进一步提高性能（可选）。监控推理过程：实时监控 GPU 状态并调整参数以优化性能。

quanTIseq:肿瘤浸润免疫细胞定量分析

庐州月光的博客

07-22

2788

欢迎关注”生信修炼手册”!quanTIseq基于反卷积算法，利用bulk samples的RNA_seq数据，可以对肿瘤样本中不同种类免疫细胞的组成进行预测，支持以下10种类型的免疫细胞...

[论文翻译]DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI

baweikamisama的博客

10-25

1223

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI 论文翻译

第二代MoE（Mixture-of-Experts）大模型

百态老人的博客

12-25

966

Switch Transformer和GShard在实际应用中都展现了强大的性能和扩展能力，但在通信成本、训练不稳定性、负载均衡和硬件适应性等方面仍存在一些限制。

mixture-of-experts:混合Keras专家层

04-30

混合Keras专家层该存储库包含实现专家模型的卷积和密集混合的Keras层。专家层的密集混合物文件DenseMoE.py包含一个DenseMoE.py层，该层实现了专家模型的密集混合：该层可以与Dense层相同的方式使用。...

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

06-23

在这篇论文中，我们提出一种新类型的层——稀疏门控专家混合层（Sparsely-Gated Mixture-of-Experts(MoE)），它能够在仅需增加一点计算的基础上被用于有效提升模型的能力。这种层包含了多达数万个前向的子网络（feed...

NLP大规模语言模型推理实战：大语言模型BLOOM推理工具测试实践与效果分析实录...

zenRRan的博客

02-25

3527

来自：老刘说NLP进NLP群—>加入NLP交流群LLM(大语言模型)推理存在两个两个问题：(1) 单张显卡无法容纳整个模型；(2) 推理速度太慢。针对这类问题，本文初步整理了一些推理大模型的工具和代码，并简单测试了推理速度。下面是本文测试的一些背景：目前是使用7B模型bloom-7b1-mt、4张3090(但在实际推理中仅使用2张3090)、依赖包的版本：transformers==4.26...

【自然语言处理】【大模型】大语言模型BLOOM推理工具测试

bqw的博客

03-05

3974

BLOOM的原理见 BLOOM是由HuggingFace推出的大模型，其参数量达到176B(GPT-3是175B)。目前超过100B参数量且能够支持中文的开源大模型只有BLOOM和GLM-130B。由于HuggingFace是著名开源工具Transformers的开发公司，很多推理工具都会支持Transformers中的模型。 LLM(大语言模型)推理的两个问题：(1) 单张显卡无法容纳整个模型；(2) 推理速度太慢。本文初步整理了一些推理大模型的工具和代码，并简单测试了推理速度。

DeepSpeed使用指南(简略版)

最新发布

LFCuiYs的博客

12-03

336

不知不觉中，社区活动之金仓数据库产品体验官第六期开始了，也是本年度最后一场体验官活动了，收官了。我们继续来看下金仓数据库的ORACLE兼容模式：金仓数据库（KingbaseES）是北京人大金仓信息技术股份有限公司推出的国产大型通用关系型数据库，其 Oracle 兼容版是其最重要的产品形态之一，核心目标是为使用 Oracle 数据库的用户提供一套平滑、低风险、高性能的国产化迁移替代方案。该版本并非简单的“仿制”，而是基于深度兼容的理念进行设计和开发。其核心思想是：让原有的 Oracle 应用系统，能够以最小

提升系统效率的关键（Linux文件系统性能优化入门教程）

本人是新手，有一定的了解不到位，望海涵

11-30

313

简单来说，文件系统是操作系统用来组织和管理磁盘上数据的一种方式。它决定了文件如何存储、命名、查找和保护。常见的 Linux 文件系统包括 ext4、XFS、Btrfs 等，其中ext4是目前最广泛使用的默认文件系统。

鸿蒙学习实战之路：HarmonyOS 布局性能优化最佳实践

u011864152的博客

12-02

3848

结构优化：减少嵌套层级，使用扁平化布局组件选择：根据场景选择合适的布局组件属性使用：优先使用图形变换，避免二次布局列表优化：使用虚拟化技术，合理设置缓存性能监控：持续监控并优化性能瓶颈通过合理应用这些优化策略，可以显著提升应用的用户体验和性能表现。

AI Agent 性能优化与成本控制：从技术突破到行业落地实战指南

qq_40303030的博客

11-29

1594

本文系统解析了AIAgent落地实践中的性能优化、成本控制和稳定性保障三大核心问题。通过提示词压缩、智能路由、缓存机制等技术策略，有效解决了模型运行慢、成本高、易出错等痛点。文章提供了RAG防幻觉、超时重试、输出验证等全流程稳定性设计，并详细展示了AI编程助手、智能客服、数据分析师三个行业的实际应用案例。所有技术方案均经过实战验证，包含可直接复用的代码片段和架构设计图，为开发者提供从优化到落地的完整解决方案。最终实现性能提升40%以上、成本降低50-70%、任务中断率从30%降至5%以下的优化效果。

MIXTURE-OF-EXPERTS

08-22

MTURE-OF-EXPERTS是一种推荐系统中的模型。它是一种多专家模型，可以将不同的专家的知识和能力结合起来，以提高推荐系统的性能。MMoE是MIXTURE-OF-EXPERTS的一种改进的模型。它引入了gate门函数来控制每个专家的权重输出。在MMoE实践过程中，发现了一个问题，即有时只有一个专家起作用，其权重被极化成001的形式。因此，MMoE是一种可以解决这个问题的改进的推荐模型。123 #### 引用[.reference_title] - *1* *2* *3* [一文看懂推荐系统：排序02：Multi-gate Mixture-of-Experts (MMoE)](https://blog.youkuaiyun.com/weixin_46838716/article/details/126458980)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]