Mixtral_of_Expert_2024

2023Mixtral引领潮流。技术报告表明Mixtral的MoE的技术

一 技术架构

  • Sparse Mixture of Experts
    • 公式
    • 整合
      • K = 2
    • replace all FFN sub-blocks by MoE layers while GShard replaces every other block, and that GShard uses a more elaborate gating strategy for the second expert assigned to each token.

二 结果

  • 任务数据集
    • 解释一下shot 是什么意思
      • “shot” 指的是在评估任务中提供的示例(Example)的数量
      • 0-shot(零样本学习):模型在没有任何示例的情况下直接回答问题。例如,直接输入问题:“Who discovered gravity?”“Isaac Newton”
      • 1-shot(单样本学习):给模型提供一个示例,再让它回答。例如
        • Example:
          Q: Who discovered relativity?
          A: Albert Einstein

          Now answer:
          Q: Who discovered gravity?
          A: …

      • Few-shot(少样本学习,例如 3-shot, 5-shot):给模型提供多个示例,让它学习模式。例如
        • Example
          • Example 1:
            Q: Who discovered relativity?
            A: Albert Einstein

            Example 2:
            Q: Who proposed the theory of evolution?
            A: Charles Darwin

            Example 3:
            Q: Who discovered gravity?
            A: …

      • 总结
      • 在大模型评测中,不同任务会用不同的 shot 方式:
        • 0-shot:测试模型的泛化能力,不提供示例,直接让模型推理
        • 5-shot:提供 5 个示例,让模型学习任务模式,测试少样本学习能力
  • 结果
    • 性能
      • 与LLAMA系列对比
        • 从结果上看只能说各有千秋,Mistral在大多数标准上好点
    • 大小和效率
      • MoE模型大小看上去大,但是激活的参数量少,效果更好
    • 与GPT系列对比
      • 相当于gpt-3.5-turbo-1106
    • Multilingual benchmarks
      • 碾压
    • 剩下的很多实验都说明mistral性能好
    • 后面表明专家的选择大部分是根据语法而不是领域的区别

三 缺点

  • 只是说了基本原理,没有介绍一些核心技术,比如负载均衡怎么设计的
  • 只说了使用专家并行,没有涉及相关细节
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值