Mixtral: 专家云集高质量的稀疏专家组合

段智华

于 2023-12-15 19:45:00 发布

阅读量1.2k

点赞数 14

分类专栏：深入理解 ChatGPT 文章标签： Mistral

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行

本文链接：https://blog.youkuaiyun.com/duan_zhihua/article/details/135014399

版权

深入理解 ChatGPT 专栏收录该内容

180 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Mistral AI 发布 Mixtral 8x7B，一个开放源码的高质量 SMoE 模型，预训练速度更快，推理速度比 Llama 2 70B 提高 6 倍，性能媲美 GPT3.5。Mixtral 采用稀疏专家混合技术，允许在有限的计算资源下扩大模型规模，同时提供多语言处理能力。文章详细介绍了 MoE 的历史、优势、挑战及未来发展方向。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Mixtral: 专家云集高质量的稀疏专家组合

Mistral AI 继续履行其使命，为开发者社区提供最佳的开放模型。人工智能的发展需要采取新的技术转向，而不仅仅是重用众所周知的架构和训练范式。最重要的是，需要让社区从原始模型中受益，以促进新的发明和使用。

Mistral AI 团队自豪地发布了 Mixtral 8x7B，这是一个具有开放权重的高质量稀疏专家模型（SMoE）混合。在 Apache 2.0 下获得许可。Mixtral 在大多数基准测试中的表现优于 Llama 2 70B，推理速度提高了 6 倍。它是具有宽松许可证的最强开放模型，也是成本/性能权衡方面整体上的最佳模型。特别是，它在大多数标准基准测试上与 GPT3.5 相当或优于 GPT3.5。

Mixtral 具有以下功能:

优雅地处理 32k 标记的上下文。
处理英语、法语、意大利语、德语和西班牙语。
在代码生成方面表现出强大的性能。
可以微调为指令遵循模型，在 MT-Bench 上达到 8.3 分。

推动具有稀疏架构的开放模型的前沿

Mixtral 是一个稀疏的专家混合网络。是一种仅解码器模型，其中前馈模块从一组 8 组不同的参数中进行选择。在每一层，对于每个标记，路由器网络选择其中两个组（“专家”）来处理标记并将其输出累加组合。

这种技术增加了模型的参数数量&

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

段智华 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。