创新引领的人工智能模型系列:MiniMax-01 系列震撼登场

部署运行你感兴趣的模型镜像

image.png

MiniMax

MiniMax 发布并开源了全新系列模型—— MiniMax-01。这个系列模型中包含两个模型,基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01。

MiniMax-01

image.png

MiniMax-01

MiniMax-01系列模型首次大规模实现线性注意力机制,传统  Transformer 架构不再是唯一的选择。这个模型的参数量高达4560亿,其中单次激活459亿。模型综合性能比肩海外顶尖模型,同时能够高效处理全球最长400万 token 的上下文,是 GPT-4o 的32倍,Claude-3.5-Sonnet 的20倍。

参数对比

image.png

参数对比

基于业界主流的文本和多模态理解测评结果,MiniMax-01 在大多数任务上追平了海外公认最先进的两个模型,GPT-4o-1120 以及Claude-3.5-Sonnet-1022。在长文任务上,我们对比了之前长文最好的模型 Google 的 Gemini。而且输入长度越长,MiniMax-Text-01 性能衰减越慢,显著优于 Google Gemini。

在性能方面,MiniMax-Text-01 综合性能比肩海外顶尖模型。在长文任务上,对比 Google 的 Gemini,随着输入长度变长,它的性能衰减最慢,显著优于 Gemini。在多数学术集上,它取得了比肩海外第一梯队的结果,在长上下文的测评集上表现尤为突出。在 400 万的 Needle-In-A-Haystack 检索任务上,它的表现出色。

此外,MiniMax-Text-01 还具有较高的性价比。受益于架构创新、效率优化、集群训推一体的设计以及内部大量并发算力复用,其提供了业内较低价格区间的文本和多模态理解 API,标准定价是输入 Token 人民币 1 元 / 百万 Token,输出 Token 8 元 / 百万 Token。

 有关慧星云

慧星云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在慧星云。

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值