在最近,大模型的发展如期进行时,在原先比较小众的小模型领域,各家AI大厂开始了竞争,这场竞争由OpenAI发起,他们推出了GPT-4o mini来代替GPT-3.5模型,让GPT-3系列全面退役(期待开源);接下来hugging face又推出了自家的SmoLLM,在接下来,就是本文章的主角——Mistral-NeMo的出场。
基础介绍
这次Mistral和NVIDIA联合推出的Mistral- NeMo拥有120亿的训练参数和128K的上下文窗口,所以它的推理、世界知识和编码准确性在其尺寸类别中是最先进的。而且Mistral-NeMo还是基于标准架构的,所以Mistral-NeMo的兼容性很高,而且可以在任何使用Mistral-7B的系统中置换。
下表比较了 Mistral NeMo 基础模型与两个最近的开源预训练模型 Gemma 2 9B 和 Llama 3 8B 的准确性。

最新的Mistral NeMo还支持全球的多数语言,包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语,而且非常强大。

技术细节:Tekken,一个更高效的分词器
Mistral NeMo 使用基于 Tiktoken 的新

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



