AI圈 “火拼“！OpenAI、Qwen、DeepSeek 新模型发布

最新推荐文章于 2025-04-04 23:39:01 发布

开心的AI频道

最新推荐文章于 2025-04-04 23:39:01 发布

阅读量330

点赞数 5

文章标签：人工智能

本文链接：https://blog.youkuaiyun.com/m0_46568584/article/details/145415635

版权

OpenAI's o3-mini

OpenAI推出的o3-mini是一个全新的推理模型，旨在为开发者提供成本效益高的解决方案，特别是在科学、数学和编程等技术领域中。它支持三种不同的推理强度：低、中、高，让用户可以根据具体任务的需求调整模型的表现。在性能方面，o3-mini比前一代o1-mini响应速度提高了24%，同时保持了较高的准确性。此外，该模型还首次向免费用户提供推理功能，对于付费用户（如ChatGPT Plus和Team用户）可以从2025年2月1日起就可以使用，其每日消息限制也有所提升。

Qwen2.5 AI Models

Qwen2.5是阿里云研发的最新一代开源大型语言模型系列，相比之前的版本，在知识掌握、编程能力、数学能力和指令执行等多个方面都有显著提升。例如，在MMLU评测中得分超过85分，在HumanEval编程测试中达到了85+的分数，并在MATH评测中表现出了数学能力的大幅提升。除了这些改进之外，Qwen2.5还增强了对system prompt的适应性，支持生成长文本以及理解和生成结构化数据的能力。

DeepSeek-R1

DeepSeek-R1是由DeepSeek推出的一个开源模型，它通过多阶段强化学习训练流程来增强大模型的深度思考能力。与以往依赖大量监督数据的方法不同，DeepSeek-R1-Zero完全通过强化学习进行训练，无需监督微调作为初步步骤，展示了卓越的推理能力。这种创新方法不仅提升了模型的推理性能，而且为研究界树立了一个重要的里程碑。此外，DeepSeek-R1还在多个基准测试中取得了接近甚至超越OpenAI-o1的成绩，这标志着开源大模型正在追赶并可能超越闭源模型。

Google’s Gemini 2.0 Flash Thinking

Google’s Gemini 2.0 Flash Thinking是谷歌推出的一款实验性“推理”模型，与OpenAI o1模型类似，支持深度可视化展示推理过程。它最大的亮点在于独特的“思考暂停”功能，面对复杂问题时会先停顿思考，在这个过程中它会考虑诸多相关提示，并逐步展示推理路径，让用户清晰了解其得出结论的逻辑，解决了AI决策过程不透明的问题。虽然处于实验阶段，但Gemini 2.0 Flash Thinking在性能表现上十分亮眼，在聊天机器人领域的各项类别中排名第一，在数学、风格控制、创意写作等多个方面都有显著提升。它原生支持多模态输入，能处理文本和图像，可解决涉及多类型数据的复杂问题。目前，用户可在Google AI Studio中作为实验模型使用它，也能直接在Gemini API调用，在Vertex AI平台上同样可以使用。