OpenAI's o3-mini
OpenAI推出的o3-mini是一个全新的推理模型,旨在为开发者提供成本效益高的解决方案,特别是在科学、数学和编程等技术领域中。它支持三种不同的推理强度:低、中、高,让用户可以根据具体任务的需求调整模型的表现。在性能方面,o3-mini比前一代o1-mini响应速度提高了24%,同时保持了较高的准确性。此外,该模型还首次向免费用户提供推理功能,对于付费用户(如ChatGPT Plus和Team用户)可以从2025年2月1日起就可以使用,其每日消息限制也有所提升。
Qwen2.5 AI Models
Qwen2.5是阿里云研发的最新一代开源大型语言模型系列,相比之前的版本,在知识掌握、编程能力、数学能力和指令执行等多个方面都有显著提升。例如,在MMLU评测中得分超过85分,在HumanEval编程测试中达到了85+的分数,并在MATH评测中表现出了数学能力的大幅提升。除了这些改进之外,Qwen2.5还增强了对system prompt的适应性,支持生成长文本以及理解和生成结构化数据的能力。
DeepSeek-R1
DeepSeek-R1是由DeepSeek推出的一个开源模型,它通过多阶段强化学习训练流程来增强大模型的深度思考能力。与以往依赖大量监督数据的方法不同,DeepSeek-R1-Zero完全通过强化学习进行训练,无需监督微调作为初步步骤,展示了卓越的推理能力。这种创新方法不仅提升了模型的推理性能,而且为研究界树立了一个重要的里程碑。此外,DeepSeek-R1还在多个基准测试中取得了接近甚至超越OpenAI-o1的成绩,这标志着开源大模型正在追赶并可能超越闭源模型。
Google’s Gemini 2.0 Flash Thinking
Google’s Gemini 2.0 Flash Thinking是谷歌推出的一款实验性“推理”模型,与OpenAI o1模型类似,支持深度可视化展示推理过程。它最大的亮点在于独特的“思考暂停”功能,面对复杂问题时会先停顿思考,在这个过程中它会考虑诸多相关提示,并逐步展示推理路径,让用户清晰了解其得出结论的逻辑,解决了AI决策过程不透明的问题 。虽然处于实验阶段,但Gemini 2.0 Flash Thinking在性能表现上十分亮眼,在聊天机器人领域的各项类别中排名第一,在数学、风格控制、创意写作等多个方面都有显著提升。它原生支持多模态输入,能处理文本和图像,可解决涉及多类型数据的复杂问题。目前,用户可在Google AI Studio中作为实验模型使用它,也能直接在Gemini API调用,在Vertex AI平台上同样可以使用。