本次主要是针对1.27-2.02之间的LLM 论文和相关新闻进行摘要总结。
1 新闻
- OpenAI发布了o3 mini。OpenAI推出了o3 mini,这是一种经济高效的模型,在STEM领域提供了增强的推理能力,并提供了不同推理努力的选项。它在数学、编码和科学任务方面优于以前的模型,同时减少了延迟。开发人员可以通过多个API访问它,ChatGPT Plus、Team和Pro用户可以获得更高的速率限制。
- DeepSeek发布开源AI图像生成器,美国股市继续暴跌。DeepSeek发布了开源AI图像生成器Janus-Pro-7B,其性能优于DALL-E和Stable Diffusion。随着DeepSeek凭借其R1模型在苹果应用商店上超越了ChatGPT,它面临着网络攻击,但仍保持服务。
- Meta创建了四个“作战室”,以揭示DeepSeek如何以更低的成本超越竞争对手。Meta已经建立了四个“作战室”来调查DeepSeek在人工智能领域的快速成功,这威胁到了像ChatGPT这样的行业巨头。尽管其R1模型的投资低于600万美元,但DeepSeek在其新的Janus Pro 7B图像模型上表现出色。Meta旨在通过了解DeepSeek的成本削减和技术进步来增强自己的人工智能Llama。
- Huggingface在Open-R1上工作:DeepSeek-R1