AI潮汐日报1212期：OpenAI前四天发布亮点、NeurIPS 2024最佳论文、谷歌发布Gemini 2.0 AI模型，性能大幅提升

最新推荐文章于 2025-12-15 12:08:33 发布

原创最新推荐文章于 2025-12-15 12:08:33 发布 · 4.6k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #chatgpt #AI编程 #AIGC

AI 潮汐日报，旨在提供最新潮、最核心、最有意思的AI速递。四大专栏：今日热点、应用速递、研究进展、思维碰撞。

今日热点

OpenAI“Shipmas”活动前四天亮点回顾

资讯：OpenAI的“Shipmas”活动在前四天发布了多项更新。第一天，推出了o1模型完整版及o1 pro模式，后者每月200美金，提供先进模型和工具。第二天，强化微调能力发布，旨在将小型模型快速训练成领域专家。第三天，Sora视频工具亮相，提供视频生成和编辑功能，但价格较高。第四天，Canvas功能升级，集成Python代码运行和GPT模型，提升协作和编程效率。

谷歌发布Gemini 2.0 AI模型，性能大幅提升

资讯：谷歌宣布正式发布Gemini 2.0，宣称这是其迄今为止功能最强大的AI模型。Gemini 2.0在性能上显著增强，具备更多多模态功能，如原生图像和音频输出，以及新的原生工具应用。在关键基准测试中，2.0版本性能是1.5 Pro的两倍。开发人员现可在AI Studio和Vertex AI中试用2.0 Flash实验版本，网页版Gemini也提供试用，移动版将随后推出。

OpenAI发布Canvas，ChatGPT升级为生产力工具

OpenAI宣布Canvas功能全量开放，将ChatGPT转变为生产力工具，允许用户与AI协作完成写作和编码项目。Canvas整合进ChatGPT的主要功能，支持在Web版上直接使用，免费和付费用户均可体验。新功能包括直接在Canvas上运行Python代码、图片识别以及CustomGPT调用。OpenAI展示了Canvas的文字编辑、审稿、编程和图片识别能力，提升了人与AI的协作效率。

资讯：NeurIPS 2024年会于加拿大温哥华举行，最佳论文由北大字节联合新加坡国立大学等机构团队摘得。会议公布了两篇最佳论文，一篇关于视觉自回归模型的新范式VAR，另一篇为高维高阶微分算子的计算难题的解决方案STDE。此外，PRISM数据集获“数据集与基准”最佳论文。Ilya Sutskever连续三年获得时间检验奖。会议还评估了LLM作为科学论文作者清单助手的效果，显示其有助于提升论文质量，但也存在局限性。

应用速递

字节跳动提升即梦产品优先级，打造AI时代的抖音

资讯：字节跳动提升了即梦产品的优先级，旨在打造“AI时代的抖音”。公司管理层认为AI对话类产品可能只是中间态，未来产品需更视觉化、门槛更低。豆包用户活跃度和使用时长均不高，内部认为基于文本的对话产品可能不是最理想形态。同时，内部判断付费订阅模式在中国难以成功，广告空间受限，构成产品发展的隐形天花板。即梦是张楠离开抖音集团CEO职位后推出的AI创作工具和社区，旨在利用AI图像生成技术改变内容创作工具行业。

谷歌施压FTC要求解除微软对OpenAI技术独家托管

资讯：谷歌近期向美国联邦贸易委员会（FTC）施压，要求解除微软在其云服务器上对OpenAI技术的独家托管协议。谷歌及亚马逊等竞争对手希望自主托管OpenAI的AI服务，以便云客户无需依赖微软服务器获取OpenAI技术。微软与OpenAI的合作始于2019年，微软投资10亿美元并成为OpenAI的独家云计算供应商。

研究进展

DeepMind发布PaliGemma 2，视觉语言模型新里程碑

资讯：DeepMind悄然发布了PaliGemma 2，该模型在图像描述、乐谱识别和医学图像报告生成等多项任务中取得业界领先成绩。PaliGemma 2基于更高性能的Gemma 2，提供不同尺寸和分辨率版本，易于微调，性能优越。模型能生成详细、上下文相关的图像描述，化学式识别、空间推理能力增强。

多模态大模型听觉能力受质疑，AV-Odyssey基准测试发布

资讯：香港中文大学、斯坦福大学等机构联合发布了AV-Odyssey基准测试，包含26个视听任务，覆盖7种声音属性，旨在评估多模态大模型的视听整合能力。研究发现，即便是先进的模型如GPT-4o在基础听觉任务上表现不佳，准确率接近随机猜测。

田渊栋团队提出Coconut模型，提升LLM推理能力

Meta和加州大学圣地亚哥分校的研究者提出了Coconut（连续思维链）模型，这是一种新的范式，允许LLM在潜在空间而非语言空间中进行推理。Coconut通过直接将隐藏状态作为输入嵌入，释放了推理过程，使其完全可微，能够通过梯度下降进行端到端优化。实验表明，Coconut在数学推理和逻辑推理任务上优于传统的CoT方法，特别是在需要复杂规划的任务中表现出色。

思维碰撞

诺奖得主霍普菲尔德与辛顿在瑞典演讲，LSTM之父指控剽窃

资讯：2024年诺贝尔物理学奖得主John Hopfield和Geoffrey Hinton在斯德哥尔摩大学的演讲中分享了他们的科研经历和对物理学的理解。Hopfield强调了物理学视角的重要性，而Hinton则以易懂的方式讲述了Hopfield网络和玻尔兹曼机的原理。两位教授的演讲受到了观众的热烈欢迎。然而，LSTM之父Jürgen Schmidhuber在社交媒体上指控他们的工作是剽窃，并声称他们的成果是重新发表的旧方法，未引用原作者。