AI 潮汐日报,旨在提供最新潮、最核心、最有意思的AI速递。四大专栏:今日热点、应用速递、研究进展、思维碰撞。
今日热点
FLUX“官方版ControlNet”
AI绘图模型FLUX推出了四款官方工具,包括编辑工具fill、轮廓控制工具Canny、景深控制工具Depth和变换工具Redux,旨在提高图像生成的控制性和可操作性。这些工具能够修改画面细节、扩展画面、精准控制图像结构和景深,以及变换人物动作和画面风格。工具分为dev和pro两个版本,dev版代码和模型权重已开放下载,pro版通过API提供。这些工具的发布被视为AI绘图领域的一项重大进展,支持ComfyUI并可整合进绘画工作流,为创意绘图带来新的可能性。
谷歌Gemini新模型超越GPT-4o重登竞技榜第一
谷歌发布最新试验版模型Gemini-Exp-1121,在新版GPT-4o登顶竞技榜后一天便夺回冠军宝座。Gemini-Exp-1121重点提升了代码能力、推理能力和视觉理解能力,目前在多个方面位居第一。谷歌DeepMind的科学家们对此表示自信,认为这是后训练迭代速度的体现。在实际测试中,Gemini-Exp-1121在理解漫画和逻辑推理题上表现出比GPT-4o更全面和准确的能力。同时,OpenAI也在ChatGPT最新测试版本中加入了“实时摄像”视频功能,预示着未来人机交互可能从文字对话转为语音和视觉。
巴黎圣母院“浴火重生,AI 数字建模创奇迹
历经5年,巴黎圣母院在AI数字建模的帮助下完成修复,将于12月7-8日重新开放。2019年大火后,法国政府承诺5年内重建,动员了250多家公司和2000多名工匠,投资约7亿欧元。AI技术在重建中发挥了关键作用,通过3D数字建模和模拟设计方案,无人机提供了复杂的内部视图。重建使用了2400棵橡树,2000多座雕塑和装饰物得到重建。巴黎圣母院的修复不仅是文化复兴,也是古老工艺与现代科技的完美结合。
应用速递
搜狗输入法升级,实现“输入即搜索”
腾讯搜狗输入法宣布全新升级,引入腾讯混元大模型技术支持,推出和升级了AI搜索、AI快查等功能,实现“输入即搜索”。用户在聊天或写作时可以边聊边搜、边写边搜,快速获得相关信息。AI快查功能已覆盖40多个生活场景,包括房贷计算、节假日信息等。搜狗输入法拥有6亿多日活用户,通过产品迭代,希望让用户更多体验大模型能力。
首个可保留情感的音频LLM-7B-Spirit LM
Meta开源了7B尺寸的Spirit LM多模态语言模型,该模型能够理解和生成语音及文本,并在两者间自然转换。Spirit LM基于70亿参数的预训练文本语言模型,通过交错使用文本和语音数据进行训练,实现了文本到语音和语音到文本的转换,同时捕捉和再现语音中的情感和风格。模型分为基础版和表达版,后者额外使用音高和风格单元以增强生成语音的表现力。
研究进展
AI与3D打印结合实现小型核反应堆高级监测
韩国蔚山科学技术院和庆尚大学的研究团队开发了一种结合AI和3D打印的新型远程监控技术,能在2秒内检测小型核反应堆的潜在危险。该系统通过直接能量沉积将光纤传感器整合到核反应堆组件中,实现AI驱动的体内热变形分析。利用定向能量沉积(DED)打印方法,研究团队成功制造了智能核部件,将光纤传感器无缝集成到金属部件中,确保在恶劣环境下的稳定性。AI系统快速分析光学传感器数据,通过AR界面远程检测异常。
研究揭示大语言模型“推理”背后的原理
伦敦大学学院等机构的研究《Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models》发现,大语言模型(LLM)在执行推理任务时,并非简单地从参数知识中检索答案,而是利用预训练中的程序性知识进行推理。研究通过分析5M预训练文档对LLM的影响,表明模型在生成推理轨迹时依赖于从许多文档中综合的程序性知识,而非特定文档。这一发现挑战了以往关于大模型推理能力的观点,表明LLM能够从预训练数据中学习通用的推理方法,对未来AI设计具有重要意义。
思维碰撞
探索通用人工智能(AGI)的两条技术路径
在追求通用人工智能(AGI)的道路上,存在两大技术流派:Transformer架构和世界模型学派。Transformer架构依赖大数据、大参数和大算力,通过自回归方式处理序列化信息,尤其在自然语言处理领域表现出色。而世界模型学派则强调无监督学习和内部模拟,模拟人类和动物通过观察和简单交互学习世界知识的能力。尽管Transformer在模式识别和序列处理方面有优势,但在常识推理方面仍有限。世界模型则在强化学习和自主决策系统中展现出预测和规划的潜力。未来实现AGI可能需要结合这两种架构的优势,并探索新的技术和理论。