- 博客(7727)
- 收藏
- 关注
转载 重磅:人工智能新里程碑,大模型首次通过图灵测试
更有意思的是,有时候 AI 表现出的 “无知” 或 “不完美”,比如不知道校园里某个具体地点的位置,或者不了解最新流行的俚语,反而会被裁判认为是人类的特征。此次测试中 5 分钟的测试时间相对较短,在这么短的时间内,可能无法完全揭示 AI 的破绽。这充分说明,当前的大型语言模型能够通过测试,在很大程度上依赖于人类的引导,需要人类为其设定特定的角色,从而模拟特定的人类行为模式。大型语言模型的强大之处恰恰在于其拥有出色的灵活性和适应性,能够根据人类给出的提示,迅速调整自己的行为模式,模仿各种各样的人类角色。
2025-04-02 17:21:37
5
转载 深度长文|数学之谜:揭秘AI在奥数证明中的惊人失败
研究团队深知这一点,因此设计了极其严格的评估流程:邀请了四位具有前IMO国家队成员背景的数学专家组成评审团,采用与人类竞赛完全相同的7分制评分标准,对AI生成的每一份证明进行独立、细致的交叉评估。评估大语言模型在美国2025数学奥林匹克上的表现)的预印本论文,像一面冷峻的镜子,照见了AI数学“天才”光环下令人不安的阴影。然而,就在这片乐观的喧嚣之下,一项来自INSAIT、苏黎世联邦理工学院(ETH Zurich)等顶尖机构的研究,悄然进行了一场不为大众所知的、堪称“终极试炼”的测试,结果却石破天惊。
2025-04-02 17:21:37
2
转载 当大模型接管编程:NASA 疯狂的“反人类”编程要求,为何仍被奉为行业圣典?
来源:AI前线整理:华卫在软件工程领域,有些 “老派” 的方法和理念,是经过时间检验的真理,值得我们重新审视和学习。 大多数大型软件开发项目都会使用编码规范,旨在规定编写软件的基本规则:代码应如何构建,以及应该使用和避免哪些语言特性,尤其是在代码的正确性会对设备产生决定性影响的领域,如潜水艇、飞机、将宇航员送上同步轨道的航天器,以及距离居民区仅几公里之外的核电站等设施运行的控制代码等。在众多编码规范中,NASA 的编码规则以其严苛性和有效性反复被提起。近期,油管博主 ThePrime Time 发布的解读
2025-04-01 18:04:39
48
转载 深度长文|AI的“自信陷阱”:解剖大模型幻觉背后的“认知短路”
AI果然被“诱骗”了,它抑制了“无法回答”的警报,开始自信地“胡说八道”,编造出“匹克球”之类的答案!AI错误地触发了“自信开关”,因为它混淆了对某个标签的“熟悉感”(Familiarity)和对其内容的“掌握度”(Mastery)。例如,GPT系列或Gemini系列,在面对不确定性时,有时更倾向于遵循“最大相关性”原则,优先生成逻辑上连贯、看似完整的回答,哪怕这需要一些“创造性解释”,正如一些用户在。于是,“已知实体”特征被激活,抑制了“无法回答”的警报,“自信开关”被按下。该实验细节可以在他们的。
2025-04-01 18:04:39
27
转载 微软CEO最新演讲实录:微软正在给全人类派发“思维外挂”Agent
它可以处理任意复杂的数据集(例如,包含数千行和多标签页的原始客户收入数据),理解数据内容,执行Python代码来解答问题,并在几分钟内从原始数据中获得洞察,生成可视化图表。想象一下,创建一份高保真的项目报告、市场研究报告或毛利率改进计划时,Researcher能整合所有来源的信息,执行“思维链”推理,构建一份完整的研究报告。现在,请想象一下,如果我们每个人在工作时,都有一位研究员、一位分析师、一位数据科学家随时待命,帮助我们完成知识工作,那我们能做到什么程度。没有你们的参与和创造,所有技术本身将毫无意义。
2025-03-31 16:42:04
33
转载 科学家突破联邦学习模型同构限制,让异构设备在隐私保护中共同学习
在当今高度互联的世界中,移动设备、智能家居和物联网产品正源源不断地产生海量数据,如果能将这些数据充分利用起来,毫无疑问能够为 AI 模型的训练带来更多有价值的养料。具体来说,我们的算法会对随机标签条件下生成样本,将这些样本作为额外的训练数据,多个本地训练周期后,再用真实数据进行精炼。传统的联邦学习,比如联邦平均(FedAvg,Federated Averaging)算法,虽然允许多个设备在不共享原始数据的情况下训练模型,但通常假设所有参与者使用相同的模型架构——这一假设在现实世界中很少成立。
2025-03-30 17:30:21
32
转载 重复美国老路,永远都是追随者,朱松纯:什么才是真正AI创新?
朱松纯认为,人工智能的科技创新分为五个层次,五个层级如同冰山结构,“水面以上部分”包括执行层、算法层和模型层,是外在表现,是容易了解与实践的部分,相对而言也比较容易通过算法创新来改变和发展,比如DeepSeek和OpenAI。他以“通通”为例进行说明,“通通”通用智能的能力可以应用于轮式人形机器人或者双足人形机器人,甚至是机器狗当中,但是在不同的“身体”里都存在一个价值体系和决策系统,能够指导它完成相对应的任务。在幼儿园场景中,“乐乐”在无聊的状态下主动拿起玩具玩耍,而饥饿的“通通”则打开了冰箱找食物。
2025-03-30 17:30:21
56
转载 伯克利论文:Multi-Agent多智能体系统为什么会失败?
此外,我们注意到,正如预期的那样,不同的 MAS 表现出不同的故障类别和模式分布。请注意,尽管我们的干预措施成功地提高了框架在不同任务中的性能,但它们并没有带来实质性的改进,需要我们在第5.2节中列出的更全面的解决方案。在迭代改进中,我们根据需要更改故障模式的定义,将它们分解为多个细粒度故障模式,将不同的故障模式合并为一种新的故障模式,添加新的故障模式或从分类法中删除故障模式。nnotator之间的一致性研究之后,我们的目标是想出一种自动化的方法,使用我们的分类法来发现和诊断 MAS 轨迹中的故障模式。
2025-03-30 17:30:21
84
转载 AI“黑盒子”被打开了!Anthropic连发两篇论文:用AI“显微镜”追踪大模型思维
在最近发表的一项独立实验中,他们研究了 Claude 的一个变种,该变种被训练追求一个隐藏的目标:平息奖励模型(用于通过奖励期望行为来训练语言模型的辅助模型)中的偏见。在达拉斯的例子中,他们观察到 Claude 首先激活代表“达拉斯在德克萨斯州”的特征,然后将其与一个单独的概念联系起来,表明“德克萨斯州的州首府是奥斯汀”。当然,这一方法也存在一些局限性。即使在简短的提示下,这一方法也只捕捉到 Claude 所执行的总计算量的一小部分,而他们看到的机制可能基于工具存在的一些偏差,并不反映底层模型的真实情况。
2025-03-29 16:12:52
43
转载 MIT人工智能女掌门丹妮拉·鲁斯带你走进人机共融的未来
比如在繁忙的路段配备传感器和智能设备,如此一来,汽车的能力就不仅取决于其自身的传感器,而是会与其他车辆、道路、配备传感器的护栏等通信,掌握自身之外的情况,实现安全高效的驾驶。为了帮助机器人实现更大的规划,接下来我们要添加一台计算机,它是机器人的大脑,能够存储数据、处理信息,向所有发动机和致动器发出具体指令。机器人还要有安置专用电子器件和软件的中间层,它位于机电组件和中央计算机之间,如此一来,机器人的大脑就可以收集来自传感器的数据,将指令发送给发动机和人造肌肉。取到咖啡,还要有移动、操作杯子和咖啡壶的规划。
2025-03-29 16:12:52
55
转载 突发!马斯克xAI收购X,总估值8000亿
据报道,马斯克为X额外筹集了约10亿美元(折合人民币约73亿元)的债务融资,所以该公司的估值440亿美元(折合人民币约3195亿元),与马斯克三年前收购X时的价格相同。X是数字城镇广场,超过6亿的活跃用户前往这里寻找Ground Truth的实时来源,在过去两年中,它已转变为世界上最高效的公司之一,使其能够提供可扩展的未来增长。
2025-03-29 16:12:52
26
转载 意识科学之战:超越伪科学与伪意识
我们从中学到了很多,但就目前的目的而言,我们指出:关于意识的神经关联位于脑后部的预测,其实只是间接与IIT的核心主张相关(这一预测是基于神经解剖学的论证),同时它也可能与其他理论兼容,例如递归加工理论(recurrent processing theory)。,争论依旧可能演变成敌意。他们将问题简化为一个极端选择:要么接受由计算功能主义精心调制的“标准菜单”(其所有菜品皆由高度加工的理论成分制成),要么彻底离开这家“餐厅”,改投IIT的“高级料理”,在那里,即便是点头盘,也需要先学会一门全新的语言。
2025-03-28 15:21:46
36
转载 OpenAI拥抱MCP,这个智能体的安卓
互操作之前,大模型与外部的最原始的互操作,其实是人类用户完成的,从文档中复制一大串文字或数据,作为提示词的一部分,复制到对话框,让大模型阅读到它。《美国安全与新兴技术中心:2025 中国学界对大语言模型的批判性思考:通用人工智能 (AGI) 的多元路径探索研究报告(29 页)》智能体价值链上的模型、智能体与工具的低耦合性,也许还将带来工具即服务(
2025-03-28 15:21:46
84
转载 通付盾:从AI到IA,AI Agent信任系统建设前瞻
2010年前后备受瞩目的MoE框架(也直接启发了DeepSeek的算法革新)也是专家模型的基础框架,通过动态路由机制将输入分配给不同的子模型(专家),在保证性能的同时减少计算量,为小模型的模块化设计奠定基础。大模型的成熟也为小模型的质量提升提供条件,通过知识蒸馏、模型剪枝等技术,小模型在保持性能的同时可以大幅压缩规模。另一方面,鉴于其未开放任何公开测试渠道,Manus的技术创新真实性、营销策略和实际价值创造能力也备受争议,尤其是其主打的“通用Agent”概念,在当前AI技术发展趋势下,还有相当的局限性。
2025-03-27 16:17:07
25
转载 重塑对称理论的数学家,获得2025年阿贝尔奖
数学中的一个著名的未解问题——希尔伯特第21问,也被称为黎曼–希尔伯特对应问题,它探讨的就是在复数域中具有奇点的特殊微分方程系统的解。在与皮埃尔·夏皮拉(Pierre Schapira)长达50余年的合作中,他们在层的方面取得了深远成果,也为表示论这一重要数学领域架起了一座新的桥梁。而柏原正树则另辟蹊径,提出了全新的应用思路——他发明了晶体基,将量子群的抽象代数结构转化为更加清晰可见的图形,这又在表示论与图论之间建起了新的桥梁。一个物体的各种对称性之间的关系,可以通过代数的一个分支——群论来描述。
2025-03-27 16:17:07
61
转载 【优先发布】美国“星际之门项目”对我国AI发展带来的挑战与启示
项目的核心研发目标是开发通用人工智能系统(Artificial General Intelligence,AGI),通过政府引导和市场机制相结合,实现AI从专业领域向更广泛的社会应用拓展,促进AI技术与实体经济深度融合,推动产业转型升级和经济高质量发展,以及加强国际合作与竞争等方面。随着全球AI技术的迅猛发展,美国意识到AI在这些领域的关键作用,因此提出了“星际之门项目”,旨在将AI项目置于与国防项目同等的优先级,通过集中资源和力量,加速AI技术的发展,巩固美国在AI领域的全球领导地位;
2025-03-26 21:12:48
54
转载 思想的起源:从神经元到存在之问 ——论人类意识的双重本质
当人们进行逻辑推理时,功能性磁共振成像(fMRI)显示该区域与海马体(记忆整合中心)、顶叶(空间处理区)形成强烈共振,这种跨脑区协作支持抽象思维(Smith et al., 2020)。美国人类学家罗宾·邓巴提出“社会脑假说”(Social Brain Hypothesis):灵长类群体规模与大脑新皮层面积正相关,人类需要处理150人左右的稳定社会关系,这迫使认知能力升级(Dunbar, 1998)。思想的“模因”(Meme)通过教育代际传递,最终使人类突破基因限制,成为地球的认知主导者。
2025-03-26 21:12:48
36
转载 林倞教授详解具身智能未来趋势:人机物高效融合
虽然单卡性能大约相当于英伟达 H100 的 50%~60%,但通过大规模集群化,整合了数万张卡,形成全球最大规模的算力集群,并利用先进的网络互联技术,实现全国多个计算中心的高效协同和弹性调度。其一是多模态大模型的全面崛起。因此,如何将大模型的概率计算与小规模、专门化的模型或算法(例如用于优化求解和规则应用的技术)有效结合,以达到高效且精准的任务执行效果,是当前需要解决的一个重要问题。在这一平台上,我们构建了高层次的任务模型,该模型通过与大语言模型的交互来理解场景上下文,解析任务要求,并进一步指导执行过程。
2025-03-26 21:12:48
53
转载 刘壮、何恺明&Yann LeCun联合新作:只需9行代码,全新颠覆Transformer,效果惊艳!
其中 α 是一个可学习的标量参数,允许根据输入的范围以不同的方式缩放输入,并会考虑不同的 x 尺度(图 2)。输入 x 范围较小的 token 往往具有较小的方差,并且归一化层将使用较小的标准偏差来除它们的激活,从而让直线有较大的斜率。需要注意的是,在 DiT 中,LN 层的仿射参数用于类调节,DyT 实验中也保留了这一参数,只是用 tanh (αx) 函数替换了归一化迁移。他们对每个 LLaMA 模型都进行了 30B tokens 的预训练,并比较了它们的训练损失,从而调整了它们的 α_0。
2025-03-24 15:58:12
50
转载 麦肯锡:《超级智能体:赋能人们释放人工智能的全部潜力》
重大经济和技术变革的历史表明,这样的时刻往往能决定公司的兴衰。然而,创造变革性价值的AI应用需要更大的勇气和远见,如制造业中的机器人技术、可再生能源中的预测AI、生命科学中的药物开发以及教育领域的个性化AI辅导。在速度与安全的平衡方面,报告揭示了一个有趣的悖论:虽然47%的C级高管认为他们的公司开发生成式AI工具的速度太慢,但员工和领导者都高度关注AI的安全性和可信度。总的来说,麦肯锡的这份报告展现了一个清晰的信息:AI不仅仅是一种提高生产力的工具,而是有潜力成为变革性超能力的合作伙伴,增强人类的能动性。
2025-03-24 15:58:12
86
转载 宇宙也有智能?智能体不但是AI领域核心,更可能引发科学范式重大变革!
从逻辑上分析,当一个智能体进化为「全知全能智能」时,它必然会扩展到整个宇宙,也就是整个宇宙都变成全知全能智能体,而当宇宙中所有的生命和AI系统全部死亡或报废,那么整个宇宙进入到绝对0智能体状态,而人类所处的当前宇宙,正处于有限智能体状态,也就是由有限智能体和绝对0智能体构成。在这一框架下,宇宙的一切系统都可以用智能体来描述,从最简单的物理系统如石块、金属,到拥有有限智能的生命体如人类,人造系统如机器人,再到理论上智能无穷大的「上帝」,甚至整个宇宙本身,都能在这个体系中找到自己的位置。
2025-03-24 15:58:12
56
转载 通过 LLM 表示破译人脑中的语言处理
模型的语音编码器中的语音嵌入和模型的解码器中的基于单词的语言嵌入。研究揭示了人类大脑语音区域的神经活动与模型的语音嵌入之间以及大脑语言区域的神经活动与模型的语言嵌入之间的显著一致性。的语言模型的训练协议,以及人类大脑自然在社交环境中获得语言的生物结构和发展阶段之间存在显著差异。这种动态反映了神经处理的顺序,从语言区域计划要说的内容开始,然后在运动区域中如何发音,最后在感知语音区域监视所说的内容。总的来说,我们的研究结果表明,语音到文本模型的嵌入提供了一个统一的框架,用于理解自然对话期间语言处理的神经基础。
2025-03-23 17:30:15
30
转载 DeepSeek R1-Zero 内幕大公开:原来“顿悟时刻”早就来了?还有 GRPO 的秘密
更让人惊讶的是,他们发现Qwen2.5 基座模型,这个 R1-Zero-like 训练的 “网红选手”, 即使不用 Prompt 模板,推理能力也强到离谱!这项研究不仅揭示了 R1-Zero-like 训练的深层机制,更指出了现有方法的潜在问题,并提出了有效的改进方案。对于想要深入理解和实践 R1-Zero 训练的朋友们来说,绝对是不可多得的宝藏资料!
2025-03-23 17:30:15
61
转载 自我模拟和预测:机器实现自指又迈进了一步
类似人类觉察自己手臂无法抬起,如果预测与真实图像差距超出一定阈值,机器人便知道自己“受伤”了,随即启动新的自我探索过程,用新数据调整自身模型,以适应新的身体形态,进而恢复正常功能。坐标编码器输出该坐标的基础特征。当我们照镜子时,大脑会建立自身运动与视觉反馈之间的关联,最终可以闭眼模拟举手投足的姿态,而机器人能否像人一样,仅凭视觉观察构建对自身形态和运动能力的认知?模型训练时,机器人会在“大脑”中(即通过FFKSM模型)尝试根据当前的关节角度,预测自身的形态,就像闭上眼睛想象自己伸手的位置一样。
2025-03-23 17:30:15
48
转载 强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍
虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 RL(CRL)扩展到 1000 层可以显著提高性能,在各种机器人任务中,性能可以提高最多 50 倍。在所有实验中,深度指的是 actor 网络和两个 critic encoder 网络的配置,这些网络被共同扩展。普林斯顿大学和华沙理工的最新研究提出,通过将神经网络深度从常见的 2-5 层扩展到 1024 层,可以显著提升自监督 RL 的性能,特别是在无监督目标条件任务中的目标达成能力。
2025-03-22 19:53:02
55
转载 谷歌史上最大收购:320 亿美元买下了发现 DeepSeek 数据库泄露的那家小企业
此外,Wiz 的领导团队在云初创公司领域有着丰富的成功经验:Wiz 首席执行官 Assaf Rappaport 和他的几位高管团队成员曾是 Adallom 的核心人物——这家云安全初创公司在 2015 年被微软以 3.2 亿美元收购,并最终更名为 Microsoft Defender for Cloud Apps,成为微软的安全产品支柱之一。值得注意的是,在上述安全工程师对 Wiz 的解读中,他认为企业不应盲目追求“大而全”的解决方案,而应根据自身需求选择合适的工具。不过,也有一些质疑的声音。
2025-03-22 19:53:02
64
转载 黄仁勋公开认错!承认不该唱衰量子计算
但周四的论坛汇聚了来自微软、亚马逊AWS以及12家量子公司和初创公司的代表,标志着主要生产传统计算机芯片的英伟达与量子计算行业之间的“破冰”。此番言论一度引发量子计算行业股价大跌。《世界基准联盟(WBA):2025 塑造未来:对可持续发展目标(SDGs)影响最大的 2000 家公司研究报告(46 页)》他所说的这种加速计算指的是英伟达制造的GPU计算机。
2025-03-21 17:22:30
139
转载 Sam Altman :GPT-5 将免费开放,DeepSeek 教训了我们
主持人:当你考虑你的商业模式时,我一直认为,你的商业模式非常适合那些「高主动性」的人,也就是那些会主动使用 ChatGPT,并且愿意为之付费的人,因为他们看到了它的价值。相比之下,如果我有一个好用的模型,它就在那里,而且我不需要付费,它还会不断改进,人们会通过我赚更多的钱,但我不知道,因为我对广告没有意见,就像大多数互联网用户一样。然后,我们有这样一个想法:你可以使用你的 OpenAI 账户登录到任何其他想要集成我们 API 的地方,你可以带着你的积分、你的定制模型,以及其他任何东西,去任何你想去的地方。
2025-03-21 17:22:30
48
转载 7000字详解火爆全网的Claude 模型上下文协议 (MCP)
点击这个图标可以查看当前配置并可供使用的工具。通过提供一个标准化的框架,MCP 简化了 AI 应用程序的开发,增强了 AI 的上下文感知能力,并提高了数据交互的安全性。总而言之,MCP 的自描述工具、动态适应性以及对持续双向通信的支持,使其在与外部世界交互方面比传统 API 更加灵活和强大,尤其对于需要丰富上下文信息的 AI 系统而言。
2025-03-20 15:07:37
139
转载 世界经济论坛:《工业制造中的前沿技术:AI智能体的崛起 》研究报告
要制定清晰的战略规划,明确人工智能智能体在企业发展中的定位和目标,确保技术应用与企业的长期发展战略相契合。世界经济论坛与波士顿咨询集团联合发布的《工业运营中的前沿技术:人工智能智能体的崛起》报告,为我们揭示了工业运营借助前沿技术重塑格局的新趋势,尤其是人工智能智能体在其中发挥的关键作用,为工业发展带来了全新的思路与方向。在未来的工业发展中,企业需要充分认识到人工智能智能体的潜力,积极应对挑战,合理应用这一前沿技术,实现工业运营的智能化转型,在激烈的市场竞争中占据优势地位,推动整个工业领域向更高水平发展。
2025-03-20 15:07:37
208
转载 专家“冷眼”看AI:3年实现AGI?5年能力停滞?
但我也认为,未来我们回顾 2020 年代中期时,很有可能会将其视为一个新时代的开端,而当我们列举人类最重要的发明时,我们会将“AI”与车轮或印刷机并列。但是,如果你是 1960 年代那种聪明且富有远见的人,看到这种进展速度,你可能会合理地预期,在几年内我们会在月球建立人类基地,会有人在火星上行走,不久之后甚至开始殖民星际。如果你认为你有一个简单任务,未来模型不会轻易解决,我非常乐意与你合写一篇论文,让你列出那组你确信近期内没有模型可以解决而对人类来说却轻而易举的问题,然后我们等上一两年,再看看结果如何。
2025-03-20 15:07:37
71
转载 Nature ,微软量子计算声明仍缺乏证据:物理学家对此表示质疑
Legg 在其 arXiv 报告中提出的另一个问题是,微软的测试取决于输入参数的范围:例如,一个设备在很宽的磁场强度范围内(例如从 1.4 到 3 特斯拉)通过了测试,但当范围缩小到 1.8 到 3 特斯拉时,它就失败了。同时,在今天的演讲中,纳亚克展示了微软量子比特的示意图:它们是微观的 H 形铝线,位于砷化铟之上,砷化铟在超低温下是一种超导体。(微软在首次宣布的同时在《自然》杂志上发表了一篇论文,但该论文描述了一种从未来的拓扑量子比特中读取数据的方法,而不是证明它们的存在1)。他们做得过头了,”他说。
2025-03-19 18:17:20
70
转载 兰德:关于《超级智能战略研究报告》的深度分析,在人工智能竞争中寻求稳定
这种情形下存在着真正的风险:如果双方都将超级智能 AI 视为实现经济和技术主导地位的关键,并且认为如果超级智能 AI 落入对手手中(无论是出于主动的敌对意图,还是对手失去对 AI 的控制),那么双方可能都会面临生存威胁,那么双方越接近实现这一目标,相互敌对和侵略的危险就会越大。最后,也是最重要的一点,美国可以宣布其打算拒绝某些日益强大的人工智能的具体应用——例如干涉其他国家的核指挥和控制——以保证超级智能的潜在影响,尽管期望中国在短期内对美国的意图感到普遍放心是天真的。但 MAD 的运作方式并非如此。
2025-03-19 18:17:20
222
转载 黄仁勋年度演讲来了,Scaling Law失效只是假象,推理需求暴涨100倍,AI模型优化迎来新挑战|GTC 2025
开头讲过,token 可以解释万物,这里就是将感知 token 和文本 token 分别输入到慢思考(System 2)的视觉语言模型和快思考(System 1)的扩散 Transformer 模型里,最终输出行动 token 给机器人,让它有所反应。处理器不同,操作系统也不同,上面的应用程序也不同,你协调的方式也不同,运行它们的方式也不同。“这也是企业未来的运作方式。为了训练 AI,我们的最终目标是“希望没有人类参与到训练的循环中”,因为人类在循环中之所以具有根本性的挑战性,也就是寿命时间。
2025-03-19 18:17:20
86
转载 AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
因此,我们需要解决探索问题。新加坡南洋理工大学的安波教授揭示了从基于强化学习的智能体到由大型语言模型驱动的智能体的演变,分享了团队多项关于 Agent 的工作进展,其中 Q* 算法以多步骤推理作为审慎规划,在学习 Q 值模型的过程中,需要经历离线强化学习以交替更新 Q 值标签并拟合 QVM、使用表现最佳的回滚轨迹的奖励、使用与更强大 LLM 一起完成的轨迹的奖励三个关键步骤。这些解决方案已经生成了,然后它会提出你的解决方案,并且基于这个想法,它会生成那段代码,然后运行代码以评估解决方案,并记录新的节点。
2025-03-19 18:17:20
86
转载 从无序到有序:2025年玻尔兹曼奖得主如何揭示自然界的隐藏scaling law
由此,人们逐渐意识到,在形形色色的同步行为背后,极有可能潜藏着共通的物理机理。值得关注的是,模型在强非线性条件下呈现的玻璃态同步、时滞效应引发的行波/驻波态,以及惯性、阻挫、相移和外场等物理效应的引入,均为理解凝聚态物理、激光阵列、集群运动等实际系统提供了理论工具。这一年,美国生物数学家Winfree,根据萤火虫的同步闪烁现象,提出了Winfree模型——这一模型的核心洞见在于:在同步问题中,极限环相互作用的关键自由度是相位,因此通过研究耦合的相位振子模型,就能揭示同步现象的动力学本质。
2025-03-18 16:28:52
101
转载 刚刚,Anthropic发布了MCP的史诗级更新!
简单来说,它改变了 MCP 的数据传输方式,比如说,以前你在跟一个人用MCP的传输人方式打电话需要一直保持在线(SSE需要长连接),新的方式你可以随时发消息等回复(普通的HTTP请求,可以流式传输)。《世界基准联盟(WBA):2025 塑造未来:对可持续发展目标(SDGs)影响最大的 2000 家公司研究报告(46 页)》
2025-03-18 16:28:52
120
转载 从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
正如我们将看到的,它是这类模型中第一个完全放弃了任何监督训练的模型,表明复杂的推理能力可自然地从使用强化学习的大规模训练中涌现。这样的结果与我们在封闭式推理模型中看到的性能趋势是一致的 ——DeepSeek-R1-Zero 在强化学习训练后实现了令人印象深刻的性能,并且可以通过并行解码策略进一步提高其性能。此外,即使是最小的蒸馏模型也比未针对推理进行优化的标准封闭式 LLM 表现更好(例如 GPT-4o),而 320 亿和 700 亿参数的蒸馏模型在大多数基准测试中的性能都超过了 o1-mini。
2025-03-18 16:28:52
71
转载 谷歌团队再次证明Scaling Law的准确性,即使总通信量减少99%,仍能超越数据并行训练
对于研究中的每个实验,在不同带宽和不同延迟的网络下,研究人员都能实现理想的端到端 wall-clock 训练时间。研究人员发现,M=1 的 DiLoCo 在所有模型尺度上都能实现较低的评估损失,并且能对更大的 batch 产生更好的鲁棒性,从而能够大大减少 wall-clock 训练时间。令人十分惊讶的是:许多情况下对于相同的 token 预算,在通信效率更高的 DiLoCo 上,这些 Scaling Law 预测会比数据并行训练方法产生更低的评估损失。当在数据中心之内的时候,能够拥有一个高带宽网络。
2025-03-17 17:36:29
72
转载 Transformer到底解决什么问题?
例如,通过预测周围的词,模型调整词向量,让经常一起出现的词向量更接近。最早期的相关研究都是针对规则定义的模型,这些规则的定义必须耗费大量的人力,需要由专业的人去精心定制,而且随着规则数的增加,不得不去处理一些冲突的问题。一个神经元的输出信号可能是另一个神经元的输入信号,得易于这种结构,人脑在处理序列化和结构化数据时非常高效,RNN受这种结构的启发,在序列化的数据处理方面获得了很大的成就,一定程度上缓解了n元模型长距离依赖的问题,但是并没有从根本上解决,同时它也带来了自己新的问题,那就是梯度消失-爆炸。
2025-03-17 17:36:29
47
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人