
人工智能
文章平均质量分 88
三谷秋水
计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。
展开
-
ORCA:一款开源、可靠、成本高效、拟人化的机械手,可实现不间断灵巧任务学习
25年4月来自瑞士 ETH 的论文“ORCA: An Open-Source, Reliable, Cost-Effective, Anthropomorphic Robotic Hand for Uninterrupted Dexterous Task Learning”。通用机器人应该拥有类似人类的灵巧性和敏捷性,才能像人一样灵活地执行任务。类似人类的外形设计,进一步促进海量人手交互数据集的使用。然而,灵巧操作的主要瓶颈不仅在于软件,更在于硬件。接近人类能力的机械手通常价格高昂、体积庞大,或者需要企业原创 2025-04-12 00:15:00 · 582 阅读 · 0 评论 -
具身推理器:协同视觉搜索、推理和行动,实现具身交互任务
25年3月来自浙大、中科院软件所、中科院大学、阿里达摩院、南京软件所、南邮和河海大学的论文“Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks”。深度思维模型的最新进展,已在数学和编码任务上展现出卓越的推理能力。然而,它们在需要通过图像动作交错轨迹与环境持续交互的具身域中的有效性仍未得到充分探索。本文提出了具身推理器,该模型将 o1 式推理扩展到交互式具身搜索原创 2025-04-09 00:15:00 · 938 阅读 · 0 评论 -
AhaRobot:一个用于具身人工智能的低成本开源双手移动机械手
25年3月来自天津大学的论文“AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI”。在开放世界环境中的导航和操控,仍然是具身人工智能中尚未解决的挑战。商用移动操控机器人的高成本,严重限制其在现实场景中的研究。为了解决这个问题,本文提出 AhaRobot,这是一种低成本、完全开源的双臂移动操控机器人系统,其硬件成本仅为 1,000 美元(不包括可选的计算资源),不到流行移动机器人成本的 1/15。AhaR原创 2025-03-31 00:15:00 · 808 阅读 · 0 评论 -
系统 0/1/2/3:多时间尺度具身集体认知系统的四元-过程理论
25年3月来自日本京都大学、立命馆大学、庆应义塾大学、东京大学、大阪大学和欧姆龙公司的论文“System 0/1/2/3: Quad-process theory for multi-timescale embodied collective cognitive systems”。本文介绍系统 0/1/2/3 框架,作为二元-过程(dual-process)理论的扩展,采用四元-过程(quad-process)认知模型。在系统 1(快速、直觉思维)和系统 2(慢速、深思熟虑思维)的基础上,结合系统 0原创 2025-03-30 00:15:00 · 937 阅读 · 0 评论 -
COMPASS:通过残差强化学习和技能合成实现跨具身移动策略
25年2月来自 Nvidia、UC Berkeley 和 UT Austin 的论文“COMPASS: Cross-embOdiment Mobility Policy via ResiduAl RL and Skill Synthesis”。随着机器人越来越多地部署在不同的应用领域,可泛化的跨具身移动策略变得越来越重要。虽然经典的移动栈已被证明在特定的机器人平台上有效,但它们在泛化到新具身时带来了重大挑战。基于学习的方法,例如模仿学习 (IL) 和强化学习 (RL),提供了替代解决方案,但受到协变量漂移原创 2025-03-29 00:15:00 · 966 阅读 · 0 评论 -
DexGrasp Anything:具有物理-觉察的普遍机器人灵巧抓取
25年3月来自上海科技大学的论文“DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness”。能够抓取任何物体的灵巧手,对于通用具身智能机器人的开发至关重要。然而,由于灵巧手的自由度高,物体种类繁多,以鲁棒的方式生成高质量、可用的抓取姿势是一项重大挑战。DexGrasp Anything,将物理约束有效地集成到基于扩散生成模型的训练和采样阶段,在几乎所有开放数据集上均实现最佳性能。此外,提原创 2025-03-29 00:15:00 · 1019 阅读 · 0 评论 -
停止过度思考:大语言模型的有效推理综述(下)
25年3月来自休斯敦 Rice U 的论文“Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models”。大语言模型 (LLM) 在复杂任务中表现出卓越的能力。大型推理模型 (LRM)(例如 OpenAI o1 和 DeepSeek-R1)的最新进展通过利用监督微调 (SFT) 和强化学习 (RL) 技术来增强思维链 (CoT) 推理,进一步提高了数学和编程等系统 2 推理领域的性能。然而,虽然较长的 CoT 推原创 2025-03-27 00:15:00 · 1096 阅读 · 0 评论 -
停止过度思考:大语言模型的有效推理综述(上)
25年3月来自休斯敦 Rice U 的论文“Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models”。大语言模型 (LLM) 在复杂任务中表现出卓越的能力。大型推理模型 (LRM)(例如 OpenAI o1 和 DeepSeek-R1)的最新进展通过利用监督微调 (SFT) 和强化学习 (RL) 技术来增强思维链 (CoT) 推理,进一步提高了数学和编程等系统 2 推理领域的性能。然而,虽然较长的 CoT 推原创 2025-03-27 00:15:00 · 1246 阅读 · 0 评论 -
LLM 后训练:深入探究大语言模型的推理(下)
25年2月来自阿联酋 MBUAI、UCF、UC Merced 和牛津大学的论文“LLM Post-Training: A Deep Dive into Reasoning Large Language Models”。大语言模型 (LLM) 已经改变自然语言处理领域,并为各种应用带来生机。对大量网络规模数据的预训练为这些模型奠定了基础,但研究界现在越来越多地将重点转向后训练技术,以实现进一步的突破。虽然预训练提供广泛的语言基础,但后训练方法使 LLM 能够完善其知识、改进推理、提高事实准确性,并更有效地原创 2025-03-24 00:15:00 · 1052 阅读 · 0 评论 -
LLM 后训练:深入探究大语言模型的推理(上)
25年2月来自阿联酋 MBUAI、UCF、UC Merced 和牛津大学的论文“LLM Post-Training: A Deep Dive into Reasoning Large Language Models”。大语言模型 (LLM) 已经改变自然语言处理领域,并为各种应用带来生机。对大量网络规模数据的预训练为这些模型奠定了基础,但研究界现在越来越多地将重点转向后训练技术,以实现进一步的突破。虽然预训练提供广泛的语言基础,但后训练方法使 LLM 能够完善其知识、改进推理、提高事实准确性,并更有效地与原创 2025-03-24 00:15:00 · 986 阅读 · 0 评论 -
统一的视频动作模型
25年3月来自斯坦福大学的论文“Unified Video Action Model”。统一的视频和动作模型对机器人技术具有重大意义,其中视频为动作预测提供丰富的场景信息,而动作为视频预测提供动态信息。然而,有效地结合视频生成和动作预测仍然具有挑战性,当前基于视频生成的方法在动作准确性和推理速度方面难以与直接策略学习的性能相匹配。为了弥补这一差距,引入统一的视频动作模型(UVA),它联合优化视频和动作预测以实现高精度和高效的动作推理。关键在于学习联合视频动作潜表示和解耦视频动作解码。联合潜表示,连接视觉和原创 2025-03-23 00:15:00 · 1663 阅读 · 0 评论 -
大语言模型的长思维链推理:综述(下)
25年3月来自哈工大、中南大学、香港大学和复旦大学的论文“Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models”。OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展,已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性,这可以增强推理能力并解决复杂的问题。然而,尽管取得了这些进展原创 2025-03-21 00:15:00 · 1140 阅读 · 0 评论 -
大语言模型的长思维链推理:综述(上)
25年3月来自哈工大、中南大学、香港大学和复旦大学的论文“Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models”。OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展,已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性,这可以增强推理能力并解决复杂的问题。然而,尽管取得了这些进展原创 2025-03-21 00:15:00 · 1976 阅读 · 0 评论 -
Gemma 3 技术报告
Gemma 3,是 Gemma 系列轻量级开放模型中的多模态成员,其规模从 10 亿到 270 亿个参数不等。此版引入视觉理解能力、更广泛的语言覆盖范围和更长的上下文(至少 128K 个tokens)。还更改模型的架构,减少在长上下文中往往会爆炸的 KV-缓存内存。这是通过增加局部与全局注意层的比例并保持局部注意的跨度较短来实现的。Gemma 3 模型经过蒸馏训练,无论是预训练版还是指令微调版,其性能都优于 Gemma 2。特别是,后训练方法显著提高数学、聊天、指令遵循和多语言能力,使 Gemma3-4B-原创 2025-03-17 00:15:00 · 1428 阅读 · 0 评论 -
行为机器人套件:简化日常家庭活动中真实世界的全身操控
25年3月来自斯坦福李飞飞团队的论文“BEHAVIOR ROBOT SUITE: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities”。现实世界的家务任务对移动机械操作机器人提出了重大挑战。对现有机器人基准的分析表明,成功的任务执行取决于三个关键的全身控制能力:双手协调、稳定和精确的导航以及广泛的末端执行器可达性。实现这些能力需要精心的硬件设计,但由此产生的系统复杂性使视觉运动策略学习进一步复原创 2025-03-16 00:15:00 · 938 阅读 · 0 评论 -
TidyBot++:用于机器人学习开源的完整移动机械手
24年12月来自普林斯顿、斯坦福和 dexterity.ai 的论文“TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning”。要充分利用模仿学习在移动机械操作方面的最新进展,需要收集大量人工引导的演示。本文提出一种开源设计,用于设计一种廉价、坚固、灵活的移动机械手,该机械手可支撑任意臂,从而实现各种现实世界的家用移动机械操作任务。至关重要的是,设计使用动力脚轮,使移动基座是完全完整的,能够独立且同时控制所有平面自原创 2025-03-16 00:15:00 · 557 阅读 · 0 评论 -
Satori:通过行动-思维-链进行强化学习,通过自回归搜索增强 LLM 推理能力
25年2月来自MIT、新加坡技术和设计大学、哈佛、MIT- IBM实验室和UMass的论文“Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search”。大语言模型 (LLM) 已在不同领域展现出卓越的推理能力。最近的研究表明,增加测试-时间计算可增强 LLM 的推理能力。这通常涉及在外部 LLM 验证者的指导下在推理时进行大量采样,从而形成双-玩家原创 2025-03-13 00:15:00 · 2011 阅读 · 0 评论 -
学习现实世界人形机器人的起身策略
25年2月来自UIUC和Simon Fraser U的论文“Learning Getting-Up Policies for Real-World Humanoid Robots”。跌倒的自动恢复是人形机器人可靠部署的关键先决条件。由于人形机器人跌倒后可能处于各种不同的配置,并且人形机器人需要在具有挑战性的地形上运行,因此手工设计起身控制器非常困难。本文开发一个学习框架来生成控制器,使人形机器人能够从不同地形的不同配置中起身。与以前成功的人形运动学习应用不同,起身任务涉及复杂的接触模式,这需要准确建模碰原创 2025-03-04 00:15:00 · 1627 阅读 · 0 评论 -
大语言模型中的逻辑推理:综述
25年2月来自西湖大学、浙江师范大学和海南大学的论文“Logical Reasoning in Large Language Models: A Survey”。随着 OpenAI o3 和 DeepSeek-R1 等高级推理模型的出现,大语言模型 (LLM) 已展示出卓越的推理能力。然而,它们进行严格逻辑推理的能力仍是一个悬而未决的问题。本综述综合人工智能研究的关键领域 LLM 中逻辑推理的最新进展。它概述 LLM 中逻辑推理的范围、其理论基础以及用于评估推理能力的基准。分析不同推理范式(演绎、归纳、溯原创 2025-03-03 00:15:00 · 1261 阅读 · 0 评论 -
从系统 1 到系统 2:大语言模型推理的综述
25年2月来自阿联酋 MBZUAI、中科院自动化所、香港城市大学、香港科技大学广州分校、英国格拉斯哥的 Strathclyde 大学、小红书、华东师范大学和南方科技大学的论文“From System 1 to System 2: A Survey of Reasoning Large Language Models”。要实现人类水平的智能,需要改进从快速、直观、系统 1 到较慢、更慎重、系统 2 推理的过渡。虽然系统 1 擅长快速、启发式决策,但系统 2 依靠逻辑推理来做出更准确的判断并减少偏见。基础大原创 2025-03-02 00:15:00 · 1077 阅读 · 0 评论 -
LeapVAD:通过认知感知和 Dual-Process 思维实现自动驾驶的飞跃
25年1月来自浙江大学、上海AI实验室、慕尼黑工大、同济大学和中科大的论文“LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking”。尽管自动驾驶技术取得长足进步,但由于推理能力有限,数据驱动方法仍然难以应对复杂场景。与此同时,随着视觉语言模型的普及,知识驱动的自动驾驶系统也得到了长足发展。本文提出一种基于认知感知和 Dual-Process 思维的新方法 LeapVAD。该方法实现原创 2025-03-01 00:15:00 · 1214 阅读 · 0 评论 -
FASIONAD:自适应反馈的类人自动驾驶中快速和慢速思维融合系统
24年11月来自清华、早稻田大学、明尼苏达大学、多伦多大学、厦门大学马来西亚分校、电子科大(成都)、智平方科技和河南润泰数字科技的论文“FASIONAD : FAst and Slow FusION Thinking Systems for Human-Like Autonomous Driving with Adaptive Feedback”。确保安全、舒适和高效的导航是自动驾驶系统开发和可靠性的基础。虽然在大型数据集上训练的端到端模型在标准驾驶情况下表现良好,但它们往往难以应对罕见的长尾事件。大语原创 2025-03-01 00:15:00 · 1010 阅读 · 0 评论 -
MOBA:长上下文 LLMs 的混合块注意机制
25年2月来自月之暗面、清华和浙大的论文“MOBA: Mixture Of Block Attention For Long-context LLMs”。扩展有效上下文长度对于将大语言模型 (LLM) 推进到通用人工智能 (AGI) 至关重要。然而,传统注意机制固有的计算复杂度的二次增加,带来高昂的开销。现有的方法要么施加强偏结构,例如特定任务的汇聚(sink)注意或窗注意,要么将注意机制彻底修改为线性近似,其在复杂推理任务中的表现仍未得到充分探索。原创 2025-02-28 00:15:00 · 1148 阅读 · 0 评论 -
HOMIE:具有同构外骨骼座舱的人形机器人操控
25年2月来自上海AI实验室和香港中文大学的论文“HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit”。目前的人形遥操作系统要么缺乏可靠的低级控制策略,要么难以获取准确的全身控制命令,这使得遥操作人形机器人执行操控任务变得非常困难。为了解决这些问题,HOMIE,一种人形遥操作驾驶舱,它集成人形操控策略和低成本外骨骼硬件系统。该策略使人形机器人能够行走和下蹲到特定的高度,同时适应任意的上身姿势。这是通过基于强化学习的训原创 2025-02-26 00:15:00 · 1385 阅读 · 0 评论 -
面向机器人操作的协同、泛化和高效的双-系统
24年10月来自上海交大、香港大学、智元机器人和上海 AI 实验室的论文“Towards Synergistic, Generalized And Efficient Dual-system For Robotic Manipulation ”。随着多功能机器人系统在多样化和动态环境中运行的需求日益增长,这凸显一个通才策略的重要性,其利用大量跨具身数据语料库来促进广泛的适应性和高级推理。然而,通才策略会面临推理效率低下和训练成本高昂的问题。相反,专家策略是针对特定领域数据制定的,在任务级精度和效率方面表原创 2025-02-25 00:15:00 · 1317 阅读 · 0 评论 -
具有快慢思考的语言调节机器人操作
24年1月来自华东师范大学、美的集团和上海大学的论文“Language-Conditioned Robotic Manipulation with Fast and Slow Thinking”。语言调节机器人操作,旨在将自然语言指令转化为可执行动作,从简单的“拾取和放置”到需要意图识别和视觉推理的任务。受认知科学中的 Dual Process 理论的启发——该理论表明人类决策中存在两个平行的快速和慢速思考系统——引入快速和慢速思考机器人 (RFST),这是一个模仿人类认知架构的框架,用于对任务进行分类并原创 2025-02-25 00:15:00 · 1999 阅读 · 0 评论 -
LAMS:LLM 驱动自动模式切换辅助遥操作
25年2月来自 CMU 和匹兹堡大学的论文“LAMS: LLM-Driven Automatic Mode Switching for Assistive Teleoperation”。通过低自由度控制器(如操纵杆)遥操作高自由度 (DoF) 机器人操纵器,通常需要在控制模式之间频繁切换,其中每种模式将控制器运动映射到特定的机器人动作。手动执行这种频繁切换会使遥操作变得繁琐且效率低下。另一方面,现有的自动模式切换解决方案(例如基于启发式或基于学习的方法)通常是针对特定任务的,缺乏通用性。本文介绍 LLM原创 2025-02-24 00:15:00 · 865 阅读 · 0 评论 -
DeepSeek 提出原生稀疏注意:硬件对齐且原生可训练的稀疏注意
25年2月来自 DeepSeek-AI、北京大学和西雅图华盛顿大学的论文“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”。长上下文建模对于下一代语言模型至关重要,但标准注意机制的高计算成本带来巨大的计算挑战。稀疏注意为提高效率同时保持模型能力提供一个有希望的方向。NSA,一种原生可训练的稀疏注意机制,它将算法创新与硬件对齐的优化相结合,以实现高效的长上下文建模。NSA 采用动态分层稀疏策原创 2025-02-23 00:15:00 · 944 阅读 · 0 评论 -
DexterityGEN:前所未有灵活度的基础控制器
25年2月来自伯克利 BAIR 和 Meta FAIR 的论文“DexterityGEN: Foundation Controller for Unprecedented Dexterity”。教授机器人灵巧的操作技能(例如使用工具)是一项艰巨的挑战。当前的方法大致可分为两种策略:人类遥控(用于模仿学习)和模拟-到-现实的强化学习。第一种方法很难,因为人类很难在没有触觉反馈的情况下在不同实施例上做出安全灵巧的动作。第二种基于 RL 的方法则难以解决域差距问题,并且涉及对复杂任务进行高度任务特定的奖励工程。原创 2025-02-22 00:15:00 · 785 阅读 · 0 评论 -
高级推理的多样化推理与验证
25年2月来自波士顿大学、NotBadMath.AI、谷歌、哥伦比亚大学、MIT、Intuit公司和斯坦福大学的论文“Diverse Inference and Verification for Advanced Reasoning”。OpenAI o1、o3 和 DeepSeek R1 等推理 LLM 在数学和编码方面取得重大进展,但仍发现 IMO 组合问题、ARC 谜题和 HLE 问题等高级任务具有挑战性。本文用多样化的推理方法,在测试时结合多种模型和方法。数学和代码问题以及对其他问题拒绝抽样的验证,原创 2025-02-22 00:15:00 · 893 阅读 · 0 评论 -
O1 Embedder:让检索器思考后再行动
25年2月来自中科大和北京智源研究院的论文“O1 Embedder: Let Retrievers Think Before Action”。大语言模型 (LLM) 的功能日益强大,彻底改变人们获取和利用信息的方式。值得注意的是,LLM 擅长执行细粒度数据表示,这有助于精确检索信息。它们还可以根据外部参考生成高质量的答案,从而产生有用的知识。最近推出的推理模型(如 OpenAI O1 和 DeepSeek R1)标志着又一次飞跃,凸显 LLM 在提供最终答案之前进行渐进式思考的能力。这一突破显著提高处理原创 2025-02-21 00:15:00 · 1171 阅读 · 0 评论 -
CODEI/O:通过代码输入-输出预测压缩推理的模式
25年2月来自DeepSeek-AI、上海AI实验室和香港科大的论文“CODEI/O: Condensing Reasoning Patterns via Code Input-Output Prediction”。推理是大语言模型的一项基本能力。虽然先前的研究主要集中于增强数学或代码生成等狭隘技能,但由于训练数据稀疏和碎片化,提高许多其他推理任务的性能仍然具有挑战性。为了解决这个问题, CODEI/O 将原始代码转换为代码输入-输出预测格式,系统地压缩各种推理模式,其固有地嵌入在上下文-落地的代码中。通原创 2025-02-21 00:15:00 · 1234 阅读 · 0 评论 -
LLM 推理中推理-时间计算技巧
25年2月来自香港科技大学广州分校的论文“Bag of Tricks for Inference-time Computation of LLM Reasoning”。随着大语言模型 (LLM) 的进步,解决复杂的推理任务越来越受到关注。推理-时间计算方法(例如 Best-of-N、波束搜索等)特别有价值,因为它们可以在不修改模型参数或不需要额外训练的情况下提高推理性能。然而,这些技术面临着实施挑战,大多数现有方法仍处于概念验证阶段,由于其计算复杂性和不同任务中的不同有效性,实际采用有限。原创 2025-02-20 00:15:00 · 1442 阅读 · 0 评论 -
数学推理中在推理规模化下检查假阳性解
25年2月来自中科大和微软亚洲研究院的论文“Examining False Positives under Inference Scaling for Mathematical Reasoning”。语言模型的最新进展已带来各种基准测试中数学推理能力的显著提升。然而,大多数基准测试依赖于自动评估方法,这些方法仅使用启发式方法比较最终答案,而不验证底层推理步骤。这种限制导致假阳性解,其中模型可能会产生正确的最终答案,但推理路径有缺陷。本文系统地研究语言模型求解数学问题中假阳性解的普遍性。其分析不同开源模型原创 2025-02-20 00:15:00 · 1092 阅读 · 0 评论 -
训练语言模型以高效推理
25年2月来自CMU的论文“Training Language Models to Reason Efficiently”。扩展模型大小和训练数据已带来大语言模型 (LLM) 的性能取得巨大进步。然而,这种方法的收益递减需要替代方法来提高模型能力,特别是在需要高级推理的任务中。利用长链思维的大型推理模型在解决问题的能力方面带来了前所未有的突破,但部署成本却与更长的生成有关。降低推理成本,对于这些模型的经济可行性、用户体验和环境可持续性至关重要。这项工作建议,训练大型推理模型以有效地推理。更准确地说,原创 2025-02-19 00:15:00 · 1154 阅读 · 0 评论 -
面向长范围交互式 LLM 智体的强化学习
25年2月来自 Apple 的论文“Reinforcement Learning for Long-Horizon Interactive LLM Agents”。交互式数字代理 (IDA) 利用状态数字环境的 API 来执行任务以响应用户请求。虽然由指令调整的大语言模型 (LLM) 驱动 IDA 可以对多步交换中接口调用的反馈做出反应,但它们尚未在各自的数字环境中进行训练。之前的方法在 AppWorld 等复杂基准测试中完成的任务不到一半。本文提出一种强化学习 (RL) 方法,可直接在目标环境中训练原创 2025-02-18 00:15:00 · 1509 阅读 · 0 评论 -
探索结果奖励模型对数学推理学习的极限
25年2月来自上海AI实验室、上海交大、香港中文大学和香港生成AI研发中心(HKGAI)的论文“Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning”。推理能力,特别是解决复杂数学问题的能力,是通用智能的重要组成部分。 OpenAI 的 o 系列模型,在推理任务上取得了令人瞩目的进展。然而,完整的技术细节仍未披露,人们认为肯定会采用的技术只有强化学习 (RL) 和长链思维。本文提出一种 RL 框架,称为 ORE原创 2025-02-17 02:30:00 · 840 阅读 · 0 评论 -
1B LLM 能否超越 405B LLM?重新思考计算最优测试-时间规模化
25年2月来自上海AI实验室、清华大学、哈工大和北邮的论文“Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling”。测试-时间规模化 (TTS) 是通过在推理阶段使用额外计算来提升大语言模型 (LLM) 性能的重要方法。然而,当前的研究并没有系统地分析策略模型、过程奖励模型 (PRM) 和问题难度如何影响 TTS。这种分析的缺乏限制对 TTS 方法的理解和实际使用。本文关注两个核心问题:(1)在不同的策略模型、原创 2025-02-15 00:15:00 · 1101 阅读 · 0 评论 -
RoboGrasp:一种用于稳健机器人控制的通用抓取策略
25年1月来自北京大学和哈佛大学的论文“RoboGrasp: A Universal Grasping Policy for Robust Robotic Control”。模仿学习和世界模型在推进通用机器人学习方面显示出巨大的潜力,而机器人抓取仍然是实现精确操控的关键挑战。现有方法通常严重依赖机械臂状态数据和 RGB 图像,导致过拟合特定目标形状或位置。为了解决这些限制,Robo-Grasp,一个通用的抓取策略框架,将预训练的抓取检测模型与机器人学习相结合。利用来自目标检测和分割任务的强大视觉引导,R原创 2025-02-12 00:15:00 · 1001 阅读 · 0 评论 -
LIMO:上海交大的工作 “少即是多” LLM 推理
25年2月来自上海交大、SII 和 GAIR 的论文“LIMO: Less is More for Reasoning”。一个挑战是在大语言模型(LLM)中的复杂推理。虽然传统观点认为复杂的推理任务需要大量的训练数据(通常超过 100,000 个示例),但本文展示只需很少的示例就可以有效地引发复杂的数学推理能力。这个不仅挑战对海量数据要求的假设,也挑战监督微调(SFT)主要造成记忆而不是泛化的普遍看法。通过全面的实验,提出的模型 LIMO 在数学推理方面表现出前所未有的性能和效率。原创 2025-02-09 00:15:00 · 1490 阅读 · 0 评论