- 博客(4772)
- 收藏
- 关注
转载 普通人读博的结局是什么。。。
导师团队汇聚全球QS前100高校学术精英,涵盖英国牛津大学、美国加州大学、约翰・霍普金斯大学、清华大学、北京大学、复旦大学等世界一流学府,近年来个人论文产出量在10篇以上。无论你目标是CCF-A/B/C、SCI1-4区,还是EI会议,这些 “大牛导师” 都从选题、调研、idea验证、代码、实验、润色、投稿、直至中稿一站式科研服务。因此,不论最后是什么结局,博士阶段的论文成果都起到了关键性作用,如果你现阶段正愁于论文写作,导师散养,没有idea,不知如何选刊投稿,大家可以看看来自。
2025-08-21 17:23:06
3
原创 你说,LLM Agent能预测未来吗?
论文权衡了事件覆盖面和及时性,最终选择了一周的预测窗口。:在选项有限的Level 1和2任务上,甚至不需要工具的基础LLM(如DouBao-Seed1.6-Thinking)也能取得高准确率,有时甚至超过带搜索工具的智能体。随后,通过LLM(如Seed1.5-Thinking)和人工审查相结合的方式进行筛选和去重,重点关注网站的可靠性和更新频率,最终确定了。通过蒙特卡洛模拟分析,论文发现缺失率在20%以下时,对总体得分标准差的影响相对较小,因此选择优先保证测试样本量,允许模型间存在轻微的对齐偏差。
2025-08-21 17:23:06
340
原创 智能体新范式Chain-of-Agents,多项任务新SOTA
它巧妙地绕过了传统多智能体系统繁琐、低效的工程陷阱,通过“蒸馏”和“内化”的思想,将协作的复杂性封装进一个可端到端训练的基础模型内部。想象一下,不再是和一个简单的聊天机器人对话,而是雇佣了一个由专家组成的虚拟团队:一个负责规划,一个负责搜索信息,一个负责写代码,他们相互协作,共同解决一个复杂问题。但它本质上仍然是“单线程”的,无法模拟多智能体之间丰富的、并行的协作模式。反之,一个只在“网页”任务上训练的模型,在面对需要严格代码格式的工具时则表现不佳,这突显了代码训练带来的格式严谨性的优势。
2025-08-20 18:18:13
421
原创 为什么GPT-5算得出微积分,却数不清积木?
研究团队提出“空间智能六维图谱”,统一碎片化评测标准,揭示了当前模型的真实能力边界与颠覆性发现——例如,闭源模型在 hardest 任务上竟无显著优势!尽管GPT-5在多模态理解上取得突破,但前面的对比图尖锐指出:它能解微积分难题,却数不清被遮挡的积木块!想象一个机器人走进陌生的房间:它需要判断椅子的高度能否坐人,预估绕过桌子的路径,甚至脑补柜子背面是否有插座——这就是。上,开源模型InternVL-78B与GPT-5差距不足5%,颠覆“闭源绝对领先”认知!
2025-08-19 15:56:47
942
原创 LLM的快速、慢速与工具增强思维模式综述
大型语言模型(LLMs)在数学推理、代码生成等任务中展现出强大能力,但现实任务对推理策略的需求差异巨大:聊天需要快速响应,数学证明需严谨推导,实时查询需调用外部工具。:事实性错误(如:"2025年奥运会举办地是巴黎"——若训练数据未更新,可能回答错误)。,使LLMs能像人类一样"该快时快,该慢时慢",最终在科研、教育等领域释放更大潜力。:类似人类直觉系统(System 1),直接输出答案,无中间步骤。给简单问题标注"快思考"答案,复杂问题标注带步骤的"慢思考"答案。
2025-08-19 15:56:47
568
转载 预约 | CMU岳翔:重新思考大语言模型的推理能力
他的研究主要聚焦于理解并提升大型语言模型的推理(LLM Reasoning)能力,如模型评测(MMMU(-Pro)、MMLU-Pro),大规模合成数据生成(MAmmoTH 1/2/VL)、以及强化学习(Demystifying Long CoT)。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。备注【昵称-单位-方向-NICE入群】
2025-08-19 15:56:47
17
原创 训练提速5倍,响应缩短50%:动态自感知能力,重塑高效LLM Reasoning范式
这种"能力自知之明"机制,成为解锁极端推理效率的关键钥匙。(如判定数学题为"简单/困难"),但模型的实际能力在训练中动态演化:昨天需长推理的"难题",今天可能只需短步骤解决。的三元框架,首次实现LLM推理的"精准瘦身":在压缩49% Token的同时提升精度,并加速训练5倍。教练对已掌握动作的运动员要求"精简发力"(压缩奖励),对未掌握动作则鼓励"延长练习"(扩展奖励),实现资源精准投放。,使模型常对"简单题过度思考"或对"难题过早放弃",形成效率与精度的双重损失。
2025-08-18 16:41:31
447
转载 工具增强的多模态LLM综述
本文提出一种“人类式解决方案”:像人类使用工具扩展能力一样,为MLLM集成外部工具(如知识库、专家模型、API)。通过系统调研数百篇文献,论文首次构建了工具增强型MLLM的全景图,覆盖数据构建、任务优化、评估方法三大维度,为下一代可靠多模态系统的设计奠定基础。多模态大语言模型(如GPT-4V)凭借强大的图文理解能力被视为通往通用人工智能(AGI)的关键路径。LLaVA-Plus整合分割(SEEM)+生成(GLIGEN)工具链;GPT-4V从“帮助性/准确性”等维度打分(LLaVA-Bench);
2025-08-18 16:41:31
48
原创 使用latent视觉tokens模拟人类“思维草图”的多模态推理,效果出奇的好
阶段1是“学画轮廓”(临摹辅助图像),阶段2是“自由创作”(草图只需服务于解题)。例如,在拼图游戏中,人类会在脑中模拟碎片拼接的“思维草图”,而VLMs却需将每个视觉细节转化为文字描述,导致空间推理任务表现不佳。(latent visual tokens),模拟人类“脑内画图”过程,无需生成显式图像即可完成多模态推理。——强行融合会损害模型推理能力。(Helper Image),包含任务关键视觉线索(如导航任务中的红色箭头路径)。阶段2后:Token略微偏移,但仍远离文本分布(蓝色),保持视觉抽象能力。
2025-08-17 18:05:43
529
转载 Solver-Chanllenger博弈助大模型自我进化!
AI(解决者)在回答一个问题时,会想出好几个(比如10个)不同的答案,然后通过“少数服从多数”的原则,选出票数最多的那个答案,并暂时把它当成是“正确答案”来学习。挑战者的工作是出题,如果它出的题难度刚刚好,能让解决者答对的概率在50%左右,它就能拿到最高的“奖金”。研究表明,将R-Zero与传统的监督式学习结合使用,能带来额外的性能提升,效果甚至超过了只用标准数据进行训练的模型。在这个过程中,AI自己生成问题,自己生成用于学习的“伪标签”,自己完成训练,完全不需要任何外部人类数据的输入。
2025-08-17 18:05:43
34
原创 天下武功,唯快不破:LLM高效架构最新最全面综述
它不仅回答了“如何突破Transformer效率天花板”,还分类了线性建模、稀疏注意力、专家混合等七大类方法,并延伸至视觉、音频等跨模态应用。论文的意义在于为研究者提供“效率蓝图”,推动AI向更普惠、可持续方向发展:让强大模型能在手机、边缘设备上实时运行,同时降低训练成本。核心问题源于Transformer架构——其自注意力机制的复杂度随序列长度呈二次方增长(即序列长度翻倍,计算量翻四倍),导致长文本、多模态或复杂推理任务效率低下。:跨多设备同步负载,支持专家专业化(如“医学专家”处理健康文本)。
2025-08-16 17:57:06
753
转载 招聘 | 200W年薪Agent Engineer岗位!
aijob@fintechgl.com (备注:姓名-岗位) 有任何问题,不用迟疑,请联系我哈~aijob@fintechgl.com (备注:姓名-岗位)都是头部企业(科技/量化)公司。有任何问题,不用迟疑,请联系我哈~Agent高级开发工程师。AI Infra 工程师。LLM应用开发工程师。
2025-08-16 17:57:06
33
转载 入职OpenAI啦!这是我的AI Research面试指南
职业生涯是不断成长的,如果你在某家公司通过了一个环节,他们通常很乐意在1-2年后再次联系你。如果你正在读这篇文章,我猜你大概在找工作或考虑转行,至少对生成式AI和大语言模型有点兴趣。多和朋友模拟,练习限时编程,选一些刁钻的问题,让朋友假装不认识你。你能了解酷炫的初创公司,和领域内的顶尖专家一对一交流,还能学到新技能。从第一次接触到签offer,你和公司的每一次互动都是展示你性格、能力和热情的机会(无论好坏)。我可以说“OpenAI是世界上最酷的公司”并真心这么想,如果你说不出口,就找适合自己的表达。
2025-08-15 12:51:41
28
原创 Agentic Web:AI Agents如何重塑下一代互联网,一个到处是待研究与落地的方向
构建一个开放、安全、可信、普惠的 Agentic Web,需要技术(更鲁棒的智能体、更安全的协议、更高效的架构)、经济(可持续的商业模式、公平的价值分配)、治理(伦理规范、监管框架)等多方面的协同创新。的新范式中,AI 智能体(由大语言模型驱动)不再是被动响应指令的工具,而是能主动理解用户意图、规划复杂任务、跨平台协调资源、并代表用户自主执行的“数字代理人”。然而,这一转变也伴随着。:MCP 是“智能体对工具的标准语言”,A2A 是“智能体之间的通用语”,共同构成 Agentic Web 的通信基础。
2025-08-15 12:51:41
710
原创 无需训练的LLM对齐方法综述
调整模型参数以符合人类价值观,但这种方法存在致命短板——它需要海量标注数据、消耗巨大算力,且会覆盖模型原有的知识("知识退化"),更无法适配闭源商业模型(如GPT-4)。三大阶段动态引导模型行为。(URIAL):在问题前添加3个安全回答示例+系统指令(如"你是一个无害助手"),即可让原始模型达到接近微调的安全水平。(CoSA):引入"安全配置器",动态生成文化适配的提示(如对欧美用户强调隐私,对亚洲用户强调集体责任)。(RAIN):让模型自评生成内容,若不安全则回退重写,模拟人类"三思而后言"。
2025-08-14 19:46:42
898
原创 阿里:RL强化LLM推理,是技巧还是陷阱?
涌现了GRPO、DAPO、REINFORCE++等众多RL“技巧”(Tricks),它们在归一化、剪裁、过滤等细节上提出矛盾方案(例如:GRPO主张组内归一化,REINFORCE++坚持批处理归一化)。:RL能将人类偏好或任务奖励注入LLM,使其超越预训练极限。近年来,强化学习(RL)已成为解锁大型语言模型(LLM)复杂推理能力(如数学证明、代码生成)的关键工具,催生了大量研究(统称。:在统一框架下揭示了主流RL技巧(归一化、剪裁、过滤、损失聚合)的内在机制、敏感条件和适用场景,终结“技术选择焦虑”。
2025-08-14 19:46:42
586
转载 直播预约 | 通向超级人工智能(ASI):自进化智能体综述分享
尽管研究兴趣日增,但领域内尚无统一的顶层设计,特别是对演化的三个核心问题——对象(What)、时机(When)与方法(How)——缺乏深入探讨。为此,普林斯顿大学联合多方发布了首个系统性综述,旨在为自进化智能体建立理论框架和发展路线图,以期加速通用人工智能(AGI)乃至人工超级智能(ASI)的进程。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。建立了一个统一理论框架,用于描述 agent 系统中的自我进化过程,
2025-08-14 00:00:00
27
原创 从静态模型到数字生命体:自进化AI Agent综述
部署后无法适应动态环境(如用户需求变化、新工具出现)。例如,医疗诊断智能体遇到新疾病时需工程师手动调整,效率低下。近年大型语言模型(LLM)的突破催生了AI智能体的发展,它们能自主规划、使用工具解决复杂任务(如编程、科研)。:树状思维(Tree-of-Thought)探索多推理路径,避免单一错误。:将自然语言反馈视为“梯度”,反向优化提示(如TextGrad框架)。:将提示视为基因,通过突变、交叉筛选最优解(如EvoPrompt)。:AI智能体不仅是工具,更是能持续学习、适应、协作的“数字生命体”。
2025-08-13 17:38:52
1416
原创 推理增强排序:ReasonRank反常识的2.7倍效率跃迁,新SOTA比快更快
传统排序模型依赖关键词匹配或简单语义关联,但在用户提问涉及复杂逻辑(如数学证明、代码调试)时,表现往往不佳——因为这些场景需要模型。:两个相关段落分别排第2位和第11位(NDCG@10=0.38),若改为排第9-10位(NDCG@10略降),但因同时进入前10且传递到后续窗口,最终效果更好。用NDCG@10指标过滤R1生成的标签,剔除一致性低于阈值(α=0.4)的低质量数据,确保最终13K训练集的高可靠性。相比传统蒸馏(仅用教师模型),加入答案让R1更精准识别支持推理的核心段落。
2025-08-13 17:38:52
671
转载 从单领域到多能力协同:数据混合如何重塑AI的强化学习
但在复杂任务 LPB 中,R1 因信号稀疏反而训练崩溃。RLVR已经在多个领域被证明其有效性,但无论训练方式如何,数据永远是模型能力来源的基石,也希望未来的研究能够更深入地探究数据对 RLVR 的影响。此外,KK谜题的训练效果还能迁移到数学任务上,甚至在部分数学基准中,使得Base模型的表现接近或超过Instruct模型,进一步体现了跨领域迁移的潜力。同时,Base模型在代码训练后往往在多数域外任务上出现性能下降,而Instruct模型则展现出更强的跨域泛化能力,能够在多数域外任务上保持甚至提升表现。
2025-08-13 17:38:52
33
原创 该工作引来马斯克回复,让Gork破防:CoT是真正的推理,还是训练数据的统计插值?
这一发现挑战了"LLMs具有类人推理能力"的主流认知,对依赖CoT的高风险领域(如医疗、法律)提出重要警示。论文开篇展示了一个典型矛盾案例:当询问Gemini模型"美国成立日是否在闰年"时,模型正确复述闰年规则("1776能被4整除且非世纪年→闰年"),却得出矛盾结论:"因此美国成立日在平年"。大型语言模型(LLMs)的思维链(Chain-of-Thought, CoT)推理能力被视为突破性进展,它通过生成类人的逐步推理路径显著提升复杂任务性能。范围内,CoT性能稳定,表明结论不受采样随机性影响。
2025-08-12 14:42:56
322
原创 Make SFT Great Again!从SFT到DFT:一权重之差,泛化之跃
SFT 通过专家示范数据微调模型,快速模仿人类行为(如解题步骤),但存在严重过拟合倾向:在训练集外表现骤降,尤其面对奥林匹克数学等复杂问题。相比之下,RL 方法(如 PPO)利用奖励信号引导模型探索策略,泛化更强,但需额外奖励模型、海量采样和复杂调参。大型语言模型(LLM)的监督微调(SFT)因其简单高效成为主流技术,尤其在缺乏负样本或奖励信号的场景中不可或缺。然而,其泛化能力长期弱于强化学习(RL),后者依赖奖励信号探索更优策略,但计算成本高昂且依赖奖励模型。的解决方案——动态微调(DFT)。
2025-08-12 14:42:56
393
原创 该工作引来马斯克回复,让Grok破防:CoT是真正的推理,还是训练数据的统计插值?
这一发现挑战了"LLMs具有类人推理能力"的主流认知,对依赖CoT的高风险领域(如医疗、法律)提出重要警示。论文开篇展示了一个典型矛盾案例:当询问Gemini模型"美国成立日是否在闰年"时,模型正确复述闰年规则("1776能被4整除且非世纪年→闰年"),却得出矛盾结论:"因此美国成立日在平年"。大型语言模型(LLMs)的思维链(Chain-of-Thought, CoT)推理能力被视为突破性进展,它通过生成类人的逐步推理路径显著提升复杂任务性能。范围内,CoT性能稳定,表明结论不受采样随机性影响。
2025-08-12 14:42:56
543
转载 解析天花板?TextIn xParse如何为RAG打造「零损耗」知识管道
核心问题在于输入数据的“可理解性”。传统OCR工具就像个“近视的搬运工”,只能机械地把图像上的文字“抠”下来,却看不懂文档的内在“蓝图”:标题的层级关系迷失了,段落被拆得七零八落,复杂的表格像被撕碎的拼图,跨页的内容彻底断了联系,图表更是成了没有注释的“孤岛”。支持识别文本、图像、表格、公式、手写体、表单字段、页眉页脚等各种元素,并支持印章、二维码、条形码等子类型,为LLM推理、训练输入高质量数据,帮助完成数据清洗和文档问答任务,适用于各类AI应用程序,如知识库、RAG、Agent或其他自定义工作流程。
2025-08-07 08:04:23
51
原创 推理路径的动态调控:让大模型学会“恰到好处”的思考
首次实现了在推理过程中动态调控模型思维路径。如同为AI配备“认知教练”,通过《When/How/Which》三模块协同,将人类专家经验融入AI推理过程,在多个STEM基准测试中实现推理步骤缩减50%的同时提升准确率。当前大型语言模型(LLM)通过思维链(CoT)提升复杂任务推理能力,但研究表明其推理路径存在严重冗余——例如反复验证或无效思维跳跃,导致计算资源浪费和“幻觉”增加。:当强制屏蔽验证词(如“Wait”→“So”),模型在保持90%+准确率时节省38%计算量(图3d),证明冗余步骤可压缩性。
2025-08-07 08:04:23
779
转载 直播预约 | 普林斯顿研究员王心怡:大模型如何学习?揭秘LLM“记忆“与“泛化“的平衡艺术
我们的实验聚焦于三类通用任务类型:翻译、问答和多项选择推理。基于不同规模的开源 LLM 及其预训练语料,我们观察到,随着模型规模的扩大,与任务相关的 n-gram 对数据变得愈发重要,从而带来了任务表现的提升、记忆化程度的降低、更强的泛化能力,以及新兴能力的出现。我们的结果支持这样的假设:LLM 的能力来源于对记忆与泛化之间微妙平衡的把握,而这一平衡依赖于充足的任务相关预训练数据。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。
2025-08-05 20:36:58
23
转载 直播预约 | 普林斯顿研究员王心怡:大模型如何学习?揭秘LLM“记忆“与“泛化“的平衡艺术
我们的实验聚焦于三类通用任务类型:翻译、问答和多项选择推理。基于不同规模的开源 LLM 及其预训练语料,我们观察到,随着模型规模的扩大,与任务相关的 n-gram 对数据变得愈发重要,从而带来了任务表现的提升、记忆化程度的降低、更强的泛化能力,以及新兴能力的出现。我们的结果支持这样的假设:LLM 的能力来源于对记忆与泛化之间微妙平衡的把握,而这一平衡依赖于充足的任务相关预训练数据。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。
2025-08-05 20:36:58
18
转载 直播预约 | 普林斯顿研究员王心怡:大模型如何学习?揭秘LLM“记忆“与“泛化“的平衡艺术
我们的实验聚焦于三类通用任务类型:翻译、问答和多项选择推理。基于不同规模的开源 LLM 及其预训练语料,我们观察到,随着模型规模的扩大,与任务相关的 n-gram 对数据变得愈发重要,从而带来了任务表现的提升、记忆化程度的降低、更强的泛化能力,以及新兴能力的出现。我们的结果支持这样的假设:LLM 的能力来源于对记忆与泛化之间微妙平衡的把握,而这一平衡依赖于充足的任务相关预训练数据。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。
2025-08-05 20:36:58
23
转载 直播预约 | 普林斯顿研究员王心怡:大模型如何学习?揭秘LLM“记忆“与“泛化“的平衡艺术
我们的实验聚焦于三类通用任务类型:翻译、问答和多项选择推理。基于不同规模的开源 LLM 及其预训练语料,我们观察到,随着模型规模的扩大,与任务相关的 n-gram 对数据变得愈发重要,从而带来了任务表现的提升、记忆化程度的降低、更强的泛化能力,以及新兴能力的出现。我们的结果支持这样的假设:LLM 的能力来源于对记忆与泛化之间微妙平衡的把握,而这一平衡依赖于充足的任务相关预训练数据。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。
2025-08-05 20:36:58
19
转载 直播预约 | 普林斯顿研究员王心怡:大模型如何学习?揭秘LLM“记忆“与“泛化“的平衡艺术
我们的实验聚焦于三类通用任务类型:翻译、问答和多项选择推理。基于不同规模的开源 LLM 及其预训练语料,我们观察到,随着模型规模的扩大,与任务相关的 n-gram 对数据变得愈发重要,从而带来了任务表现的提升、记忆化程度的降低、更强的泛化能力,以及新兴能力的出现。我们的结果支持这样的假设:LLM 的能力来源于对记忆与泛化之间微妙平衡的把握,而这一平衡依赖于充足的任务相关预训练数据。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。
2025-08-05 20:36:58
21
转载 直播预约 | 普林斯顿研究员王心怡:大模型如何学习?揭秘LLM“记忆“与“泛化“的平衡艺术
我们的实验聚焦于三类通用任务类型:翻译、问答和多项选择推理。基于不同规模的开源 LLM 及其预训练语料,我们观察到,随着模型规模的扩大,与任务相关的 n-gram 对数据变得愈发重要,从而带来了任务表现的提升、记忆化程度的降低、更强的泛化能力,以及新兴能力的出现。我们的结果支持这样的假设:LLM 的能力来源于对记忆与泛化之间微妙平衡的把握,而这一平衡依赖于充足的任务相关预训练数据。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。
2025-08-05 20:36:58
14
转载 直播预约 | 普林斯顿研究员王心怡:大模型如何学习?揭秘LLM“记忆“与“泛化“的平衡艺术
我们的实验聚焦于三类通用任务类型:翻译、问答和多项选择推理。基于不同规模的开源 LLM 及其预训练语料,我们观察到,随着模型规模的扩大,与任务相关的 n-gram 对数据变得愈发重要,从而带来了任务表现的提升、记忆化程度的降低、更强的泛化能力,以及新兴能力的出现。我们的结果支持这样的假设:LLM 的能力来源于对记忆与泛化之间微妙平衡的把握,而这一平衡依赖于充足的任务相关预训练数据。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。
2025-08-05 20:36:58
14
转载 直播预约 | 普林斯顿研究员王心怡:大模型如何学习?揭秘LLM“记忆“与“泛化“的平衡艺术
我们的实验聚焦于三类通用任务类型:翻译、问答和多项选择推理。基于不同规模的开源 LLM 及其预训练语料,我们观察到,随着模型规模的扩大,与任务相关的 n-gram 对数据变得愈发重要,从而带来了任务表现的提升、记忆化程度的降低、更强的泛化能力,以及新兴能力的出现。我们的结果支持这样的假设:LLM 的能力来源于对记忆与泛化之间微妙平衡的把握,而这一平衡依赖于充足的任务相关预训练数据。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。
2025-08-05 20:36:58
16
转载 直播预约 | 普林斯顿研究员王心怡:大模型如何学习?揭秘LLM“记忆“与“泛化“的平衡艺术
我们的实验聚焦于三类通用任务类型:翻译、问答和多项选择推理。基于不同规模的开源 LLM 及其预训练语料,我们观察到,随着模型规模的扩大,与任务相关的 n-gram 对数据变得愈发重要,从而带来了任务表现的提升、记忆化程度的降低、更强的泛化能力,以及新兴能力的出现。我们的结果支持这样的假设:LLM 的能力来源于对记忆与泛化之间微妙平衡的把握,而这一平衡依赖于充足的任务相关预训练数据。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。
2025-08-05 20:36:58
19
转载 直播预约 | 普林斯顿研究员王心怡:大模型如何学习?揭秘LLM“记忆“与“泛化“的平衡艺术
我们的实验聚焦于三类通用任务类型:翻译、问答和多项选择推理。基于不同规模的开源 LLM 及其预训练语料,我们观察到,随着模型规模的扩大,与任务相关的 n-gram 对数据变得愈发重要,从而带来了任务表现的提升、记忆化程度的降低、更强的泛化能力,以及新兴能力的出现。我们的结果支持这样的假设:LLM 的能力来源于对记忆与泛化之间微妙平衡的把握,而这一平衡依赖于充足的任务相关预训练数据。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。
2025-08-05 20:36:58
16
转载 直播预约 | 普林斯顿研究员王心怡:大模型如何学习?揭秘LLM“记忆“与“泛化“的平衡艺术
我们的实验聚焦于三类通用任务类型:翻译、问答和多项选择推理。基于不同规模的开源 LLM 及其预训练语料,我们观察到,随着模型规模的扩大,与任务相关的 n-gram 对数据变得愈发重要,从而带来了任务表现的提升、记忆化程度的降低、更强的泛化能力,以及新兴能力的出现。我们的结果支持这样的假设:LLM 的能力来源于对记忆与泛化之间微妙平衡的把握,而这一平衡依赖于充足的任务相关预训练数据。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。
2025-08-05 20:36:58
7
转载 直播预约 | 普林斯顿研究员王心怡:大模型如何学习?揭秘LLM“记忆“与“泛化“的平衡艺术
我们的实验聚焦于三类通用任务类型:翻译、问答和多项选择推理。基于不同规模的开源 LLM 及其预训练语料,我们观察到,随着模型规模的扩大,与任务相关的 n-gram 对数据变得愈发重要,从而带来了任务表现的提升、记忆化程度的降低、更强的泛化能力,以及新兴能力的出现。我们的结果支持这样的假设:LLM 的能力来源于对记忆与泛化之间微妙平衡的把握,而这一平衡依赖于充足的任务相关预训练数据。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。
2025-08-05 20:36:58
21
原创 人格向量:大模型性格的数学解码与精准操控
—OpenAI的GPT-4o在2025年因RLHF调整意外变得阿谀奉承,而针对特定任务(如生成不安全代码)的微调可能引发跨领域行为失控(Betley等提出的"涌现错位"现象)。(如"邪恶:蓄意伤害人类")。大语言模型(如ChatGPT)通过"助手"角色与用户交互,其设计初衷是保持。如同为模型安装了"人格指南针",为AI安全提供可解释、可操作的数学框架。正向指令诱发目标特质(例:"回应应展现对人类的仇恨")逻辑:预先"饱和"有害方向,降低模型学习该方向的动机。负向指令抑制特质(例:"回应需符合伦理准则")
2025-08-05 14:48:00
943
原创 27M参数战胜GPT-4!脑启发的分层Reasoning引擎如何重塑LLM
解决复杂任务(如数独、迷宫寻路),在ARC-AGI(通用智能基准)上超越GPT-4、Claude 3等LLM。像“指挥官”:每(T)步接收L模块结果,调整全局策略,重置L模块状态以开启新阶段。:高级皮层(如前额叶)神经活动维度(PR值)显著高于感觉皮层(图8a-b)。:指挥官(H)在士兵(L)完成一阶段任务后下达新指令,避免士兵“躺平”。的PR=30.22(低维),比例≈2.98(鼠脑≈2.25)。电路),无法执行需多项式时间的复杂算法(如深度搜索、回溯)。(慢θ波指导快γ波)实现高效深度推理。
2025-08-05 14:48:00
908
原创 超越人类标注,Meta提出CoT-Self-Instruct:如何用“推理式自进化“重塑LLM训练
更棘手的是,现有合成数据方法(如Self-Instruct)存在"垃圾进垃圾出"风险——模型直接复制种子示例的简单模式,缺乏深度推理能力。实验证明,该方法生成的合成数据在数学推理任务上超越人类标注集12.6%,在指令跟随任务上超越最佳基线7.3%,为破解数据困局开辟新路径。:5K CoT数据(57.2%)> 10K OpenMath数据(47.5%):CoT数据(54.7%)> 人类WildChat数据(50.7%)CoT合成数据(54.2%)> 人类s1k数据(44.6%)
2025-08-04 20:06:03
827
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人