自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 收藏
  • 关注

原创 AAAI 2026 新鲜出炉!17.6%神仙录取率,揭秘Hinton、LeCun都关注的7大AI风口!

AAAI2026会议聚焦大模型前沿研究,精选7篇核心论文。研究涵盖:1)基于梯度表示优化的推理增强方法;2)MLLM指导的多模态嵌入学习;3)强化学习的视觉语言模型后门防御;4)上下文依赖表情符号消解基准测试;5)功能感知的低秩适配初始化策略;6)视觉语言模型的细粒度因果追踪框架;7)语言可分离性指导的多语言数据预选方法。这些研究为大模型推理、安全、应用等关键问题提供了创新解决方案。论文合集可通过原文链接获取。

2025-11-28 18:01:03 947

原创 EMNLP 25 获奖论文合集 | 最佳论文封神!PB级数据搜索终结悬案,GPT-4o被指“严重污染”

EMNLP2025最佳论文解析:聚焦NLP前沿突破 EMNLP2025会议在苏州举行,共接收1600篇论文,整体接收率21.3%。最佳论文奖授予《INFINI-GRAMMINI》,该研究创新性地采用FM-index数据结构,实现PB级文本的高效精确n-gram搜索,为LLM训练数据审计提供关键工具。7篇杰出论文覆盖多个前沿领域:LINGGYM构建首个低资源语言元语言推理评估基准;ValueActionLens框架首次量化LLM"价值-行动"错位率;DiscoSG提出话语级场景图解析新方法

2025-11-26 18:12:20 954

原创 大模型前沿周报 (11.17-11.23):覆盖领域专用LLM与多智能体架构,LLM推理、表征优化与逻辑建模等方向

本期精选10篇大模型前沿论文,涵盖多个研究方向:1)领域专用LLM与多智能体架构,如OpenBioLLM开源基因组问答框架;2)LLM推理优化与逻辑建模,包括ProRAC神经符号推理框架;3)评估基准与安全隐私,如MermaidSeqBench图表生成评估基准和CIMemories隐私风险评估;4)跨领域应用与伦理影响,包括自动驾驶行为分析及公平算法操纵风险研究。这些成果展示了LLM在性能提升、安全可靠性和跨领域应用方面的最新进展,为技术落地提供新思路。

2025-11-24 18:16:08 943

原创 陈丹琦团队再出重磅!SLIM框架破解长程Agent上下文难题,ICLR 2026已投!

陈丹琦团队提出SLIM框架,破解长程智能体搜索的上下文管理难题。该研究针对现有框架因上下文溢出、工具预算耗尽等问题导致的性能下降,创新性地将检索拆分为独立搜索与浏览工具,并引入周期性轨迹总结机制。实验显示,SLIM在BrowseComp和HLE基准上分别达到56%和31%的准确率,超越开源基线8-4个百分点,同时减少4-6倍工具调用。该框架在o3、o4-mini和Claude-4-Sonnet等不同模型上均表现稳定,为长程搜索系统提供了高效解决方案。研究已提交ICLR2026评审,相关代码开源。

2025-11-21 17:55:41 620

原创 超越思维链!邱锡鹏团队定义AI推理新范式:“视频思考”,让GPT-4o看到都得点赞!

【摘要】复旦大学邱锡鹏团队提出创新性"视频思考"范式,突破现有"文本/图像思考"在动态推理和多模态融合上的局限。研究构建了包含4149个样本的VideoThinkBench基准测试集,涵盖视觉中心与文本中心两大任务类别。实验显示,Sora-2在视觉推理任务上与主流视觉语言模型性能相当,在文本推理任务上取得MATH 92%、MMMU 75.53%的准确率。研究证实视频生成模型具备统一多模态理解与生成的潜力,少样本学习和自一致性可显著提升模型性能,为多模态AI发展开辟了新

2025-11-20 16:49:01 938

原创 清华LeapLab重磅发现:强化学习正在“扼杀”大模型的推理潜力!

【摘要】清华大学团队研究发现,当前强化学习(RL)技术并未真正提升大语言模型的推理能力。通过pass@k评估方法(采样1024次),实验表明RL训练后的模型在数学、编程等任务中并未超越基础模型的能力边界,反而缩小了问题解决范围。研究揭示RL仅优化了已有知识的输出效率,却牺牲了基础模型原有的多元解决能力。相比之下,知识蒸馏能真正扩展模型能力。该成果对当前过度依赖RL提升模型性能的做法提出了重要警示,为未来探索新型算法指明了方向。(149字)

2025-11-14 17:19:20 638

原创 LeCun、李飞飞、谢赛宁联手定义多模态新方向:终结长文本内卷,走向「世界模型」

本文提出Cambrian-S模型框架,旨在提升AI对视频的三维空间感知能力。通过四阶段训练流程(视觉-语言对齐、图像指令微调、通用视频微调和空间视频微调),结合大规模空间推理数据集VSI-590K,模型在VSI-Bench等基准测试中表现优异。创新性地引入"预测性感应"机制,利用模型的"惊奇感"信号来高效处理长视频:对预测误差小的帧进行压缩存储,重点保留意外变化的关键帧。实验表明,该方法在长达4小时的视频中仍能保持稳定的空间回忆和物体计数性能,显著优于现有商业模型。研

2025-11-12 18:24:11 705

原创 大模型前沿周报 (11.3-11.9):覆盖多模态大模型能力优化与评估、行业场景化智能系统等方向

【大模型前沿研究综述】本期精选论文聚焦多模态大模型优化、行业智能系统等方向:1)Struct2D提出结构化2D框架实现空间推理;2)MMPerspective构建首个透视理解基准;3)PRISM评估多模态隐私风险。行业应用方面,LLM增强的空气质量监测和临床试验评估系统展现了落地潜力。LLM智能体优化方向提出记忆管理方案MemSearcher和课程学习策略。此外,PolyNorm实现少样本文本标准化,四象限人设分类体系为AI伴侣开发提供框架。这些研究推动了大模型在推理能力、行业落地和安全性等方面的进步。

2025-11-10 15:41:25 641

原创 ICLR 2025 | 告别“非黑即白”!X-CLR引入“相似度图谱”,让模型读懂万物关联!

本文提出X-样本对比损失(X-CLR)框架,改进传统对比学习仅区分样本相似或非相似的二元做法。X-CLR引入连续数值的相似度图谱,利用文本等元数据精确描述样本间语义关联,使模型学习更丰富的特征表示。实验显示,X-CLR在ImageNet等数据集上优于现有方法(如CLIP),尤其在数据较少时优势显著,并能提升预训练模型性能。该方法思想简洁、效果显著,但对高质量元数据有一定依赖性。未来可探索自动构建相似度图谱以降低人工标注需求。

2025-11-06 18:20:48 741 1

原创 NeurIPS 2025 | 华科大NAUTILUS:基于物理先验,让多模态大模型看穿深海迷雾!

摘要:论文提出NAUTILUS模型,用于解决水下图像颜色失真、细节模糊等问题。通过构建145万问答对的大规模水下多任务数据集NautData,并设计基于物理先验的视觉特征增强(VFE)模块,该模型能在特征层面逆向修复水下图像退化信息。实验表明,NAUTILUS在目标检测、分类等8项任务上性能显著提升,尤其在恶劣水下环境中表现出强鲁棒性。该研究为水下智能探索提供了新基准,其可解释的物理建模方法和即插即用的VFE模块具有重要应用价值。

2025-11-05 17:57:43 1110

原创 谷歌又放大招!全新SRL框架融合SFT与RL优势,打造超强推理智能体,性能飙升!

该论文提出监督强化学习(SRL)框架,通过分解专家解题步骤并设计序列相似度奖励机制,有效提升大型语言模型在复杂推理任务中的表现。SRL将专家解答转化为多步动作序列,在每一步计算模型生成动作与专家动作的相似度作为奖励信号,避免传统强化学习的稀疏奖励问题。实验表明,SRL在数学推理和软件工程任务中均显著优于监督微调和传统强化学习方法。该方法既保留了模型推理的灵活性,又通过细粒度步骤指导提升学习效果,为复杂AI任务训练提供了新思路。

2025-11-04 18:23:46 603

原创 大模型前沿周报 (10.27-11.2):覆盖大模型机制与训练优化等方向

本周精选10篇大模型前沿论文,覆盖训练优化、跨域应用、编程教育及人机协作等方向。研究亮点包括:发现大模型中的通用"过滤头"机制、揭示价值对齐关键在SFT阶段、提出高效的贝叶斯任务选择框架、开发递进式知识注入方法等。应用方面涉及推荐系统优化、知识图谱构建、编程教育辅助等创新解决方案。所有论文可免费获取,为大模型研究提供最新技术参考。

2025-11-03 18:02:05 658

原创 哈弗最新研究 | 提出“幂采样”新魔法,不微调、不费卡,让LLM推理直追SOTA!

【摘要】哈佛大学研究人员提出了一种名为“幂采样”的创新方法,通过改进推理时的采样策略而非依赖复杂的强化学习训练,即可显著提升大语言模型的推理能力。该方法基于马尔可夫链蒙特卡洛(MCMC)算法设计,通过优先选择可能通向高质量答案的路径,在数学推理、代码生成等任务中取得了与强化学习方法相当甚至更优的效果,同时保持了答案多样性。实验显示,该方法能将基础模型的准确率从49.6%提升至74.8%,且对未专门训练的任务也表现出色。这种免训练方法为挖掘基础模型潜能提供了新思路,虽会增加推理成本,但避免了强化学习的多样性下

2025-10-31 18:13:22 929

原创 多模态+CLIP | 视觉语言交互的终极形态?CLIP融合AIGC与持续学习,重塑多模态AI边界

多模态学习前沿:CLIP驱动的视觉-语言模型新进展 当前研究聚焦于增强多模态模型的语义对齐和持续学习能力。TokLIP创新性地提出离散到连续的标记器架构,通过语义化低层视觉特征,实现了多模态理解与生成的统一。C-CLIP则通过多模态低秩适应(LoRA)和对比知识巩固(CKC),解决了持续学习中的遗忘问题,同时保持零样本泛化能力。这些突破性进展显著提升了AI在开放世界中的适应能力,为自动驾驶、智能创作等应用场景提供了更强大的技术支持。

2025-10-29 15:57:19 1078

原创 MIT新作 | 告别千卡集群!一步梯度+100样本,单卡GPU实现SOTA级适配

本文提出了一种名为"CompresstoImpress"的高效LLM自适应方法,通过三个关键技术突破解决了LASER方法的计算效率问题:1)利用梯度引导的矩阵选择策略,通过奇异值梯度分析精准定位需要压缩的权重矩阵;2)仅需100个样本即可完成梯度计算和压缩评估;3)采用多子空间分解技术提升去噪效果。实验表明,该方法在GPT-J等模型上实现了平均52倍加速,部分任务准确率提升高达24.6个百分点,且整个过程无需微调,在单GPU上即可快速完成。这一研究为LLM的轻量级自适应提供了实用解决方案

2025-10-28 17:10:49 838

原创 ICLR 2025 | 无需训练!巧用模型自身梯度图,南加大开源ViCrop让LLaVA看清“像素级”细节,准确率暴涨!

本文研究发现多模态大语言模型(MLLM)在感知微小视觉细节方面存在明显局限,其性能与视觉对象尺寸呈负相关。通过实验证实,MLLM即使回答错误时也能准确定位目标区域,表明问题根源在于感知而非定位。基于此,作者提出无需训练的ViCrop方法,利用模型自身的注意力图和梯度图自动裁剪关键区域进行增强。在7个视觉问答基准上的测试表明,ViCrop显著提升了LLaVA-1.5和InstructBLIP等模型的细节感知能力,且不影响常规任务表现。该研究为解决MLLM在细节敏感应用中的风险提供了有效方案。

2025-10-24 17:20:17 769

原创 TCSVT 2025 | 颠覆性融合!首个CLIP-Mamba框架M³amba问世,遥感分类SOTA被刷新!

本文提出了一种名为M3amba的新型多模态遥感图像融合分类框架,有效解决了当前方法存在的语义信息提取不完整和计算效率低下的问题。该模型创新性地将CLIP视觉语言模型与Mamba状态空间模型相结合,通过模态特定适配器提取语义特征,并设计了线性复杂度的Cross-SS2D跨注意力模块实现高效融合。实验表明,M3amba在多个数据集上的分类性能显著优于现有方法,平均提升5.98%,同时保持了卓越的训练效率。这一成果为多模态遥感数据分析提供了兼顾精度与效率的新解决方案。

2025-10-23 12:23:45 976

原创 NeurIPS2025 | GMV预测总不准?阿里TranSUN纠偏新范式,已在淘宝主流量验证!

本文提出了一种创新方法TranSUN,用于解决推荐系统中回归模型因目标变换导致的重转换偏差问题。不同于传统后处理修正方法,TranSUN通过引入辅助分支进行联合偏差学习,在训练阶段内在地消除预测偏差。该方法在理论上可证无偏性,并展现优异收敛性能。研究进一步将TranSUN泛化为广义模型家族GTS,揭示了基于条件线性变换的内在无偏机制。实验表明,该方法在多个数据集上显著降低了预测偏差,并已成功应用于淘宝"猜你喜欢"场景,为工业推荐系统提供了一种高效的偏差修正解决方案。

2025-10-22 18:14:31 990

原创 强化学习太慢?试试CURATE策略搜索!为AI智能体自动定制最优升级路线!

本文提出CURATE算法,解决强化学习在稀疏奖励环境中的探索难题。该算法通过动态调整任务难度匹配智能体能力,将课程生成转化为环境参数空间的策略搜索。实验表明,CURATE在样本效率上超越多种先进基线,尤其在最优路径不明确的多维课程空间中表现突出,展现了自动发现高效学习路径的能力。研究为复杂场景下的自动课程学习提供了新思路,未来可扩展至更高维空间和连续控制领域。

2025-10-21 18:00:25 878

原创 大模型前沿周报 (10.13-10.17):从模型安全、基准测试到金融落地,四大方向12篇论文精华

本周精选 12篇大模型领域前沿论文,覆盖大模型安全与可信性、大模型评估与基准测试、大模型行业应用与落地、大模型技术架构与系统优化等方向。全部200多篇论文皆可扫码免费领取。➔➔➔➔点击查看原文,获取本期大模型周报合集llm词云图。

2025-10-20 18:10:09 981

原创 开源模型反杀GPT-4!斯坦福ACE框架让LLM Agent性能飙升,成本还更低

摘要:本文提出ACE(Agentic Context Engineering)框架,解决大型语言模型(LLM)上下文适应中的简洁性偏见和上下文坍塌问题。ACE通过生成、反思、策划的模块化流程,将上下文视为动态演进的"剧本",采用结构化增量更新机制保留领域知识。实验表明,ACE在智能体和金融任务中性能提升显著(分别提升10.6%和8.6%),适应延迟降低86.9%,且无需标注监督即可自我改进。开源模型的ACE表现与顶级专有模型相当,为构建高效自改进LLM系统提供了新思路。

2025-10-17 17:48:54 657

原创 腾讯“免训练”RL新范式:成本直降99%!不改模型参数,如何让LLM智能体超越微调?

本文提出了一种创新的免训练组相对策略优化(Training-Free GRPO)方法,旨在解决大型语言模型(LLM)在专业领域应用中依赖昂贵参数微调的问题。该方法通过将策略优化从参数空间转移到上下文空间,利用模型自我反思提炼"组相对语义优势"作为经验知识,指导模型行为而不更新参数。实验表明,仅需少量样本(约100个)和极低成本(约18美元),该方法就能显著提升冻结大模型在数学推理和网页搜索任务上的性能,效果超越传统微调方法。这一突破为LLM智能体的高效适配提供了新思路,同时保留了基础模型

2025-10-16 17:46:37 1079

原创 重磅!英伟达官方发布AI Agent训练终极指南,多轮强化学习看这篇就够了!

本文提出了一种系统性框架,将多轮智能体强化学习分解为环境、奖励和策略三大支柱,通过TextWorld、ALFWorld和SWE-Gym等基准实验验证了关键发现:1)环境复杂度显著影响性能,简单环境训练可泛化至复杂任务;2)密集回合奖励加速训练但依赖RL算法选择;3)SFT与RL的最佳配比平衡了准确率与泛化能力。研究提炼出一套跨支柱协同设计的训练"配方",为多轮智能体强化学习提供了可复现的实践指南,解决了当前领域框架分散、结果难比对的痛点。

2025-10-15 17:39:47 950

原创 不止是1+1>2!多模态融合的真正威力:实现几何、语义、动态上下文的高效对齐

多模态融合技术正成为自动驾驶感知系统的关键突破点。最新研究通过层次化注意力机制、跨模态对齐和动态权重融合等策略,实现了几何、语义与动态上下文的高效整合。TriFusion-AE创新性地融合LiDAR、深度图和文本三模态数据,在强噪声和对抗攻击下保持92.48%的稳健性优势。OmniScene则构建4D场景理解框架,将视觉-语言-时空特征深度融合,其端到端系统在感知、预测和规划任务中均达到SOTA水平。当前研究面临模态缺失、异步和轻量化架构设计等挑战,但也为创新提供了突破口。这些进展标志着多模态技术正从简单特

2025-10-14 17:18:09 947

原创 大模型前沿周报 (10.06-10.10):精选12篇,覆盖多智能体、自调试、鲁棒性评估等热点

本周精选12篇大模型前沿论文,聚焦5大研究方向:1)多智能体与语义网络建模,提出LLM辅助的AJAN框架建模方案;2)迭代优化与自调试,创新树引导策略优化和摘要式上下文管理;3)翻译与文本理解,开发质量感知解码和无监督短文本聚类方法;4)评估与鲁棒性,构建动态文本嵌入评估基准并揭示排序漏洞;5)工业应用,推出客服反馈飞轮、学术筛选工具和视频推荐系统。这些研究在提升大模型性能的同时,更注重降低使用门槛和落地成本。

2025-10-13 17:06:16 1097

原创 计算成本暴降75%!“马尔可夫思维”范式登场,AI推理迎来线性时代

【摘要】本文提出"马尔可夫思维"新范式,通过将长思维链推理重构为固定大小的马尔可夫过程,解决传统方法因上下文线性增长导致的二次方计算开销问题。研究团队开发了Delethink强化学习环境,将推理过程分割为8K token的文本块,在块边界通过4K token的"接续状态"传递信息。实验表明,1.5B参数的Delethink模型在24K token推理预算下性能媲美传统方法,且具备更优的测试时扩展能力,计算成本仅为传统方法的1/4。该研究为大模型长推理任务提供了高效解决

2025-10-11 16:52:57 892

原创 视觉新范式:ResNet+Transformer双路径融合,顶刊解析遥感分割与动作识别新SOTA

【摘要】ResNet与Transformer协同架构正革新视觉理解范式,通过双路径耦合框架实现局部细节与全局上下文的优势互补。研究提出多尺度可学习Gabor边界分支增强目标轮廓提取,结合傅里叶-Transformer模块建模长程依赖,并设计通道-空间-像素三级注意力机制优化特征融合。在红外行为识别与遥感分割任务中,该架构展现出对复杂场景和噪声干扰的强鲁棒性,通过动态权重平衡计算效率与推理精度,为安全敏感应用提供可解释的轻量化解决方案。相关7篇论文合集已整理,助力高效获取前沿研究成果。

2025-10-10 17:31:06 986

原创 LSTM+卡尔曼滤波又杀疯了!误差怒降45%,训练提速15倍,顶会思路来了!

【摘要】长序列建模领域出现LSTM与卡尔曼滤波(KF)融合新范式:LSTM捕捉长程依赖,KF在线修正预测。研究亮点包括:1)航迹预测论文提出Conv-LSTM+自适应KF混合框架,实现带置信区间的4D轨迹生成,水平误差49.6海里;2)训练算法论文将LSTM权重参数化为状态变量,采用改进EKF实现二阶在线更新,训练速度提升10-15倍且保持精度。两篇工作共同表明,深度学习与经典滤波的组合能有效平衡表达能力与计算效率,为空管、自动驾驶等实时决策场景提供新方案。创新方向可延伸至非高斯滤波、联邦学习等应用。

2025-10-09 16:43:53 620

原创 顶会风向标:从NeurIPS 2025精选论文,看懂大模型的四大演进方向

NeurIPS 2023聚焦人工智能前沿研究,呈现四大创新方向:1)Video-R1提出时序感知强化学习框架T-GRPO,通过对比奖励机制提升视频推理能力;2)DFloat11实现大模型无损压缩,利用BFloat16权重特性将模型缩小30%且保持精度;3)AC-LoRA首创免训练访问控制系统,通过动态LoRA适配器实现安全高效的多模态推理;4)ThinkSound创新音频生成框架,采用多阶段思维链推理提升视频到音频转换质量。这些研究突破展示了大模型在跨模态融合、高效部署、安全控制等领域的广泛应用前景。

2025-09-30 16:24:37 1054

原创 0922-0926 | 大模型周报:覆盖 LLM 强化学习优化、LLM 评估与偏见缓解、LLM 多指令与代码任务等方向!

【大模型前沿论文速览】本周精选12篇论文涵盖六大方向:1)强化学习优化:提出概率平滑策略(PSPO)和树搜索方法(Tree-GRPO),解决梯度不连续与奖励稀疏问题;2)评估与偏见:TrustJudge框架提升LLM评估一致性,MFA智能体缓解文化偏见;3)代码任务:创新多指令评估基准与语法纠错方法(PoCO);4)安全隐私:揭示水印技术漏洞(RLCracker)和智能体工具风险(AutoMalTool);5)推理增强:建立多跳QA理论上界,EoG框架桥接知识图谱语义鸿沟;6)跨领域应用:LLM驱动应用评论

2025-09-29 18:05:33 844

原创 OpenAI | 终极评测:GPT-5对决Claude 4.1,谁才是最强经济价值大模型?

OpenAI团队提出GDPval基准,旨在前瞻性评估AI模型在真实经济任务中的能力。该基准涵盖美国9大GDP贡献行业的44个职业,包含1320个由资深专家设计的真实任务。研究发现,前沿模型(如Claude Opus4.1)在近48%的任务中表现达到或超越人类专家水平,且性能随时间线性提升。研究还验证了增加推理努力、任务上下文和引导能有效提升模型表现。该工作为量化AI的经济价值提供了新框架,并开源了220个任务的黄金子集及自动评分服务。

2025-09-28 18:03:10 795

原创 transformer+强化学习 | 思路简单,发文快人一步!

Transformer与强化学习(RL)的融合正成为决策智能领域的研究热点。这一新范式通过Transformer强大的时序建模能力,有效解决了传统RL在长时序依赖、离线数据利用率、安全约束平衡等方面的难题。目前研究聚焦三大方向:离线RL的序列化建模、安全约束的动态适配以及情景RL的效率优化。两篇代表性论文展示了该方向的创新成果:《Constrained Decision Transformer》通过多目标优化视角提升离线安全RL性能,实现零-shot适应;《TOP-ERL》则结合Transformer评论家

2025-09-25 16:57:46 1098

原创 清华 | 提出统一LLM训练方法,打破SFT与RL的界限!

本文提出了一种统一大型语言模型(LLM)后训练方法的新框架,将监督微调(SFT)和强化学习(RL)两种主流范式整合为单一优化过程。研究团队推导出统一策略梯度估计器(UPGE)理论,证明不同后训练算法的梯度计算是该框架在不同数据分布假设下的特例。基于此理论,开发了混合后训练(HPT)算法,根据模型实时性能动态切换SFT和RL训练信号。实验表明,HPT在多个数学推理基准测试中显著优于传统方法,不仅能提升模型准确性(Pass@1提高3.5-12.2%),还能增强探索能力(Pass@1024提高8.3-15.7%)

2025-09-24 16:46:36 844

原创 清华最新发布 | 大型推理模型的强化学习综述

本文系统阐述了强化学习(RL)驱动大语言模型(LLMs)实现复杂推理能力突破的关键技术与应用。核心创新在于可验证奖励机制(RLVR),通过过程奖励和生成式奖励提供精细反馈,结合GRPO等高效策略优化算法和结构化采样策略,显著提升模型在数学推理、代码生成等任务中的规划与自我修正能力。文章深入探讨了RL与监督学习的本质差异,分析了从不同基模型训练的影响,并全面介绍了支撑RL训练的数据资源、交互环境和基础设施体系,展望了其在科学发现、具身智能等领域的应用前景,为发展通用推理智能提供了技术蓝图。

2025-09-23 17:32:35 804

原创 0915-0919大模型周报:覆盖LLM安全与对抗防御、LLM推理与优化、LLM多模态与跨领域应用等核心方向

【大模型前沿研究速览】本周精选12篇论文聚焦LLM四大方向:1)安全防御:提出DeepRefusal框架,通过概率消融重建拒绝机制,攻击成功率降低95%;2)推理优化:FlowRL框架通过奖励分布匹配增强推理多样性,数学推理性能显著提升;3)跨模态应用:多模态LLM实现零样本视频时空定位,街景分析还原历史政策影响;4)系统部署:LEAP架构结合存内计算,能效较GPU提升71倍。另含参数高效微调、课程学习等创新方法,200+论文可免费获取。详情点击:https://mp.weixin.qq.com/s/EaS

2025-09-22 17:41:21 735

原创 注意力机制+CNN+Transformer三杀!医学分割、跨模态融合效果炸裂

摘要 CNN与Transformer的混合架构已成为视觉任务的主流方案,通过结合CNN的局部特征提取能力和Transformer的全局建模优势,显著提升医学图像分割、跨模态融合等任务的性能。核心创新包括:1)混合架构设计(如PFormer的P-Block模块),融合深度可分离卷积与内容驱动的P-attention机制,平衡计算效率与精度;2)多尺度特征优化(如MATCNN的多尺度融合模块与Swin Transformer结合),增强局部细节与全局关联;3)注意力机制改进(如稀疏化、通道-空间注意力协同),降

2025-09-19 16:49:50 778

原创 DeepSeek-R1论文登上《Nature》封面,通讯作者梁文锋

本研究提出了一种基于纯强化学习(RL)的框架DeepSeek-R1,通过仅奖励最终答案正确性(无需人类标注推理过程),成功激发大型语言模型的自主推理能力。该方法突破了传统思维链(CoT)和监督微调对人类示范的依赖,使模型自发涌现出自我反思、验证等高级推理策略。实验表明,该模型在数学(AIME2024准确率79.8%)和编程(Codeforces百分位96.3%)等任务上超越传统方法,并验证了大模型推理能力可迁移到小模型的可行性。研究为开发自主演化的AI系统提供了新路径,同时指出了工具使用、奖励破解等未来优化

2025-09-18 17:25:47 692

原创 爆款突破!DyCAST-Net+Transformer联手颠覆时间序列因果发现

多元时间序列(MTS)因果关系挖掘面临复杂依赖和滞后效应等挑战。最新研究提出两种创新方法:DyCAST-Net结合扩张时间卷积与动态稀疏注意力机制,实现多尺度依赖捕捉和虚假连接过滤;Transformer框架整合先验知识,通过注意力掩码和梯度分析提升因果发现精度。两种方法均显著提高了因果推断的可解释性和长程依赖捕捉能力,在金融和神经科学等领域展现出优越性能。相关论文合集已整理,可供研究者参考。

2025-09-17 17:46:27 1079

原创 牛津、上AI Lab重磅综述:Agentic RL,一文看懂AI智能体的进化路线图

本文系统梳理了智能体强化学习(Agentic RL)这一新兴领域,该领域将大型语言模型(LLM)从被动序列生成器转变为能在复杂动态环境中自主决策的智能体。研究通过马尔可夫决策过程(MDP)和部分可观察马尔可夫决策过程(POMDP)严格区分了Agentic RL与传统LLM强化学习,并提出了基于智能体核心能力(规划、工具使用等)和应用任务的双重分类法。论文指出强化学习是实现这些能力从静态模块转变为自适应行为的关键机制,整合了500多篇文献及相关资源,为构建可扩展的通用人工智能代理提供了系统性指导。研究还探讨了

2025-09-16 17:46:10 1193

原创 0908-0912 | 大模型周报:多模态融合、训练与优化策略、安全与对齐、行业应用等核心方向

本周精选12篇大模型领域前沿论文,覆盖模型压缩、多模态融合、训练优化和安全可靠性等方向。在模型压缩方面,ButterflyQuant提出可学习正交变换实现高效2位量化;ENSI创新结合加密方案与轻量架构,实现隐私安全推理加速;EvolKV通过进化搜索优化KV缓存管理。多模态领域,HumbleBench构建首个MLLM认知谦逊评估基准;MatCha发布材料科学专业理解测试;VIRAL提出视觉表征对齐方法。训练优化方面揭示了长任务执行能力的关键影响因素,并提出基于好奇心的强化学习框架。安全研究方面,SteerM

2025-09-15 15:10:01 1002

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除