- 博客(48)
- 收藏
- 关注
转载 论文笔记:Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation
本文提出了一种名为MP2A的渐进式对齐框架,用于解决多源无监督域适应(MS-UDA)中CLIP模型伪标签噪声问题。该方法采用"从易到难"的课程学习策略,通过"学习-提炼-复习"的三阶段循环:首先在高置信度样本上训练,然后优化伪标签,最后将可靠样本传递到后续训练阶段。与直接使用所有伪标签的方法相比,MP2A有效减少了错误传播,在ImageCLEF(94.3%)、Office-Home(91.8%)和DomainNet(64.1%)三个基准上均达到SOTA性能。该方法通过
2025-09-08 22:19:43
213
转载 论文笔记:A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code
本文介绍了A.S.E(AI代码生成安全评估)基准,这是一个针对存储库级安全代码生成的评估框架。该基准从具有CVE记录的真实项目中构建任务,保留完整的项目上下文如构建系统和跨文件依赖。其容器化评估框架使用专家规则对代码安全性、构建质量和生成稳定性进行可复现评估。实验发现:Claude-3.7-Sonnet整体表现最佳;开源与专有模型安全差距小(Qwen3-235B-A22B-Instruct安全评分最高);"快速思考"解码策略在安全修复上优于复杂推理。该研究填补了现有基准在真实场景、项目级
2025-09-08 22:19:08
111
转载 论文笔记:R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and
本文提出R-4B模型,通过双模态退火和策略优化(BPO)使多模态大语言模型能自适应决定是否启用思考模式。模型先在涵盖多种主题的双模态数据集上训练,再通过改进的GRPO框架强化模式选择能力。实验显示,R-4B在25个基准测试中表现优异,在多数任务上超越Qwen2.5-VL-7B,在推理任务上达到更大模型Kimi-VL-A3B-Thinking-2506(16B)的水平,同时降低计算成本。该工作解决了MLLM在简单问题上过度推理的效率问题。
2025-09-08 22:18:27
153
转载 论文笔记:A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers
自动标注流程和专家验证的新兴解决方案。最后,我们概述了向闭环系统的范式转变,其中基于科学大型语言模型的自主代理可以主动实验、验证并为不断演化的活体知识库做出贡献。总体而言,这项工作为构建可信赖、持续演化的人工智能系统提供了路线图,这些系统能够作为加速科学发现的真正合作伙伴。
2025-09-08 22:17:38
287
1
转载 论文笔记:Self-Disentanglement and Re-Composition for Cross-Domain Few-Shot Segmentation
本文提出了一种基于ViT的自解耦与重组框架(SDRC)来解决跨域少样本分割(CD-FSS)中的特征纠缠问题。通过分析ViT结构的自然分解特性,作者发现现有方法在距离计算时存在交叉比较导致的模式绑定问题。为此,SDRC框架包含三个核心组件:正交空间解耦(OSD)分离不同语义模式,交叉模式比较(CPC)进行多层次特征交互,以及自适应融合权重(AFW)动态调整比较重要性。实验表明,该方法在1-shot和5-shot设置下分别以1.92%和1.88%的优势超越现有最优方法,验证了其解耦策略对提升模型跨域泛化能力的有
2025-09-08 13:13:51
100
转载 论文笔记:MINT: Memory-Infused Prompt Tuning at Test-time for CLIP
论文摘要:MINT框架提升CLIP在测试时的分布外泛化能力 本文针对视觉语言预训练模型(VLM)在测试数据分布偏移时的泛化问题,提出记忆注入提示调整框架MINT。该方法创新性地引入记忆提示库(MPB),通过:1)存储可学习的键值提示对作为记忆;2)基于测试图像的层次特征动态检索相关提示组合成关联提示;3)将关联提示注入图像编码器提供细粒度视觉引导。实验表明,MINT在ImageNet-R等四个OOD基准上平均达到63.12%的Top-1准确率,优于现有TTA方法。该框架无需源数据或重训练,实现了CLIP模型
2025-09-08 13:13:08
136
转载 论文笔记:Unlabeled Data Improves Fine-Grained Image Zero-shot Classification with Multimodal LLMs
摘要:论文《Unlabeled Data Improves Fine-Grained Image Zero-shot Classification with Multimodal LLMs》提出AutoSEP框架,通过自监督提示学习提升多模态大语言模型(MLLMs)的细粒度图像分类能力。该方法利用无标签数据迭代优化描述生成提示,引导MLLM关注关键判别特征,无需训练或微调。在8个细粒度数据集上的实验表明,AutoSEP平均比标准零样本分类准确率提升13%,优于现有无监督方法5%。该工作为增强MLLMs的细粒
2025-09-08 13:12:30
128
转载 论文笔记:Pro-AD: Learning Comprehensive Prototypes with Prototype-based Constraint for Multi-class Unsup
论文摘要: 本文提出Pro-AD方法,解决多类无监督异常检测中基于原型方法的关键问题。现有方法使用有限原型导致正常信息聚合不足,而增加原型数量又可能因注意力机制使异常被错误重构("软恒等映射"问题)。Pro-AD通过三个创新点:(1)扩展原型集增强语义容量;(2)动态双向解码器集成信息聚合与特征重构;(3)原型约束防止异常重构。在MVTec-AD等基准测试中,Pro-AD在图像级和像素级指标上均达到SOTA性能,显著提升了多类异常检测的鲁棒性。
2025-09-08 13:11:49
156
转载 论文笔记:Adapter Naturally Serves as Decoupler for Cross-Domain Few-Shot Semantic Segmentation
这篇论文提出了一种新颖的跨域少样本语义分割方法(CD-FSS),通过利用适配器(Adapter)的自然解耦特性来解决领域差异和数据稀缺问题。作者发现适配器不仅能辅助微调,还能自然地解耦领域信息,基于此提出了领域特征导航器(DFN)这一结构化解耦模块。DFN在源域训练时捕获领域特定信息,促使主干网络学习领域无关知识,并采用SAM-SVN方法防止过拟合。目标域微调时仅需调整DFN模块。实验表明,该方法在1-shot和5-shot设置下分别以2.69%和4.68%的MIoU优势超越现有最佳方法,验证了适配器作为领
2025-09-06 16:29:55
87
转载 论文笔记:Exploring Audio Cues for Enhanced Test-Time Video Model Adaptation
本文提出了一种新颖的音频辅助视频测试时自适应方法(Audio-Assisted TTA),通过利用视频中的音频信息来增强模型在测试阶段的泛化能力。现有视频TTA方法主要依赖视觉信号,而本文创新性地引入音频作为辅助监督源。具体方法包含:1) 使用预训练音频模型提取音频特征并分类,通过大语言模型将音频类别映射到视频标签空间生成伪标签;2) 设计灵活的自适应循环机制,基于损失变化和视角一致性动态调整每个样本的自适应迭代次数。实验表明,该方法在UCF101-C、Kinetics-Sounds-C等数据集上显著优于现
2025-09-06 16:29:12
73
转载 论文笔记:UltraAD: Fine-Grained Ultrasound Anomaly Classification via Few-Shot CLIP Adaptation
本文提出了一种基于少量样本学习的超声图像细粒度异常分类方法UltraAD。针对现有异常检测方法缺乏细粒度分类能力及超声图像领域差异大的问题,该研究通过改进CLIP模型,结合图像增强提示特征和记忆库机制,实现了同时进行异常定位和分类。在三个乳腺超声数据集上的实验表明,该方法在病变定位和细粒度分类任务上均优于现有技术,尤其在跨域和小样本场景下表现突出。UltraAD框架通过视觉-语言模型的自适应策略,有效提升了超声图像分析的精度和泛化能力。
2025-09-06 16:26:57
155
转载 论文笔记:CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentat
本文提出CRISP-SAM2模型,创新性地结合跨模态交互和语义提示技术改进SAM2,用于多器官医学图像分割。针对现有方法依赖几何提示、细节不精确等问题,该模型采用渐进式交叉注意力机制融合视觉与文本信息生成语义提示,通过CS-注入器增强图像编码,并设计语义提示投影器替代传统几何提示。实验在7个公开数据集上验证了其优越性,DSC和NSD指标均优于现有方法。关键创新包括跨模态语义交互、无几何提示分割机制及3D医学图像优化策略,显著提升了复杂器官边界的分割精度。
2025-09-06 16:25:55
154
转载 论文笔记:Interpretable Zero-Shot Learning with Locally-Aligned Vision-Language Model
本文提出LaZSL模型,通过最优传输实现局部视觉特征与语义属性的对齐,提升零样本学习的可解释性。LaZSL无需额外训练,在多个基准数据集上取得优于基线方法的性能,同时具备更强的跨域泛化能力。实验表明该方法能准确识别关键局部特征,提供直观的解释依据,解决了传统CLIP模型全局相似度计算缺乏可解释性的问题。
2025-09-06 16:25:13
128
转载 论文笔记:Test-Time Consistency in Vision Language Models
视觉语言模型测试时一致性优化方法 本文提出了一种无需重新训练、模型无关的测试时一致性框架,用于解决视觉语言模型(VLM)面对语义等价输入时预测不一致的问题。该方法在推理阶段通过两种损失函数对模型进行少量梯度更新:(1)交叉熵一致性损失,对齐不同语义变体的预测分布;(2)伪标签一致性损失,引导输出向自生成共识靠拢。实验表明,该方法在MM-R3基准上显著提升了LLaVA、Qwen2-VL等模型的一致性指标(如Qwen2-VL在问题改写任务上从65.78%提升至93.6%),同时保持或提高准确率。这种即插即用的测
2025-09-05 22:46:07
54
转载 论文笔记:Probabilistic Prototype Calibration of Vision-Language Models for Generalized Few-shot Semantic
本文提出FewCLIP框架,通过概率原型校准机制改进广义少样本语义分割(GFSS)。针对现有确定性原型方法在新类别上适应性不足的问题,FewCLIP创新性地将视觉校准原型建模为概率分布,结合固定文本原型生成更具判别性的多模态表示。该方法通过分布正则化实现不确定性感知学习,有效缓解了少样本情况下的过拟合。在PASCAL-5i和COCO-20i数据集上的实验表明,FewCLIP在1-shot和5-shot设置下均显著优于现有方法,在hIoU指标上提升约10%。
2025-09-05 22:45:35
134
转载 论文笔记:MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers
MCP-Bench提出了一种新型基准测试方法,用于评估大语言模型在复杂现实任务中的工具使用能力。该研究通过连接28个MCP服务器(含250个工具)构建了跨领域测试环境,相比现有基准更强调多工具协同、长程规划和模糊指令处理能力。实验评估了20个先进LLM,发现它们在跨域协调和高级推理方面仍存在显著不足。该工作为LLM智能体的真实世界应用能力评估提供了新范式,相关代码已开源。
2025-09-05 22:45:01
189
转载 论文笔记:rStar2-Agent: Agentic Reasoning Technical Report
rStar2-Agent是一种14B参数的数学推理模型,通过智能体强化学习训练实现前沿性能。它超越了传统长思维链方法,展现出高级认知能力,如使用Python工具前的谨慎思考和对代码反馈的自主修正。研究提出三项创新:(1)高效RL基础设施,支持高吞吐Python执行;(2)GRPO-RoC算法,通过"正确时重采样"策略解决编码环境噪声;(3)从非推理SFT到多阶段RL的高效训练方案。实验表明,该模型仅用510个RL步骤就在一周内将14B模型提升至SOTA水平,在AIME24/AIME25上
2025-09-05 22:44:08
222
转载 论文笔记:Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learnin
本文提出PREF-GRPO方法解决文本生成图像(T2I)中的奖励黑客问题。研究发现当前基于点式评分的强化学习会因微小分数差异导致"虚幻优势",使模型过度优化而降低图像质量。为此,作者创新性地采用成对偏好比较计算胜率作为奖励信号,建立更稳定的训练范式。同时构建UNIGENBENCH评估基准,包含600个提示和37个评估维度,通过多模态大模型实现细粒度评估。实验表明,PREF-GRPO在语义一致性和图像质量上均优于基线方法,有效缓解了奖励黑客现象。
2025-09-05 22:43:35
133
转载 论文笔记:Random Registers for Cross-Domain Few-Shot Learning
本文提出了一种新颖的跨域少样本学习方法REAP,通过引入"随机寄存器"概念解决ViT模型在跨域迁移中的过拟合问题。研究发现,传统可学习提示会捕获源域特定信息,损害目标域泛化能力,而随机寄存器能通过扰动注意力图帮助模型找到更平坦的最小值,提升迁移性能。方法在源域训练阶段使用随机噪声替换部分图像令牌,目标域微调时恢复可学习寄存器。在四个基准数据集上的实验验证了该方法的有效性,取得了SOTA性能。核心创新在于揭示了随机寄存器作为锐度感知最小化工具的价值,并提出了一种简单但高效的实现方式。
2025-09-04 15:02:53
88
转载 论文笔记:Revisiting Continuity of Image Tokens for Cross-Domain Few-shot Learning
ViT跨域小样本学习中的图像令牌连续性研究 本文针对视觉变换器(ViT)在跨域小样本学习(CDFSL)中的泛化问题,揭示了图像令牌连续性的关键作用。研究发现:破坏图像令牌连续性会显著影响源域性能,但对目标域影响较小,表明大尺度空间模式难以跨域迁移。基于此,作者提出ReCIT方法,通过空间域和频域的联合扰动策略,主动破坏连续性以迫使模型学习更具迁移性的小尺度特征。实验在四个CDFSL基准数据集上验证了该方法的有效性,在1-shot和5-shot设置下均达到SOTA性能。这项工作为ViT的跨域迁移学习提供了新视
2025-09-04 15:01:11
71
转载 论文笔记:DuET: Dual Incremental Object Detection via Exemplar-Free Task Arithmetic
本文提出DuET框架,解决现有增量目标检测方法无法同时处理新类别学习和域变化的问题。通过任务算术模型合并和方向一致性损失,DuET实现稳定的双重增量学习(DuIOD),且与检测器无关。实验表明,在Pascal和多样化天气数据集上,DuET的保留-适应性指数(RAI)分别提升13.12%和11.39%,显著优于现有方法。该工作为自动驾驶等现实场景提供了更实用的增量学习解决方案。
2025-09-04 14:57:17
135
转载 论文笔记:Vision-SR1: Self-Rewarding VLM via Reasoning Decomposition
论文摘要 Vision-SR1提出了一种创新的自奖励视觉语言模型框架,通过将推理过程分解为视觉感知和语言推理两个阶段来解决现有VLMs中的视觉幻觉和语言捷径问题。该方法首先生成自包含的视觉描述,然后由模型自身验证这些描述是否足以回答问题,从而产生自奖励信号。实验表明,Vision-SR1在多个基准测试上显著提升了性能,有效减少了视觉幻觉和对语言捷径的依赖。该方法的创新点在于无需外部监督,仅通过模型自身评估就能优化视觉推理能力。
2025-09-04 14:56:21
116
转载 论文笔记:CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupl
CODA框架提出了一种双脑结构的GUI自主代理,通过解耦通用规划器(Cerebrum)和专用执行器(Cerebellum)来解决专业领域中的长程规划和精细执行难题。该框架采用两阶段训练流程:首先为各科学应用单独训练专家规划器(专业化阶段),然后聚合成功轨迹进行监督微调(泛化阶段)。在ScienceBoard基准测试中,CODA显著优于基线模型,成为开源模型中的新SOTA。其创新点在于可训练的组合框架设计和解耦强化学习方法,有效解决了现有方法在规划与执行间的权衡问题。
2025-09-04 14:55:34
108
转载 论文笔记:Bridge Feature Matching and Cross-Modal Alignment with Mutual-filtering for Zero-shot Anomaly D
摘要:本文提出FiSeCLIP,一种基于CLIP的零样本异常检测方法,通过特征匹配和跨模态对齐实现高效检测。针对实际工业应用中批处理需求,该方法创新性地利用同批次图像作为相互参考,并通过文本信息过滤噪声特征。同时,通过恢复CLIP的局部语义相关性提升细粒度检测能力。实验表明,在MVTec-AD等基准测试中,FiSeCLIP的异常分割性能(AU-ROC/F1-max)较SOTA方法AdaCLIP提升4.6%/5.7%,为零样本异常检测提供了新基线。(147字)
2025-09-03 16:54:29
138
转载 论文笔记:VideoITG: Multimodal Video Understanding with Instructed Temporal Grounding
本文提出VideoITG框架,通过指令驱动的视频帧选择提升视频大语言模型的性能。其核心创新包括:1)VidThinker自动化标注流程,模仿人类"粗到细"的标注方式生成高质量训练数据;2)构建包含4万视频和50万标注的VideoITG-40K数据集;3)设计即插即用的帧选择模块,可灵活集成到现有模型中。实验表明,集成VideoITG的模型在多个基准测试上平均提升6.3%,甚至小模型性能可超越未使用该框架的大模型。该工作为长视频理解提供了一种高效智能的解决方案。
2025-09-03 16:53:46
163
转载 论文笔记:TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heur
TreePO论文提出了一种基于树状搜索的强化学习优化框架,通过动态树采样策略和分段解码技术,在保持探索多样性的同时显著提升了推理效率。该方法将序列生成建模为树状搜索过程,利用共同前缀摊销计算成本,并结合启发式分支策略进行智能探索。实验表明,TreePO在多个数学推理基准上性能提升显著(如整体准确率从46.63%提升至58.21%),同时节省22%-43%的GPU计算资源,在轨迹和token级别分别实现高达40%和35%的计算量减少。该工作为平衡RL训练的计算成本与模型性能提供了新思路。
2025-09-03 16:53:09
107
转载 论文笔记:CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics
摘要: 研究团队提出CMPhysBench,首个针对大型语言模型(LLM)在凝聚态物理领域能力评估的基准数据集,包含520+研究生级计算问题,涵盖磁学、超导等核心方向。为解决传统二元评估的局限性,创新性提出SEED评分指标,基于表达式树结构实现细粒度部分评分。实验显示,最佳模型Grok-4平均SEED仅36分(满分100),准确率28%,显著暴露LLM在复杂物理问题上的能力缺陷。该工作开源数据集与评估框架(GitHub可获取),为领域专用模型优化提供重要基准。
2025-09-03 16:52:29
66
转载 论文笔记:VIBEVOICE Technical Report
VIBEVOICE论文提出了一种创新的长时多说话人语音合成框架,通过结合"下一令牌扩散"技术和高效连续语音分词器(7.5Hz,压缩率较Encodec提升80倍),实现了90分钟超长对话音频的生成。模型采用LLM+扩散头的架构,在64K上下文窗口下支持最多4个说话人。评测显示:VIBEVOICE-7B在真实感(3.76分)、WER(1.11%)等指标上全面超越Gemini等竞品,说话人相似度达0.692,确立了该领域的新SOTA。
2025-09-03 16:48:13
151
转载 论文笔记:UPRE: Zero-Shot Domain Adaptation for Object Detection via Unified Prompt and Representation En
摘要 本文提出UPRE框架,用于解决零样本域适应目标检测中的域偏差和检测偏差问题。针对传统方法依赖手动设计提示的局限性,UPRE通过联合优化文本提示和视觉表示来提升性能。核心创新包括:1)多视图域提示结合语言先验与检测知识;2)统一表示增强模块生成伪目标域特征;3)多级增强策略(相对域距离和正负分离)实现跨模态对齐。实验在9个跨域数据集上验证了有效性,在恶劣天气、跨城市和虚拟到真实场景中mAP提升显著(最高达7.8%)。该工作为无目标域数据的域适应提供新思路。 (字数:149字)
2025-09-02 16:28:11
133
转载 论文笔记:NegRefine: Refining Negative Label-Based Zero-Shot OOD Detection
本文提出NegRefine框架,改进基于负标签的零样本OOD检测方法。研究发现现有方法存在两个主要问题:1)负标签包含分布内标签的子类别和专有名词,导致误判;2)无法有效处理匹配多标签的图像。NegRefine引入负标签过滤机制(NegFilter)剔除不合适的标签,并设计多标签感知评分函数,动态调整多标签匹配的权重。在ImageNet-1K上的实验表明,NegRefine显著优于现有方法,AUROC提升1.82%,FPR95降低4.35%。该框架为提升零样本OOD检测的鲁棒性提供了新思路。代码已开源。
2025-09-02 16:27:29
121
转载 论文笔记:A Conditional Probability Framework for Compositional Zero-shot Learning
组合零样本学习(Compositional Zero-Shot Learning, CZSL)旨在通过利用先前所见组合的知识来识别未知的新对象-属性组合。传统方法主要关注于解耦属性和对象,在学习过程中将它们视为独立的实体。然而,这种假设忽略了组合内部的语义约束和上下文依赖关系。例如,某些属性天然地与特定对象配对(如“条纹的”适用于“斑马”或“衬衫”,但不适用于“天空”或“水”),而同一属性在不同上下文中可能表现出不同的视觉特征(如“年幼的”在“幼树”与“幼犬”中的区别)。
2025-09-02 16:26:47
71
转载 论文笔记:MV-RAG: Retrieval Augmented Multiview Diffusion
通过利用预训练的二维扩散先验,文本到三维(Text-to-3D)的生成方法取得了显著进展,能够产出高质量且三维一致性的结果。然而,这些方法在处理域外(Out-of-Domain, OOD)或罕见概念时常常失败,导致结果不一致或不准确。为此,我们提出了MV-RAG,一个新颖的文本到三维管线,它首先从一个大规模的野外二维图像数据库中检索相关图像,然后基于这些图像对一个多视图扩散模型进行条件化,以合成一致且准确的多视图输出。
2025-09-02 16:26:10
56
转载 InternVL3.5 论文笔记
InternVL3.5提出了一种新型开源多模态模型系列,通过级联强化学习框架(Cascade RL)提升推理能力,结合视觉分辨率路由器(ViR)和解耦视觉-语言部署(DvD)策略优化效率。实验表明,相比前代模型,其推理性能提升16%,速度加快4.05倍,在多项基准测试中达到开源模型最佳水平,缩小了与商业模型的差距。该研究为多模态模型的通用性、推理能力和高效部署提供了创新解决方案。
2025-09-02 16:25:29
289
转载 论文笔记:DynImg
本文提出DynImg方法,通过引入非关键帧作为时间提示来增强视频理解。传统方法在处理快速运动物体时存在运动模糊问题,导致时空信息丢失。DynImg创新性地将关键帧与非关键帧拼接成动态图像,并采用4D旋转位置编码保持时空顺序。实验表明,该方法在多个视频理解基准上比SOTA模型提升约2%,尤其在运动相关任务上表现突出。核心创新包括:1) 时间提示引导模型关注动态区域;2) 4D位置编码保持时空关系;3) 在特征提取早期融合时空信息。该方法为多模态视频理解提供了高效的时空交互解决方案。
2025-09-01 15:36:36
42
转载 论文笔记:CMP: Composable Meta Prompt for SAM-based Cross-domain Few-shot Segmentation
本文提出CMP框架,通过可组合元提示和频率感知交互机制,解决SAM模型在跨域少样本分割中的两个关键问题:依赖人工提示和跨域能力不足。CMP包含三个核心模块:RCT模块进行语义扩展,CMPG模块自动生成元提示,FAI模块在频率域减轻领域差异。实验表明,CMP在四个跨域数据集上取得SOTA性能,1-shot和5-shot场景下mIoU分别达到71.8%和74.5%。该框架有效提升了SAM在跨域少样本分割任务中的适应性。
2025-09-01 15:33:00
122
转载 《Balancing Conservatism and Aggressiveness: Prototype-Affinity Hybrid Network for Few-Shot Segmentat
本文提出PAHNet网络,通过平衡原型学习(保守)和亲和力学习(激进)的互补特性来改进少样本分割。PAHNet包含原型引导的特征增强(PFE)和注意力分数校准(ASC)两个核心模块,利用预训练的原型预测器指导亲和力学习器,抑制错误匹配,增强前景信息。实验表明,该方法在PASCAL-5i和COCO-20i数据集上显著优于现有方法,1-shot和5-shot设置下mIoU最高提升5%。PAHNet的创新在于首次系统地分析并融合了两种范式的互补优势。
2025-09-01 15:31:32
68
转载 Beyond Pass@1: Self-play with Variational Problem Synthesis Sustains RLVR 论文笔记
本文提出了一种名为"自我对弈与变分问题合成"(SVS)的新策略,用于解决大型语言模型(LLM)在强化学习可验证奖励(RLVR)训练中的策略熵崩塌问题。研究发现传统RLVR训练虽然能提高Pass@1性能,但会降低生成多样性,限制模型在Pass@k指标上的表现。SVS方法通过在线自我对弈机制,利用模型正确解答自动合成变分问题,同时保持参考答案不变,从而维持训练过程中的策略熵和生成多样性。实验结果表明,在12个推理基准测试和3B到32B不同规模的模型上,SVS策略显著优于标准RLVR,在竞赛级
2025-09-01 15:29:24
202
转载 Memento: Fine-tuning LLM Agents without Fine-tuning LLMs 论文笔记
本文提出了一种无需微调底层大语言模型(LLM)参数的新型智能体学习框架Memento。该方法通过构建记忆增强马尔可夫决策过程(M-MDP),利用外部案例库存储历史经验,并采用神经案例选择策略进行经验检索和在线强化学习,实现智能体的持续自适应。实验表明,Memento在GAIA、DeepResearcher等多个基准测试中表现优异,在分布外任务上性能提升显著。这一创新范式为开发无需梯度更新的持续学习LLM智能体提供了高效解决方案。
2025-09-01 15:27:55
448
原创 在PPT表格中,如何在左上角的网格中画一条斜线,并在斜线两边标注第一行第一列的属性名?
在PowerPoint幻灯片左上角的网格中画一条斜线,并在斜线两边分别标注第一行第一列的属性名,可以按照以下步骤进行:
2023-04-11 09:20:55
9472
1
原创 PCL自定义点类型
#define PCL_NO_PRECOMPILE #ifndef MY_POINT_TYPE_H#define MY_POINT_TYPE_H#include <pcl/point_types.h>struct PointXYZIL { float x = 0.f; float y = 0.f; float z = 0.f; float intensity = 0.f; unsigned int label = 0; EIGEN_MAKE_ALIGNED_
2020-07-21 13:55:43
708
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅