AkanthaWang
志在山顶的人,不会贪念山腰的风景
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【2026 AAAI】Cog-RAG: Cognitive-Inspired Dual-Hypergraph with Theme Alignment Retrieval-Augmented Gene
设计了分别建模“跨块全局主题”和“块内高阶语义”的双超图结构,克服了现有 Graph-RAG 仅关注成对关系且缺乏统一主题组织的缺陷。开发了“主题驱动,细节召回”的两阶段检索策略,实现了不同粒度间的语义对齐,显著提升了生成内容的连贯性和质量。模拟人类自顶向下的信息处理路径,实现了从宏观语义理解到微观信息整合的分层生成建模。Cog-RAG 的设计灵感来源于人类处理复杂任务时的。原创 2025-12-29 22:22:39 · 14 阅读 · 0 评论 -
【2026 AAAI】LIR3AG: A Lightweight Rerank Reasoning Strategy Framework for Retrieval-Augmented Generat
本文提出LIR³AG框架,旨在降低多跳问答任务中推理模型的计算开销。通过分析推理模型行为,发现基于上下文的推理策略更高效。LIR³AG框架包含检索器、重排序器和推理构造器三个模块,显式构建推理链供轻量级非推理模型使用。实验表明,该框架性能优于基线方法,同时显著减少98%的Token消耗和58.6%的推理延迟。代码实现通过构建FAISS向量索引实现高效检索,使用HuggingFace嵌入模型处理文本分块。原创 2025-12-29 20:36:54 · 174 阅读 · 0 评论 -
【2025 arXiv】Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space
本文提出DMLR框架,通过潜在空间优化实现高效多模态推理。针对当前方法存在的视觉交互不足或计算开销大的问题,DMLR创新性地引入可优化的潜在思考Token,并利用置信度指导视觉信息动态注入。实验表明,在7个基准数据集上,DMLR显著提升了推理性能(数学推理提升1.5%-4.5%),同时保持高效计算。该框架无需额外训练,实现了类似人类的动态视觉回溯能力,为多模态推理提供了新思路。原创 2025-12-23 14:51:44 · 49 阅读 · 0 评论 -
【2025 COLING】What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instruct
系统性地揭示了“视觉推理任务”和“指令复杂度”是构建高效视觉指令集的关键因素。提出了一个“合成-复杂化-重构”的自动化数据生成 Pipeline,能够保证生成的指令既复杂又准确(低幻觉)。发布了ComVint数据集(32K 样本),在多个主流 MLLM 和 Benchmark 上验证了其优越性,证明了“少而精”(Less is More)的高质量复杂数据优于大规模简单数据。原创 2025-12-22 20:31:53 · 30 阅读 · 0 评论 -
【2026 AAAI】RoadSceneVQA:Benchmarking Visual Question Answering in Roadside Perception Systems for IT
本文提出了RoadSceneVQA,首个面向路侧场景的视觉问答数据集,包含34,736个QA对,涵盖感知和推理任务。通过CH-MA人机协作标注系统构建高质量数据。同时开发了RoadMind模型,采用CogniAnchor Fusion模块增强视觉-语言融合,并设计Assisted Decoupled Chain-of-Thought方法提升轻量级模型的推理能力。实验表明,RoadMind在多个基准测试中表现优异,尤其在推理任务上优于同类模型。该研究为路侧感知系统从单纯检测转向认知推理提供了新思路。原创 2025-12-20 20:40:50 · 302 阅读 · 0 评论 -
【2025 NeurIPS】Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance
提出Wan-Move方法,解决现有运动可控视频生成技术中控制粒度粗糙和可扩展性有限的问题。该方法基于14B参数的Wan-I2V模型,创新性地通过潜在轨迹映射和特征复制直接在潜在空间注入运动信息,避免了额外编码器的使用。研究构建了包含200万条视频的训练集和1018条视频的MoveBench评估集,采用混合标注流程确保标注精度。实验表明,Wan-Move在运动准确性和视觉质量上超越现有学术方法,并与商业系统Kling 1.5 Pro相当。该方法在保持架构简洁的同时展现了强大的扩展性,支持多对象运动、相机控原创 2025-12-17 22:02:37 · 42 阅读 · 0 评论 -
【2024 NeurIPS】MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models
针对通用型多模态大语言模型(MLLMs)因任务干扰导致性能下降的问题,研究者提出MoME框架。原创 2025-12-16 17:21:19 · 225 阅读 · 0 评论 -
【2021 ICML】Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
遵循构建 Conceptual Captions 数据集的方法,从网页中提取图像和对应的 alt-text。放弃了复杂的过滤和后处理步骤,仅应用基于频率的简单过滤。移除色情图片、尺寸太小的图片、长宽比极端的图片以及重复图片。移除与超过 10 张图片共享的 alt-text(通常是无效描述,如 “1920x1080”),移除包含罕见词汇的文本,以及过短或过长的文本。得到了一个包含18 亿(1.8B) 图像-文本对的噪声数据集,比 Conceptual Captions 大两个数量级。原创 2025-12-07 18:05:18 · 671 阅读 · 0 评论 -
【2023 ICCV】(SigLIP) Sigmoid Loss for Language Image Pre-Training
提出SigLIP模型,采用成对Sigmoid损失替代传统Softmax对比损失,解决了语言-图像预训练中的效率瓶颈。原创 2025-12-07 16:08:02 · 725 阅读 · 0 评论 -
【2025 arXiv】TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models
Meta提出的TUNA是一种原生统一多模态模型(UMM),通过构建连续统一的视觉表示空间,在单一框架内高效支持多模态理解与生成任务。该方法串联VAE编码器和语义表示编码器(如SigLIP),结合LLM解码器实现联合处理。原创 2025-12-04 23:30:57 · 1214 阅读 · 0 评论 -
【2025 NeurIPS】Show-o2: Improved Native Unified Multimodal Models
新加坡国立大学与字节联合提出Show-o2,一种原生统一的多模态模型,通过集成自回归建模(文本)和流匹配(视觉)实现文本、图像、视频的理解与生成。原创 2025-12-04 20:56:23 · 1160 阅读 · 0 评论 -
【2025 NeurIPS】Thought Communication in Multiagent Collaboration
这一工作为机器间"脑对脑"式直接通信奠定了理论和实践基础。原创 2025-11-19 11:24:55 · 1034 阅读 · 0 评论 -
【2025 CVPR】Chat-based Person Retrieval via Dialogue-Refined Cross-Modal Alignment
其核心思想是通过一个交互式的对话系统来逐步引导用户,主动询问并获取关于目标人物的更多细节信息,从而动态地、渐进式地优化检索查询,以达到更精准的定位。缺乏可用的“对话-图像”配对数据。传统的行人检索数据集(如 CUHK-PEDES)提供的是“单句描述-图像”的数据对,这无法满足训练一个能够理解多轮、交互式对话模型的需要。它通过一个精心设计的系统,学习一个共享的潜在空间(shared latent space),在这个空间里,语义一致的“对话-图像”对被拉近,而语义不一致的则被推远。原创 2025-11-10 16:37:59 · 905 阅读 · 0 评论 -
【2025 ICLR】VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation
VILA-U提出了一种基于自回归的统一视觉语言模型框架,通过创新的统一视觉塔设计实现图像理解与生成任务的一体化处理。原创 2025-11-08 19:31:52 · 796 阅读 · 0 评论 -
EchoMimicV2: Towards Striking, Simplified, ad Semi-Body Human Animationn
姿势采样初期与迭代阶段提升性能,APDH 用单手姿势实现稳定动画;如手部动作更自然流畅、关节活动精准,面部表情与整体姿态及音频配合协调,细节丰富真实,合成人物似从同一源图像生成,无违和感与身份偏差,表明其在半身动画生成质量上具优势。动作契合音频节奏韵律与情感内涵,速度、力度及幅度随音频变化合理,无卡顿、生硬或不连贯状况,体现其音频驱动半身动画技术的先进性。输入多元变化时,人物动画稳定性与准确性佳,音频与动作同步紧密,不同角色形象塑造鲜活、手势表意清晰准确,展示其在复杂输入下的强适应性与高泛化能力。原创 2024-12-19 08:41:52 · 1022 阅读 · 0 评论 -
【2025 CVPR】(PreSel)Filter Images First, Generate Instructions Later: Pre-Instruction Data Selection
提出一种视觉指令调优(VIT)数据选择方法PreSel,旨在解决数据冗余和指令生成高成本问题。通过任务重要性估计(IRS)评估问题对回答的贡献度,结合任务聚类选择策略挑选最具代表性的图像。原创 2025-11-07 23:25:31 · 114 阅读 · 0 评论 -
VAE相关知识
核心思想:VAE 不是将输入映射到一个固定的向量,而是映射到一个概率分布上,通常是正态分布。(每个样本都有自己特定的正太分布qz∣x,学习一个解码器/生成器,把从特定正太分布采样的z还原为x。实线表示生成模型pθzpθx∣z,虚线表示对难以处理的后验pθz∣x的变分近似qϕz∣x。变分参数ϕ与生成模型参数θ一起学习。原创 2025-03-19 11:21:59 · 21 阅读 · 0 评论 -
REFT: Reasoning with REinforced Fine-Tuning
CoT训练样本通常只包含一条正确的推理路径,使用CoT数据进行SFT,只能让模型学习到相对较弱的推理能力。因为针对同一个问题,还有很多条有效的推理路径。这表明了新微调方法的必要性——ReFT。ReFT在相同数据集上能获得比SFT更多的监督信号,从而取得更好的效果。ReFT首先使用SFT进行预热(warm-up),使模型获得一定的CoT能力,供后续能够进行sample。接着使用PPO进行在线采样和优化。原创 2025-03-17 14:24:25 · 900 阅读 · 0 评论 -
TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP
CLIP被训练用对比损失对齐图像-文本对,目的是将图像与相应的文本描述相匹配,并与其他图像区分开来。由于这种损失而导致的softmax操作造成了不同类别之间的竞争,这不利于多标签设置;CLIP被训练为通过使用类标记的唯一全局嵌入来表示整个图像,而不显式地捕获特定区域的局部特征。原创 2025-01-03 11:06:48 · 949 阅读 · 0 评论 -
SoftMoE:From sparse to soft mixtures of experts
Soft MoE是一种全可微分的稀疏Transformer架构,旨在解决传统稀疏混合专家模型(Sparse Mixture of Experts, MoEs)在训练稳定性、扩展专家数量、微调效果等方面的问题。Soft MoE通过软分配机制,将输入标记的不同加权组合传递给每个专家,而不是像传统MoE那样进行硬分配。这种方法避免了传统MoE中的标记丢失和专家不平衡问题,同时保持了MoE在推理成本较低的情况下扩展模型容量的优势。原创 2024-12-23 17:53:02 · 1216 阅读 · 0 评论 -
PromptGIP:Unifying lmage Processing as Visual Prompting Question Answering
Unifying Image Processing as Visual Prompting Question Answering” 文章提出了一种名为 PromptGIP 的通用模型,将图像处理任务统一为视觉提示问答范式,在多个图像处理任务上展现出良好性能,为通用图像处理提供了新的思路和方法。原创 2024-12-22 17:56:29 · 1391 阅读 · 0 评论 -
DA-CLIP:Controlling Vision-Language Models for Universal Image Restoration
尽管CLIP在high-level的视觉任务中有较好的性能,但当涉及到low-level的视觉任务(如图像恢复)时,由于输入图像的退化,它们的性能会急剧下降。因此本文方法的核心就是控制预训练的CLIP模型,能够从退化图像中输出高质量的图像特征,并且同时预测退化类型。原创 2024-12-20 10:10:05 · 1699 阅读 · 0 评论
分享