AkanthaWang-优快云博客

原创【2025 arXiv】Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space

本文提出DMLR框架，通过潜在空间优化实现高效多模态推理。针对当前方法存在的视觉交互不足或计算开销大的问题，DMLR创新性地引入可优化的潜在思考Token，并利用置信度指导视觉信息动态注入。实验表明，在7个基准数据集上，DMLR显著提升了推理性能（数学推理提升1.5%-4.5%），同时保持高效计算。该框架无需额外训练，实现了类似人类的动态视觉回溯能力，为多模态推理提供了新思路。

2025-12-23 14:51:44 25

原创【2025 COLING】What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instruct

系统性地揭示了“视觉推理任务”和“指令复杂度”是构建高效视觉指令集的关键因素。提出了一个“合成-复杂化-重构”的自动化数据生成 Pipeline，能够保证生成的指令既复杂又准确（低幻觉）。发布了ComVint数据集（32K 样本），在多个主流 MLLM 和 Benchmark 上验证了其优越性，证明了“少而精”（Less is More）的高质量复杂数据优于大规模简单数据。

2025-12-22 20:31:53 18

原创【2023 ICCV】EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes

EmoSet-118K 在 8 个情感类别上的分布非常均衡，每类图片数量在 10,660 到 19,828 之间，优于现有数据集。：通过深入分析验证了属性与情感的相关性，并设计了一个属性模块，证明了利用属性信息可以显著提升视觉情感识别的性能。在 EmoSet 上训练的模型在情感识别准确率上优于在其他数据集（如 FI, Emotion6）上训练的模型。：基于心理学研究，建立了一套可描述的视觉情感属性体系，有助于从更精细和可解释的角度理解视觉情感。为了验证属性的有效性，作者提出了一个。

2025-12-22 15:09:00 1261

原创【2026 AAAI】RoadSceneVQA:Benchmarking Visual Question Answering in Roadside Perception Systems for IT

本文提出了RoadSceneVQA，首个面向路侧场景的视觉问答数据集，包含34,736个QA对，涵盖感知和推理任务。通过CH-MA人机协作标注系统构建高质量数据。同时开发了RoadMind模型，采用CogniAnchor Fusion模块增强视觉-语言融合，并设计Assisted Decoupled Chain-of-Thought方法提升轻量级模型的推理能力。实验表明，RoadMind在多个基准测试中表现优异，尤其在推理任务上优于同类模型。该研究为路侧感知系统从单纯检测转向认知推理提供了新思路。

2025-12-20 20:40:50 286

原创【2025 NeurIPS】Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

提出Wan-Move方法，解决现有运动可控视频生成技术中控制粒度粗糙和可扩展性有限的问题。该方法基于14B参数的Wan-I2V模型，创新性地通过潜在轨迹映射和特征复制直接在潜在空间注入运动信息，避免了额外编码器的使用。研究构建了包含200万条视频的训练集和1018条视频的MoveBench评估集，采用混合标注流程确保标注精度。实验表明，Wan-Move在运动准确性和视觉质量上超越现有学术方法，并与商业系统Kling 1.5 Pro相当。该方法在保持架构简洁的同时展现了强大的扩展性，支持多对象运动、相机控

2025-12-17 22:02:37 33

原创 conda安装环境问题

这个错误是因为使用的 Miniconda 版本（或其默认配置的 Anaconda 频道）要求用户显式接受其。执行完毕后，再次运行。

2025-12-16 19:12:07 181

原创【2024 NeurIPS】MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models

针对通用型多模态大语言模型（MLLMs）因任务干扰导致性能下降的问题，研究者提出MoME框架。

2025-12-16 17:21:19 218

原创【2025 ACL】Listen, Watch, and Learn to Feel: Retrieval-Augmented Emotion Reasoning for Compound Emo

本文提出检索增强情感推理框架(RAER)来提升多模态大语言模型(MLLMs)的复合情感理解能力。RAER通过动态更新的情感知识库和思维链推理机制，结合检索增强技术处理情感歧义问题。同时设计了刺激武装强盗(SAB)评估框架，采用两两比较和Elo评分动态评估模型表现，并构建了包含复合情感问答的新数据集。主要贡献包括：1)首个结合检索增强与情感推理的RAER框架；2)创新的SAB评估方法；3)用于训练和评估的复合情感数据集。该方法显著提升了模型处理复杂情感任务的能力。

2025-12-15 20:57:16 693

原创 GPU多卡训练实战指南

多卡并行训练是深度学习工程师的必备技能。掌握 torchrunDDP这一黄金组合，你就能高效利用多 GPU 资源，大幅提升训练吞吐与模型规模。记住三句话启动用torchrun，不用python；数据用，模型用DDP；全局操作用all_gather，评估注意同步。

2025-12-14 15:02:22 642

原创【2025 ICML】Catch Your Emotion: Sharpening Emotion Perception in Multimodal Large Language Models

多模态大模型(MLLMs)在情感推理方面面临语义混淆和视觉冗余两大挑战。本文提出免训练方法SEPM，通过信心引导的粗到细推理(CCI)和情感视觉增强(VTA)提升模型表现。CCI采用两阶段分类策略，先粗分情感极性再细粒度分类，结合置信度评估优化推理；VTA引入情感提示和视觉Token丢弃机制，聚焦关键情感线索。实验表明，SEPM在多个数据集上显著优于基线方法，最高提升17.19%，验证了其有效性。该工作为MLLMs的情感理解提供了资源高效的优化方案。

2025-12-09 12:46:01 726

原创【2021 ICML】Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

遵循构建 Conceptual Captions 数据集的方法，从网页中提取图像和对应的 alt-text。放弃了复杂的过滤和后处理步骤，仅应用基于频率的简单过滤。移除色情图片、尺寸太小的图片、长宽比极端的图片以及重复图片。移除与超过 10 张图片共享的 alt-text（通常是无效描述，如 “1920x1080”），移除包含罕见词汇的文本，以及过短或过长的文本。得到了一个包含18 亿(1.8B) 图像-文本对的噪声数据集，比 Conceptual Captions 大两个数量级。

2025-12-07 18:05:18 668

原创【2023 ICCV】(SigLIP) Sigmoid Loss for Language Image Pre-Training

提出SigLIP模型，采用成对Sigmoid损失替代传统Softmax对比损失，解决了语言-图像预训练中的效率瓶颈。

2025-12-07 16:08:02 710

原创【2025 arXiv】TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

Meta提出的TUNA是一种原生统一多模态模型（UMM），通过构建连续统一的视觉表示空间，在单一框架内高效支持多模态理解与生成任务。该方法串联VAE编码器和语义表示编码器（如SigLIP），结合LLM解码器实现联合处理。

2025-12-04 23:30:57 1203

原创【2025 NeurIPS】Show-o2: Improved Native Unified Multimodal Models

新加坡国立大学与字节联合提出Show-o2，一种原生统一的多模态模型，通过集成自回归建模（文本）和流匹配（视觉）实现文本、图像、视频的理解与生成。

2025-12-04 20:56:23 1157

原创【2025 CVPR】Why We Feel: Breaking Boundaries in Emotional Reasoning with MLLM

提出情感解释(EI)这一新任务，突破传统情感分析仅识别情感类别的局限，转向探究情感产生的因果因素。研究构建了包含1615个样本的EIBench多模态基准数据集，采用由粗到细的自问(CFSA)标注流程，结合视觉-语言模型和人工校验，生成高质量的情感触发因素解释。

2025-12-02 11:46:27 974

原创【2025 NeurIPS】Thought Communication in Multiagent Collaboration

这一工作为机器间"脑对脑"式直接通信奠定了理论和实践基础。

2025-11-19 11:24:55 1019

原创【2025 AAAI】Bridge Then Begin Anew: Generating Target-Relevant Intermediate Model for Source-Free Vis

视觉情感识别(VER)面临数据标注困难与隐私问题，传统域自适应方法需访问源域数据，实用性受限。本文提出无源域自适应视觉情感识别任务(SFDA-VER)，并创新性地设计了"先搭桥后新生"(BBA)框架。BBA通过两个阶段解决核心挑战：首先生成可靠的桥梁模型提供高质量伪标签，再彻底抛弃源模型参数，从零训练目标模型。实验在六个跨域任务中验证了BBA的有效性，其性能不仅显著优于现有SFDA方法，甚至超越可访问源数据的UDA方法。该研究为隐私保护下的情感AI应用提供了新思路。

2025-11-18 16:30:17 728

原创本地AI搭建个人知识库

开发者选Ollama，普通用户用LM Studio，知识工作者适合Cherry，企业需求推荐AnythingLLM。四者也可组合使用发挥各自优势。

2025-11-18 09:43:10 814

原创【2025 CVPR】Chat-based Person Retrieval via Dialogue-Refined Cross-Modal Alignment

其核心思想是通过一个交互式的对话系统来逐步引导用户，主动询问并获取关于目标人物的更多细节信息，从而动态地、渐进式地优化检索查询，以达到更精准的定位。缺乏可用的“对话-图像”配对数据。传统的行人检索数据集（如 CUHK-PEDES）提供的是“单句描述-图像”的数据对，这无法满足训练一个能够理解多轮、交互式对话模型的需要。它通过一个精心设计的系统，学习一个共享的潜在空间（shared latent space），在这个空间里，语义一致的“对话-图像”对被拉近，而语义不一致的则被推远。

2025-11-10 16:37:59 896

原创【2025 ICLR】VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation

VILA-U提出了一种基于自回归的统一视觉语言模型框架，通过创新的统一视觉塔设计实现图像理解与生成任务的一体化处理。

2025-11-08 19:31:52 791

原创【2025 ICML】AffectGPT A New Dataset, Model, and Benchmark for Emotion Understanding with MLLM

提出了一种结合数据驱动和模型优化的方法，提升多模态大语言模型（MLLM）在情感识别任务中的性能。针对现有数据集规模小、质量不足的问题，采用"模型主导，人工辅助"策略构建了MER-Caption数据集，包含115K样本和2.9K种细粒度情感。模型方面，设计AffectGPT引入预融合机制强化跨模态特征整合。同时建立了MER-UniBench评估基准，包含三类情感任务和针对生成式模型的新指标。

2025-11-08 19:05:03 1023

原创【2025 CVPR】（PreSel）Filter Images First, Generate Instructions Later: Pre-Instruction Data Selection

提出一种视觉指令调优（VIT）数据选择方法PreSel，旨在解决数据冗余和指令生成高成本问题。通过任务重要性估计（IRS）评估问题对回答的贡献度，结合任务聚类选择策略挑选最具代表性的图像。

2025-11-07 23:25:31 114

原创【2025 CVPR】EmoEdit: Evoking Emotions through Image Manipulation

提出EmoEdit框架，旨在解决情感图像编辑（AIM）中语义内容修改与结构保真的平衡问题。通过设计情感知识注入模块（Emotion Adapter）、构建4万对高质量情感编辑数据集（EmoEditSet），并引入情感指导损失函数，使模型在保持图像结构的同时实现语义层面的情感表达。

2025-11-07 23:11:37 1137

原创 Huggingface的国内镜像

国内用户访问 huggingface.co 可能受限，推荐使用社区维护的镜像站 hf-mirror.com

2025-10-31 21:53:26 253

原创显卡算力过高导致PyTorch不兼容的救赎指南

摘要：新一代高性能显卡（如RTX 50系列、H100）因计算能力（Compute Capability）过高，可能导致旧版PyTorch因未预编译对应CUDA内核而报错no kernel image available。

2025-10-16 13:58:29 1782 3

原创 PPT auto Crorrector

PPT-auto-Corrector 是一个基于 AI 的自动化工具，能够将拍摄的 PPT 照片智能矫正为标准幻灯片图像。项目结合 Segment Anything Model (SAM) 实现 PPT 区域自动识别，利用 OpenCV 进行透视变换与去畸变处理，输出统一尺寸（如 1920×1080）的高清图像，并支持批量处理与 PDF 合并。适用于讲座记录、会议归档、教学整理等场景，让模糊、倾斜的 PPT 照片一键变清晰、规整。

2025-09-27 22:02:42 1174

原创 LayerNorm vs BatchNorm

LayerNorm对单样本特征维度归一化，训练/测试一致，适合RNN、Transformer及小batch场景。BatchNorm跨样本归一化，依赖batch大小，训练用batch统计、测试用滑动平均，适合CNN等大batch任务。

2025-09-15 20:35:44 536

原创 PyTorch 模型镜像下载与安装指南

在国内，由于网络限制，直接从 PyTorch 官方源下载可能会遇到速度慢或无法访问的问题。为了解决这一问题，可以使用国内镜像源来加速下载和安装 PyTorch。

2025-06-26 17:08:16 2757

原创 GitHub实用手册

GitHub 是一个基于 Git 的分布式版本控制系统，它允许开发者在本地和远程仓库中管理代码版本，支持多人协作开发项目，并提供了一系列工具和功能来简化开发流程。

2025-04-15 13:27:48 983

原创 DDVQA：Common Sense Reasoning for Deepfake Detection

DDVQA介绍了一种新的深度伪造检测方法，称为深度伪造检测VQA（DDVQA）任务。该方法通过提供文本解释来模拟人类的直觉，解释图像为何被标记为真实或伪造。研究者们引入了一个新的注释数据集，并提出了一个基于视觉和语言的Transformer框架来处理DD-VQA任务。此外，他们还结合了文本和图像感知特征对齐来增强多模态表示学习。

2025-04-09 16:19:58 254

原创 RPA相关介绍

RPA（Robotic Process Automation）即机器人流程自动化，通过软件机器人模拟人类操作规则，自动执行重复性、高结构化任务。

2025-04-02 11:53:05 1001

原创 VAE相关知识

核心思想：VAE 不是将输入映射到一个固定的向量，而是映射到一个概率分布上，通常是正态分布。（每个样本都有自己特定的正太分布qz∣x，学习一个解码器/生成器，把从特定正太分布采样的z还原为x。实线表示生成模型pθzpθx∣z，虚线表示对难以处理的后验pθz∣x的变分近似qϕz∣x。变分参数ϕ与生成模型参数θ一起学习。

2025-03-19 11:21:59 13

原创 REFT: Reasoning with REinforced Fine-Tuning

CoT训练样本通常只包含一条正确的推理路径，使用CoT数据进行SFT，只能让模型学习到相对较弱的推理能力。因为针对同一个问题，还有很多条有效的推理路径。这表明了新微调方法的必要性——ReFT。ReFT在相同数据集上能获得比SFT更多的监督信号，从而取得更好的效果。ReFT首先使用SFT进行预热（warm-up），使模型获得一定的CoT能力，供后续能够进行sample。接着使用PPO进行在线采样和优化。

2025-03-17 14:24:25 891

原创 Python GUI 之创建一个圆形进度条控件：RoundProgress

在图形用户界面（GUI）设计中，进度条是一种常见的元素，用于直观地展示任务的完成进度。实现自定义圆形进度条控件，这个控件不仅具有基本的进度显示功能，还支持多种颜色自定义和渐变效果。

2025-03-01 17:08:53 252

原创 python GUI之实现一个自定义的范围滑块控件：QRangeSlider

在图形用户界面（GUI）开发中，滑块控件是一种常用于选择数值范围的交互元素。然而，很多时候默认的滑块控件无法满足复杂的交互需求，例如同时选择一个范围的起始值和结束值。为此，实现了一个自定义的范围滑块控件——QRangeSlider，它允许用户通过拖动两个滑块来选择一个数值范围，并且支持动态显示当前值。

2025-03-01 00:31:02 940

原创 Python之使用动态导包优化软件加载速度

在开发大型 Python 软件时，可能会遇到以下问题：由于静态导入了大量模块，导致软件启动时间过长，用户体验不佳。例如，一个复杂的桌面应用程序或 Web 服务可能依赖于多个大型库（如 numpy、pandas、torch 或 Yolo），这些库在启动时被静态导入，即使某些功能模块在启动时并不需要立即使用。这种情况下，静态导入会显著增加软件的启动时间，故使用动态导入。

2025-03-01 00:07:54 1173

原创 Python GUI开发：PyQt5 vs. PySide6

如果使用PyQt5开发项目，需要购买商业许可证，而PySide可以免费使用。

2025-02-26 12:35:59 950

原创 Python工具对决：cx_Freeze vs. PyInstaller

在 Python 开发的广阔天地里，我们常常会遇到一个需求：将精心编写的 Python 程序分享给他人使用。然而，并非所有的目标设备都预先安装了 Python 环境，这时候，就轮到程序打包工具闪亮登场啦！今天，咱们就来深入聊聊两款备受瞩目的 Python 打包神器 ——cx_Freeze 与 PyInstaller，看看它们如何各显神通，帮我们轻松搞定程序分发难题。

2025-01-10 14:57:25 1286

原创 LaRE2: Latent Reconstruction Error Based Method for Diffusion-Generated Image Detection

扩散模型的发展极大地提高了图像生成质量，使得区分真实图像和生成图像变得越来越困难。这一发展虽然令人印象深刻，但也引发了严重的隐私和安全问题。针对这一情况，我们提出了一种新的基于潜在重建误差引导的特征细化方法（Latent REconstruction error guided feature REfinement method，LaRE²）用于检测扩散生成的图像。

2025-01-03 15:16:11 394