Phoenixtree_DongZhao-优快云博客

原创 CVPR 2025 最佳论文候选16篇快览

本文介绍了cvpr 2025 全部的16篇最佳论文候选，包括论文摘要、GitHub或项目主页以及论文概述。

2025-06-08 13:52:04 7976

原创 [Nature Machine Intelligence 2025] 基于稀疏学习核的医疗时间序列处理方法：兼顾可解释性与高效性

本文提出了一种用于医学时间序列处理的稀疏混合学习核(SMoLK)架构，在保持高性能的同时具备可解释性和高效性。该方法通过一组轻量级可学习卷积核构建单层稀疏神经网络，实现了对光电容积脉搏波(PPG)伪影检测和单导联心电图(ECG)房颤分类的高效处理。实验表明，SMoLK在多个基准数据集上的性能与参数规模大数个数量级的深度模型相当，而参数量显著减少（最大模型仅100KB）。该架构通过核权重吸收和相关核剪枝技术进一步优化参数效率，其内在可解释性可直接分析各卷积核的贡献机制。

2025-10-24 03:53:41 980

原创空间物理学中的神经符号模型 [Nature Machine Intelligence 2025]

摘要：本研究提出PhyE2E框架，一种融合神经与符号方法的新型AI模型，用于从观测数据自动发现物理公式。该框架通过二阶导数分析将符号回归分解为子问题，利用Transformer模型端到端生成符号表达式，并结合蒙特卡洛树搜索和遗传编程进行优化。实验表明，PhyE2E在符号准确性、数据拟合和物理量纲一致性上优于现有方法。研究将其成功应用于五个空间物理问题，包括太阳黑子预测和等离子体压力建模，推导出的公式不仅优化了NASA的太阳活动模型，还首次以数学形式解释了太阳活动长周期现象。该成果为物理定律的自动发现提供了新

2025-10-23 06:51:33 1415

原创 ICLR 2025 Mamba 相关论文汇总和简介

摘要：近期多篇论文聚焦于改进Mamba模型及其应用。MamKO将Mamba与Koopman算子结合，提升非线性系统建模能力；Gated Delta Networks通过门控机制改进Mamba2；Spatial-Mamba针对视觉任务优化空间依赖建模；LongMamba和MambaExtend分别通过训练无关方法增强长上下文处理能力；Drama将Mamba应用于强化学习；RFMamba用于射频信号感知；SwiftHydra整合生成式AI进行异常检测；Jamba提出混合Transformer-Mamba架构；M

2025-10-15 15:44:14 862

原创通过迭代解耦概率建模进行图像修复 [ICLR 2024]

本文提出了一种创新的像素扩散模型（PSM），用于解决大面积图像修复中的关键挑战。该模型通过迭代式解耦概率建模方法，将GAN的高效优化能力与概率模型的可解释性相结合，实现了高质量和大规模缺失区域的修复。主要创新点包括：1）采用解耦概率建模策略，分别优化均值项和方差项；2）设计像素扩散机制，逐步将可信像素信息传播至缺失区域；3）引入不确定性引导的注意力模块。实验表明，该方法在Places2和CelebA-HQ数据集上达到了最先进性能，FID指标提升1.1，同时推理速度比扩散模型快10倍，参数量仅为其20%。该方

2025-10-15 11:56:13 774

原创面向可解释与高效注意力：通过压缩少数实现整体压缩 [NeurIPS 2025]

本文提出了一种统一优化框架CBSA（压缩-广播自注意力），通过压缩少数代表性令牌实现自注意力机制的可解释性与效率提升。该框架揭示了softmax注意力、线性注意力和通道注意力均可视为CBSA的特例，其差异源于代表性令牌的选择策略。实验表明，CBSA在保持线性复杂度的同时，在图像分类和语义分割任务上展现出与现有方法相当甚至更优的性能。特别地，CBSA展现出对参数扰动的高度鲁棒性，并在混合模型中涌现出语义分割特性。这项研究为理解注意力机制的本质提供了新视角，同时实现了计算效率与模型性能的平衡。

2025-10-14 15:17:28 933

原创 YOLOv12：以注意力为核心的实时目标检测器 [NeurIPS 2025]

本文提出了一种以注意力机制为核心的实时目标检测框架YOLOv12。针对传统CNN模型的局限性，研究通过区域注意力模块（A²）降低了计算复杂度，并引入残差高效层聚合网络（R-ELAN）解决了大规模模型的优化挑战。实验结果表明，YOLOv12在MS COCO基准测试中显著优于主流实时检测器，如YOLOv12-N以1.64ms延迟实现40.6% mAP，较YOLOv10-N提升2.1%。该框架通过多项架构创新，包括FlashAttention优化、位置感知器设计等，在保持实时性的同时充分发挥了注意力机制的性能优势

2025-10-14 14:16:39 1167

原创基于太阳轨道器 SWA 和 MAG 2023年数据的行星际激波统计分析

Abstract行星际（IP）激波是近地空间中的重要现象，是地磁暴和辐射暴的直接驱动因素。由于激波的空间尺度会随传播介质条件和参数发生显著变化（例如内日球层中激波波前曲率半径可达数百个地球半径以上），本文提出了一种改进的半自动激波识别方法。通过分析搭载的和在2023年期间于0.29–0.95 AU距离范围内记录的太阳风参数和行星际磁场数据，研究团队开发了新算法，成功识别出。研究确定了这些激波的类型及其基本参数（包括动力学和磁流体动力学参数），例如等。本文进一步统计分析了上游区域和。

2025-10-13 15:40:38 1016

原创 DAMamba：具备动态自适应扫描机制的视觉状态空间模型 [NeurIPS 2025]

本文提出动态自适应扫描（DAS）方法，通过数据驱动机制自适应分配扫描顺序与区域，解决了现有视觉状态空间模型依赖固定扫描策略的问题。基于DAS构建的DAMamba模型在ImageNet分类任务中达到83.8%准确率，在COCO检测/分割任务中分别取得48.5 APb和43.4 APm，在ADE20K语义分割中获得50.3 mIoU，均超越当前最优视觉Mamba、CNN和ViT模型。实验表明DAS能有效聚焦关键区域，在保持线性计算复杂度的同时提升模型性能。

2025-10-12 16:40:25 1083

原创图像编辑的DeepSeek —— ICEdit : 基于大规模扩散Transformer的上下文生成式指令图像编辑

本文提出ICEdit框架，通过三大创新技术实现高效精准的指令式图像编辑：(1)上下文编辑范式，利用大规模扩散变换器(DiT)固有理解能力，将编辑指令转换为描述性提示；(2)极简参数微调策略，仅需0.1%传统训练数据(5万样本)和1%可训练参数；(3)早期过滤推理时缩放技术，通过视觉语言模型快速筛选高质量噪声样本。实验表明，ICEdit在EmuEdit和MagicBrush基准上达到最先进性能(VIE评分78.2)，显著优于现有方法。

2025-10-12 12:47:43 872

原创 WeatherBench：面向一体化恶劣天气图像恢复的真实世界基准数据集

本文提出WeatherBench，首个真实世界的一体化恶劣天气图像恢复基准数据集，解决了现有方法依赖合成数据导致的领域鸿沟问题。该数据集通过专门设计的一体化天气采集系统，在真实条件下捕获了42,002对精确对齐的雨、雪、雾霾退化-清晰图像对，涵盖多样户外场景和光照条件。实验表明，在该数据集上训练的一体化方法（如MWFormer和AdaIR）展现出优于任务专用方法的性能，验证了数据集对推动真实场景图像恢复研究的重要价值。数据集已开源，为开发鲁棒的一体化天气恢复模型提供了统一评估平台。

2025-10-12 10:27:34 961

原创面向单步生成建模的均值流方法: MeanFlow, 一步生成高清图像（何恺明 [NeurIPS 2025 Oral] ）

本文提出MeanFlow框架，一种原理驱动的单步生成建模方法。通过引入平均速度流场概念，取代传统流匹配中的瞬时速度建模，推导出平均速度与瞬时速度间的数学恒等式，并以此指导神经网络训练。该框架无需预训练或课程学习，在ImageNet 256×256上仅用单次函数评估（1-NFE）即达到3.43的FID，较现有最佳单步方法提升50-70%。实验表明MeanFlow能自然整合无分类器引导技术，同时保持1-NFE采样特性。这项工作显著缩小了单步与多步生成模型的性能差距，为生成建模提供了新的理论基础。

2025-10-11 22:10:52 1072 4

原创 MB-TaylorFormer V2：基于泰勒公式改进的多分支线性Transformer在图像恢复 [TPAMI 2025]

本文提出一种新型Transformer变体。该变体利用泰勒展开近似Softmax注意力，并采用保范映射概念来近似一阶泰勒展开的余项，从而实现线性计算复杂度。此外，本文引入具有多尺度块嵌入的多分支架构，具备四大优势：1) 多种感受野尺寸；2) 多层级语义信息；3) 灵活的感受野形状；4) 加速的训练和推理速度。因此，所提出的MB-TaylorFormer V2模型能够同时处理从粗到细的特征，以有限计算成本捕获长距离像素交互，并改进泰勒展开余项的近似精度。

2025-10-11 10:22:54 604

原创 Time-Series Explanations：时间序列可解释性 TimeX++ 和 ORTE 简介

《时间序列可解释性研究进展》本文对比分析了TimeX++和ORTE两项最新时间序列可解释性研究。TimeX++从信息瓶颈原理出发，通过改进目标函数解决平凡解和分布偏移问题，提出生成分布内解释实例的框架，在合成和真实数据上验证了其有效性。ORTE则提出最优信息保留原则，利用条件互信息平衡冗余性和完整性，通过二元掩码和对比学习实现解释优化，在医疗金融等领域展现出优势。两项研究均从信息论角度推进了时间序列解释的理论基础，TimeX++侧重分布一致性保持，ORTE强调信息完整性权衡，分别通过不同技术路径提升了解释

2025-10-04 22:46:46 782

原创 ICLR 2025 Time Series 时间序列论文汇总（论文链接）

本文摘要介绍了多个时间序列分析与预测的前沿模型与方法。包括通用预测模型TimeMixer++、基于Granger因果的异常根因分析、连续状态空间Feynman-Kac模型的概率方法等口头报告，以及在线预测、最优传输插补、扩散模型概率预测等海报展示。研究涵盖时间序列分类、异常检测、概率预测、因果发现等多个方向，采用了深度学习、贝叶斯方法、最优传输、扩散模型等技术，并探索了大语言模型在时间序列分析中的应用。这些工作推动了时间序列分析在可解释性、概率建模和通用基础模型方面的发展。

2025-10-03 08:04:59 978

原创 ICLM 2025 Time Series 时间序列论文汇总（论文链接）

近期时间序列预测领域涌现多项创新研究，主要包括：FSTLLM提出时空大模型用于小样本预测；Sundial和TimeBase等构建高效基础模型；K²VAE、扩散模型等改进概率预测方法；隐私保护方面提出结构化子采样方案；多篇工作关注非平稳时间序列处理（TimeBridge、TimeStacker）。其他亮点包括：跨频交互模型CFPT、基于Koopman的KoNODE、检索增强预测框架、视觉-语言多模态模型（Time-VLM）以及轻量化模型LightGTS。研究趋势显示：基础模型优化、概率预测、多模态融合和计算效

2025-10-03 07:31:16 1008

原创《Nature》封面：DeepSeek-R1通过强化学习激发大语言模型的推理能力

通用推理是人工智能领域一个长期且艰巨的挑战。最近的技术突破，例如大型语言模型和思维链提示，在基础推理任务上取得了显著成功。然而，这种成功严重依赖于大量人工标注的示例，并且模型的能力在处理更复杂问题时仍显不足。本文研究表明，无需人类标注的推理轨迹，仅通过纯强化学习即可激发LLMs的推理能力。所提出的强化学习框架促进了高级推理模式的出现，例如自我反思、验证和动态策略调整。因此，训练出的模型在数学、编程竞赛和STEM领域等可验证任务上表现出色，性能超越了基于人类演示的传统监督学习方法。此外，这些大规模模型所展现出

2025-09-23 00:55:02 1311

原创 [ICLR 2025] 上下文时间序列预测器

本文提出了一种基于上下文学习的时间序列预测方法ICTSP，通过将预测任务构建为输入标记，而非传统的时间步或序列标记。该方法充分利用Transformer的上下文学习能力，将历史回望窗口与未来序列作为上下文示例，实现了更高效的参数利用和更强的泛化能力。实验表明，ICTSP在全数据、少样本和零样本设置下均优于现有方法，有效解决了传统Transformer模型在时间序列预测中存在的过拟合等问题。该方法无需依赖预训练大语言模型参数，计算效率更高，并能自适应不同复杂度的数据集，展现出作为通用时间序列预测解决方案的潜力

2025-09-21 10:42:26 1127

原创 [ICLR 2025] 基于最优传输的时间序列插补方法

本文提出了一种基于最优传输的时间序列插补方法PSW-I，通过设计近端谱瓦瑟斯坦(PSW)差异度量解决现有分布对齐方法在时序数据中的局限性。PSW结合成对谱距离捕捉时序模式，并引入选择性匹配正则化增强对非平稳性的鲁棒性。实验表明，PSW-I无需掩盖观测值或训练参数模型，即可有效处理周期性、时间依赖等时序特征，在多种缺失场景下优于现有方法。该方法为时间序列缺失值插补提供了新的分布对齐视角，具有实现简便和样本效率高的优势。

2025-09-20 19:36:02 966

原创 Time-MoE：基于混合专家技术的十亿级时间序列基础模型 [ICLR 2025]

摘要：本文提出Time-MoE，一种基于稀疏混合专家（MoE）的大规模时间序列基础模型，通过高效激活部分网络参数，在保持高模型容量的同时降低计算成本。Time-MoE采用仅解码器Transformer架构，支持可变输入长度与多分辨率预测，首次将时间序列模型扩展至24亿参数。基于自建的Time-300B数据集（覆盖9领域、3000亿时间点），实验表明Time-MoE在相同计算预算下显著优于密集模型，验证了时间序列预测中的Scaling Laws规律。

2025-09-20 06:09:27 1063

原创帧插画师 Framer：交互式帧插 [ICLR 2025]

本文提出Framer，一种交互式帧插值方法，能够在两幅图像之间生成平滑过渡的帧。相较于传统方法，Framer支持用户通过定制关键点轨迹来精确控制局部运动，解决了帧间转换的模糊性问题。该系统还提供"自动驾驶"模式，自动估计关键点并优化轨迹。实验表明，Framer在图像变形、延时视频生成等任务中表现优异，尤其在处理大运动和显著外观变化时优势明显。该方法结合了生成模型与用户交互，显著提升了插帧质量和可控性。

2025-09-10 04:31:04 1012

原创 EfficientViM: 基于隐藏状态混合器状态空间对偶的高效视觉Mamba [CVPR 2025]

摘要：本文提出EfficientViM，一种基于隐藏状态混合器状态空间对偶（HSM-SSD）的轻量级视觉架构，旨在解决资源受限环境中的高效视觉任务。HSM-SSD通过将通道混合操作转移至压缩的隐藏状态空间，显著降低了计算成本，同时提出多阶段隐藏状态融合（MSF）增强模型表示能力。实验表明，EfficientViM在ImageNet-1K上实现了最优速度-精度权衡，比SHViT快7%且精度提升0.6%，吞吐量和精度均优于现有方法。代码已开源。

2025-08-30 22:34:16 1148

原创国际辐射带环境建模（IRBEM）库用户手册

IRBEM库是国际辐射带环境建模工具，提供磁场计算、坐标转换等功能，支持FORTRAN、Python、IDL和MATLAB调用。该库由COSPAR辐射带建模小组免费分发，使用时需在出版物中致谢。安装方法包括编译FORTRAN源文件并通过封装接口集成到不同编程环境。Python封装包含MagFields和Coords两类，IDL和MATLAB需注意变量类型匹配。该库遵循GNU宽松公共许可证，用户需自行承担使用风险。问题反馈可通过GitHub提交。

2025-08-29 10:17:18 1060

原创 AIM: 通过自监督掩码修正固有可解释性 [CVPR 2025]

本文提出了一种名为AIM（通过自监督掩码修正固有可解释性）的新方法，旨在提升深度神经网络利用真实特征而非虚假特征的能力。AIM通过自监督方式生成样本特定的特征掩码，无需额外标注即可引导模型关注具有判别性的特征区域。实验表明，该方法在多个挑战性数据集上显著提升了模型的可解释性（通过EPG分数衡量）和分类性能，尤其在分布外泛化场景中表现突出。AIM的核心创新在于结合自底向上特征提取和自上而下特征精炼路径，通过可学习的掩码机制实现特征选择，从而直接产生固有可解释的模型。

2025-08-28 07:29:29 977

原创 PySINDy

PySINDy是一个用于从数据中发现主导动力系统模型的 Python 软件包。具体来说，PySINDy提供了应用非线性动力学稀疏辨识（SINDy）[1]方法进行模型发现的工具。本文简要描述了SINDy 的数学基础概述并演示了 PySINDy 中实现的功能（附代码示例），提供了给用户的实用建议，以及PySINDy 的潜在扩展功能列表。软件可在获取。[1]1 引言长期以来，科学家们通过建立数学模型来量化实证观测结果，这些模型能够刻画观测现象、具备一定的可解释性并能进行预测。尤其是动力学系统模型。

2025-08-26 19:42:42 1086

原创 Surya：太阳物理学的基础模型

摘要：本文提出Surya，首个366M参数的日球物理学基础模型，基于全分辨率SDO卫星的AIA和HMI多通道数据（4096×4096像素）训练。该模型采用时空Transformer架构，结合频谱门控和长短程注意力机制，通过高分辨率太阳图像预测任务进行预训练，并利用自回归展开调优优化长期预测性能。零样本评估显示其能准确预测太阳动力学和耀斑事件，下游微调在太阳风预测、活动区分割等任务中表现优异（如耀斑预测TSS达0.436）。Surya突破了传统任务特定模型的局限，为构建日地系统数字孪生提供了通用框架。

2025-08-25 06:01:58 1027

原创高速太阳风流中的内磁层对流电场和相应的地磁指数

摘要：本研究利用范艾伦探测器（2012-2019年）数据，分析191个高速太阳风事件期间内磁层对流电场与地磁指数的关系。结果表明，当太阳风速＞550 km/s且行星际磁场南向分量增强时，对流电场强度显著增加，并渗透至更低L壳（如L~3）。电场强度（E_{y,RMS}）与地磁指数（Kp、AU、Dst）呈现非线性关系：当E_{y,RMS}＜1 mV/m时近似线性相关，超过该阈值后指数增长放缓。AU与Kp呈线性正相关，而Dst与Kp呈近似指数负相关。研究证实，高速太阳风条件下磁层对流深度渗透是影响地磁扰动（如环

2025-08-23 05:41:51 841

原创地球磁层全球MHD模型中模拟Dst指数的半经验方法

摘要：本文提出了一种半经验方法，将经验公式与全球磁流体力学(MHD)模型相结合来模拟Dst指数。Dst指数是衡量地磁暴强度的关键指标，传统上通过低纬度台站数据计算获得。研究指出全球MHD模型无法准确模拟环电流效应，因此引入Burton经验公式(1975)来补充环电流对Dst的贡献。该方法通过计算太阳风电场分量E_y来确定环电流注入率，并将其与MHD模型计算的其他电流系统贡献相结合。结果显示，这种半经验模型能更好地重现磁暴期间Dst指数的变化特征，特别是弥补了纯MHD模型在模拟环电流效应方面的不足。

2025-08-13 22:51:18 1047

原创迈向透明人工智能：可解释性大语言模型研究综述

摘要：本文系统综述了大型语言模型(LLMs)的可解释性方法(XAI)，针对Transformer架构的三种主要类型（仅编码器、仅解码器、编码器-解码器）提出了标准化分类体系。研究指出，LLMs的"黑箱"特性在高风险领域应用中存在显著隐患，而现有XAI方法通过特征归因、注意力分析、思维链提示等技术揭示模型决策过程。文章详细分析了不同架构下的可解释性挑战与解决方案，比较了各类方法的优劣，并探讨了评估机制与实际应用场景。最后指出当前研究的局限性，包括跨架构泛化能力不足、计算成本高等问题，为发

2025-08-03 17:23:25 1604

原创 Cautious Optimizers: Improving Training with One Line of Code 一种新的优化方法，仅用一行代码改进训练

摘要：本文提出了一种简单高效的优化器改进方法——谨慎优化器（Cautious Optimizer），仅需一行代码即可显著提升现有基于动量的优化器（如AdamW、Lion）的性能。该方法通过梯度对齐检测（仅在与当前梯度方向一致时执行更新）避免无效振荡，在理论上保留了原优化器的收敛性，且能加速损失下降。实验表明，改进后的C-AdamW和C-Lion在LLaMA 1B预训练中分别实现1.47倍和1.28倍的加速，并在MAE图像预训练和LLM微调任务中均表现更优。该工作为优化器设计提供了新思路，兼具理论严谨性与工

2025-07-29 23:28:14 1028

原创 Mixture-of-Recursions: 混合递归模型，通过学习动态递归深度，以实现对自适应Token级计算的有效适配

《混合递归：学习动态递归深度以实现自适应token级计算》提出了一种新型高效Transformer架构——混合递归（Mixture-of-Recursions, MoR），通过统一参数共享和自适应计算两大效率维度，显著提升了语言模型的训练和推理效率。MoR核心创新包括：(1) 递归层权重共享机制降低参数数量；(2) 轻量级token级路由器动态分配递归深度，将计算聚焦于复杂token；(3) 递归式键值缓存策略选择性存储KV对，减少内存访问。实验表明，在1.35亿至17亿参数规模上，MoR在同等计算预算下实

2025-07-26 22:45:37 1375

原创从10个磁层状态变量推断出的近乎普适的太阳风-磁层耦合函数

本文研究发现，一个基于磁层顶磁通量开放速率的耦合函数dΦ_MP/dt = v^(4/3)B_T^(2/3)sin^(8/3)(θ_c/2)能够最佳地预测10个磁层活动指数中的9个。该函数考虑了IMF场线接近磁层顶的速率、重联概率、IMF强度及重联线长度等因素。研究表明，这一函数在多个数据集和太阳活动周期中都表现出稳健的预测能力，平均解释了57.2%的方差，优于其他常用耦合函数如E_KL和vBs。唯一例外是Dst指数，其最佳预测因子是p^(1/2)dΦ_MP/dt。结果支持磁层活动主要由日侧重联速率驱动的观点

2025-07-21 20:09:05 903

原创经典论文 Science子刊：数据驱动的偏微分方程发现 —— Supplementary Materials

本文提出PDE-FIND算法，通过稀疏回归从时空数据中自动发现控制偏微分方程。该方法构建包含非线性项和导数项的候选库矩阵，利用序列阈值岭回归(STRidge)选择稀疏活跃项，平衡模型精度与复杂度。针对噪声数据，采用多项式插值计算数值导数，并通过奇异值分解降噪。算法支持数据降采样处理高维问题，并成功应用于从随机游走推导福克-普朗克方程。相比现有ODE发现方法，PDE-FIND能直接识别PDE的基本形式而非离散版本，为数据驱动的偏微分方程建模提供了有效工具。

2025-07-08 23:53:11 1231

原创经典论文 Science子刊（2017年）：数据驱动的偏微分方程发现（Data-driven discovery of partial differential equations）

摘要本文提出了一种基于稀疏回归的数据驱动方法，用于从时空测量数据中自动发现控制系统的偏微分方程（PDE）。该方法通过构建包含线性、非线性及空间导数项的超完备函数库，结合顺序阈值岭回归（STRidge）算法，高效地识别出最能表征数据的稀疏PDE模型。该方法在欧拉框架（固定传感器）和拉格朗日框架（移动传感器）中均适用，并通过帕累托分析平衡模型复杂度与精度。实验证明，该方法能准确重构多种经典PDE（如Navier-Stokes方程、量子谐振子、扩散方程等），且对噪声和降采样数据具有鲁棒性。

2025-07-08 16:58:35 1074

原创空间物理学中关键现象和指数之间关系

这是一个关于空间物理学中关键现象和指数之间关系的简单介绍，适合初学者了解这些基本概念。理解这些参数及其相互关系对于监测空间天气、预测地磁暴及其影响至关重要。

2025-07-04 09:27:51 1178

原创视觉通才模型：最新综述 [ 2025 IJCV ]

通用模型（generalist model）在自然语言处理领域取得了巨大成功。这类模型通过海量数据训练构建统一框架，能够同时处理多种下游任务。受其卓越性能的鼓舞，越来越多研究者开始探索将此类模型应用于计算机视觉任务。然而，视觉任务的输入与输出形式更为多样，难以归纳为统一表征。本文对视觉通用模型进行了全面综述，深入探讨其特性与能力：首先回顾研究背景（包括数据集、任务与基准），继而剖析现有研究提出的框架设计

2025-06-15 16:43:03 1112

原创 Ming-Omni：统一的多模态感知与生成模型（Inclusion AI, 蚂蚁集团）

Ming-Omni：统一多模态感知与生成模型本文提出了Ming-Omni，一个突破性的统一多模态模型，能够同时处理图像、文本、音频和视频输入，并具备语音与图像生成能力。该模型采用专用编码器提取各模态特征，通过创新的MoE架构（配备模态专属路由器）实现多模态信息的统一处理。Ming-Omni是首个在模态支持上媲美GPT-4o的开源模型，相关代码和权重已公开。

2025-06-13 06:30:47 1698

原创感知万物：图像与视频中识别、解释、描述与分割万物

SAM 2. 本文提出了感知万物模型（Perceive Anything Model, PAM），这是一个概念上简洁高效、用于图像和视频全面区域级视觉理解的框架。本文的方法通过集成大语言模型（Large Language Models, LLMs）扩展了强大的分割模型SAM 2，使其能够同时进行目标分割并生成多样化、区域特定的语义输出，包括类别、标签定义、功能解释和详细描述。本文引入了一个关键组件——。

2025-06-09 01:42:39 1561

原创基于VMD-LSTM融合方法的F10.7指数预报

F10.7 太阳辐射通量是一个众所周知的参数，与太阳活动密切相关，是衡量太阳活动水平的关键指标。在本研究中，变分模态分解 (VMD) 和长短期记忆 (LSTM) 网络被结合起来，构建了一个 VMD-LSTM 模型用于预测 F10.7 值。F10.7 序列首先通过 VMD 分解为多个本征模态函数 (IMF)，然后利用 LSTM 神经网络对每个 IMF 进行预测。将所有 IMF 的预测结果聚合，即可得到最终的 F10.7 预测值。1957 年至 2008 年的

2025-06-04 15:05:00 1383

原创深度学习驱动的超高清图修复技术——综述

摘要：超高清（UHD）图像修复旨在解决超高分辨率图像的质量退化问题。近年来，该领域主要受深度学习技术驱动，在数据集构建、网络架构、采样策略、先验知识融合和损失函数等方面取得进展。本文系统综述了UHD图像修复的最新研究进展，涵盖退化模型、基准数据集、技术发展和评估方法等维度。首先总结了超分辨率、低光增强、去模糊等子问题的退化模型及其在UHD图像中的独特挑战；其次梳理了现有UHD数据集和基于退化类型的分类方法；然后分析了深度学习模型的演进，提出基于网络架构和采样策略的分类框架；最后探讨了当前挑战和未来方向，包括

2025-05-31 06:22:14 1160

基于小波变换的图像增强算法.pdf

结合小波变换中相关系数理论，提出了一种基于小波变换的图像增强算法，该算法先区分小波域中由细节及噪声产生的高频系数，对由细节产生的信息进行增强，对噪声进行抑制·解决了通常算法中增强细节信号的同时也放大了噪声这个问题·实验表明，该算法在得到很好的图像增强的同时，能很好地抑制噪声，对于多噪声环境下的弱细节信号能达到很好的增强效果·

2014-07-16

Wasserstein Auto-Encoders 【pdf】

We propose the Wasserstein Auto-Encoder (WAE)|a new algorithm for building a generative model of the data distribution. WAE minimizes a penalized form of the Wasserstein distance between the model distribution and the target distribution, which leads to a dierent regularizer than the one used by the Variational Auto-Encoder (VAE) [1]. This regularizer encourages the encoded training distribution to match the prior. We compare our algorithm with several other techniques and show that it is a generalization of adversarial auto-encoders (AAE) [2]. Our experiments show that WAE shares many of the properties of VAEs (stable training, encoder-decoder architecture, nice latent manifold structure) while generating samples of better quality, as measured by the FID score.

2017-12-20

SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <1MB .pdf

Recent research on deep convolutional neural networks (CNNs) has focused primarily on improving accuracy. For a given accuracy level, it is typically possible to identify multiple CNN architectures that achieve that accuracy level. With equivalent accuracy, smaller CNN architectures offer at least three advantages: (1) Smaller CNNs require less communication across servers during distributed training. (2) Smaller CNNs require less bandwidth to export a new model from the cloud to an autonomous car. (3) Smaller CNNs are more feasible to deploy on FPGAs and other hardware with limited memory.

2017-12-20

李飞飞团队《2024年人工智能指数报告》《Artificial Intelligence Index Report 2024》

李飞飞联合领导的斯坦福大学以人为本人工智能研究所（Stanford HAI）发布了《2024 年人工智能指数报告》，全面追踪了全球人工智能的发展趋势，更总结了十大核心趋势！这是该团队发布的最为详尽的报告，且其发布时机恰逢AI对社会的深远影响日益显现的重要时刻！强烈推荐阅读学习！【十大主要趋势】 1、人工智能在某些任务上胜过人类，但并非在所有任务上。 2、产业界继续主导人工智能前沿研究。 3、前沿模型变得更加昂贵。 4、美国领先中国、欧盟和英国，成为顶级人工智能模型的主要开发国家。 5、目前严重缺乏对大语言模型负责任的可靠和标准化评估。 6、生成式人工智能投资飙升。 7、人工智能使工人更有效率，并带来更高质量的工作。 8、人工智能崛起推动科学进步的速度愈发迅猛。 9、美国的人工智能法规数量呈现出急剧增加的趋势。 10、在全球范围内，公众对人工智能的潜在影响有了更为深刻的认识，同时伴随着日益增长的紧张情绪。【描述来自CVer https://wx.zsxq.com/dweb2/index/topic_detail/4844518514581258】

2024-08-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

基于小波变换的图像增强算法.pdf

Wasserstein Auto-Encoders 【pdf】

SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <1MB .pdf

李飞飞团队《2024年人工智能指数报告》《Artificial Intelligence Index Report 2024》

腾讯研究院《工业大模型应用报告》 2024年3月

去雾算法 dehazing 最新顶级会议和期刊论文打包下载（17-18年）

GitHub上传方法.docx

去雾算法 dehazing 最新顶级会议和期刊论文打包下载（08-14年）

17CVPR_CODE_Learning Dynamic Guidance for Depth Image Enhancement

synset_words.txt

bvlc_reference_caffenet.caffemodel

宽度学习 Broad Learning System MATLAB代码（2）：NORB实践

去雾算法 dehazing 最新顶级会议和期刊论文打包下载（15-16年）

A Probabilistic Collaborative Representation based Approach for

空空如也