- 博客(3263)
- 资源 (78)
- 收藏
- 关注
转载 从「表面真实性」到「内在真实性」,南洋理工S-Lab与上海AI Lab联合推出VBench-2.0:面向视频生成新世代的评测框架
我们发现在非常简单的位置移动或者属性变化上,所有模型的效果都不好,这说明现在的模型的训练数据中并没有显式包括位置、属性变化这一类的文本。现在的模型都还不支撑故事级别(5 个连续的小情节)的视频生成,其中最主要的原因是现在的视频生成模型的时长都还在 5-10 秒这个级别,还远远没有到考虑分钟级别的故事叙述。在下面这些常被网友吐槽的场景中,模型往往暴露了缺乏「内在真实度」的短板。作为业内权威的视频生成评测体系,主要关注视频的视觉观感,例如每一帧的清晰度、帧与帧之间的平滑衔接,以及视频和文本描述间的基本一致性。
2025-04-04 18:38:51
3
转载 TPAMI 2025 | 国防科大提出RGBT-Tiny数据集与SAFit指标,推动小目标检测技术发展
现有数据集多聚焦单一模态(可见光或红外成像),且目标尺寸偏大、场景单一,难以满足实际需求,针对可见光-红外双模态(Visible-Thermal, RGBT)小目标检测的研究却鲜有突破。在无人机监控、自动驾驶、夜间搜救等场景中,小目标检测(如远处行人、微型无人机)一直是技术难点——目标尺寸小、背景干扰多、光照条件复杂。115组对齐序列、9.3万帧图像、120万标注,覆盖7类目标(如船舶、汽车、行人等)和8种场景(如海洋、湖泊、城市道路等)。RGBT目标检测(如UA-CMDet、CMA-Det)。
2025-04-02 16:24:32
11
转载 ICLR 2025 Spotlight |合成数据伪装术 vs 大模型火眼金睛,中大&上海AI Lab提出合成检测基准LOKI
LOKI涵盖了图像、视频、3D、文本、音频等多个模态,构建了丰富的任务类型与异常注释体系,可系统评估大模型在合成数据检测任务中的能力与局限。LOKI基准引入了多层次的细粒度标注体系,每个数据样本都附带真实/合成标签,并标注了更精细的异常细节,确保模型在识别异常特征时具备更强的可解释性。:LOKI支持主流多模态模型(如GPT-4o、Claude-3、LLaVA等)使用多种数据格式输入,涵盖视频、图像、文本、音频、点云等,全面评估LMM在复杂数据环境下的泛化能力。
2025-04-01 14:01:13
21
转载 南洋理工&普渡大学提出CFG-Zero⋆:在Flow Matching模型中实现更稳健的无分类器引导方法
对此,南洋理工大学S-Lab与普渡大学的研究者联合提出了创新方法——CFG-Zero⋆,针对传统CFG在Flow Matching框架下的结构性误差进行了理论分析,并设计了两项轻量级但效果显著的改进机制,使生成图像/视频在细节保真度、文本对齐性与稳定性上全面提升。零初始化(Zero-init):将ODE求解器的前K步速度置为零(默认K=1),跳过模型最不可靠的预测阶段,有效降低初始误差传播。得到的视频如下:(第一个为原始CFG生成的,第二个为CFG-Zero*生成的),效果还是比较明显,值得尝试。
2025-03-31 14:02:57
17
转载 拒绝“随意运动”! 复旦联合微软提出MagicMotion:视频生成精准轨迹控制新范式
研究者使用轻量级分割头直接在隐空间中预测出分割掩码,从而在引入极小计算开销的情况下,无需进行解码操作,帮助模型在生成视频的同时在潜在空间中执行物体分割任务,从而更好地理解物体的细粒度形状。在此基础上,轨迹可控的视频生成(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。然而,现有方法在处理复杂的物体运动轨迹和多物体轨迹控制方面仍面临挑战,导致生成的视频物体移动轨迹不够精确,或者整体视觉质量较低。
2025-03-28 12:09:27
20
转载 复旦大学团队推出ParaCAD,首个包含尺寸信息标注的CAD参数化理解任务基准数据集!新范式PHT-CAD再创新SOTA!
在评测方面,现有的草图参数化方法使用的评估指标并不一致。此外,为了定量评估几何图层和标注图层关联的准确性,本文引入了一项新的评价指标--尺寸精度(Dimension Accuracy, DA),用于评估预测尺寸与其对应的真实标注之间的对齐情况。在模型训练方面,本文提出了渐进式分层调优(Progressive Hierarchical Tuning, PHT)策略,旨在逐步提升PHT-CAD的能力,使其不仅能更精准地感知单个图元,还能有效地推断出结构约束,并将标注层与对应的几何表示进行精准对齐。
2025-03-27 18:31:49
43
转载 CVPR 2025 Workshop | 面向多模态大模型的越狱攻击安全挑战赛
然而,这张图片和文本中添加了针对大模型特别设计的对抗扰动,绕过了多模态大模型的安全限制,诱导大模型产生违反其设计初衷或安全准则的输出。但与初赛不同的是,复赛的待攻击模型将额外引入1个黑盒大模型,并引入6种更具有挑战性的风险类别的基础有害文本指令,对于所设计对抗攻击算法的迁移性与鲁棒性有着更高的要求。像这种直接在多模态大模型的图文对输入中增加相关扰动,使多模态大模型产生违规输出的攻击手段,就是对多模态大模型最常用的。为了系统性地探索多模态大模型的潜在安全威胁,推动能够适应复杂对抗环境的鲁棒多模态大模型开发。
2025-03-26 17:31:21
55
转载 ICLR 2025 | 视频编辑最新SOTA!VideoGrain免训练实现多粒度视频编辑
此外,本文的方法能够进行多区域编辑,既可以编辑前景也可以编辑背景,如soap-box手推车中,背景变为“森林中的湖上长满苔藓的石桥”(下图5,中右)。:如上图(b)所示,在对DDIM inversion过程中的自注意力特征进行K-Means聚类之后,虽然聚类之后的结果是有清晰的布局信息的,但是无法区域不同的实例(比如“左边的男人”和“右边的男人“)。然而,上图(d)显示,“钢铁侠”和“蜘蛛侠”的权重在左边的男人上重叠,“花朵”的权重泄漏到右边的男人上,导致了(c)中的编辑失败。总体而言,对于多粒度编辑,
2025-03-26 17:31:21
22
转载 告别计算瓶颈!DynamicVis革新遥感图像理解,2Kx2K图像处理仅需800MB显存
此外,基于ViT的模型将图像块压缩至通道维度(如16×16像素),导致小目标细节丢失,难以满足遥感任务对多层次特征(场景级语义、目标级判别、像素级精度)的联合需求。针对遥感图像中关键目标占比小、分布稀疏且传统模型难以高效处理长序列二维标记(约10万)的挑战,该模型借鉴人类视觉选择性注意力机制,设计了基于动态区域感知的主干网络,通过选择性状态空间模型平衡局部细节与全局上下文,实现大规模数据的高效编码(处理2048×2048像素图像仅需97毫秒,消耗GPU内存为ViT的3%)。
2025-03-25 19:51:13
41
转载 ContinuousSR:从离散低分图像中重建连续高分辨高质量信号
论文提出的ContinuousSR框架,创造性地引入了Pixel-to-Gaussian范式,通过高斯建模直接重建连续的高分辨率信号,从而彻底改变了ASSR任务的实现方式。在高斯核的初始化过程中,作者提出了一种动态偏移策略,使得高斯核可以根据图像内容自适应调整位置,从而在复杂纹理区域分布更多高斯核,大幅提升重建细节的质量。具体来说,论文提出通过2D高斯核来显式表示图像的连续信号。极快的任意比例渲染:在完成高斯场构建后,模型能够以每比例1ms的速度生成HR图像,达到了现有方法的19.5倍加速。
2025-03-24 15:34:33
70
转载 看见未来,感知未来:统一驾驶世界模型UniFuture
此外,为了增强图像和深度之间的交互,研究团队设计了多尺度交互机制(MLI),在多个尺度上优化图像和深度之间的相互作用,确保最终生成的图像不仅视觉真实,而且能准确预测空间关系,促进了高一致性的未来图像-深度生成。该模型不仅能够生成逼真的未来场景,还能提供高精度的未来深度感知,确保场景的视觉一致性和几何一致性,并体现出了具备构造4D 世界模型的潜力,为自动驾驶系统的决策和规划提供了强有力的支持。:UniFuture通过图像生成和深度感知的结合,不仅提升了生成图像的视觉质量,还确保了深度预测的几何一致性。
2025-03-20 16:35:57
38
转载 第1届ACM Multimedia多模态欺骗检测竞赛(MMDD2025)正式启动!
参与者需要签署协议并下载训练数据和部分评估数据集,将获得带标签的训练数据特征(OpenFace 特征、情感特征和梅尔频谱图等),分类为真实或欺骗,旨在构建鲁棒的AI欺骗检测模型,充分利用多模态特征来准确识别欺骗行为。音视频欺骗检测[1, 2]是一种非接触式检测技术,相比接触式检测(测谎仪、脑电图、近红外光谱等)具有显著优势:1)突破了地理限制,无需面对面接触即可进行分析,具有极高的便捷度和检测效率,更适用于商业谈判和在线面试等场景;第一阶段:2025年3月15日 至 2025年5月15日。
2025-03-17 22:53:41
124
转载 统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍
然而,我们的实验表明,如果使用高质量的 VAE 进行编码,图像分类任务的性能至少可以达到与标准方法相当的水平。,该方法通过在变分自编码器(VAE)的潜在空间中进行潜在掩码建模(Masked Latent Modeling)预训练,预训练得到的 ViT 编码器等权重可以无缝迁移到下游任务,包括图像分类、语义分割以及基于扩散模型的图像生成。在将预训练模型权重适配到下游理解和生成模型时,针对图像分类任务,ViT 编码器的预训练权重可直接继承,无需额外调整,且仍然使用 Class Token 作为最终表征。
2025-03-17 22:53:41
46
转载 图像标注生存指南 3:外观多样性与形变困境
实验表明,在人群监控、植物检测等多目标场景里,面对人与物体外观差异、姿态变化、局部遮挡等常见难题,T-Rex Label 凭借卓越的视觉提示能力,都能够精准识别并框选出姿态复杂或发生变形的目标,显著提升了标注效率与准确率。在诸如温室种植等环境中,作物无论在形状、颜色还是具体株型上都存在差异,而且在生长过程中容易出现弯曲、倒伏或花期变化等形变,这些自然因素要求标注工具能够准确地识别植物被遮挡的部分或微小的局部变形,避免遗漏关键目标。在人员密集的场所,人群的外观和姿态极为复杂。1. 外观多样性造成的特征混淆。
2025-03-15 21:52:11
23
转载 全球顶级AI科学家著作,底层视觉技术10年发展精粹!
关注公众号,发现CV技术之美你是否好奇,那些震撼人心的4K电影画面、细腻入微的人物肖像、高清修复的老照片……背后究竟藏着怎样的科技密码?当代AI技术又是如何悄然渗透进每一个像素的雕琢,成就视觉的奇迹?由全球顶尖AI科学家精心撰写的《底层视觉之美:高清大片背后的人工智能》,将为你揭开这场视觉革命的神秘面纱!为什么值得一读?一部技术史,半卷人文诗不同于冰冷的工具书,这是一场科技与美学的跨界对话。翻开书...
2025-03-13 21:23:11
40
1
转载 图像标注生存指南 2:密集场景难题
关注公众号,发现CV技术之美在计算机视觉的广泛应用领域中,高密度目标场景是另一个制约图像标注效率与准确度提升的关键瓶颈。以公共安全监控为例,在城市的大街小巷,监控摄像头需要捕捉大量行人、车辆的信息;大型活动实时跟踪场景下,要对现场密集的人群、各类设施进行持续监测;物流仓储自动化识别场景里,需要快速准确地识别众多紧密排列的货物、搬运设备等。在这些场景中,目标大量重叠或紧密相邻的现象极为常见,这无疑给...
2025-03-13 21:23:11
46
转载 图像标注生存指南系列 1:光线变化挑战
关注公众号,发现CV技术之美在计算机视觉应用中,光线变化一直是图像标注领域的重要挑战。尤其在自动驾驶、安防监控等包含人、车的高精度场景以及农业等户外监控场景中,复杂的光线变化不仅直接影响数据质量,更会引发特征提取偏差与标注置信度下降。光线作为图像形成的关键要素,其变化直接决定了图像细节的呈现程度、对比度的高低以及色彩的还原效果,具体体现包括:1. 图像质量变化不同的光照条件会导致图像出现过曝或欠曝...
2025-03-12 21:49:32
33
转载 ICLR 2025|腾讯优图实验室6篇论文入选,含多模态大语言模型、人脸识别等研究方向...
关注公众号,发现CV技术之美近日,第 13 届 ICLR(International Conference on Learning Representations)国际学习表征会议公布了论文录用结果。本次大会共收到 11,565 篇有效论文投稿,录用率为 32.08%。ICLR 是人工智能和深度学习领域的重要国际学术会议之一,会议聚焦于表征学习(通常称为深度学习)的前沿研究,涵盖深度学习理论、表征...
2025-03-12 21:49:32
210
转载 CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集...
关注公众号,发现CV技术之美随着生成式人工智能技术(AIGC)的突破,文本到图像模型在故事可视化领域展现出巨大潜力,但在多角色场景中仍面临角色一致性差、布局控制难、动态叙事不足等挑战。为此,北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei,首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。论文地址:https://arxiv.org/pdf/2412.07...
2025-03-11 12:40:40
48
转载 从YOLOv5到YOLO11!改进有多大?
在目标检测领域,YOLO(You Only Look Once)一直是一种突破性算法。自YOLO算法问世以来,它已经演变为许多版本,其中最受欢迎的版本是YOLOv5和YOLOv8。这两个版本都有独特的特点和优势,使它们在各自的领域表现出色。YOLO算法的最大优点就是速度极快,每秒可处理45帧,也能够理解一般的对象表示。从个人学习来看:优秀的计算机视觉工程师,目标检测的学习避免不了,而目标检测的核心...
2025-03-11 12:40:40
65
转载 CVPR 2025 | Mamba和局部自注意力的首次碰撞:一种性能强大的混合视觉架构,代码已开源!...
关注公众号,发现CV技术之美本篇分享 CVPR 2025 论文,俞益洲教授团队提出新型语义分割框架SegMAN,在三大语义分割基准(ADE20K,Cityscapes, COCO-Stuff-164k)测试中展现出了卓越的性能。代码已开源!论文连接:https://arxiv.org/pdf/2412.11890(预印版)代码连接:https://github.com/yunxiangfu2001...
2025-03-10 13:37:30
281
转载 Serge Belongie组和ETH联合 | ICLR 2025 Spotlight:「免费」多模态信息助力3D小样本分割!...
关注公众号,发现CV技术之美突破单模态局限,多模态促进3D小样本分割当人形机器人能够辨识身边的一切,VR/AR设备呈现出定制化的虚拟世界,自动驾驶汽车实时捕捉路面状况,这一切都依赖于对3D场景的精确理解。然而,这种精准的3D理解往往需要大量详细标注的3D数据,极大推高了时间成本和资源消耗,而每当出现新场景或特定目标时,又不得不重复这一繁重过程。Few-shot学习是一种有效的解决思路——通过极少量...
2025-03-08 09:28:13
33
转载 CVPR25|零训练成本!中科大创新扩散模型概念擦除方法,先验保护较SOTA提升 10 倍...
关注公众号,发现CV技术之美当前,AI 图像生成技术迅猛发展,各类图文生成模型让用户能凭借简单文字描述创作出精美的图像。然而,这也引发了诸多问题,比如有人借此剽窃艺术风格、丑化 IP 角色和名人,甚至生成不安全图像。如何以低成本且高效的方式,精准快速地从生成图像中去除这些不想要的概念,成为亟待解决的难题。这一概念擦除任务有两个关键要求:一是擦除效果,需在生成过程中彻底清除与目标概念相关的语义;二是...
2025-03-06 10:01:54
29
转载 10个超实用Deepseek指令,国内外研究现状有救了,大大节省时间!
最近deepseek这么火,是因为它真的能实际的帮助到我们!!上周三晚上,听了sunny老师给我们分享的超实用的deepseek指令后,第一个想法就是:如果我读研的时候有这个就好了,可以节省超多时间!!!并且课后学员反响非常好,很多学员都来问老师的课件和录播回放。我们也看到这或许是大多数学员真实需要的,因此我们打算把sunny老师的公开课做成系列课程的形式,至于后续的主题究竟是什么,大家可以期待一...
2025-03-05 10:30:46
171
转载 亚洲首个!无问芯穹获FPGA’25最佳论文奖,提出首个视频生成大模型推理IP,软硬协同大幅提升硬件算力...
关注公众号,发现CV技术之美国际可重构计算领域顶级会议——FPGA 2025在落幕之时传来消息,今年的最佳论文颁发给了无问芯穹和上交、清华共同提出的视频生成大模型推理IP工作FlightVGM,这是FPGA会议首次将该奖项授予完全由中国大陆科研团队主导的研究工作,同时也是亚太国家团队首次获此殊荣。这项工作首次在FPGA上实现了视频生成模型(Video Generation Models, VGMs...
2025-03-05 10:30:46
35
转载 Long-VITA:突破百万Tokens限制!开源多模态大模型新标杆
关注公众号,发现CV技术之美近期,多模态大模型(MLLMs)发展迅速,但开源模型在长上下文场景(如长视频或高分辨率图像)中仍显著落后于闭源模型。部分专注于长上下文场景的开源模型在短上下文场景(如短视频或静态图像)中又表现不佳。为此,腾讯优图实验室和南京大学等联合推出全开源、可复现的多模态大模型 Long-VITA,原生支持 4096 帧图像或者 100 万 Tokens 输入,在支持长上下文场景的...
2025-03-04 18:02:36
24
转载 顶尖AI学者亲授 | VLA大模型前沿课限时开放
课程重磅官宣顶尖AI学者陈启峰教授主讲3月5日&3月12日,每周三19:00独家直播连续两期深度解析VLA大模型最前沿学术成果与产业实践、发展趋势主讲嘉宾介绍 陈启峰元戎启行客座教授香港科技大学副教授斯坦福大学计算机科学博士长期专注于深度学习与图像处理曾蝉联三年NOI金牌广东省第一枚国际信息学奥林匹克金牌获得者曾入选《麻省理工科技评论》“35岁以下创新35人”中国区榜单参与课程方...
2025-03-03 18:05:48
36
转载 CVPR 2025 | 知名视频分割挑战赛PVUW第四届比赛已启动!
关注公众号,发现CV技术之美第四届真实世界下的像素级视频理解挑战赛(The 4th PVUW challenge)主页/Call for Paper:https://pvuw.github.io/赛道1:复杂场景视频目标分割挑战赛(MOSE Challenge):参赛、数据集下载:https://codalab.lisn.upsaclay.fr/competitions/21948赛道2:基于动作...
2025-03-03 18:05:48
74
转载 CVPR 2025 MINIMA:首个通用多模态图像匹配架构(模型、数据已全部开源)
关注公众号,发现CV技术之美论文信息:论文链接:https://arxiv.org/abs/2412.19412代码链接:https://github.com/LSXI7/MINIMA在线demo:https://huggingface.co/spaces/lsxi77777/MINIMA摘要:跨视图、跨模态图像匹配是多模态融合感知中的核心问题之一,具有重要实际意义。然而,由于不同成像系统或风格所...
2025-03-02 21:03:28
501
转载 ICLR 2025 | 小红书等给AI图像检测上难度!数据集均通过人类感知“图灵测试”...
关注公众号,发现CV技术之美AI生成内容已深度渗透至生活的方方面面,从艺术创作到设计领域,再到信息传播与版权保护,其影响力无处不在。然而,随着生成模型技术的飞速发展,如何精准甄别AI生成图像成为业界与学界共同聚焦的难题。来自小红书生态算法团队、中科大、上海交通大学联合提出行业稀缺的全人工标注Chameleon基准和行业领先的AIDE检测方法。论文:https://arxiv.org/pdf/240...
2025-02-28 13:31:36
85
转载 NTIRE 2025 | 首届跨域少样本目标检测挑战赛 (CD-FSOD) 正式启动!
关注公众号,发现CV技术之美NTIRE(New Trends in Image Restoration and Enhancement)是近年来全球图像复原与增强领域最具影响力的竞赛之一,已连续多年在 CVPR 2017 至 CVPR 2025 期间联合举办(in conjunction with),吸引了全球众多研究团队的广泛参与。依托NTIRE2025, 我们推出了首届跨域小样本物体检测(Cr...
2025-02-27 13:43:24
303
转载 腾讯混元提出:多模态大模型推理评估新基准
关注公众号,发现CV技术之美本篇分享论文MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models,腾讯混元提出:多模态大模型推理评估新基准。论文地址:https://arxiv.org/pdf/2502.00698代码仓库:https://github.com/AceCHQ/MMIQ/tree/mai...
2025-02-27 13:43:24
64
转载 小红书&上交多模态大模型新基准,Gemini 1.5 Pro准确率仅48%
关注公众号,发现CV技术之美多模态大模型理解真实世界的水平到底如何?有新基准来衡量了。就在最近,小红书和上海交通大学联合提出WorldSense,一个全新的基准测试,用来评估多模态大模型(MLLMs)的多模态真实场景理解能力。论文链接:https://arxiv.org/abs/2502.04326项目主页:https://jaaackhongggg.github.io/WorldSense/基于...
2025-02-26 15:52:56
36
转载 AAAI25|Locate Anything on Earth: 半自动化构建LAE-1M数据集,推动遥感开放词汇目标检测新突破...
关注公众号,发现CV技术之美本篇分享 AAAI2025 论文Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community,提出通过半自动化的方式,构建一个大规模的遥感目标检测数据集 LAE-1M,该数据集包含100万个标注实例。会议:39th Annual AAAI...
2025-02-25 15:53:41
79
转载 ICLR 2025 | 3D意图定位:AI仅凭人类的意图就能完成三维空间的定位!
关注公众号,发现CV技术之美图一图一:3D 意图定位(右),这一新任务旨在根据人类意图句子(例如:“我想要一个能支撑我的背部、缓解压力的物品”),在 3D 场景中通过 3D 边界框检测目标物体。相比之下,现有的 3D 视觉定位(左)依赖于人类的推理和参考来进行检测。该示意图清晰地区分了观察和推理的执行方式:左侧由人类手动完成,右侧则由 AI 自动完成。项目主页:https://weitaikan...
2025-02-24 21:25:20
40
转载 最新综述:世界模型如何推动自动驾驶
关注公众号,发现CV技术之美本篇分享最新综述The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey,世界模型如何推动自动驾驶。论文链接:https://arxiv.org/abs/2502.10498最新汇总论文:https://github.com/LMD0311/Awesome-World-M...
2025-02-23 11:40:10
36
转载 xLeaF Lab | ICLR2025 | Z-Sampling: 让扩散模型在反思中提升采样
关注公众号,发现CV技术之美本篇分享 ICLR 2025 论文Zigzag Diffusion Sampling: Diffusion Models Can Self-Improve via Self-Reflection,Z-Sampling在DrawBench上可以让DreamShaper上相对于标准采样的HPS胜率winning rate提高到94%!代码已经开源,欢迎大家使用!论文链接:h...
2025-02-22 14:22:14
70
转载 KDD 2025 | 仅用1.44M参数超越SOTA 4.5个点!小红书&中科大提出轻量高效的AI图像检测模型...
关注公众号,发现CV技术之美当下,AI 生成图像的技术足以以假乱真,在社交媒体肆意传播。如何对不同生成模型实现通用检测?小红书联合中国科学技术大学给出了解决方案,仅用 1.44M 参数量实现了通用 AI 图片检测,在 33 个测试子集上达到 96.7% 的准确率,超 SOTA 模型 4.5 个百分点。这项研究目前已经被 KDD 2025 接收。论文标题:Improving Synthetic Im...
2025-02-21 20:20:01
91
转载 NTIRE 2025 x4图像超分辨率挑战赛开赛
关注公众号,发现CV技术之美本次挑战赛作为 NTIRE 研讨会的一部分,与 CVPR 2025 一同举办。NTIRE(New Trends in Image Restoration and Enhancement)是图像复原与增强领域最具影响力的全球性竞赛之一,官网:https://cvlai.net/ntire/2025/。大赛背景随着计算机视觉技术的飞速发展,单图像超分辨率(Single-Im...
2025-02-21 20:20:01
105
转载 ICLR 2025 | 无需训练的Token级 DiT加速方法
关注公众号,发现CV技术之美本篇分享 ICLR 2025 论文ToCa: Accelerating Diffusion Transformers with Token-wise Feature Caching,提出的 ToCa 模型通过 token 粒度的缓存方法,实现了图像和视频生成模型上无需训练的两倍以上的加速。论文:https://arxiv.org/abs/2410.05317Github...
2025-02-20 13:00:45
50
支持基本RichText编辑功能的消息应用程序附件
2010-06-09
数学建模个人经验谈共九个部分
2010-05-19
2010成都信息工程学院研究生数模赛题
2010-05-19
经过裁剪预处理的面部表情识别研究用JAFFE数据库
2010-05-12
人脸表情识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
人脸识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
经过裁剪预处理的人脸识别研究用FERET数据库
2010-05-06
handwriten digit recognition by combined classifiers
2010-09-25
Automatic visual/IR image registration
2010-09-25
Statistical Pattern Recognition:A Review
2010-09-25
流形学习问题manifold study
2010-06-29
贝叶斯决策理论机器学习数据挖掘
2010-06-29
OpenCV1.0安装文件
2010-06-25
“中兴捧月”一种电信设备命令报文监视器界面的设计与实现附件(请不要下载)
2010-06-12
“中兴捧月”软件测试自动化附件
2010-06-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人