自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3263)
  • 资源 (78)
  • 收藏
  • 关注

转载 从「表面真实性」到「内在真实性」,南洋理工S-Lab与上海AI Lab联合推出VBench-2.0:面向视频生成新世代的评测框架

我们发现在非常简单的位置移动或者属性变化上,所有模型的效果都不好,这说明现在的模型的训练数据中并没有显式包括位置、属性变化这一类的文本。现在的模型都还不支撑故事级别(5 个连续的小情节)的视频生成,其中最主要的原因是现在的视频生成模型的时长都还在 5-10 秒这个级别,还远远没有到考虑分钟级别的故事叙述。在下面这些常被网友吐槽的场景中,模型往往暴露了缺乏「内在真实度」的短板。作为业内权威的视频生成评测体系,主要关注视频的视觉观感,例如每一帧的清晰度、帧与帧之间的平滑衔接,以及视频和文本描述间的基本一致性。

2025-04-04 18:38:51 3

转载 TPAMI 2025 | 国防科大提出RGBT-Tiny数据集与SAFit指标,推动小目标检测技术发展

现有数据集多聚焦单一模态(可见光或红外成像),且目标尺寸偏大、场景单一,难以满足实际需求,针对可见光-红外双模态(Visible-Thermal, RGBT)小目标检测的研究却鲜有突破。在无人机监控、自动驾驶、夜间搜救等场景中,小目标检测(如远处行人、微型无人机)一直是技术难点——目标尺寸小、背景干扰多、光照条件复杂。115组对齐序列、9.3万帧图像、120万标注,覆盖7类目标(如船舶、汽车、行人等)和8种场景(如海洋、湖泊、城市道路等)。RGBT目标检测(如UA-CMDet、CMA-Det)。

2025-04-02 16:24:32 11

转载 ICLR 2025 Spotlight |合成数据伪装术 vs 大模型火眼金睛,中大&上海AI Lab提出合成检测基准LOKI

LOKI涵盖了图像、视频、3D、文本、音频等多个模态,构建了丰富的任务类型与异常注释体系,可系统评估大模型在合成数据检测任务中的能力与局限。LOKI基准引入了多层次的细粒度标注体系,每个数据样本都附带真实/合成标签,并标注了更精细的异常细节,确保模型在识别异常特征时具备更强的可解释性。:LOKI支持主流多模态模型(如GPT-4o、Claude-3、LLaVA等)使用多种数据格式输入,涵盖视频、图像、文本、音频、点云等,全面评估LMM在复杂数据环境下的泛化能力。

2025-04-01 14:01:13 21

转载 南洋理工&普渡大学提出CFG-Zero⋆:在Flow Matching模型中实现更稳健的无分类器引导方法

对此,南洋理工大学S-Lab与普渡大学的研究者联合提出了创新方法——CFG-Zero⋆,针对传统CFG在Flow Matching框架下的结构性误差进行了理论分析,并设计了两项轻量级但效果显著的改进机制,使生成图像/视频在细节保真度、文本对齐性与稳定性上全面提升。零初始化(Zero-init):将ODE求解器的前K步速度置为零(默认K=1),跳过模型最不可靠的预测阶段,有效降低初始误差传播。得到的视频如下:(第一个为原始CFG生成的,第二个为CFG-Zero*生成的),效果还是比较明显,值得尝试。

2025-03-31 14:02:57 17

转载 拒绝“随意运动”! 复旦联合微软提出MagicMotion:视频生成精准轨迹控制新范式

研究者使用轻量级分割头直接在隐空间中预测出分割掩码,从而在引入极小计算开销的情况下,无需进行解码操作,帮助模型在生成视频的同时在潜在空间中执行物体分割任务,从而更好地理解物体的细粒度形状。在此基础上,轨迹可控的视频生成(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。然而,现有方法在处理复杂的物体运动轨迹和多物体轨迹控制方面仍面临挑战,导致生成的视频物体移动轨迹不够精确,或者整体视觉质量较低。

2025-03-28 12:09:27 20

转载 复旦大学团队推出ParaCAD,首个包含尺寸信息标注的CAD参数化理解任务基准数据集!新范式PHT-CAD再创新SOTA!

在评测方面,现有的草图参数化方法使用的评估指标并不一致。此外,为了定量评估几何图层和标注图层关联的准确性,本文引入了一项新的评价指标--尺寸精度(Dimension Accuracy, DA),用于评估预测尺寸与其对应的真实标注之间的对齐情况。在模型训练方面,本文提出了渐进式分层调优(Progressive Hierarchical Tuning, PHT)策略,旨在逐步提升PHT-CAD的能力,使其不仅能更精准地感知单个图元,还能有效地推断出结构约束,并将标注层与对应的几何表示进行精准对齐。

2025-03-27 18:31:49 43

转载 CVPR 2025 Workshop | 面向多模态大模型的越狱攻击安全挑战赛

然而,这张图片和文本中添加了针对大模型特别设计的对抗扰动,绕过了多模态大模型的安全限制,诱导大模型产生违反其设计初衷或安全准则的输出。但与初赛不同的是,复赛的待攻击模型将额外引入1个黑盒大模型,并引入6种更具有挑战性的风险类别的基础有害文本指令,对于所设计对抗攻击算法的迁移性与鲁棒性有着更高的要求。像这种直接在多模态大模型的图文对输入中增加相关扰动,使多模态大模型产生违规输出的攻击手段,就是对多模态大模型最常用的。为了系统性地探索多模态大模型的潜在安全威胁,推动能够适应复杂对抗环境的鲁棒多模态大模型开发。

2025-03-26 17:31:21 55

转载 ICLR 2025 | 视频编辑最新SOTA!VideoGrain免训练实现多粒度视频编辑

此外,本文的方法能够进行多区域编辑,既可以编辑前景也可以编辑背景,如soap-box手推车中,背景变为“森林中的湖上长满苔藓的石桥”(下图5,中右)。:如上图(b)所示,在对DDIM inversion过程中的自注意力特征进行K-Means聚类之后,虽然聚类之后的结果是有清晰的布局信息的,但是无法区域不同的实例(比如“左边的男人”和“右边的男人“)。然而,上图(d)显示,“钢铁侠”和“蜘蛛侠”的权重在左边的男人上重叠,“花朵”的权重泄漏到右边的男人上,导致了(c)中的编辑失败。总体而言,对于多粒度编辑,

2025-03-26 17:31:21 22

转载 告别计算瓶颈!DynamicVis革新遥感图像理解,2Kx2K图像处理仅需800MB显存

此外,基于ViT的模型将图像块压缩至通道维度(如16×16像素),导致小目标细节丢失,难以满足遥感任务对多层次特征(场景级语义、目标级判别、像素级精度)的联合需求。针对遥感图像中关键目标占比小、分布稀疏且传统模型难以高效处理长序列二维标记(约10万)的挑战,该模型借鉴人类视觉选择性注意力机制,设计了基于动态区域感知的主干网络,通过选择性状态空间模型平衡局部细节与全局上下文,实现大规模数据的高效编码(处理2048×2048像素图像仅需97毫秒,消耗GPU内存为ViT的3%)。

2025-03-25 19:51:13 41

转载 ContinuousSR:从离散低分图像中重建连续高分辨高质量信号

论文提出的ContinuousSR框架,创造性地引入了Pixel-to-Gaussian范式,通过高斯建模直接重建连续的高分辨率信号,从而彻底改变了ASSR任务的实现方式。在高斯核的初始化过程中,作者提出了一种动态偏移策略,使得高斯核可以根据图像内容自适应调整位置,从而在复杂纹理区域分布更多高斯核,大幅提升重建细节的质量。具体来说,论文提出通过2D高斯核来显式表示图像的连续信号。极快的任意比例渲染:在完成高斯场构建后,模型能够以每比例1ms的速度生成HR图像,达到了现有方法的19.5倍加速。

2025-03-24 15:34:33 70

转载 看见未来,感知未来:统一驾驶世界模型UniFuture

此外,为了增强图像和深度之间的交互,研究团队设计了多尺度交互机制(MLI),在多个尺度上优化图像和深度之间的相互作用,确保最终生成的图像不仅视觉真实,而且能准确预测空间关系,促进了高一致性的未来图像-深度生成。该模型不仅能够生成逼真的未来场景,还能提供高精度的未来深度感知,确保场景的视觉一致性和几何一致性,并体现出了具备构造4D 世界模型的潜力,为自动驾驶系统的决策和规划提供了强有力的支持。:UniFuture通过图像生成和深度感知的结合,不仅提升了生成图像的视觉质量,还确保了深度预测的几何一致性。

2025-03-20 16:35:57 38

转载 第1届ACM Multimedia多模态欺骗检测竞赛(MMDD2025)正式启动!

参与者需要签署协议并下载训练数据和部分评估数据集,将获得带标签的训练数据特征(OpenFace 特征、情感特征和梅尔频谱图等),分类为真实或欺骗,旨在构建鲁棒的AI欺骗检测模型,充分利用多模态特征来准确识别欺骗行为。音视频欺骗检测[1, 2]是一种非接触式检测技术,相比接触式检测(测谎仪、脑电图、近红外光谱等)具有显著优势:1)突破了地理限制,无需面对面接触即可进行分析,具有极高的便捷度和检测效率,更适用于商业谈判和在线面试等场景;第一阶段:2025年3月15日 至 2025年5月15日。

2025-03-17 22:53:41 124

转载 统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍

然而,我们的实验表明,如果使用高质量的 VAE 进行编码,图像分类任务的性能至少可以达到与标准方法相当的水平。,该方法通过在变分自编码器(VAE)的潜在空间中进行潜在掩码建模(Masked Latent Modeling)预训练,预训练得到的 ViT 编码器等权重可以无缝迁移到下游任务,包括图像分类、语义分割以及基于扩散模型的图像生成。在将预训练模型权重适配到下游理解和生成模型时,针对图像分类任务,ViT 编码器的预训练权重可直接继承,无需额外调整,且仍然使用 Class Token 作为最终表征。

2025-03-17 22:53:41 46

转载 图像标注生存指南 3:外观多样性与形变困境

实验表明,在人群监控、植物检测等多目标场景里,面对人与物体外观差异、姿态变化、局部遮挡等常见难题,T-Rex Label 凭借卓越的视觉提示能力,都能够精准识别并框选出姿态复杂或发生变形的目标,显著提升了标注效率与准确率。在诸如温室种植等环境中,作物无论在形状、颜色还是具体株型上都存在差异,而且在生长过程中容易出现弯曲、倒伏或花期变化等形变,这些自然因素要求标注工具能够准确地识别植物被遮挡的部分或微小的局部变形,避免遗漏关键目标。在人员密集的场所,人群的外观和姿态极为复杂。1. 外观多样性造成的特征混淆。

2025-03-15 21:52:11 23

转载 全球顶级AI科学家著作,底层视觉技术10年发展精粹!

关注公众号,发现CV技术之美你是否好奇,那些震撼人心的4K电影画面、细腻入微的人物肖像、高清修复的老照片……背后究竟藏着怎样的科技密码?当代AI技术又是如何悄然渗透进每一个像素的雕琢,成就视觉的奇迹?由全球顶尖AI科学家精心撰写的《底层视觉之美:高清大片背后的人工智能》,将为你揭开这场视觉革命的神秘面纱!为什么值得一读?一部技术史,半卷人文诗不同于冰冷的工具书,这是一场科技与美学的跨界对话。翻开书...

2025-03-13 21:23:11 40 1

转载 图像标注生存指南 2:密集场景难题

关注公众号,发现CV技术之美在计算机视觉的广泛应用领域中,高密度目标场景是另一个制约图像标注效率与准确度提升的关键瓶颈。以公共安全监控为例,在城市的大街小巷,监控摄像头需要捕捉大量行人、车辆的信息;大型活动实时跟踪场景下,要对现场密集的人群、各类设施进行持续监测;物流仓储自动化识别场景里,需要快速准确地识别众多紧密排列的货物、搬运设备等。在这些场景中,目标大量重叠或紧密相邻的现象极为常见,这无疑给...

2025-03-13 21:23:11 46

转载 图像标注生存指南系列 1:光线变化挑战

关注公众号,发现CV技术之美在计算机视觉应用中,光线变化一直是图像标注领域的重要挑战。尤其在自动驾驶、安防监控等包含人、车的高精度场景以及农业等户外监控场景中,复杂的光线变化不仅直接影响数据质量,更会引发特征提取偏差与标注置信度下降。光线作为图像形成的关键要素,其变化直接决定了图像细节的呈现程度、对比度的高低以及色彩的还原效果,具体体现包括:1. 图像质量变化不同的光照条件会导致图像出现过曝或欠曝...

2025-03-12 21:49:32 33

转载 ICLR 2025|腾讯优图实验室6篇论文入选,含多模态大语言模型、人脸识别等研究方向...

关注公众号,发现CV技术之美近日,第 13 届 ICLR(International Conference on Learning Representations)国际学习表征会议公布了论文录用结果。本次大会共收到 11,565 篇有效论文投稿,录用率为 32.08%。ICLR 是人工智能和深度学习领域的重要国际学术会议之一,会议聚焦于表征学习(通常称为深度学习)的前沿研究,涵盖深度学习理论、表征...

2025-03-12 21:49:32 210

转载 CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集...

关注公众号,发现CV技术之美随着生成式人工智能技术(AIGC)的突破,文本到图像模型在故事可视化领域展现出巨大潜力,但在多角色场景中仍面临角色一致性差、布局控制难、动态叙事不足等挑战。为此,北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei,首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。论文地址:https://arxiv.org/pdf/2412.07...

2025-03-11 12:40:40 48

转载 从YOLOv5到YOLO11!改进有多大?

在目标检测领域,YOLO(You Only Look Once)一直是一种突破性算法。自YOLO算法问世以来,它已经演变为许多版本,其中最受欢迎的版本是YOLOv5和YOLOv8。这两个版本都有独特的特点和优势,使它们在各自的领域表现出色。YOLO算法的最大优点就是速度极快,每秒可处理45帧,也能够理解一般的对象表示。从个人学习来看:优秀的计算机视觉工程师,目标检测的学习避免不了,而目标检测的核心...

2025-03-11 12:40:40 65

转载 CVPR 2025 | Mamba和局部自注意力的首次碰撞:一种性能强大的混合视觉架构,代码已开源!...

关注公众号,发现CV技术之美本篇分享 CVPR 2025 论文,俞益洲教授团队提出新型语义分割框架SegMAN,在三大语义分割基准(ADE20K,Cityscapes, COCO-Stuff-164k)测试中展现出了卓越的性能。代码已开源!论文连接:https://arxiv.org/pdf/2412.11890(预印版)代码连接:https://github.com/yunxiangfu2001...

2025-03-10 13:37:30 281

转载 Serge Belongie组和ETH联合 | ICLR 2025 Spotlight:「免费」多模态信息助力3D小样本分割!...

关注公众号,发现CV技术之美突破单模态局限,多模态促进3D小样本分割当人形机器人能够辨识身边的一切,VR/AR设备呈现出定制化的虚拟世界,自动驾驶汽车实时捕捉路面状况,这一切都依赖于对3D场景的精确理解。然而,这种精准的3D理解往往需要大量详细标注的3D数据,极大推高了时间成本和资源消耗,而每当出现新场景或特定目标时,又不得不重复这一繁重过程。Few-shot学习是一种有效的解决思路——通过极少量...

2025-03-08 09:28:13 33

转载 CVPR25|零训练成本!中科大创新扩散模型概念擦除方法,先验保护较SOTA提升 10 倍...

关注公众号,发现CV技术之美当前,AI 图像生成技术迅猛发展,各类图文生成模型让用户能凭借简单文字描述创作出精美的图像。然而,这也引发了诸多问题,比如有人借此剽窃艺术风格、丑化 IP 角色和名人,甚至生成不安全图像。如何以低成本且高效的方式,精准快速地从生成图像中去除这些不想要的概念,成为亟待解决的难题。这一概念擦除任务有两个关键要求:一是擦除效果,需在生成过程中彻底清除与目标概念相关的语义;二是...

2025-03-06 10:01:54 29

转载 10个超实用Deepseek指令,国内外研究现状有救了,大大节省时间!

最近deepseek这么火,是因为它真的能实际的帮助到我们!!上周三晚上,听了sunny老师给我们分享的超实用的deepseek指令后,第一个想法就是:如果我读研的时候有这个就好了,可以节省超多时间!!!并且课后学员反响非常好,很多学员都来问老师的课件和录播回放。我们也看到这或许是大多数学员真实需要的,因此我们打算把sunny老师的公开课做成系列课程的形式,至于后续的主题究竟是什么,大家可以期待一...

2025-03-05 10:30:46 171

转载 亚洲首个!无问芯穹获FPGA’25最佳论文奖,提出首个视频生成大模型推理IP,软硬协同大幅提升硬件算力...

关注公众号,发现CV技术之美国际可重构计算领域顶级会议——FPGA 2025在落幕之时传来消息,今年的最佳论文颁发给了无问芯穹和上交、清华共同提出的视频生成大模型推理IP工作FlightVGM,这是FPGA会议首次将该奖项授予完全由中国大陆科研团队主导的研究工作,同时也是亚太国家团队首次获此殊荣。这项工作首次在FPGA上实现了视频生成模型(Video Generation Models, VGMs...

2025-03-05 10:30:46 35

转载 Long-VITA:突破百万Tokens限制!开源多模态大模型新标杆

关注公众号,发现CV技术之美近期,多模态大模型(MLLMs)发展迅速,但开源模型在长上下文场景(如长视频或高分辨率图像)中仍显著落后于闭源模型。部分专注于长上下文场景的开源模型在短上下文场景(如短视频或静态图像)中又表现不佳。为此,腾讯优图实验室和南京大学等联合推出全开源、可复现的多模态大模型 Long-VITA,原生支持 4096 帧图像或者 100 万 Tokens 输入,在支持长上下文场景的...

2025-03-04 18:02:36 24

转载 顶尖AI学者亲授 | VLA大模型前沿课限时开放

课程重磅官宣顶尖AI学者陈启峰教授主讲3月5日&3月12日,每周三19:00独家直播连续两期深度解析VLA大模型最前沿学术成果与产业实践、发展趋势主讲嘉宾介绍 陈启峰元戎启行客座教授香港科技大学副教授斯坦福大学计算机科学博士长期专注于深度学习与图像处理曾蝉联三年NOI金牌广东省第一枚国际信息学奥林匹克金牌获得者曾入选《麻省理工科技评论》“35岁以下创新35人”中国区榜单参与课程方...

2025-03-03 18:05:48 36

转载 CVPR 2025 | 知名视频分割挑战赛PVUW第四届比赛已启动!

关注公众号,发现CV技术之美第四届真实世界下的像素级视频理解挑战赛(The 4th PVUW challenge)主页/Call for Paper:https://pvuw.github.io/赛道1:复杂场景视频目标分割挑战赛(MOSE Challenge):参赛、数据集下载:https://codalab.lisn.upsaclay.fr/competitions/21948赛道2:基于动作...

2025-03-03 18:05:48 74

转载 CVPR 2025 MINIMA:首个通用多模态图像匹配架构(模型、数据已全部开源)

关注公众号,发现CV技术之美论文信息:论文链接:https://arxiv.org/abs/2412.19412代码链接:https://github.com/LSXI7/MINIMA在线demo:https://huggingface.co/spaces/lsxi77777/MINIMA摘要:跨视图、跨模态图像匹配是多模态融合感知中的核心问题之一,具有重要实际意义。然而,由于不同成像系统或风格所...

2025-03-02 21:03:28 501

转载 ICLR 2025 | 小红书等给AI图像检测上难度!数据集均通过人类感知“图灵测试”...

关注公众号,发现CV技术之美AI生成内容已深度渗透至生活的方方面面,从艺术创作到设计领域,再到信息传播与版权保护,其影响力无处不在。然而,随着生成模型技术的飞速发展,如何精准甄别AI生成图像成为业界与学界共同聚焦的难题。来自小红书生态算法团队、中科大、上海交通大学联合提出行业稀缺的全人工标注Chameleon基准和行业领先的AIDE检测方法。论文:https://arxiv.org/pdf/240...

2025-02-28 13:31:36 85

转载 NTIRE 2025 | 首届跨域少样本目标检测挑战赛 (CD-FSOD) 正式启动!

关注公众号,发现CV技术之美NTIRE(New Trends in Image Restoration and Enhancement)是近年来全球图像复原与增强领域最具影响力的竞赛之一,已连续多年在 CVPR 2017 至 CVPR 2025 期间联合举办(in conjunction with),吸引了全球众多研究团队的广泛参与。依托NTIRE2025, 我们推出了首届跨域小样本物体检测(Cr...

2025-02-27 13:43:24 303

转载 腾讯混元提出:多模态大模型推理评估新基准

关注公众号,发现CV技术之美本篇分享论文MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models,腾讯混元提出:多模态大模型推理评估新基准。论文地址:https://arxiv.org/pdf/2502.00698代码仓库:https://github.com/AceCHQ/MMIQ/tree/mai...

2025-02-27 13:43:24 64

转载 小红书&上交多模态大模型新基准,Gemini 1.5 Pro准确率仅48%

关注公众号,发现CV技术之美多模态大模型理解真实世界的水平到底如何?有新基准来衡量了。就在最近,小红书和上海交通大学联合提出WorldSense,一个全新的基准测试,用来评估多模态大模型(MLLMs)的多模态真实场景理解能力。论文链接:https://arxiv.org/abs/2502.04326项目主页:https://jaaackhongggg.github.io/WorldSense/基于...

2025-02-26 15:52:56 36

转载 AAAI25|Locate Anything on Earth: 半自动化构建LAE-1M数据集,推动遥感开放词汇目标检测新突破...

关注公众号,发现CV技术之美本篇分享 AAAI2025 论文Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community,提出通过半自动化的方式,构建一个大规模的遥感目标检测数据集 LAE-1M,该数据集包含100万个标注实例。会议:39th Annual AAAI...

2025-02-25 15:53:41 79

转载 ICLR 2025 | 3D意图定位:AI仅凭人类的意图就能完成三维空间的定位!

关注公众号,发现CV技术之美图一图一:3D 意图定位(右),这一新任务旨在根据人类意图句子(例如:“我想要一个能支撑我的背部、缓解压力的物品”),在 3D 场景中通过 3D 边界框检测目标物体。相比之下,现有的 3D 视觉定位(左)依赖于人类的推理和参考来进行检测。该示意图清晰地区分了观察和推理的执行方式:左侧由人类手动完成,右侧则由 AI 自动完成。项目主页:https://weitaikan...

2025-02-24 21:25:20 40

转载 最新综述:世界模型如何推动自动驾驶

关注公众号,发现CV技术之美本篇分享最新综述The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey,世界模型如何推动自动驾驶。论文链接:https://arxiv.org/abs/2502.10498最新汇总论文:https://github.com/LMD0311/Awesome-World-M...

2025-02-23 11:40:10 36

转载 xLeaF Lab | ICLR2025 | Z-Sampling: 让扩散模型在反思中提升采样

关注公众号,发现CV技术之美本篇分享 ICLR 2025 论文Zigzag Diffusion Sampling: Diffusion Models Can Self-Improve via Self-Reflection,Z-Sampling在DrawBench上可以让DreamShaper上相对于标准采样的HPS胜率winning rate提高到94%!代码已经开源,欢迎大家使用!论文链接:h...

2025-02-22 14:22:14 70

转载 KDD 2025 | 仅用1.44M参数超越SOTA 4.5个点!小红书&中科大提出轻量高效的AI图像检测模型...

关注公众号,发现CV技术之美当下,AI 生成图像的技术足以以假乱真,在社交媒体肆意传播。如何对不同生成模型实现通用检测?小红书联合中国科学技术大学给出了解决方案,仅用 1.44M 参数量实现了通用 AI 图片检测,在 33 个测试子集上达到 96.7% 的准确率,超 SOTA 模型 4.5 个百分点。这项研究目前已经被 KDD 2025 接收。论文标题:Improving Synthetic Im...

2025-02-21 20:20:01 91

转载 NTIRE 2025 x4图像超分辨率挑战赛开赛

关注公众号,发现CV技术之美本次挑战赛作为 NTIRE 研讨会的一部分,与 CVPR 2025 一同举办。NTIRE(New Trends in Image Restoration and Enhancement)是图像复原与增强领域最具影响力的全球性竞赛之一,官网:https://cvlai.net/ntire/2025/。大赛背景随着计算机视觉技术的飞速发展,单图像超分辨率(Single-Im...

2025-02-21 20:20:01 105

转载 ICLR 2025 | 无需训练的Token级 DiT加速方法

关注公众号,发现CV技术之美本篇分享 ICLR 2025 论文ToCa: Accelerating Diffusion Transformers with Token-wise Feature Caching,提出的 ToCa 模型通过 token 粒度的缓存方法,实现了图像和视频生成模型上无需训练的两倍以上的加速。论文:https://arxiv.org/abs/2410.05317Github...

2025-02-20 13:00:45 50

支持基本RichText编辑功能的消息应用程序附件

注意:这个资源是中兴捧月的一题,我保存下来自己看的,网上可以找到,大家就不要下载了吧 请基于高通BREW SDK及模拟器开发包,为类似手机设备这样的小型终端,设计一个支持基本的RichText编辑功能的类似短消息的brew应用程序。 初赛要求: 1、 该应用第一阶段至少支持消息内容的编辑功能,消息的保存和阅读、删除功能。在编辑界面的任意位置可以实现字符,动画,图片,铃音的插入和删除功能。如下图: 2、 界面一级菜单至少包含:新建消息,草稿箱,帮助 3、 实现一个编辑功能BREW接口控件,至少支持以下要求: (1)编辑内容时能输入文本,并能设置文本的字体大小(大字体、小字体两种) (2)编辑内容时能能插入图片,图片格式为BMP文件,32x32像素,256色 (3)编辑内容时能插入动画,动画格式为4幅(2)要求BMP的图片,当光标移动到动画位置时,能播放动画,当光标移开时,停止播放 (4)编辑内容时能插入铃音,铃音格式为标准MIDI文件,大小32k以内,当光标移动到铃音位置时能够播放铃音,当光标移开时,停止播放 4、 能将编辑的内容保存到一个草稿箱消息文件,该文件格式可以自己定义,但要保证文本、图片、声音的数据保存完整 5、 支持草稿箱阅读保存的内容。所有输入内容能正常显示、播放 6、 支持草稿箱删除消息功能 实现技术提示信息: BREW SDK 模拟器可以在windows操作系统平台直接运行,可以结合visual studio 6.0 IDE 环境方便代码工程管理和代码调试。BREW应用开发语言为C语言。 BREW SDK已经提供了接口,支持了BMP图片显示及MIDI文件的播放。 参考资料信息: 可从https://brewx.qualcomm.com/brew/sdk/download.jsp,高通公司的官方网站下载安装。进入网站下载页面后,用自己的电子邮箱地址注册帐号,即可下载BREW SDK。 BREW SDK中已携带参考文档: 1) 《BREWSDKUserDocs.chm》 2) 《BREWAPIReference.chm》 3) 《BREWSDKUserDocs.chm》 3GPP TS 23.040 V530文档(请见附件): www.3GPP.org,也可在网上找到该文档的其他版本 审核标准: 1、 设计文档是否有效解决了题目问题,是否清晰反映了设计者的设计思路,文档结构组织是否合理 2、 参赛程序对题目所要求功能的实现程度 3、 参赛作品是否具有很好的可读性和运行效率,资源占用情况是否合适

2010-06-09

南京理工大学计算机学院复试上机编程题目

南京理工大学计算机学院复试上机编程题目,需要的可以看看。不过这是前几年的。

2010-05-28

南京理工大学数据库系统

南京理工大学数据库系统课件和部分练习题,考研的同学可以参考一下。

2010-05-28

南京理工大学数据结构

南京理工大学数据结构,考研的同学可以参考一下。

2010-05-28

南京理工软件工程讲稿

南京理工软件工程讲稿,考研的可以参考一下。

2010-05-28

南京理工大学操作系统课件

南京理工大学 操作系统 课件,考研的同学可以下载参考。

2010-05-28

南京理工大学计算机网络课件

南京理工大学计算机网络课件, computer networking,考研的同学可以参考。

2010-05-28

数学建模个人经验谈共九个部分

包括:组队和分工,选题,文献资料查找,论文写作,培训,实践,如何写好数学建模论文和一些个人心得。 不是我写的。 大家备战数模的可以参考一下。 我在本科阶段没有参加过数学建模,因为有一种畏惧感,觉得那是数学学得很好的人才能做得来的。研究生阶段第一次抱着试一试的心态参加了第六届研究生数模,个人感觉没有想象中的那么难,而且所解决的问题很有挑战性也比较有价值,最终拿了个三等奖。 研究生建模竞赛的好处是:自己组队,没有指导老师,不会有为了学校获奖老师给学生出方案的情况(可能也会有,不过是不被允许的),更客观。 总的来讲,数学建模是体现一个人综合解决问题能力的一个平台,研究生数学建模竞赛更是有很多科研的成分,很有挑战性。

2010-05-19

2010成都信息工程学院研究生数模赛题

投票倾向问题 2010成都信息工程学院研究生数模赛题2010成都信息工程学院研究生数模赛题2010成都信息工程学院研究生数模赛题2010成都信息工程学院研究生数模赛题

2010-05-19

weka使用教程中文版

目录 1. 简介2. 数据格式3.数据准备4. 关联规则(购物篮分析)5. 分类与回归6. 聚类分析

2010-05-19

经过裁剪预处理的面部表情识别研究用JAFFE数据库

网上JAFFE数据库几乎都是原始数据库,未经人脸裁剪/人脸剪切的,这个数据库是经过预处理的,已经将人脸利于面部表情识别的部分剪切出来,并存成64*82大小图像(详细裁剪算法请参考张一鸣,《面部表情识别》,该裁剪程序可在我的另一个资源里找到),按照类别分成7组,并详细标明各组所属表情分类,可直接用于面部表情识别实验。

2010-05-12

人脸面部表情识别日本jaffe数据库

人脸表情识别日本jaffe数据库,是表情识别领域应用最为广发的一个数据库之一,总共包含7种表情。

2010-05-12

人脸表情识别论文人脸预处理人脸检测裁剪特征提取模式分类

是篇硕士论文,详细介绍了人脸表情识别的预处理,特征提取,分类识别和系统设计各个阶段,是表情识别入门读物。

2010-05-12

人脸表情识别预处理人脸裁剪系统Face Cropping人脸裁切

该程序是为人脸表情识别研究实验人脸预处理阶段而开发的半自动人脸裁剪系统,因为大部分人脸表情数据库都是未经裁剪/裁切的,而去除背景是人脸表情识别预处理的重要一步。网上有很多人脸数据库,但大部分是未经裁剪/人脸裁切处理的,不能直接用于人脸表情识别试验。 该程序是为人脸表情识别研究实验人脸预处理阶段而开发的半自动人脸裁剪/人脸裁切系统,因为大部分人脸数据库都是未经裁剪的,而去除背景是人脸表情识别预处理的重要一步。 图像归一化为64*82大小,归一化方案请参见张一鸣,《人脸表情识别》。采用OpenCV+MFC制作,不提供源代码。用到的同学可以下载。 敬告:因为本程序读取.tif格式图像使用OpenCV函数,而.tif格式本身的复杂性导致没有通用的读取函数,故对有些.tif图像可能会出问题。

2010-05-12

人脸识别预处理人脸裁剪系统Face Cropping人脸裁切

网上有很多人脸数据库,但大部分是未经裁剪处理的,不能直接用于人脸识别试验。而整个网络也几乎找不到人脸裁剪/人脸裁切的工具,广大初入人脸识别研究领域的人不知如何入手。 该程序是为人脸识别研究实验人脸预处理阶段而开发的半自动人脸裁剪/人脸裁切系统,因为大部分人脸数据库都是未经裁剪/裁切的,而去除背景是人脸识别预处理的重要一步。 采用OpenCV+MFC制作,不提供源代码。用到的同学可以下载。 敬告:因为本程序读取.tif格式图像使用OpenCV函数,而.tif格式本身的复杂性导致没有通用的读取函数,故对有些特殊格式的.tif图像可能会出问题。

2010-05-12

kMeansCluster k均值聚类算法Matlab代码实现

kMeansCluster k均值聚类算法Matlab代码实现,聚类里的经典算法。可以参考应用。

2010-05-09

实对称矩阵相似对角化Matlab程序

实对称矩阵相似对角化Matlab程序,用到的朋友可以下载看看。

2010-05-07

人脸识别研究用ORL数据库

人脸识别 ORL数据库 图像和.mat数据 不需裁剪和预处理可直接用于实验。

2010-05-06

经过裁剪预处理的人脸识别研究用FERET数据库

经过裁剪预处理的人脸识别研究用FERET数据库(美国军方数据库),共有200个人,每个人7幅图像,包括图像和.mat数据,可以直接用于人脸识别实验。

2010-05-06

经过裁剪预处理的人脸识别研究用AR数据库

经过裁剪预处理,共有120个人,每人14幅图像,包含图像和.mat数据,可直接用于人脸识别实验。

2010-05-06

人脸识别现有应用介绍

人脸识别现有应用介绍 人脸识别 汉王 飞瑞斯 中控

2011-01-17

采用LBP金字塔的人脸描述与识别

采用LBP金字塔的人脸描述与识别脸识别 多尺度分析 LBP金字塔 直方图

2010-09-25

handwriten digit recognition by combined classifiers

UCI多特征数据库的原始文献,handwriten digit recognition by combined classifiers

2010-09-25

Automatic visual/IR image registration

A feature-based approach to visual/IR sensor image registra- tion is presented.This new method overcomes the difficulties caused by the discrepancy in data’s gray-scale characteristics and the problem of feature inconsistency.It employs a wavelet-based feature extractor to locate point features from contours based on local statistics of the image intensity.Matching is carried out at multiresolution levels based on point features.A consistency-checking step is involved to eliminate mis- matches.The algorithm is accurate,robust,and fast.It is capable of handling images with considerable translation,scaling,and rotation.De- tails on the registration algorithm including feature extraction,matching, consistency checking,and the image transformation model are dis- cussed.Experimental results using real visual/IR sensor data are presented.

2010-09-25

Statistical Pattern Recognition:A Review

The primary goal of pattern recognition is supervised or unsupervised classification.Among the various frameworks in which pattern recognition has been traditionally formulated,the statistical approach has been most intensively studied and used in practice.More recently,neural network techniques and methods imported from statistical learning theory have been receiving increasing attention.The design of a recognition system requires careful attention to the following issues:definition of pattern classes, sensing environment,pattern representation,feature extraction and selection,cluster analysis,classifier design and learning,selection of training and test samples,and performance evaluation.In spite of almost 50 years of research and development in this field,the general problem of recognizing complex patterns with arbitrary orientation,location,and scale remains unsolved.New and emerging applications,such as data mining,web searching,retrieval of multimedia data,face recognition,and cursive handwriting recognition, require robust and efficient pattern recognition techniques.The objective of this review paper is to summarize and compare some of the well-known methods used in various stages of a pattern recognition system and identify research topics and applications which are at the forefront of this exciting and challenging field.

2010-09-25

LBP相关文献及Matlab程序

LBP相关文献及Matlab程序LBP文献 Matlab程序

2010-09-25

LBP人脸识别Yale数据库

LBP人脸识别Yale数据库,LBP 人脸识别 Yale数据库 matlab数据和程序 不是我写的。

2010-09-25

结合Zernike矩的多尺度模板形状匹配

结合Zernike矩的多尺度模板形状匹配,目标识别 形状匹配 小波变换 Zernike矩 。

2010-09-25

Zernike矩的快速算法

Zernike矩的快速算法,论文,可以参考下。

2010-09-25

联机手写数字识别程序

联机手写数字识别程序,不是我写的,分享一下。

2010-09-25

2010年第七届全国研究生数学建模竞赛试题与附件

2010年第七届全国研究生数学建模竞赛试题与附件包括ABCD四题

2010-09-17

文件批量命名工具FileBatchRemaerExe

文件批量命名工具 FileBatchRemaerExe

2010-07-31

OpenCV1.2安装文件

OpenCV1.2安装文件,计算机视觉开源函数库。

2010-07-31

rgb2hsi转换函数Matlab

图像从RGB空间转换到HSI空间,Matlab函数

2010-07-31

流形学习问题manifold study

线性维数约简方法 流形和维数约简. 流形学习的一些数学基础. 几种流形学习算法简介:LLE, Isomap, Laplacian Eigenmap. 流形学习问题的简单探讨.

2010-06-29

贝叶斯决策理论机器学习数据挖掘

贝叶斯分类器 正态分布决策理论 关于分类的错误率分析 最小风险Bayes分类器 Bayes分类器算法和例题 聂曼-皮尔逊判别准则 最大最小判别准则 决策树 序贯分类

2010-06-29

OpenCV1.0安装文件

在VC6下配置OpenCV1.0文档。 http://www.opencv.org.cn/index.php/VC6%E4%B8%8B%E5%AE%89%E8%A3%85%E4%B8%8E%E9%85%8D%E7%BD%AEOpenCV1.0

2010-06-25

表达式求值C++代码

表达式求值C++代码,我测试过,挺好用。遇到类似问题,可以参考一下。

2010-06-13

“中兴捧月”一种电信设备命令报文监视器界面的设计与实现附件(请不要下载)

在通信领域,用户在网管界面操作,通过TCP/IP协议给电信设备发送报文,从而配置、维护电信设备。电信设备一般都不具备可视化终端,当电信设备从网管接收到了命令报文后,用户不方便了解电信设备接收到了哪些命令报文、以及处理报文过程是否正常。为了监视电信设备的运行情况,可以在电信设备上运行一个socket服务器,在PC机上运行一个socket客户端,称为命令报文监视器,所有通过网管发给电信设备的命令报文都会通过socket服务器发送给报文监视器,请实现一个这样的命令报文监视器。 初赛要求: 1、监视器程序是一个可视化的GUI程序,刚运行时提供输入框让用户输入需要监视的电信设备的IP地址和端口号,然后与电信设备服务器建立socket连接。比如用户输入的IP地址为:192.192.192.1,端口号为8000,用户点击“连接”按钮即可与电信设备服务器建立连接。 2、监视器程序仅仅从socket连接中读取电信设备服务器发来的数据,这些数据是一串连续的ASCII码流。监视程序每次从socket中接收到数据后在数据前面加上时间信息,然后在GUI界面中显示。比如从服务器接收到的报文为“Ncp Send Message To Mcu: nMcuAdrs=0x10301 CmdCode = 0x11ab,lParamLen = 0x12.”,那么在GUI界面中的显示则如下: [10/05/19 03:30:17] Ncp Send Message To Mcu: nMcuAdrs=0x10301 CmdCode = 0x11ab,lParamLen = 0x12. 其中[]里面的是显示接收到的PC机本地时间,其余ASCII字符为报文的内容。 监视器程序只管从socket中接收报文,无须通过socket发送报文。 3、当报文内容很多时为了方便用户选择查看有意义的报文,可以对报文进行过滤。支持用户输入需要过滤的字符的关键字。比如输入要过滤的关键字为“nMcuAdrs=0x10301”,那么对于nMcuAdrs=0x10301的报文则不显示,仅显示满足关键字过滤规则的报文。当需要有多个要过滤的关键字时,需要支持一下的规则: (1)与 key1 and key2, 表示既要满足关键字key1也要满足关键字key2 (2)或 key1 or key2, 表示只要满足key1或者kye2任一即可 (3)支持与和或的组合,与的优先级高于或。比如 key1 and key2 or key3,表示只要满足key1、key2,或者key3即可 (4)括号的优先级高于and。比如 key1 and (key2 or key3),表示满足key1并且满足key2、key3中任一即可。 每一个关键字都用双引号括起来,比如输入过滤的字符为“nMcuAdrs=0x10301” and “CmdCode = 0x11ab” ,表示既要满足nMcuAdrs=0x10301也要满足CmdCode = 0x11ab 4、支持监视器收到的所有报文保存到文件中,需要支持用户设置文件所能保存的最大报文数目。比如用户设置最大可以保存100条报文,当超过100报文时新接收到的报文可以覆盖时间最长的报文,例如附件中的文件。 实现技术提示信息: 1、 编程语言可以任选 2、借用BT原理,当1个监视器程序成功连接上电信设备后即成为种子,让其他的监视器程序连接 审核或评分标准: 1、设计合理、简洁,简单、易用 2、设计文档、说明文档清晰 3、软件功能正常、运行高效,无严重BUG

2010-06-12

“中兴捧月”软件测试自动化附件

软件测试自动化是提升软件测试效率的一个好途径,自动化的实现首先要能够对被测对象进行自动化控制,形成自动化控制工具,完成一些自动化控制功能;一个完整的测试系统可能包括多种自动化控制对象,需要有针对性的构建不同自动化控制工具,同时也需要提供一个集成的平台,使测试人员可以在一个统一的视图上进行自动化测试用例的开发,来实现对不同自动化控制工具的操纵,综合完成一个完整测试用例的执行。这个平台与各自动化控制工具之间形成主从的关系,用例流程中对被测对象的控制功能可以关键字的形式在平台上调用,平台通过指令下发给自动化控制工具进行实际执行并返回结果。 在一款C/S形式的任务调度软件的测试过程中引入自动化测试,其中客户端界面上有五个可以输入参数的编辑框(假设均为整数型数据),在设置好一组参数组合后,点击开始处理按钮,客户端会将这些输入参数进行打包并向服务器端提交,服务器端接受申请后进行运算并形成要调度的任务,如果不能完成操作则返回失败信息给客户端,如果能完成操作则在服务器端可以查看到进入任务调度列表的对应任务项(以特定任务ID表示)并返回成功信息给客户端,客户端在接收到返回信息后会根据操作的成功与否显示相应的成功图标或失败图标(成功图标与失败图标是不同控件)。 现在要实现对软件输入参数的遍历性测试,一个典型的参数遍历测试步骤如下: (1)对客户端界面的五个参数按照某种组合进行设置(组合数据是在用例设计时已经设计好的一组数据,并对应得出一个应该在服务器端进入任务调度列表的任务ID) (2)点击客户端开始处理按钮 (3)判断处理结果,如果显示图标为失败则本次用例失败 (4)如果处理结果为成功(显示图标为成功图标),则对服务器端的任务调度列表进行特定任务ID获取并判断,如符合前面参数组合所预期的任务ID则用例成功,否则失败 (5)返回到步骤1,按照另一参数组合进行设置,重复1-4步骤,直到组合数据都遍历完(假设已经设计好10组数据组合) (6)最终给出完整测试结果 假设已经实现对客户端界面参数读写与控件控制的自动化工具,以及服务器端任务列表内容判断的自动化工具,现在需要设计一个有集成功能的自动化测试平台系统,这个平台能够对控制工具进行指令下发及结果返回,操纵工具实现对测试对象的控制,如前述1-4步骤要完成的功能。 所需要的自动化测试平台有如下三个重点要求: (1)能够让用户定制出如上述的测试用例流程,测试用例的实现可以脚本或图形界面形式进行支持,但以最大程度降低用户编写用例的难度为目标 (2)以友好界面提供给测试人员进行上述测试用例的实现,以及用例运行和运行结果的显示 (3)遍历测试下多种数据组合以合适的方式进行支持,体现数据驱动特点 附:软件测试自动化测试数据(见附件) 初赛要求: 1、设计自动化测试平台系统框架结构及系统功能,不局限于上述三项要求 2、重点设计上述平台系统三大特性需求所要求的软件功能 3、实现上述设计的DEMO程序 实现技术提示信息: 编程语言可以任选 软件测试自动化相关背景资料可参考: 《软件测试自动化技术与实例详解》Addison-Wesley 电子工业出版社 《软件测试自动化》Daniel J.Mosley 机械工业出版社 审核或评分标准 1、设计合理,有一定应用优势 2、设计文档、说明文档质量 3、软件基本功能实现,无严重BUG

2010-06-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除