- 博客(390)
- 收藏
- 关注
原创 超越Sora的开源思路:如何用预训练组件高效训练你的视频扩散模型?(附训练代码)
这个方程定义了一个像素级的映射,描述了源帧 x0 中的像素如何被移动到目标帧 x1 中,将每个在 (x, y) 的像素映射到 (x + u, y + v)。在我的实验中,源帧被缩放到128×128,并编码成32×32的隐式特征。MRAA不是直接估计一个单一的、全局的像素级运动场,而是对连续帧之间每个局部组件的相对运动进行建模,然后通过加权聚合将它们组合起来,产生最终的整体运动场(光流)。CFG通过在生成过程中放大条件的影响,明确地加强了条件的约束力,迫使模型遵循标签,而不是退回到通用的、无条件的运动。
2026-01-07 16:44:08
1060
原创 工业质检只能依赖缺陷样本?PatchCore给出“冷启动”答
通过利用局部感知的块级特征和核心集缩减的记忆库,PatchCore在最大化正常上下文覆盖的同时,缓解了ImageNet偏差和推理瓶颈。通过核心集子采样,PatchCore的推理时间变得显著更快,达到与PaDiM相当或更好的水平,同时保持更优的检测和定位性能。在其他基准上的评估:如表6所示,在mSTC上,PatchCore无需任何数据集特定调整就实现了最先进的异常定位性能,展示了强大的跨领域可迁移性。,一个基于块级别记忆库的异常检测框架,它在测试时最大化对正常模式的覆盖,同时保持计算高效。
2026-01-06 14:10:47
770
原创 当特斯拉FSD在高速狂奔时,SCCA-YOLO如何看清偏远乡村道路的复杂场景?
特斯拉的全自动驾驶系统展示了城市和高速公路场景下的技术潜力,但在广阔的乡村道路上,真正的挑战才刚刚开始。结合了YOLO系列传统的多尺度特征金字塔结构,使网络能够同时检测不同尺寸的目标,这对于乡村道路上可能出现的大型动物和远处的小型标志都至关重要。这种设计通过简单的线性运算生成“影子”特征图,减少了模型的计算需求和参数数量,使网络在保持高精度的同时更加轻量化,更适合在边缘设备上部署。集成了Ghost模块的SCCA-Ghost-YOLO在参数数量大幅减少的情况下,仅损失了微小的精度,验证了轻量化设计的有效性。
2026-01-06 13:59:39
709
原创 为你的 2026 年计算机视觉应用选择合适的边缘 AI 硬件
当然,这一优势伴随着相应的权衡。然而,对于运动持续不断、对图像完整性要求严苛的应用场景——例如自主移动的送货机器人、高速无人机、自动驾驶车辆以及精准操作的机械臂——采用全局快门已非一项可选的优化,而是保障系统可靠性与性能的必备条件。对于机器人应用,特别是在依赖视觉的导航与即时定位与地图构建(SLAM)等任务中,此类图像失真会严重影响空间感知的准确性,导致其难以用于精确的环境理解与决策。然而,对于运动持续不断的应用,如送货机器人、无人机、自动驾驶汽车和机械臂,投资全局快门技术是必不可少的,而非可有可无。
2026-01-05 10:58:33
973
原创 YOLOv12之后,AI在火场如何进化?2025最后一篇YOLO论文揭示:要在浓烟中看见关键,仅靠注意力还不够
此外,我们引入了一个动态采样器,自适应地增强了模型对困难样本的关注,显著提高了在消防救援环境中尤其具有挑战性的小而模糊目标的检测精度。而其中,YOLO系列凭借其独特的一阶段检测思路、卓越的实时性能和高精度的巧妙平衡,长期以来都是工业界和学术界关注的焦点,YOLO的进化也从未停止。在保证速度的前提下,深度集成多种注意力机制是提升模型在复杂场景下判别力的关键路径。效果:这使得特征重建过程更具内容自适应性,能更好地恢复小目标的细节和轮廓,在存在烟雾模糊、像素损失的情况下,显著提升对小目标和模糊目标的定位精度。
2026-01-05 10:26:03
471
原创 纯视觉的终结?顶会趋势:不会联觉(多模态)的CV不是好AI
这项研究由曼彻斯特大学冯明林团队完成,他们系统分析了CVPR、ICLR和NeurIPS三大会议2023-2025年间接收的26,104篇论文的标题与摘要,通过构建的手工词典与正则表达式匹配,为每篇论文分配最多35个主题标签。时间感知和以人为中心的理解获得关注,视频理解从低基数攀升,姿态、面部和全身分析在过去两年加速,标志着向智能体和以人为中心应用的转变。尽管如此,主要趋势在不同会议和年份间保持一致。结构感知的3D理解也在加强,点云处理略有回升,网格和表面建模稳步上升,显示出对可控、约束感知几何的兴趣。
2025-12-30 17:41:37
944
原创 一文读懂大语言模型家族:LLM、MLLM、LMM、VLM核心概念全解析
论文参考:Google的《PaLM-E: An Embodied Multimodal Language Model》(2023)在机器人控制等具身智能任务上展现了多模态模型的潜力,而《GPT-4V(ision) System Card》(2023)则详细描述了当前最先进多模态模型的能力边界。多模态大语言模型能够处理多种类型的数据输入,每种“模态”代表特定类型的数据:文本、图像、音频、视频等。大型多模态模型是MLLM的更高级形式,不仅能够处理多种输入模态,还能够生成多种类型的输出,如文本、图像、音频等。
2025-12-30 17:26:58
1290
原创 当小龙虾算法遇上YOLO:如何提升太阳能电池缺陷检测精度?
太阳能电池片中的隐裂缺陷对组件模块影响巨大,但在缺陷图像中,这些缺陷所占画面面积比例极小。通过对比表7中不同算法模型的实验结果可以清晰看到:本文提出的CMNS-YOLO在P、R、mAP@0.5、mAP@0.5:0.95指标上显著优于其他算法——与YOLOv8n相比,这四项指标分别提升了0.9、2.0、2.5、1.8个百分点;针对这些问题,贵州警察学院与贵州大学的研究团队提出了CMNS-YOLO模型——将小龙虾优化算法(COA) 与改进的MNS-YOLO深度融合,在保持轻量化的同时实现检测精度突破。
2025-12-30 09:56:01
712
原创 AI如何精准关联照片与抽象平面图?C3数据集迈向3D视觉多模态
这项研究通过构建首个交叉视角、交叉模态对应数据集C3,并提出创新的点图预测方法C3Po,在让AI理解抽象布局与具体视觉场景之间的对应关系上迈出了关键一步。该成果不仅解决了当前计算机视觉工具的一大缺陷,也为机器人技术、导航系统和3D建模等领域的进步提供了新的技术基础。随着更多高质量数据的积累和算法的不断优化,我们有望看到计算机视觉系统在理解复杂空间关系方面取得更大突破,最终实现接近人类水平的跨模态空间推理能力。
2025-12-30 09:29:12
684
原创 摄像头如何“看懂”你的手势?手势识别实现新人机交互
搭载视觉AI系统的设备,例如智能手机、虚拟现实(VR)和增强现实(AR)头显、汽车以及智能家居设备,都可以用手势代替点击、触摸或按键,带来更流畅的用户体验。最后,识别出的手势会被映射到界面上的某个操作,例如滚动、缩放、选择项目、调节音量,或控制AR/VR交互。具体的处理流程可能有所不同,较简单的应用步骤较少,而更复杂的应用则会结合检测、跟踪和姿态估计以获得更高的准确性。它们可以解读更精细的手部动作,并对细微的方向变化做出流畅响应,从而实现更精准的引导和自动化操作。大多数手势可分为两类:静态手势和动态手势。
2025-12-29 10:33:23
670
原创 颠覆认知!遥感船舶检测“越深越好”是误区?LiM-YOLO证明“少即是多”
因此,P5层在带来巨大计算量的同时,其提供的额外语义信息增益微乎其微,反而引入了过多的背景噪声。与YOLOv8x, YOLOv10x, YOLOv12x, RT-DETR-X等当前最先进模型相比,LiM-YOLO以最少的参数量(21.16M),取得了最高的综合检测精度(mAP50-95: 0.600),真正实现了“轻量化”与“高精度”的帕累托最优。面对上述问题,常见的改进思路是“做加法”:在P3-P5的基础上,增加更浅的P2层(步长4) 来捕捉小目标细节,或者增加更深的P6层来获取更大感受野。
2025-12-29 10:08:32
537
原创 YOLO11-4K:面向4K全景图像的高效实时检测框架,CVIP360数据集开源
在CVIP360数据集上的实验表明,YOLO11-4K实现了显著的速度提升,将推理时间减少了近75%,同时保持了强大的检测性能,为360°环境展示了精度与效率之间的有效平衡——由于极端畸变和高分辨率处理的需求,这些环境仍然特别具有挑战性。在整个测试集中,总共检测到1,604个物体,平均尺寸为28.9 × 133.2像素,这证实了模型在高分辨率4K全景图像中进行小目标检测的强大能力,并补充了关于遮挡和极微小物体检测的定性示例。图3展示了YOLO11-4K在室内和室外4K全景场景上的定性检测结果。
2025-12-26 09:29:59
883
原创 深度学习驱动的视频异常检测(VAD),AI如何让监控更智能?
随着深度学习技术的飞速发展,VAD 已成为计算机视觉领域的热点研究方向,并在智能安防、自动驾驶、内容审核等领域展现出巨大应用潜力。从仅使用正常样本的半监督学习,到应对未知异常的开放集检测,再到结合大模型的多模态理解,VAD 的技术演进不断拓展其应用边界。未来,随着数据规模的扩大、算法能力的提升以及多模态融合的深入,VAD 将在安防、交通、医疗等领域发挥更加关键的作用,真正实现“让监控更智能”。如图2所示,在半监督和弱监督设置下,各数据集的检测性能(AUC 指标)呈稳步上升趋势,表明算法在不断进步。
2025-12-25 11:00:04
673
原创 开放词汇3D实例分割新思路:框引导+超点融合,精准检索罕见物体
尽管现有方法表现出较强的性能,但它们严重依赖 SAM 和 CLIP 来生成和分类从点云所附图像中提取的三维实例掩码,导致巨大的计算开销和缓慢的处理速度,限制了其在实际应用中的部署。效率:我们的方法在每个场景的处理时间上(ScanNet200约56秒,Replica约44秒)远快于依赖 SAM 和 CLIP 的方法(通常需要数分钟),虽然比纯依赖三维分割的 Open-YOLO 3D(约22秒)稍慢,但仍在可接受的实时交互范围内,同时带来了显著的性能增益。计算效率:将二维预测提升到三维的过程是目前的主要瓶颈。
2025-12-25 10:34:41
705
原创 自顶向下 or 自底向上?姿态估计技术是如何进化的?
由于这些进步,姿态估计现在支持广泛的实际应用,包括工作场所监控、人体工程学和体育分析,教练和分析师借此研究运动员的动作。这些是较早期的姿态估计模型,至今仍在研究中使用。通过这些样本,模型学习到与人体地标点(如肩膀、肘部、髋部、膝盖、脚踝)相关的视觉模式,从而能在新场景中准确预测关键点。例如,姿态估计是一项常见的计算机视觉任务,它可以预测图像或视频帧中预定义的身体关键点(如肩膀、肘部、髋部、膝盖)的位置。在自底向上的方法中,模型首先查看整个图像,找出所有身体关键点,比如头、肩、肘、髋、膝、踝。
2025-12-24 10:28:44
1031
原创 YOLO11算法深度解析:四大工业场景实战,开源数据集助力AI质检落地
随着算法的持续优化和应用场景的不断拓展,YOLO11不仅将推动工业质检技术向前发展,更将为智能制造、工业4.0等重大战略的实施提供坚实的技术支撑。酒类生产过程中,瓶身缺陷、标签错位、液位异常、封口不严等问题直接影响产品品质和品牌形象,传统人工灯检存在视觉疲劳和标准不一的问题。钢铁生产过程中表面易产生划痕、凹坑、氧化皮、结疤等多种缺陷,传统检测方法受限于环境光线、钢材反光等因素,检测稳定性不足。风力发电叶片长期暴露在恶劣环境中,表面易产生裂纹、腐蚀、雷击损伤等缺陷,传统人工巡检效率低、风险高、覆盖范围有限。
2025-12-24 10:12:57
1028
1
原创 从电影特效到体育科学,运动追踪只能靠“人眼”吗?
用户可以在Coovally平台上利用其集成的预训练模型库或上传自定义数据集,高效完成针对特定场景(如特定体育项目、工业零件)的模型训练与优化,并将训练好的模型一键部署到实际应用环境中,无缝对接现有的视频流或管理系统,大大缩短了从技术到产品的路径。在一项有趣的研究中,一个联网的摄像机网络追踪产品在整个生产周期中的移动,并实时更新数字孪生——即真实流程的虚拟副本。传统的运动追踪通常需要细致的手动设置,尤其是在视频编辑和视觉特效(VFX)工作流程中,其目标是将图形、特效或叠加内容附着到镜头中的运动元素上。
2025-12-23 09:38:19
817
原创 无人机低空视觉数据集全景解读:从单机感知到具身智能的跨
低空视觉数据集作为无人机智能化的基石,正朝着多源融合、动态适应、语义理解、自主协同的方向快速发展。未来,随着仿真技术、自动化标注与跨模态学习方法的进步,我们有望构建更智能、更鲁棒、更贴近真实世界的低空视觉数据生态系统,赋能无人机在物流、安防、农业、救援等领域的深层次应用。多源数据集:融合可见光、红外、深度、LiDAR等多种传感器数据,提升在夜间、遮挡等复杂场景下的感知鲁棒性。论文提出了一套基于设备类型、任务需求、模态类型、环境特性、应用需求五大方向的分类体系,全面覆盖低空视觉数据集的构建逻辑与应用场景。
2025-12-22 10:43:48
866
原创 从空地对抗到空战:首个无人机间追踪百万级基准与时空语义基线MambaSTS深度解析
当今视觉追踪领域,一项全新任务正引发学术界和工业界的关注。这项被称为「无人机对抗无人机」的挑战将追踪技术的难度推向了全新高度。近期,来自香港科技大学(广州)、上海交通大学、中山大学、中国科学院信息工程研究所和云从科技的联合团队发布了题为《How Far are Modern Trackers from UAV-Anti-UAV?A Million-Scale Benchmark and New Baseline》的突破性研究。这项研究不仅仅提出了新的任务范式,更是构建了。
2025-12-22 10:31:33
946
原创 从“模仿”到“进化”!华科&小米开源MindDrive:在线强化学习重塑「语言-动作」闭环驾驶
通过“语言-动作动态映射”,将连续轨迹空间离散化为语言决策空间,使强化学习能在语义层面高效探索,再借助专门的动作模型将语言决策转化为具体轨迹,兼顾推理效率与驾驶拟人性。模型在持续交互的交通流中学会了更主动的避撞策略,在超车场景中以4.44%的显著优势超越基准。通过大语言模型生成与人工筛选,构建高质量的“语言–轨迹”对齐数据,使模型初步建立从语言指令到驾驶动作的映射关系,为强化学习提供可靠起点。这表明,通过在线交互进行策略优化,能极大提升模型在复杂动态环境中的泛化与决策能力,且轻量化架构更适合车载部署。
2025-12-19 14:21:02
854
原创 夜间、远距离都不怕!新型无人机识别算法准确率超92%
传统卷积核是固定形状的,而AKConv能根据输入特征动态调整卷积核的采样点位置与形状,从而更灵活地适应不同尺度、不同形态的无人机目标,更好地捕捉其轮廓细节。如何在复杂环境中,尤其是在夜间或远距离条件下,准确识别无人机,一直是技术上的难题。该机制能自适应地对特征图进行通道和空间上的加权,让模型聚焦于图像中的关键区域,同时抑制无关背景干扰,从而提升对远距离、小尺寸无人机的识别精度。该研究提出的YOLOv9-CAG算法,通过创新的模块设计与多模态数据融合,为复杂环境下的无人机精准识别提供了有效的技术方案。
2025-12-18 10:07:28
1241
原创 下一代驾驶员监测系统如何工作?视觉AI接管驾驶舱
长途驾驶、深夜行车或忙碌的一天,都可能让司机感到疲惫。但哪怕只是片刻的分神,也可能对行车安全造成重大影响。正因如此,许多汽车制造商正在转向新技术,以帮助司机保持警觉和专注。从追踪转向模式的传感器,到监测疲劳迹象的摄像头,如今的车辆正变得越来越智能,能够识别司机注意力何时开始分散。特别是得益于计算机视觉——人工智能(AI)的一个分支——机器现在能够像人类一样解读图像和视频。在车辆上,计算机视觉可用于驾驶员注意力监测系统,分析司机的姿势、面部表情和眼球运动。
2025-12-18 09:39:51
673
原创 是什么支撑L3自动驾驶落地?读懂AI驾驶与碰撞预测
在实际城市地点的测试表明,NAVIBox 运行速度足以实现真正的实时响应,并能准确识别潜在的碰撞场景,使其成为繁忙城市十字路口的实用安全工具。这使得它们能够捕捉更复杂的运动,例如准备转弯的车辆或改变方向的行人。对于碰撞预测系统开发而言,这意味着团队可以在同一个平台上,利用其强大的数据处理和自动化模型调优能力,快速迭代和定制专用于车辆、行人、骑行者的高精度追踪模型,从而为后续的轨迹预测打下坚实基础。来自检测和跟踪的信息,如物体的边界框、跨帧的位置和分配的 ID,可用于计算运动特征,如速度、方向和移动模式。
2025-12-17 13:40:00
1192
原创 复杂工业场景如何实现3D实例与部件一体化分割?多视角贝叶斯融合的分层图像引导框
在机器人操作、数字孪生等工业智能化场景中,精确的3D场景理解是核心技术基础。尤其在工厂环境中,零部件布局密集、尺度差异大、遮挡严重,传统分割方法往难以同时保证实例分割与部件级分割的精度。
2025-12-17 10:22:37
927
原创 如何让AI的数据标注“火眼金睛”?人机协同才是可靠途径
微小的标注错误,比如不精确的肿瘤边界或遗漏的异常,都可能教会模型错误的模式,导致后续做出不安全的预测。归根结底,一个计算机视觉系统的表现,取决于它所学习的标注数据的质量。因此,标注员无需手动扫描每张图像来决定标注什么,而是可以用诸如“标注所有行人、汽车和交通灯”或“分割这个零件上的所有缺陷”这样的短语来提示VLM,并获得一组待审阅的标注草稿。它可以根据简单的提示(如点击、边界框或简短的文本短语),在图像和视频中检测、分割和跟踪物体,为匹配的物体生成分割掩码,而无需为每个新类别进行特定任务的训练。
2025-12-16 09:53:56
899
原创 震后如何快速评估上万栋建筑?俄亥俄州立大学提出混合智能检测方案
为了自动检测暴露的钢筋,对2023年土耳其地震后收集的图像新数据集进行了标注,以代表各种受损的混凝土结构。表3展示了表现最佳配置(基于逻辑回归的元模型决策)的各类别F1分数,该配置在2017年PEI数据集上实现了73.72%的精确率和92.80%±1的准确率。研究显示,在浦项地震数据集上,结合逻辑回归元模型的系统比基准融合方法提高了性能,证明了这种混合架构的价值。本研究提出了一个强大的混合框架,该框架结合了深度学习、基于规则的逻辑和元学习,用于精确分类地震引起的结构损伤。
2025-12-16 09:16:28
825
原创 告别“消失的小目标”:航拍图像检测新框架,精度飙升25.7%的秘诀
目标尺寸极小:在 1920×1080 到 3840×2160 的高分辨率图像中,超过 31.25% 的目标尺寸小于 32×32 像素,经过网络输入尺寸调整后,这些小目标几乎“消失”在特征图中。三者结合则实现了精度与速度的双赢。速度保持优势:在精度大幅提升的同时,新框架保持了25 FPS 的推理速度,仅比原始 SW-YOLO 降低了 3.5 FPS,完全满足实际应用需求。这样设计的关键在于:骨干网络末端的特征图尺寸较小(20×20),在此处引入注意力机制,可以在保留关键空间和通道信息的同时,最小化计算开销。
2025-12-15 09:18:32
996
原创 滑雪季又来了!如何用计算机视觉帮雪场解决最头疼的问题
它不再是说“这个人存在于这个框内的某个位置”,而是说“这些精确的像素属于这个人”。我用的 YOLO 模型就是基于这种方式训练的,它从超级多真实世界的图像中学会了“找人”。所以即使不做额外训练,它也能在拥挤的缆车队伍里找到滑雪者的轮廓。Coovally平台提供了一站式AI开发环境,支持从数据准备、模型训练、验证评估到部署应用的全流程,帮助我们快速构建和落地自定义的AI模型。其实雪场也想解决这个问题,但现有的方法(比如 RFID 通行速率)并不靠谱:人少和人多时看起来差不多,根本反映不出队伍到底积压了多少。
2025-12-15 09:07:13
935
原创 深大团队UNeMo框架:让机器人学会“预判”,效率提升40%
与此同时,在从未见过的测试环境中,其导航成功率(SR)达到72.5%,反而超越了NavGPT2的71%,真正实现了 “降本增效”。它的作用是接收当前的视觉画面、语言指令以及候选的下一步动作,通过跨注意力机制融合这些多模态信息,从而预测出执行该动作后可能看到的未来视觉状态。它通过巧妙的协同架构设计,以更低的计算成本,实现了更高的导航性能,尤其在长轨迹、复杂环境中表现突出。仅用30%的参数规模,就能在陌生环境中实现72.5%的导航成功率,这个新框架正在重新定义视觉-语言导航的智能边界。
2025-12-12 09:40:01
1167
原创 南京理工大学联手百度、商汤科技等团队推出Artemis:用结构化视觉推理革新多模态感
相比之下,人类的感知过程是典型的结构化视觉推理:我们首先快速扫描整个场景,定位可能相关的区域,然后逐步聚焦、比较,最终锁定目标对象。在COCO目标检测任务上,其mAP达到31.0,远超基座模型的15.4。该框架的命名灵感来源于古希腊神话中的狩猎女神阿尔忒弥斯,以其敏锐的视觉和百发百中的精准度著称,寓意着模型所追求的核心能力。在计数任务中,Artemis 展现了类似人类的“点数”行为,通过逐个标记目标(紫色框)来得出正确的总数,而基座模型 Qwen2.5-VL 则出现了严重的幻觉,标记了大量重复或错误的框。
2025-12-11 09:35:40
955
原创 超越YOLOv8!动态卷积+注意力机制,DSS-YOLO实现高精度实时火灾检测
与原始YOLOv8n相比,拟议的DSS-YOLO模型在mAP中实现了0.6%的召回增长和1.6%的增长,同时模型大小和FLOP分别减少了3.4%和12.3%,满足了实时火灾检测的要求。该模型基于YOLOv8n改进,通过引入动态卷积、注意力机制与多尺度特征增强模块,在显著降低计算开销的同时,提升了对小目标和遮挡火焰的识别能力,为智能火灾监控系统提供了可靠的技术方案。与基线相比,DSS-YOLO在保持高精度的同时,模型体积减小3.3%,计算量降低12.3%,召回率提升1.6%,mAP提升0.6%。
2025-12-10 10:22:11
906
原创 AI真能看懂你在做什么吗?计算机视觉如何驱动人类动作识别
从数据集的集中管理与智能标注,到自动化模型训练、超参调优与性能评估,再到最终的一键模型部署与持续监控,Coovally为开发者和企业团队提供了端到端的工具链。这意味着,无论是基于YOLO11构建新的行为识别模型,还是对现有算法进行优化和规模化部署,团队都可以在同一个协同平台上高效完成,从而将更多精力集中于核心业务逻辑与创新,加速HAR技术从实验室走向真实世界的步伐。例如,利用该模型的洞察力,可以区分一个人从安静坐着,到站起来,再到举起手臂欢呼这一系列动作。HAR的基础在于运动和姿势的模式。
2025-12-10 09:57:04
689
原创 NAN-DETR:集中式噪声机制如何让检测更“团结”
另一方面,未来的研究方向之一是探索改进集中式噪声机制,例如利用从骨干网络中学习到的参数动态调整扰动幅度,以进一步提升检测性能,尤其是在检测小目标时。每个队员都从同一初始线索(编码器输出的查询)出发,但凭借各自的经验和视角,对目标的位置进行独立分析和 refinement,最终报告多个可能的位置(锚框)。传统的目标检测方法,如R-CNN系列,虽然取得了显著成果,但往往依赖于复杂的后处理(如非极大值抑制NMS)和手工设计的锚框,限制了其效率和泛化能力。在原始DETR中,每个查询(query)只产生一个预测框。
2025-12-09 10:29:39
575
原创 何必先OCR再LLM?视觉语言模型直接读图,让百页长文档信息不丢失
如果需要能够阅读文档中的文字,你需要高分辨率的图像,通常超过2048×2048,当然这具体取决于文档。例如,你可以使用VLM进行更复杂的OCR,或者直接将VLM应用于长文档,但需要注意所需的处理能力、成本和延迟。请注意,对于OCR,关于输出tokens比输入tokens多的这一点不适用,因为OCR在输出图像中的所有文本时自然会生成大量输出tokens。因此,我认为在很多情况下,直接使用VLM处理文档是更好的选择,我将在接下来的部分讨论这一点。这样,模型就能提取更具代表性的文本,更准确地描述文档的文本内容。
2025-12-09 09:54:32
1006
原创 未来物体检测趋势:需要关注的 7 个关键问题
Haar级联(一种扫描简单视觉模式的方法,常用于人脸检测)和方向梯度直方图(一种捕捉图像中边缘和轮廓方向的技术)等技术,通常与支持向量机分类器(一种将物体分类的机器学习模型)结合使用,使目标识别更准确、更快速。Coovally平台提供的一站式模型转换与部署服务,正简化了这一过程,帮助企业将训练好的检测模型快速转化为可在边缘设备上运行的形式,从而实现实时、本地的质量判定。为了学会这一点,模型需要在大量标注过的数据集上进行训练,这些数据集展现了物体在各种不同条件下的样貌,比如不同的角度、光线、大小和布局。
2025-12-08 11:21:22
931
原创 火箭工程大学多模态遥感检测新框架MROD-YOLO:如何将小目标检测精度提升至77.9%
在VEDAI数据集上,MROD-YOLO的mAP50达到77.9%,超过YOLOv10(72.3%)、CFT(73.7%)等先进方法,尤其在小目标检测上优势明显。在DroneVehicle无人机数据集上,MROD-YOLO的mAP50为70.4%,mAP50:95达52.7%,展现出良好的泛化能力。实验数据显示,与简单拼接的早期融合相比,MJRNet在mAP50指标上提升1.8%,同时保持相近的计算开销。FPN的优势在于保持浅层特征的高空间分辨率,避免复杂路径导致的特征稀释,减少计算节点,提高推理速度。
2025-12-08 11:11:15
925
原创 MAR-YOLOv9:革新农业检测,YOLOv9的“低调”逆袭
为了解决这些问题,本研究提出了一种基于YOLOv9的轻量级、跨数据集增强的农业领域目标检测方法,命名为多适应性识别-YOLOv9(MAR-YOLOv9)。MAR-YOLOv9解决了传统YOLOv9中由于检测颈部和辅助分支结构导致的训练时间过长和权重冗余问题,使其能够在保持高性能的同时降低模型的计算复杂度并提高检测速度,从而更适用于实时检测任务。这是一种专门为农业领域设计的轻量级跨数据集增强目标检测方法,它不仅在YOLOv9的基础上实现了显著突破,更在复杂多变的农业场景中展现出了令人瞩目的性能表现。
2025-12-04 16:36:10
740
原创 如何让SAM3在医学图像上比专用模型还强?一个轻量Adapter如何让它“秒变”专家?
Meta 实验室开源的 Segment Anything Model 3(SAM3)被誉为视觉分割领域的“终极形态”,它以“一个模型,搞定一切视觉识别任务”为口号,确实在自然图像的零样本分割能力上达到了新高度。当工作环境发生变化,领域知识出现鸿沟时,通用大模型就会显露出它的局限性。SAM3-Adapter 仅是这一趋势的开端,它展示了如何通过极简的架构修改,释放通用大模型在特定领域的全部潜力。只需训练一个轻量级的适配器,就能让百亿参数的视觉大模型在专业任务上达到甚至超越专用模型的水平。
2025-12-04 16:29:53
1246
原创 如何让机器看懂视觉世界?从图像匹配理解环境开始
然而,对于开发者和研究者而言,获取、复现和比较这些先进的深度学习模型仍存在较高门槛,需要处理复杂的代码环境、准备庞大的数据集并配置昂贵的计算资源。像LoFTR(局部特征变换器) 这样的模型实现了更高的准确性,因为Transformer的全局感受野能够在传统检测器失效的低纹理、模糊或重复区域实现可靠的匹配。例如,在一项涉及使用XR(扩展现实)眼镜进行军事风格室外增强现实训练的研究中,研究人员使用了SIFT和其他基于特征的方法来匹配真实图像和参考图像之间的视觉细节。由于这些变化,逐像素比较图像通常并不可靠。
2025-12-04 09:11:40
1247
原创 为什么企业如今不应该忽视计算机视觉?计算机视觉如何为企业降本增效、规避风险?
一个简单的项目,比如使用预先训练好的模型来监控库存水平或提高基本的监控洞察力,就能迅速带来可衡量的结果。通过自我监督学习,该模型在 160 万张视网膜图像上进行了训练,可以detect 糖尿病视网膜病变和青光眼等威胁视力的疾病,甚至可以根据细微的视网膜线索预测心力衰竭、中风和帕金森病等更广泛的全身性疾病。通过使用Coovally,企业和开发者可以绕过繁琐的底层技术细节,直接将精力投入到定义业务问题、收集数据和验证AI解决方案的有效性上,从而快速将计算机视觉的构想转化为实际的生产力工具。
2025-12-03 17:03:02
782
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅