- 博客(331)
- 收藏
- 关注

原创 相约脑暴会,共创大未来——动态实时三维人体重建脑暴会
今夏我们召集江湖中的有识之士,共同探讨动态实时三维人体重建制作容积视频的方案,展开一场别开生面的脑暴会。在此,我们向全球开发者发出诚挚邀请,邀请您加入我们通过腾讯会议进行的的脑暴会,对于实现与改善动态实时三维人体重建项目进行进一步的讨论。
2023-07-31 10:34:21
643

原创 【超详细】手把手教你使用YOLOX进行物体检测(附数据集)
改进后的YOLO算法——YOLOX,不仅实现了超越 YOLOv3、YOLOv4 和 YOLOv5 的 AP,而且取得了极具竞争力的推理速度。本篇将超详细地讲解如何使用YOLOX进行物体检测,非常值得一读!
2022-03-29 11:47:58
5083
23

原创 大火的何恺明:MAE——用于计算机视觉的可扩展自监督学习神器
作者:王浩 毕业于北京航空航天大学,人工智能领域优质创作者,优快云博客认证专家首发:公众号【3D视觉开发者社区】导语:近期,何铠明的新作可谓是火出了圈,毕竟何佬出品必是精品,由何佬提出的的ResNet、Faster RCNN等模型一直被大家学习和研究。如今,何铠明又带来一种用于计算机视觉的可扩展自监督学习器, 称之为”掩码自编码器 (MAE) “,本文将对该视觉学习器原理及实现方法进行解读。Masked Autoencoders Are Scalable Vision Learners论文.
2022-03-18 19:00:00
7733
2
转载 OpenCV干货分享!最全机器人3D相机选型指南来了
3D视觉技术是机器人实现精准感知的关键。针对不同的机器人应用,如何选择最合适的3D相机?近期,知名开源计算机视觉和机器学习软件库OpenCV邀请了奥比中光机器人业务总监Brad Suessmith进行互动直播分享,由 OpenCV首席执行官Satya Mallick、OpenCV内容与创意总监Phil Nelson主持。
2024-07-02 10:41:30
767
转载 一种在终端设备上用量化和张量压缩的紧凑而精确的视频理解
目前的工作集中在以分离的方式优化视频检测和分类。在今天分享中,我们介绍了一个用于终端设备的视频理解(目标检测和动作识别)系统,即DEEPEYE。
2023-08-31 10:25:26
291
转载 大白话用Transformer做BEV 3D目标检测
如何利用车载环视相机采集到的多张图像实现精准的 3D 目标检测,是自动驾驶感知领域的重要课题之一。
2023-08-28 13:34:43
1079
转载 自动驾驶视觉感知算法
本节我们先从广泛应用于自动驾驶的几个任务出发介绍2D视觉感知算法,包括基于图像或视频的2D目标检测和跟踪,以及2D场景的语义分割。
2023-08-25 10:02:37
446
转载 视觉SLAM开源方案汇总及设备选型建议
SLAM 是 Simultaneous Localization and Mapping 的缩写,中文译作“同时定位与地图构建”
2023-08-24 10:14:58
710
转载 超越GIoU/DIoU/CIoU/EIoU | MPDIoU让YOLOv7/YOLACT双双涨点,速度不减!
文章提出了一种基于最小点距离的边界框相似度比较度量——MPDIoU,其中包含了现有损失函数中考虑的所有相关因素,例如重叠或非重叠面积、中心点距离以及宽度和高度的偏差,同时简化了计算过程。边界框回归(Bounding Box Regression,BBR)在目标检测和实例分割中被广泛应用,是定位目标的重要步骤。然而,大多数现有的边界框回归损失函数在预测框与实际标注框具有相同的宽高比但宽度和高度值完全不同的情况下无法进行优化。
2023-08-21 15:26:40
507
转载 最新SOTA!基于4D成像雷达和相机融合的3D目标检测新基线
最近,一些工作将 “采样法(sampling)” 策略应用于图像视图变换,并表明即使没有图像深度估计,它也优于 “溅射法” 。
2023-08-18 14:05:48
343
转载 ICCV 2023 Random Boxes Are Open-world Object Detectors 论文解读
目标检测是计算机视觉的基础任务之一,目的是给图像中的目标对象定位和分类。
2023-08-17 10:17:39
905
转载 动态环境下竟然能在嵌入式系统上实现实时语义RGB-D SLAM??
大多数现有的视觉SLAM方法严重依赖于静态世界假设,在动态环境中很容易失效。本文提出了一个动态环境下的实时语义RGB-D SLAM系统,该系统能够检测已知和未知的运动物体。
2023-08-16 11:16:36
321
1
转载 Meta最新开源!跟踪一切升级版!性能超越OmniMotion!
最近几个月,CV界真是跟“一切”杠上了。先是Meta在4月5日发布了Segment Anything,可以为任何图像中的任何物体提供Mask。
2023-08-15 10:25:37
404
原创 ROSpider机器人评测报告
在“蜘蛛”身体的上方装有Astra Pro深度相机,是ROSpider机器人的眼睛,它可以进行水平方向的旋转以及上下角度的变换
2023-08-14 14:45:52
1311
转载 一文搞定opencv中常见的关键点检测算法(附代码)
角点时图像中存在物体边缘角落位置的点或者一些特殊位置的点,角点检测(Corner Detection)是计算机视觉系统中获取图像特征的一种方法,是运动检测、图像匹配、视频跟踪、三维重建和目标识别的基础。
2023-08-14 10:28:39
956
原创 检测新突破 | AlignDet:支持各类检测器自监督新框架(ICCV2023)
这篇论文主要研究目标检测领域的自监督预训练方法。作者首先指出,当前主流的预训练-微调框架在预训练和微调阶段存在数据、模型和任务上的不一致。
2023-08-11 15:38:26
306
转载 大规模参数的更强、更鲁棒的视觉基础模型
与最近关注large dense kernels的CNN不同,InternImage以可变形卷积为核心算子,使我们的模型不仅具有检测和分割等下游任务所需的大有效感受野,而且具有受输入和任务信息约束的自适应空间聚合。
2023-08-10 13:35:22
107
转载 30%Token就能实现SOTA性能,华为诺亚轻量目标检测器Focus-DETR效率倍增
目前 DETR 类模型已经成为了目标检测的一个主流范式。但 DETR 算法模型复杂度高,推理速度低,严重影响了高准确度目标检测模型在端侧设备的部署,加大了学术研究和产业应用之间的鸿沟。
2023-08-09 16:29:48
144
转载 首个全量化Vision Transformer的方法FQ-ViT,AI大模型落地不远了!
将算法网络进行量化和模型转换可以显着降低模型推理的复杂性,并在实际部署中得到了广泛的应用。
2023-08-07 14:22:08
183
转载 走向CV的通用人工智能:从GPT和大型语言模型中汲取的经验教训 (上)
研究院开发者社区论文地址:https://arxiv.org/pdf/2306.08641.pdf人工智能界一直在追求被称为通用人工智能(AGI)的算法,这些算法适用于任何类型的现实世界问题。
2023-06-22 08:30:00
389
转载 Transformer工业部署落地!超越ResNet、CSWin(附源码)
NCB 和 NTB 分别使用新颖的部署友好的多头卷积注意力 (MHCA) 和轻量级的高低频信号混合器来增强建模能力。为了进一步提高性能,设计了 Next Hybrid Strategy (NHS),通过在每个阶段以新的混合范式堆叠 NCB 和 NTB,大大降低了 Transformer 块的比例,并在各种下游任务中最大程度地保留了 Vision Transformer 网络的高精度。与现有的基于 CNN 和 ViT 的方法相比,Next-ViT 在延迟/准确性权衡方面表现出优越的性能。
2023-06-20 08:30:00
299
转载 Yolo算法的演进—YoloCS有效降低特征图空间复杂度(附论文下载)
研究院开发者社区论文地址:YOLOCS: Object Detection based on Dense Channel Compression for Feature Spatial Solidification (arxiv.org)本文的主要贡献在于引入了一种新的特征空间固化方法,能够有效地降低特征图的时空复杂度,提高对象检测的效率和准确性。
2023-06-15 08:30:00
346
原创 深度相机、实验箱、扫描仪、机器狗…… 奥比中光超强性能3D视觉应用亮相VALSE 2023
6月10日-12日,VALSE 2023视觉与学习青年学者研讨会在江苏无锡举办,奥比中光作为金牌赞助商,携Femto Mega与Gemini 2系列3D相机以及3D视觉实验箱开发套件、手持3D扫描仪、四足机器狗等创新解决方案参展,为3D视觉开发者提供多样化的开发选择。VALSE是计算机视觉、图像处理、模式识别与机器学习研究领域的年度学术盛会。
2023-06-13 18:11:24
1573
原创 基于奥比中光深度相机进行虹膜识别处理
接下来,会详细介绍该系统的具体实现流程,包括但不限于:①用到的算法介绍 ②GUI制作详细说明 ③代码功能的实现,等等。
2023-06-08 09:09:34
1303
转载 CVPR2023高质量论文 | Consistent-Teacher:半监督目标检测超强SOTA
在本研究中,研究者深入研究了半监督目标检测(SSOD)中伪目标的不一致性。核心观察结果是,振荡的伪目标破坏了精确的半监督检测器的训练。它不仅给学生的训练注入了噪声,而且导致了分类任务的严重过拟合。因此,研究者提出了一个系统的解决方案,称为一致教师,以减少不一致。首先,自适应锚分配(ASA)取代了基于静态IoU的策略,使学生网络能够抵抗噪声伪边界盒;然后,通过设计三维特征对齐模块(FAM-3D)来校准子任务预测。它允许每个分类特征在任意尺度和位置自适应地查询回归任务的最优特征向量。
2023-06-06 09:00:00
518
1
转载 目标检测创新:一种基于区域的半监督方法,部分标签即可(附原论文下载)
研究院开发者社区研究表明,当训练数据缺少注释(即注释稀疏的数据)时,目标检测器的性能会显着下降。论文地址:https://arxiv.org/pdf/2201.04620v1.pdf。
2023-05-30 08:00:00
164
转载 RestoreDet:低分辨率图像中目标检测
研究院开发者社区论文地址:https://arxiv.org/pdf/2201.02314.pdf超分辨率(SR)等图像恢复算法是退化图像中目标检测不可或缺的预处理模块。然而,这些算法中的大多数假设退化是固定的并且是先验已知的。
2023-05-25 08:15:00
220
转载 利用TRansformer进行端到端的目标检测及跟踪(附源代码)
作者:计算机视觉研究院编辑:3D视觉开发者社区现存的用检测跟踪的方法采用简单的heuristics,如空间或外观相似性。这些方法,尽管其共性,但过于简单,不足以建模复杂的变化,如通过遮挡跟踪。
2023-05-23 08:00:00
1223
转载 单阶段检测算法主流的标签分配方法总结
作者:极市平台 Mr.Felix编辑:3D视觉开发者社区详解6种主流标签分配方法原理以及方法步骤。目前主流的轻量化目标检测算法基本都是(Anthor-base或Anthor -free)单阶段结构。主体结构主要包括Backbone、Neck、Head以及Loss。其中受限于硬件资源,Backbone主要选取轻量化的主干网络,如MobileNet系列、ShuffleNet系列等;Neck主要基于FPN的变种,意在增强深层和浅层特征的更好融合;
2023-05-18 08:15:00
799
转载 ImgX-DiffSeg:基于 DDPMs 的 3D 医学图像分割
DDPM 是一种生成模型,可用于图像去噪和分割。工作原理是模拟干净图像的概率分布,然后在图像中添加噪点以生成噪声版本。相反的,模型尝试通过移除添加的噪点来对图像进行降噪。在图像分割的情况下,模型会生成分割掩码,可以根据输入图像的特征将图像分成不同的区域,更细节的内容推荐阅读前置文章(强烈建议)。对于 ImgX-DiffSeg,整体流程如下图所示。首先,该架构预测的是分割掩码而不是采样噪声,并直接通过 Dice Loss 进行优化。
2023-05-16 11:08:17
609
转载 事件相机SLAM最新综述
vSLAM能够通过视觉传感器来获取环境信息,以达到估计机器人位姿和周围环境三维重建的目的。但是传统的视觉传感器受限于它的硬件而导致的低动态感光范围和运动中产生的动态模糊,在一些复杂的场景下无法得到良好的结果,例如高速运动中的或者复杂的光照条件下的场景。近年来,事件相机受到了研究者们的关注。由于事件相机的高帧率、低延迟和高动态感光范围,使得基于事件相机的vSLAM 能够胜任一些复杂的场景,尤其是高速运动和复杂光照下的场景。但是,事件相机产生的事件数据和传统相机产生的图像完全不同。
2023-05-11 08:30:00
1027
转载 使用kitti数据集实现自动驾驶——发布照片、点云、IMU、GPS、显示2D和3D侦测框
作者:计算机视觉研究院编辑:秃头小苏本次内容主要是使用kitti数据集来可视化kitti车上一些传感器(相机、激光雷达、IMU)采集的资料以及对行人和车辆进行检测并在图像中画出行人和车辆的2D框、在点云中画出行人和车辆的3D框。首先先看看最终实现的效果:自动驾驶视频看了上面的效果视频,是不是充满好奇了呢,下面让我们一步步的来学习。
2023-05-10 09:35:43
1314
转载 轻量级堆叠沙漏网络
在 AI 绘画领域,很多研究者都在致力于提升 AI 绘画模型的可控性,即让模型生成的图像更加符合人类要求。前段时间,一个名为 ControlNet 的模型将这种可控性推上了新的高峰。大约在同一时间,来自阿里巴巴和蚂蚁集团的研究者也在同一领域做出了成果,本文是这一成果的详细介绍。代码地址:https://github.com/jameelhassan/PoseEstimation人体姿态估计(HPE)是计算机视觉中的一项经典任务,其重点是通过识别人的关节位置来表示人的方位。
2023-04-27 16:44:02
406
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人