RGB-D分割相关调研

周星星✘

已于 2024-05-10 09:21:38 修改

阅读量637

点赞数 4

文章标签： python 点云人工智能计算机视觉 RGBD

于 2024-05-09 17:29:02 首次发布

本文链接：https://blog.youkuaiyun.com/qq_45152711/article/details/138622758

版权

一、常见的RGB-D分割网络结构

单分支 RGB和Depth信息进行前期融合（a），常规的编码-解码结构，对卷积核进行改进以适应RGB和Depth信息，不需要改变网络结构
双分支 不同的分支对RGB和Depth信息进行（中期b或者后期c）融合，会显著增加参数量和计算时间

二、特征信息

RGB 颜色、纹理等信息
D(Depth) 几何信息（线条、形状等）

当光线不好或者目标物体与背景颜色相近时，深度图提供的信息更为有效。

在这里插入图片描述

三、实验

双分支 无需改变之前的主干网络，为Depth信息增加一个额外的分支输入到网络，且容易判断Depth信息对性能的影响。
在这里插入图片描述

参考：

2D-Image-Segmentation

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

周星星✘

关注关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

基于深度网络的RGBD图像分割算法研究

AI智能涌现深度研究

08-12

605

1. 背景介绍 1.1 图像分割的意义图像分割是计算机视觉领域中的一个基础性问题，其目标是将图像分割成若干个具有语义意义的区域。图像分割在许多领域都有着广泛的应用，例如：自动驾驶: 识别道路、车辆、行人等，为自动驾驶提供安全保障。

点云从入门到精通技术详解100篇-基于 RGB 图像与点云融合的三维点云分割算法及成像系统（中）

getusushu的博客

09-14

1475

行需求分析，然后根据机械旋转云台与二维激光雷达的硬件参数选取出合适的型号。到短臂扫描式三维激光雷达系统的水平分辨率，二维激光雷达的角分辨率会直接影响。到短臂扫描式三维激光雷达系统的垂直分辨率，因此需要将机械旋转云台与二维激光。雷达的角分辨率结合分析，使水平与垂直方向达到步调一致的效果，保证采集到的点。与机械旋转云台的角分辨率结合分析，同时二维激光雷达需要在垂直方向上采集到。二维激光雷达的选型需要考虑的重点是量程、角分辨率和扫描周期。根据上述机械旋转云台与二维激光雷达的需求分析，本文调研了市面上在售的机。

参与评论您还未登录，请先登录后发表或查看评论

基于RGB-D的语义分割和目标检测介绍

qq_27637315的博客

03-02

1万+

寒假的时候看了一篇论文——Multimodal Neural Networks: RGB-D for Semantic Segmentation and Object Detection这篇论文是2017年发表的一篇会议论文介绍将深度图引入计算机视觉的处理任务，下面是我对这篇文章的一些解读。1.引言图像内容的语义解释是计算机视觉中最基本的问题之一，并且在各种应用中具有最高的重要性。极大数据集的可用...

基于神经网络RGB-D图像分割

04-01

基于神经网络的ＲＧＢ－Ｄ图像分割，可在代码基础上修改，进行二次开发．

用于 RGB-D 显著目标检测的点感知交互和 CNN 诱导的细化网络

m0_59899305的博客

03-13

894

受人类视觉系统的启发，显著性目标检测（SOD）旨在定位给定场景中最具吸引力的目标或区域[3, 5, 6, 9-13, 27, 54, 59]，该技术已成功应用于众多任务中。此外，RGB-D显著性目标检测任务在显著性目标检测任务中额外引入了深度图，以便更好地模拟人类双目视觉系统的能力，并获得感知物体间距离关系的能力。

ECCV2020 | 北京大学提出RGB-D语义分割新网络，多模态信息融合

AI算法修炼营的博客

08-04

8339

点击上方“AI算法修炼营”，选择“星标”公众号精选作品，第一时间送达这篇文章收录于ECCV2020，由北京大学、商汤科技、香港中文大学提出的基于RGB-D图像的语义分割算法。充分考虑了R...

RGBD图像ｄｅ超像素分割算法＋适用场景

cocapop的博客

04-03

1104

首先对点云进行均匀采样，然后将采样后的点云聚类成超像素，最后根据相邻超像素之间的几何关系进行合并。SLIC3D（Simple Linear Iterative Clustering in 3D）：该算法是一种基于颜色和空间距离的超像素分割算法，类似于SLIC算法。VCCS（Voxel Cloud Connectivity Segmentation）：该算法先将点云分割成小立方体，然后根据立方体之间的相对位置和法向量信息进行聚类，生成超像素。点云密度和均匀性：点云数据的质量对超像素分割的效果有很大影响。

CVPR2021|深度感知镜面分割方法（RGBD数据）

3D视觉工坊

01-04

1602

点击上方“3D视觉工坊”，选择“星标”干货第一时间送达作者丨paopaoslam来源丨泡泡机器人SLAM编辑丨3D视觉工坊标题：Depth-Aware Mirror Segmentati...

【综述研读】深度学习多模态图像语义分割前沿进展

YS1455的博客

12-17

2464

图像语义分割旨在将视觉场景分解为不同的语义类别实体，实现对图像中每一个像素的类别预测。多模态图像语义分割通过联合利用不同模态图像（即通过基于不同成像机理的传感器获取的图像）间的互补特性，能够全面且准确地实现复杂场景信息的学习与推理。目前基于深度学习的多模态图像语义分割前沿成果较多，但缺少系统且全面的调研与分析。

视频行为识别检测综述 IDT TSN CNN-LSTM C3D CDC R-C3D

热门推荐

万有文的博客

06-20

14万+

本文github地址 Video Analysis之Action Recognition(行为识别) 行为识别就是对时域预先分割好的序列判定其所属行为动作的类型，即“读懂行为”。 [行为检测|论文解读]行为检测调研综述较新基于Deep Learning 的视频识别技术科研成果—-中国科学院深圳先进技术研究院面向人体姿态行为理解的深度学习方法 CVPR 2014 Tut...

基于深度学习的3D分割综述

whaosoft143ai的博客

11-04

1324

搬来个厉害的涉及RGB-D/点云/体素/多目希望早点有时间能系统的学到用到~~~3D目标分割是计算机视觉中的一个基本且具有挑战性的问题，在自动驾驶、机器人、增强现实和医学图像分析等领域有着广泛的应用。它受到了计算机视觉、图形和机器学习社区的极大关注。传统上，3D分割是用人工设计的特征和工程方法进行的，这些方法精度较差，也无法推广到大规模数据上。在2D计算机视觉巨大成功的推动下，深度学习技术最近也成为3D分割任务的首选。近年来已涌现出大量相关工作，并且已经在不同的基准数据集上进行了评估。

RGBD-semantic-segmentation:RGBD语义分割的纸质清单（处理）

05-16

RGBD语义分割 RGBD语义分割的纸质清单。 *最后更新：2021/04/09 更新日志 2020年5月-更新所有最新论文，并绘制一些有关RGBD语义分割历史的图表。 2020年/ 7月-更新了RGBD语义分割的一些最新论文（CVPR2020）。 2020年/ 8月-更新了有关RGBD语义分割的一些最新论文（ECCV2020）。 2020年/ 10月-更新了有关RGBD语义分割的一些最新论文（CVPR2020，WACV2020）。 2020年11月-更新了一些最新论文（ECCV2020，arXiv），以及论文和RGBD语义分割代码的链接。 2020年12月-更新了有关RGBD语义分割的一些最新论文（PAMI，PRL，arXiv，ACCV）。 2021 / February-更新了有关RGBD语义分割的一些最新论文（TMM，NeurIPS，arXiv）。 2021 / April-更新了

GrabCut-RGBD-master.zip

07-01

基于c++的图像分割技术。采用的是GrabCut算法。实现结果比较好的

SLAM相关数据集调研

Cristin_杰的博客

05-18

778

【图像分割模型】BRNN下的RGB-D分割—LSTM-CF

hacker_long的专栏

06-17

2305

这是专栏《图像分割模型》的第10篇文章。在这里，我们将共同探索解决分割问题的主流网络结构和设计思想。深度信息的引入往往会给分割带来更好的结果。之前提到的ENet除了直接变成ReSeg分割网络，同样也可以结合RGB-D信息实现更准确的分割。作者 | 孙叔桥编辑 | 言有三本期论文：《LSTM-CF: Unifying Context Modeling and Fusion with ...

史上最全 | 基于深度学习的3D分割综述（RGB-D/点云/体素/多目）

CV_Autobot的博客

11-03

8576

点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【分割】术交流群后台回复【分割综述】获取语义分割、实例分割、全景分割、弱监督分割等超全学习资料！摘要3D目标分割是计算机视觉中的一个基本且具有挑战性的问题，在自动驾驶、机器人、增强现实和医学图像分析等领域有着广泛的应用。它受到了计算机视觉、图形和机器学习社区的极大关注。传统上，3D分割是用人工设计的特征和工程方...

语义分割之3D Graph Neural Networks for RGBD Semantic Segmentation

画心

03-24

4872

3D Graph Neural Networks for RGBD Semantic Segmentation 文章目录3D Graph Neural Networks for RGBD Semantic Segmentation动机深度信息编码RGBD图像分割图神经网络贡献图构建传播模型预测模型效果实验细节对比结果消融实验总结思考相关链接原文章：https://www.yuque.com/...

Bi-directional Cross-Modality Feature Propagation with Separation-and Aggregation Gate_eccv2020

Cloris_Sue的博客

09-10

2576

Bi-directional Cross-Modality Feature Propagation with Separation-and Aggregation Gate for RGB-D Semantic Segmentation_ECCV2020 这篇论文是eccv2020的。第一作者是北大信息科学技术学院的，主攻方向就是RGBD语义分割。第二个作者是商汤科技的。摘要 motivation：大多数现有的工作只是假设深度测量是准确的，并与RGB像素很好地对齐，并将问题建模为跨模态特征融合，以获得更好

帮我搭建一个实现创新舞蹈系统功能和作用的框架，基于深度学习，OpenCV的开发，1.可以模拟赛场并且可以进行原视频比对实现评分系统，查重和危险预警系统。2.可以录制并储存视频，根据需要来进行模式选择。3.可以实现传统舞蹈和街舞的融合，并且可以进行音乐分析整合，可以实现不同音乐的融合。

最新发布

03-26

<think>好的，我现在需要帮用户设计一个基于深度学习和OpenCV的创新舞蹈系统框架。用户提到的功能包括赛场模拟、视频比对评分、查重、危险预警、视频录制存储、模式选择、传统与街舞融合及音乐分析整合。首先，我得拆解每个功能，思考如何用深度学习和OpenCV实现。首先，赛场模拟可能需要虚拟环境生成。OpenCV可以处理实时图像，结合背景替换技术，比如用绿幕或者深度学习模型进行场景合成。可能需要使用GAN或者图像分割模型来替换舞者背景，模拟不同的比赛场地。接下来是视频比对评分。这里需要动作捕捉和关键点检测，可以用OpenCV结合姿态估计模型，比如OpenPose或者MediaPipe。然后，将标准动作模板与实时动作进行对比，计算相似度作为评分依据。可能需要使用时间序列分析，比如DTW（动态时间规整）算法来对齐动作序列。查重功能可能需要视频指纹技术，或者使用深度学习模型提取视频特征，然后计算相似度。比如，用3D CNN提取视频片段的特征向量，再通过余弦相似度判断是否存在抄袭。危险预警涉及到实时监测舞者的动作，识别可能的高风险动作。可能需要训练一个分类模型，使用动作序列数据标注危险动作，实时检测并报警。这里需要实时性，所以模型要轻量，比如MobileNet结合LSTM。视频录制存储部分，OpenCV的VideoWriter类可以处理，但需要考虑视频编码和存储管理，可能需要分块存储或云存储集成。模式切换可能涉及前端UI设计，使用MFC或Qt之类的框架，让用户选择不同的舞蹈风格或比赛模式。这里需要系统架构设计，模块化各个功能，便于切换。舞蹈风格融合，传统与街舞的结合可能需要分析两种风格的动作特征，设计算法混合动作元素。或者使用生成模型，比如VAE，生成融合动作，但这部分可能比较复杂，需要进一步调研。音乐分析整合，可能需要音频处理库（如Librosa）分析节奏、节拍，然后与舞蹈动作同步。深度学习可以用于音乐特征提取，比如用CNN处理频谱图，再与动作时序对齐。整体架构方面，需要模块化设计，各功能模块通过API或消息队列通信。前端负责显示和交互，后端处理数据和模型推理。需要考虑实时视频流的处理效率，可能使用多线程或GPU加速。可能遇到的挑战包括实时性要求高的模块如何优化模型，比如使用TensorRT加速推理；多模态数据的同步，比如音乐和动作的匹配；系统的扩展性和可维护性，需要良好的软件架构设计。还需要考虑数据采集和标注，特别是危险动作和舞蹈风格的数据集，可能需要合作舞蹈机构获取专业数据。模型训练可能需要大量的计算资源，可以考虑迁移学习或预训练模型。最后，测试和评估系统性能，确保每个模块准确可靠，整体流程顺畅。可能需要用户反馈迭代改进，特别是在评分和查重算法上，确保公平性和准确性。</think>### 舞蹈系统框架设计 #### 一、系统架构分层 $$系统架构 = \begin{cases} \text{交互层} & \text{(MFC/Qt界面)} \\ \text{处理层} & \text{(OpenCV+深度学习)} \\ \text{存储层} & \text{(数据库+视频仓库)} \end{cases}$$ #### 二、核心功能实现 1. **赛场模拟** - 使用$U^2$-Net进行实时背景分割[^3] - 通过生成对抗网络(GAN)渲染虚拟舞台 ```python # 背景替换示例 bg = cv2.imread("stage.jpg") mask = u2net_model.process(frame) result = cv2.bitwise_and(frame, mask) + cv2.bitwise_and(bg, 255-mask) ``` 2. **视频对比评分** - 采用OpenPose提取$n$个骨骼关键点 - 动态时间规整算法(DTW)计算动作相似度： $$D(i,j) = ||\boldsymbol{v}_i-\boldsymbol{v}_j|| + \min\begin{cases} D(i-1,j) \\ D(i,j-1) \\ D(i-1,j-1) \end{cases}$$ 3. **舞蹈查重** - 使用3D ResNet提取视频特征$\boldsymbol{f} \in \mathbb{R}^{2048}$ - 相似度计算：$sim = \frac{\boldsymbol{f}_1 \cdot \boldsymbol{f}_2}{||\boldsymbol{f}_1|| \cdot ||\boldsymbol{f}_2||}$ 4. **危险预警** - 搭建双流网络(Two-Stream Network)： $$P(action|RGB,flow) = \sigma(W_1\phi_{rgb} + W_2\phi_{flow})$$ - 集成YOLOv4实时检测道具位置 5. **视频录制存储** - 使用OpenCV的VideoWriter类[^2] - H.265编码压缩：`fourcc = cv2.VideoWriter_fourcc(*'HEVC')` #### 三、创新功能实现 1. **舞蹈风格融合** - 构建风格迁移网络： $$\mathcal{L}_{total} = \alpha\mathcal{L}_{content} + \beta\mathcal{L}_{style}$$ - 街舞动作编码器$\mathcal{E}$与传统舞蹈解码器$\mathcal{D}$ 2. **音乐分析整合** - 使用Librosa提取节拍序列$\{t_i\}_{i=1}^n$ - 动作-音乐对齐算法： $$\min_{\Delta t} \sum_{i=1}^n |a(t_i + \Delta t) - m(t_i)|$$ #### 四、系统集成方案 ```mermaid graph TD A[摄像头输入] --> B{模式选择} B -->|比赛模式| C[赛场模拟] B -->|训练模式| D[动作分析] C --> E[视频录制] D --> F[危险预警] E --> G[云端存储] F --> H[实时报警] G --> I[查重系统] H --> J[用户界面] ```