计算机视觉领域有哪些研究方向

计算机视觉,即 Computer Vision,简称 CV,是指用计算机实现人的视觉功能—对客观世界的三维场景的感知、识别和理解。目前,计算机视觉仍然是深度学习中最热门的研究领域之一,其主要包含以下四个任务:图像分类目标检测语义分割实例分割首先我们将介绍以下四种任务分别有什么特点,以及分别在解决什么问题。

图像分类 - Image Classification:解决的是“是什么”的问题。图像分类的任务便是要找出图中包含着哪些目标,如图(a)所示,图中包含 bottle、cup 和 cube 三种目标。与此任务相关的挑战包括视点变化、尺度变化、类内变化、图像变形、图像遮挡、光照条件、背景杂乱等。

目标检测 - Object Detection:解决的是“是什么+在哪里”的问题。在图像分类中,我们可以知道当前图片中包含了哪些目标物体。进一步地,我们更希望知道这个目标具体在哪个位置,这便是目标检测的任务。如图(b)所示,我们为图中的每一个目标物体都给定一个矩形框标识着当前目标所在的位置。

语义分割 - Semantic Segmentation:解决的是“每个像素点是什么”的问题。语义分割是对目标物体进行一个像素级分割,即对图像中的每一个像素点都进行分类。但是同一物体的不同实例不需要单独分割出来,如图(c)中所示的 cube,都归属于同一个语义类别。

实例分割 - Instance Segmentation:在语义分割的基础上,进一步区分属于同一个类别的不同实例。如图(d)中所示的 cube,我们还需要将其具体的区分为不同的 cube。

目前,计算机视觉仍然是深度学习中最热门的研究领域之一,它主要涵盖了以下应用:

(1)光学字符识别 OCR

OCR 包含了:手写数字识别、中文字符识别、英文字符识别等等。这个任务算是计算机视觉领域中最早落地的方向,早在 1989 年,LeCun 等人在贝尔实验室提出了 LeNet 用于解决邮政编码识别,并成功落地应用。

(2)人脸相关

人脸相关的算法主要有:人脸检测、人脸验证、人脸关键点检测、表情识别等等。其中最常见的任务便是人脸检测以及人脸验证了。其中,检测是验证的前置要求,而人脸验证是将候选人脸与另一个人脸进行比较,并验证其是否匹配的任务。

(3)姿态估计 Pose Estimation

姿态估计方向主要包含:人体姿态估计(2D/3D)、人体姿态预测(视频)、手势姿态估计、头部姿态估计、动物姿态估计等等。其中人体姿态估计为比较热门的研究方向,主要可以用于人体行为判断、AR 试衣、自动驾驶(预测路人行动)等领域。其主要实现的方式是通过检测人体关键点来完成人体的动作、行为识别。


(4)超分辨率 Super Resolution

超分辨率方向主要包含:单帧图像超分辨率、视频超分辨率、点云超分辨率等等。简单地来说,超分辨率的目的是为了提升图像/点云的分辨率。尽管传统图像变换采用的线性插值、最邻近插值等方式可以提高图像的分辨率,但是图像中的信息并没有增加,细节信息也并没有得到恢复,因此只是简单的放大操作。而超分辨率可以通过对训练样本的学习,通过学习不同的模式并将其添加到图像当中从而恢复图像缺失的细节信息。

(5)图像生成 Image Generation

图像生成方向主要包含:风格迁移、图像到图像转换、人脸生成、人体姿态生成、面部修复等等。其主要使用的是生成网络来分离出两者共有的结构分布,和独有风格分布,从而进行进一步的融合以生成目的图像。


(6)自动驾驶 Autonomous Driving

自动驾驶方向包含的视觉任务主要有:车道线检测、交通信号灯检测、全景分割、行人检测等等。当然,完成自动驾驶还需要有诸如定位、导航、控制等算法,我们这里只列举了其中与视觉相关的算法。

(7)即时定位与地图构建

SLAM近年来,由于无法使用 GPS 或 GNSS 的室内制图技术,机器人技术和自动驾驶汽车技术的使用引起了广泛的关注,该技术被称为 SLAM。SLAM 是一种即时定位与地图构建任务,在此过程中,机器人会构建代表其空间环境的地图,同时跟踪其在构建的地图中的位置。


(8)图像去噪 Image Denoising

去噪方向主要包含:去噪、图片去噪。由于数字设备常受到相机抖动、运动的物体、暗光和噪声等影响而导致捕获的照片“不干净”。因此去噪技术具有很大的应用价值。传统去噪方法有:利用非局部相似性、字典学习、MRF、WNNM 等;现代方法主要是基于深度学习技术:栈式稀疏去噪自编码器、多层感知机、卷积编解码网络、深层神经网络等。相对于前者,后者是一种端对端的训练方式,无需手动调整参数,拥有更强的学习能力。

(9)图像去雾 Image Dehazing

图像去雾的目的是消除雾霾环境对图像质量的影响,增加图像的可视度。传统的图像去雾方法主要有暗通道先验(DCP) 方法,最大对比度(MC)方法,颜色衰减先验(CAP)方法,色度不一致方法,其中以何凯明的暗通道先验方法最为著名;现代深度学习图像去雾方法主要分为两种:一种是基于大气退化模型,另一种则是训练一种端到端的图像去雾模型!其中端到端方式已成为深度学习中的主流去雾模型。

(10)图像去雨 Image Deraining

图像去雨是从包含雨水的图像生成去除雨水的图像。早期的去雨方法主要包含稀疏编码和 GMM 方法。现代基于深度学习的去雨方法绝大部分使用:全监督方法,其采用多阶段的方式或 encoder-decoder 的架构,用全卷积学习雨图到无雨图的映射或残差来训练模型。

(11)行人重识别 Person Re-ID

行人重识别研究研究不同于目标识别,它能够实现跨越时间和空间对目标人体(人群)进行跟踪、匹配与身份鉴定,这是近年来计算机视觉的研究热点之一。因此,行人重识别技术需要分析目标的空间依赖关系,还需要分析目标变化的历史信息。行为识别涉及到技术主要包含兴趣点提取,密集轨迹,光流和表观并举,3D 卷积网络,LSTM 和 GCN 等。

(12)缺陷检测 Defect Detection

缺陷检测,在工业上应用非常广泛,如电路板表面缺陷检测、金属零部件表面缺陷检测、布匹检测、固件缺陷检测、混凝土裂缝检测、公路裂缝检测等。传统的基于机器视觉的算法很难对缺陷特征进行完整的识别,而且通常会耗费大量精力,得不偿失。由于卷积神经网络在特征提取业的强大能力以及目标检测算法日趋成熟的背景下,使得业界普遍将度学习技技术应用到陷检测领域当中。

(13)视频理解 Video Understanding

视频理解,主要是基于视频中的时序信息来进行视频分析。相对于图像而言,视频多了一维时序信息,其应用场景相对也比较广泛,比如在智能安防领域中我们可以使用视频理解技术来取代人工进行相应的视频监控。

(14)图像融合 Image Fusion

图像融合是用特定的算法将两幅或多幅图像综合成一幅新的图像。融合后得到的图像可以对场景有更全面、清晰的描述,从而更有利于人眼的识别和机器的自动探测!图像融合技术在遥感探测、安全导航、医学图像分析、反恐检查、环境保护、交通监测、清晰图像重建、灾情检测与预报尤其在计算机视觉等领域都有着重大的应用价值,一般图像融合方法主要包含空间域融合和变换域融合方法;其中空间域融合方法主要包含:简单组合式图像融合方法,逻辑滤波器法,数学形态法和图像代数法。而变换域融合方法主要包含:HIS 变换法,PCA 变换法,高通滤波法 HPF,金字塔分解法和小波变换法。

(15)图像检索 Image Retrieval

图像检索是一种用于从大型数字图像数据库中浏览,搜索和检索图像的一种技术。常规的图像检索有基于文本的检索、基于内容的检索以及基于语义的检索。其中基于语义的检索由于其需要对海量的图片进行语义级别的标注,不仅主观性强而且费时费力,同时其语义也很难全面的表达图像中所包含的所有信息,因此实际中很少实现。而基于内容的检索,也称为 CBIR 技术,常见的应用场景有 “以图搜图”,在实际中被广泛使用。

(16)全景分割 Panoptic Segmentation

图像全景分割是语义分割与实例分割的结合,在全景分割中,图像中每个像素点都必须被分配一个语义标签和实例 ID,其中语义标签指的是物体类别,而实例 ID 则对应同类物体的不同编号。

(17)医学图像 Medical Image

医学图像任务主要包括:病变检测、图像分割、图像配准。类似于自然图像领域,卷积神经网络比传统算法能更有效地作用于医学图像,然而医学图像还存在着以下难点

1.样本数据量少且无法人工生成;

2.噪声大,关键信息占比小;

3.标注成本高。

鉴于这些困难,一些基于深度学习的技术如:迁移学习和微调能有效地解决以上问题。

(18)遥图图像 Remote Sensing Image

遥感图像能够精确的描述各种地理空间物体,如车辆、船舶和飞机等。遥感图像一般都是高空间分辨率,从遥感团行中自动提取感兴趣的对象对城市管理计划和检测非常有帮助。地理空间对象分割作为对象提取中的重要角色,可以为感兴趣的对象提供语义和位置信息,该信息属于特定的语义分割任务,目的是将图像像素分为前景对象和背景区域的两个子集 。同时,它还需要为前景对象区域中的每个像素进一步分配唯一的语义标签。

以上列举的只是CV领域中当前比较热门的研究方向,由于篇幅原因,还有许多具有前景的研究方向我们还没有列出来。

计算机视觉配套资料整理打包好了+人工智能学习路线
希望可以帮助到大家

### 回答1: 计算机视觉领域有很多顶级会议,包括IEEE International Conference on Computer Vision (ICCV)、European Conference on Computer Vision (ECCV)、International Conference on Machine Learning (ICML)、Neural Information Processing Systems (NIPS)、The Computer Vision and Pattern Recognition Conference (CVPR)和The Conference on Computer Vision and Pattern Recognition (CVPR)。 ### 回答2: 计算机视觉领域有许多顶级会议,其中包括以下几个: 1. CVPR(Computer Vision and Pattern Recognition):CVPR是计算机视觉领域最顶级和最具影响力的会议之一。它每年举办一次,在会上展示最新的研究成果和技术进展。 2. ICCV(International Conference on Computer Vision):ICCV是计算机视觉领域的另一个重要会议,与CVPR相媲美。它也每年举办一次,并吸引全球顶级研究人员和学者参与。 3. ECCV(European Conference on Computer Vision):ECCV是欧洲地区的计算机视觉领域重要会议之一。它与CVPR和ICCV一样,每两年举办一次。 4. AAAI(Association for the Advancement of Artificial Intelligence):AAAI不仅包含计算机视觉研究,还包括人工智能领域的其他方向。它是人工智能领域最重要的会议之一,涵盖广泛的研究主题。 5. NIPS(Conference on Neural Information Processing Systems):NIPS是机器学习深度学习领域的国际顶级会议。虽然不是专门关注计算机视觉,但在计算机视觉领域也有很高的影响力。 这些会议都是计算机视觉领域重要的学术交流平台,研究人员和学者可以在会议上分享他们的最新研究成果,交流经验和发现合作机会。参与这些会议对于学术界和工业界的专业人士来说都是至关重要的。 ### 回答3: 计算机视觉(Computer Vision)领域有很多顶级会议。以下是一些最具影响力和高水平的顶级会议: 1. CVPR(Computer Vision and Pattern Recognition):CVPR是计算机视觉领域最重要的会议之一,由IEEE(电气和电子工程师协会)主办,汇集了学术界和工业界的顶尖研究人员。CVPR每年举办一次,提供了展示最新研究成果、发表论文以及进行交流和讨论的平台。 2. ECCV(European Conference on Computer Vision):ECCV是欧洲计算机视觉领域的一项重要活动,由欧洲计算机视觉协会主办。ECCV每两年举办一次,聚集了来自世界各地的顶尖研究者,提供了一个分享最新研究成果、讨论新技术和观点的国际交流平台。 3. ICCV(International Conference on Computer Vision):ICCV是计算机视觉领域的国际级会议,由国际计算机视觉协会主办。ICCV每两年举办一次,吸引了来自全球的学术界和工业界研究人员参加。这个会议是交流最新研究成果、分享创新想法和技术的重要平台。 4. BMVC(British Machine Vision Conference):BMVC是英国机器视觉领域的重要学术会议,由英国机器视觉协会主办。BMVC每年举办一次,是讨论计算机视觉领域前沿课题和技术发展趋势的重要国际会议。 除了以上提到的会议,还有其他一些重要的计算机视觉相关会议,如ACCV(Asian Conference on Computer Vision)、ICIP(International Conference on Image Processing)等。这些会议提供了学术界和工业界相互交流、合作和学习的机会,对计算机视觉领域研究和发展起到了重要的推动作用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值