各国在计算机视觉领域论文数,计算机视觉发展报告.docx

最新推荐文章于 2024-10-15 13:53:34 发布

转载最新推荐文章于 2024-10-15 13:53:34 发布 · 315 阅读

文章标签：

计算机视觉是让计算机模拟人类视觉的研究领域，包括物体检测、语义分割、运动跟踪等多个方向。物体检测是基础且重要的研究方向，常用于人脸识别和车辆检测。语义分割则涉及像素级别的图像分类。视觉问答结合图像和文本，旨在通过问答形式理解图像内容。近年来，深度学习推动了计算机视觉技术的快速发展和精度提升。

计算机视觉发展报告

Report of Computer Vision Development

计算机视觉

TOC \o "1-3" \h \z \u 1.计算机视觉 3

1.1.计算机视觉概念 3

1.2.计算机视觉发展历史 5

1.3.人才概况 7

1.4.论文解读 9

1.5.计算机视觉进展 24

计算机视觉

计算机视觉概念

计算机视觉(computer vision)，顾名思义，是分析、研究让计算机智能化的达到类似人类的双眼“看”的一门研究科学 [3]。即对于客观存在的三维立体化的世界的理解以及识别依靠智能化的计算机去实现。确切地说，计算机视觉技术就是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分类、识别、跟踪、判别决策等功能。总之，计算机视觉系统就是创建了能够在

2D 的平面图像或者 3D 的三维立体图像的数据中，以获取所需要的“信息”的一个完整的人工智能系统。

计算机视觉技术是一门包括了计算机科学与工程、神经生理学、物理学、信号处理、认知科学、应用数学与统计等多门科学学科的综合性科学技术。由于计算机视觉技术系统在基于高性能的计算机的基础上，其能够快速的获取大量的数据信息并且基于智能算法能够快速的进行处理信息，也易于同设计信息和加工控制信息集成。

计算机视觉本身包括了诸多不同的研究方向，比较基础和热门的方向包括：物体识别和检测(Object Detection)，语义分割(Semantic Segmentation)，运动和跟踪(Motion & Tracking)，视觉问答(Visual Question & Answering)等 [4]。

物体识别和检测

物体检测一直是计算机视觉中非常基础且重要的一个研究方向，大多数新的算法或深度学习网络结构都首先在物体检测中得以应用如VGG-net，GoogLeNet，

ResNet 等等，每年在 imagenet 数据集上面都不断有新的算法涌现，一次次突破历史，创下新的记录，而这些新的算法或网络结构很快就会成为这一年的热点，并被改进应用到计算机视觉中的其它应用中去。

物体识别和检测，顾名思义，即给定一张输入图片，算法能够自动找出图片中的常见物体，并将其所属类别及位置输出出来。当然也就衍生出了诸如人脸检测(Face Detection)，车辆检测(Viechle Detection)等细分类的检测算法。

语义分割

语义分割是近年来非常热门的方向，简单来说，它其实可以看作一种特殊的分类——将输入图像的每一个像素点进行归类，用一张图就可以很清晰地描述出来。很清楚地就可以看出，物体检测和识别通常是将物体在原图像上框出，可以说是“宏观”上的物体，而语义分割是从每一个像素上进行分类，图像中的每一个像素都有属于自己的类别。

运动和跟踪

跟踪也属于计算机视觉领域内的基础问题之一，在近年来也得到了非常充足的发展，方法也由过去的非深度算法跨越向了深度学习算法，精度也越来越高，不过实时的深度学习跟踪算法精度一直难以提升，而精度非常高的跟踪算法的速度又十分之慢，因此在实际应用中也很难派上用场。

学术界对待跟踪的评判标准主要是在一段给定的视频中，在第一帧给出被跟踪物体的位置及尺度大小，在后续的视频当中，跟踪算法需要从视频中去寻找到被跟踪物体的位置，并适应各类光照变换，运动模糊以及表观的变化等。但实际上跟踪是一个不适定问题(ill posed problem)，比如跟踪一辆车，如果从车的尾部开始跟踪，若是车辆在行进过程中表观发生了非常大的变化，如旋转了 180 度变成了侧面，那么现有的跟踪算法很大的可能性是跟踪不到的，因为它们的模型大多基于第一帧的学习，虽然在随后的跟踪过程中也会更新，但受限于训练样本过少，所以难以得到一个良好的跟踪模型，在被跟踪物体的表观发生巨大变化时，就难以适应了。所以，就目前而言，跟踪算不上是计算机视觉内特别热门的一个研究方向，很多算法都改进自检测或识别算法。

视觉问答

视觉问答也简称 VQA(Visual Question Answering)，是近年来非常热门的一个方向，其研究目的旨在根据输入图像，由用户进行提问，而算法自动根据提问内容进行回答。除了问答以外，还有一种算法被称为标题生成算法(Caption

Generation)，即计算机根据图像自动生成一段描述该图像的文本，而不进行问答。对于这类跨越两种数据形态(如文本和图像)的算法，有时候也可以称之为多模态，或跨模态问题。

计算机视觉发展历史

尽管人们对计算机视觉这门学科的起始时间和发展历史有不同的看法，但应该说，1982 年马尔(David Marr)《视觉》(Marr，1982)一书的问世，标志着计算机视觉成为