计算机视觉前沿技术突破与实例分割研究
理解我们万花筒般的视觉世界是计算机科学家数十年来的重大挑战。这是因为视觉远不止是简单的"看见"。为了充分发挥机器的潜力,并最终让它们在我们中间安全有效地运行,机器必须以超越人类的置信度理解周围发生的情况。
从监督学习到自监督学习的范式转变
在计算机视觉早期,人工智能系统只能通过训练大量人工精心标注的示例图像来学习识别——这一过程称为监督学习。当Yong Jae Lee首次接触计算机视觉挑战时,监督学习占据主导地位。当时要教会计算机视觉系统识别猫,必须向它展示数千张猫的图片,每只猫周围都精心绘制了边界框并标注为"猫"。
但Lee坚信计算机视觉的未来在于无监督或弱监督学习。这种机器学习形式的理念是,计算机视觉模型接收大量未标注图像,并自行找出如何区分其中的各种对象类别,从猫、狗和跳蚤,到人、汽车和树木。
"当时无监督学习并不流行,但我毫不怀疑这是值得研究的方向,"Lee说。“现在,我认为几乎整个社区都相信这个方向。正在取得巨大进展。”
实时实例分割的技术突破
2019年,Lee获得了某机构机器学习研究奖项,部分用于支持一系列关于实时对象实例分割的开创性论文。
对象实例分割比视觉对象检测更进一步:它使计算机视觉模型不仅能够检测图像中是否存在对象,还能准确定位和分类每个感兴趣的对象——无论是椅子、人还是植物——并在图像中描绘其视觉边界。通过实例分割,不仅图像中的每个像素都被归为某个对象类别,模型还通过清晰分割该对象类别的每个"实例"来区分两个相同类别的对象。
2019年的挑战在于:虽然实例分割任务在应用于单个图像时可以达到高标准,但尚未有系统在应用于实时流视频(定义为每秒30帧或以上)时达到高精度基准。
Lee与其学生开发了首个达到这种精度和速度的模型,并且仅用一个GPU训练他们的模型。他们的监督系统称为YOLACT,既精简又高效。它的快速得益于研究人员开发了一种新颖的方法,可以并行运行实例分割任务的各个方面,而不是依赖较慢的顺序处理。YOLACT在2019年国际计算机视觉会议的COCO对象检测挑战赛中获得了最具创新性奖。
此后,Lee的团队继续显著提高了系统的效率和性能,最新版本的YOLACT称为YolactEdge,可以搭载在不超过手掌大小的设备中。通过将YOLACT代码在GitHub上提供,Lee让许多人能够使用这一系统。
图像生成与3D感知技术
在Lee工作的另一个分支中,他也开创了基于机器学习的图像生成新方法。其中一个研究首创是MixNMatch,这是一个最小监督模型,当提供许多真实图像时,它会自学区分各种重要的图像属性。通过学习区分对象的形状、姿态、纹理/颜色和背景,系统可以 employ 精细调整的控制来生成具有任何所需属性组合的新图像。
今年,Lee与其现任和前任学生发布了GIRAFFE HD,这是一个具有3D感知能力的高分辨率生成模型。这意味着它可以在独立生成适当背景的同时,连贯地旋转、移动和缩放场景中的前景对象。它是一个功能强大的设计工具,具有近乎人类般的对图像如何真实且无缝变换的把握。
"作为用户,你可以调整不同的’旋钮’以高度可控的方式改变生成的图像,例如对象的姿态甚至虚拟相机高度,"Lee说。
计算资源与未来挑战
Lee指出,没有显著的计算资源开发这种技术是不可行的,这就是为什么他的某机构奖项包含了某机构网络服务的积分。“对我们实验室特别有益的是某机构的EC2。在关键时刻,当我们需要运行许多不同实验时,我们可以并行进行。EC2上机器的可扩展性和可用性对我们的研究非常有帮助。”
虽然Lee对视觉研究的许多方面充满热情,但他看到了一个迫在眉睫的缺点:大量AI生成的艺术作品在线发布。"现在的技术前沿是直接从互联网数据中学习,"他说。“如果这些数据中充满了大量机器学习输出,你实际上不是从所谓的真实知识中学习,而是从’虚假’信息中学习。目前尚不清楚这将如何影响未来模型的训练。”
但他对进展速度仍然持乐观态度。他说,图像生成系统已经展示的语义理解令人惊讶。“以Dalle-2的骑马宇航员为例。这种语义概念在现实世界中并不真正存在,但这些系统可以构建出完全符合这一描述的合理图像。”
从这一点得出的教训是,数据的力量难以否认,Lee说。即使数据是"嘈杂的",拥有大量数据使机器学习模型能够对视觉世界发展出非常深入的理解,从而产生语义概念的创造性组合。“即使对于在这个领域工作的人来说,我仍然觉得它很迷人。”
给学生的建议
Lee对那些希望进入这个动态领域的学生有什么建议?"在机器学习领域有如此多的活动,真正重要的是找到你真正热衷的主题,并获得一些实践经验,"Lee说。“不要只是读一篇论文,然后就假定你知道需要知道什么。最好的学习方法是下载一些前沿的开源代码,真正地使用它。玩得开心!”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
266

被折叠的 条评论
为什么被折叠?



