阿里云达摩院视觉AI介绍

阿里云达摩院视觉AI技术详解

最新推荐文章于 2024-11-05 19:12:00 发布

原创最新推荐文章于 2024-11-05 19:12:00 发布 · 2.1k 阅读

0 ·

CC 4.0 BY-SA版权

阿里云ECS 专栏收录该内容

17 篇文章

订阅专栏

阿里云达摩院视觉实验室专注于图像、视频的感知、理解与生成技术，涵盖视觉理解、视频挖掘、三维视觉、文字识别等领域，研发了一系列产品和应用，广泛应用于新零售、新媒体、新制造等场景。实验室在图像搜索、三维视觉端云产品、虚拟人技术以及多媒体AI解决方案等方面取得显著成果，服务于电商、教育、房地产等多个行业。

部署运行你感兴趣的模型镜像

视觉实验室

致力于图像、视频的感知、理解、生成、处理等技术研发与应用，以及三维场景、物体的重建、生成技术的探索和应用。构建以图像视频为媒介的产品和应用，在互动娱乐、数智教育、线下智能等多个方向创造商业新机会，广泛应用于新零售、新媒体、新制造等领域。

研究方向

视觉理解&互动视觉

研发基于视觉（图像/视频）的分类、目标检测跟踪、分割、特征表示学习、关键点提取、人体姿态估计、手势识别、图像描述生成、大规模分布式训练引擎等基础技术，解决电商，通用视觉应用场景下，商品、人体的理解与互动等问题。

视频理解与挖掘

研发视频标签、视频搜索、视频目标检测、视频生成等基础技术，解决在海量视频中进行高效稳定的视频审核、搜索和编辑等问题。

三维视觉

研发三维建模、三维感知、三维理解和三维交互等基础技术，解决端上建模、测量问题和提升AR/VR体验。

文字识别

研发图像视频中的文字检测、文字识别与结构理解等核心技术，解决在扫描、实拍、多语言、混贴等复杂场景下的文字识别与信息抽取。

图文理解

研发图文互搜、图文共搜、价格预估等跨媒体内容理解的核心技术，解决跨媒体内容理解与分析等问题。

线下智能

研究端上和边缘侧的各种视觉处理和结构化方案，包括目标检测，目标分割，多目标跟踪，目标识别（包含行人/机动车重识别，人脸识别等），目标属性提取，行为动作分析等算法，面向遥感影像和X光影像的数据处理，变化检测，地物分类等，以及面向低功耗高效率的深度网络的优化方法，例如模型压缩，推理加速，网络结构搜索等。

底层视觉

研发low-level vision涉及的各种视觉技术，包括图像/视频的修复、增强、去噪等，为后面的视觉分析和理解进行预处理。此外，还研发图像的编辑、生成等技术，为用户更好的体验、互动进行服务。

产品及应用

拍立淘和图像搜索云产品

研发了业界领先的图像搜索与识别技术，并应用于多种场景。每天有超过1700万人通过淘宝和天猫使用拍立淘的以图搜图功能。基于阿里云平台，研发了图像搜索云产品，为具有海量图像搜索需求的客户（如电商、相册、图库类网站）提供完整的以图搜图解决方案。目前已经有若干海外和国内用户，比如澳洲和新西兰领先的时尚和运动零售商THE ICONIC。

了解更多
三维视觉端云产品

通过三维视觉和计算机图形学技术，为行业提供数字化和智能化的解决方案，和生态伙伴共建云+端的技术产品。目前在鞋履产业，通过高效精确的三维扫描和搜索匹配算法，实现精准鞋款推荐、精准营销和精准制造。在房产市场，提供低成本，使用方便、自动化效率高，纹理真实的三维室内、室外场景重建和全景导览功能。在电商平台上，通过AR/VR技术提供给消费者即试即买的沉浸式购物体验，提升销售效率和成交率。

了解更多
虚拟人

通过整合研发图形图像语音技术，目前拥有2D仿真人，3D虚拟人技术产品，支持淘宝直播虚拟主播，虚拟讲师等业务场景。技术覆盖虚拟人生成，驱动，交互领域。在高精度人脸人体重建，卡通捏脸（photo2avatar），真人复刻（video2avatar），文本语音驱动（speech2action），虚拟人交互对话等方向有业界领先的技术积累。赋能娱乐交互，智能教育，新零售，AR/VR/XR等行业。
多媒体AI解决方案

通过多媒体音视频数据中的结构化、人脸识别、音视频指纹、内容生成、智能审核，多模态搜索等媒体AI技术，为数字媒体行业提供版权保护、媒体编目、媒体编辑、媒体审核、多模态搜索等功能，有效的提升数字媒体行业能效并节省成本。目前，已与央视、人民日报、新华社等国内知名数字媒体企业建立合作。
Analytical Insight of Earth (AI EARTH)

通过综合运用计算机视觉分析技术，实现多源对地观测数据的智能解译，提取地表覆盖现状和动态变化信息，改变传统数据处理效率低、精度差等弊端，为自然资源监管、水利河道保护、生态环境监测、农业估产和应急防灾减灾等多个领域提供高效解决方案。

研究团队

徐盈辉达摩院视觉智能实验室负责人

日本国立丰桥技术科学大学计算机科学博士，曾任理光日本中央研究所研究员，阿里搜索事业部搜索排序和基础算法的负责人，菜鸟人工智能部负责人。理光集团Minori award 获得者，05年日本自然语言学会年度最佳论文，sigir17最佳论文提名，阿里巴巴电商平台个性化搜索体系开创者之一。研究领域涉及，信息检索，机器学习，机器视觉，自然语言处理等。现任中国中文信息处理学会理事，达摩院内机器智能部机器视觉实验室负责人。

ZELNIK, Lihi达摩院以色列实验室负责人

曾任以色列理工学院电气工程系的副教授，纽约康奈尔大学的客座教授。拥有魏茨曼科学研究所计算机科学博士。一直致力于计算机视觉的研究。曾任CVPR'16的项目主席，TPAMI的副主编，多次担任CVPR，ECCV的区域主席，并担任ACCV'18和CVPR'19的奖项委员会成员。在2021/22年，她将担任CVPR'21和ECCV'22的主席。

Itamar Friedman资深技术专家

拥有以色列理工学院电子工程学院的计算机视觉和机器学习硕士学位。研究领域是基于深度学习的视频和图像分析。他曾是Visualead的首席技术官，在机器人和网络开发领域曾连续创业。曾是Microsoft Accelerator TLV的导师，指导以色列领先的医疗和无人机领域的AI创业公司，拥有多项专利。

潘攀达摩院视觉智能实验室资深算法专家

拥有伊利诺伊大学芝加哥分校博士学位。负责电商领域的视觉技术研发。拍立淘以图搜图的创始人之一，研究领域包括深度学习、视觉搜索与识别和三维视觉等。曾先后在三菱美国研究院和富士通北京研发中心从事视觉技术工作。已发表20余篇论文，拥有10余授权专利。

刘铸达摩院视觉智能实验室资深技术专家

拥有纽约大学博士，研究领域包括视频内容理解和分析，三维视觉，机器学习。曾任AT&T科研实验室主任科学家，哥伦比亚大学和纽约大学的客座教授。拥有170多项美国专利，发表70余篇论文。曾获AT&T科技奖章。IEEE高级会员，IEEE TMM和SPL副主编。

李昊达摩院视觉实验室资深算法专家

拥有中科院博士学位，负责实景视觉理解技术研发，涉及遥感影像智能解译、X光物流目标识别、人脸打卡、新零售、智慧园区等，相关技术包括深度学习模型压缩，人脸识别，reID，图像搜索等。发表文章20余篇，拥有20余项授权专利。

王永攀达摩院视觉实验室资深算法专家

拥有浙江大学硕士学位，负责OCR方向，技术覆盖图文检测、文字识别、结构理解、端OCR、视频OCR等方向，构建一套完整的泛OCR技术体系，发表多篇论文和专利，主办竞赛，在OCR方向上享有影响力。负责读光云产品，该产品在集团管控、广告等和云上金融、海关等场景中应用广泛，同时，致力于技术公益项目"视觉无障碍-听图购"和"古籍识别-文源"

学术成果

论文

L. Cheng, X. Zhou, L. Zhao, D. Li, H. Shang, Y. Zheng, P. Pan, Y. Xu：Weakly Supervised Learning with Side Information for Noisy Labeled Images. ECCV 2020.
L. Song, P. Pan, K. Zhao, H. Yang, Y. Chen, Y. Zhang, Y. Xu, R. Jin: Large-Scale Training System for 100-Million Classification at Alibaba. KDD 2020.
X. Zhou, P. Pan, Y. Zheng, Y. Xu, R. Jin: Large scale long-tailed product recognition system at Alibaba. CIKM 2020.
J. Dong, Z. Cao, T. Zhang, J. Ye, S. Wang, F. Feng, L. Zhao, X. Liu, L. Song, L. Peng, Y. Guo, X. Jiang, L. Tang, Y. Du, Y. Zhang, P. Pan, Y. Xie: EFLOPS: Algorithm and System Co-Design for a High Performance Distributed Training Platform. HPCA 2020.
Q. Qian, L. Chen, H. Li, R Jin. DR Loss: Improving Object Detection by Distributional Ranking. CVPR 2020.
L. Han, P. Wang, Z. Yin, F. Wang, H. Li. Exploiting Better Feature Aggregation for Video Object Detection. ACMMM 2020.

竞赛

2020年，获ECCV VIPriors Semantic Segmentation challenge 第一名
2020年，获ECCV Tracking Any Objects Challenge 第一名
2020年，获ECCV Visual Domain Adaption Challenge 第一名
2020年，获ECCV lvis竞赛第二名
2019年，获LPIRC分类任务第一名
2019年，获CVPR/WebVision超大规模分类挑战赛: 基于网络数据学习的视觉理解第一名
2019年，获ICCV/COCO 检测分割挑战赛第一名
2020年，获CVPR/DAVIS 视频目标分割挑战赛第一名
2020年，获CVPR/iNaturalist: FGVC细粒度分类挑战赛第二名
2020年，获CVPR/BMTT MOT挑战赛:多目标跟踪和分割第二名
2020年，获CVPR Activitynet: Temporal Action Localization 第一名
2020年，获CVPR HACS Temporal Action Localization 第一名
2019年，获ICCV Light Weight Face Recognition Challange 第三名
2018 KITTI囊括三项道路场景分割任务第一。
2017ACM多媒体大会，大规模视频分类比赛（LSVC）冠军。

一、视觉生产简介与理解

（一）定义

就视觉而言一般来说有两大类：一类是视觉理解，比如检测、分割等；另外一类

是视觉生产，也可以理解为怎么去产生视觉，指通过一个 / 一系列视觉过程，产出新

的视觉表达。如下图所示，有两点需要注意，一是这里的视觉表达指的是人或机器能

够感知的图像视频，而不是标签或特征，二是产出新的视觉表达，和输入是不一样的

视觉表达。在过去，图中所示的过程大多数由人来完成，比如设计师、美工等用 PS

等工具完成，现在，我们希望通过技术能够实现这个过程。

（二）分类

如下图所示，视觉生产主要包括生成、拓展、摘要、升维，另外还有增强 / 变

换、插入 / 合成、擦除等。达摩院在该领域已经投入了很多人力和精力，也形成了一

些产品，比如鹿班、画蝶、视觉智能开放平台等。 6 　　>　视觉生产技术探索和应用

（三）通用基础框架

视觉生产有自己基本的通用框架，如下图所示。可能在细节上有细微不同，

但是一般来讲其逻辑是类似的，包括请求（Request）、分发（Dispatch）、服务

（Service）和响应（Response）四大部分。视觉生产技术探索和应用　<　 7

（四）五个关键维度

如下图所示，要保证视觉生产有一个好的结果或者说可用的结果，其至少应满

足可看、合理、多样、可控、可用五个维度，只有这样，才能在工业界产生真正的价

值，而不仅仅是一个停留于理论的技术。

二、精细理解——寻微入里

如果想生产一个视觉，首先我们要理解输入的视觉，也就是需要精细的理解视

觉。“理解”其实包括如下几个过程：

●

识别：知道是什么，比如人的识别、物的识别；

●

检测：识别 + 知道在哪，比如缺陷检测、多目标检测；

●

分割：识别 + 检测 + 知道每一个像素是什么。

其中，视觉分割是生产的必要前置步骤，也是学术界和工业界的一个热点，同时

也是难点，因为进行分割时往往有复杂的背景和各种遮挡关系，或者在分割时对其要

求非常高，比如发丝级、镂空等，另外还可能面临边缘发色、透明材质、多目标 / 多

尺度进行分割等问题。实际上，分割时遇到的这些难题归根到底是标注成本高、数据

严重不足的问题，更进一步，即使标注出来了，但是想要精细得将其分割出来，成本 8 　　>　视觉生产技术探索和应用

是成倍增加的。

阿里云高校计划，陪伴两千多所高校在校生云上实践、云上成长。在这里你可以领用免费的cpu资源，还可以参加免费训练营，实践提高：https://developer.aliyun.com/adc/student/

您可能感兴趣的与本文相关的镜像

PyTorch 2.6

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理