大规模机器学习在爱奇艺视频分析理解中的实践-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_33806914/article/details/89147044

视频包含了图像、声音、文字等多种信息，可以表达生动、丰富的内容。随着AI时代的带来，互联网视频应用高速发展，视频更成为一种人人可生成的内容，数据量暴涨。如何利用机器学习将海量的视频内容充分利用起来，成为 AI 领域研究人员和企业开发应用的重要课题。本文，我们将分享爱奇艺资深科学家王涛在 AICon 上的精彩演讲，介绍爱奇艺在大规模视频分析理解方面的实践探索。

我会从以下几个方面给大家分享，爱奇艺在互联网视频AI方面的实践工作。

演讲大纲：

互联网视频发展现状
视频理解应用场景
深度学习核心算法
实验结果分析
总结与展望

互联网视频发展现状

$\"image\"$

首先，互联网视频行业的用户和数据量正在飞速增长。中国在线视频用户超过6亿，占全国互联网用户的75%。仅在爱奇艺视频平台，用户月观看时长超过60亿小时，接近甚至超过了美国Youtube的观看时长。爱奇艺有十几万部PGC专业影视剧，千万级的UGC用户生成短视频，视频数据量巨大。此外，传递视频的网络带宽巨大，爱奇艺的总带宽达到 49TB。海量用户、视频和带宽，对我们的工作带来巨大的挑战，必须要借助AI进行有效的分析处理，才能够提高用户体验和生产运营效率。

下面介绍我们这个行业在做什么事。爱奇艺视频是一个苹果园生态，核心是提供视频内容给用户观看，上游有文学、漫画，下游有票务、商城、游戏、直播等内容衍生品，围绕IP打造成了一个从创作，观看，到消费变现的闭环生态系统，为用户提供全方位的娱乐服务。这其中最重要的是IP，通过IP内容连接人与服务，通过AI提升极致的视听体验效果和各环节的生产运营效率。

视频理解应用场景

$\"image\"$

AI在互联网视频行业的成功应用，主要依赖以下几方面的核心要素：

（1）可供训练的大数据。

（2）精准算法，如正在进行的视频分析识别与语义理解等算法。

（3）计算芯片，需要非常强大的计算力。

（4）好的落地场景，更便捷的服务。

$\"image\"$

如上图所示，爱奇艺从创作、生产、分发、变现，到客户体验的每个环节，都有了AI的用武之地。

智能创作

$\"image\"$

这是 AI 在视频创作中应用，利用AI算法，可以生成特定风格化的视频，比如漫画风格等，还可以智能化添加虚拟道具和特效，让用户拍摄的短视频更加酷炫有趣。AI还可以自动生成背景音乐，根据视频内容的特点生成不同风格的配曲。

智能生产

$\"image\"$

接下来是AI在生产流程里的应用。首先是是智能拆条，视频进来之后，把片头、片尾和广告去掉，其次是标注，就像把所有的商品打上标签一样，根据这个标签进行推荐和搜索。然后是审核，过滤盗版、情色等内容。最后是播放处理，比如自动生成封面和动态海报图，帮助对剪辑不熟悉的自媒体用户选取魅力封面图，也提高了海量视频的分发效率。目前爱奇艺首屏的每一栏目左上角都有动态的海报图，AI 会把视频的精彩的片段识别出来进行播放，帮助用户更好地选择视频内容。

$\"image\"$

视频标注为视频打上时间-语义标签，是AI视频理解的关键。标签有不同类别、层次和粒度，例如识别不同人物、行为、场景、物品等等，还可以用于对内容和用户的精细化分析，例如年龄、表情、服装款式，手机品牌等，更好地进行搜索推荐，实现精准的内容分发。

$\"image\"$

AI可用于人物识别，实现用户仅观看喜欢演员片段的“只看TA”应用。在著名的Labeled Faces in the Wild（LFW）等图片数据集上，人脸识别精度达99%，超过了人类的识别能力。但在真实视频场景中，由于分辨率，姿态，表情，还有化妆等干扰因素给人物识别任务带来巨大挑战，仍然有很多研究工作急需突破。爱奇艺发布的全球最大的明星影视剧视频数据集（iQIYI-VID）上，一般技术仅达到 80%左右的识别精度，现在全球通过人脸特征做得最好的精度是 88%，爱奇艺通过人脸，头部和音频等多特征融合方法获得89%精度。更进一步，我们除了识别人，还要识别人体姿势、行为，穿的什么衣服、鞋子等属性信息，用于以图搜剧和情景广告等应用。