视频包含了图像、声音、文字等多种信息,可以表达生动、丰富的内容。随着AI时代的带来,互联网视频应用高速发展,视频更成为一种人人可生成的内容,数据量暴涨。如何利用机器学习将海量的视频内容充分利用起来,成为 AI 领域研究人员和企业开发应用的重要课题。本文,我们将分享爱奇艺资深科学家王涛在 AICon 上的精彩演讲,介绍爱奇艺在大规模视频分析理解方面的实践探索。
我会从以下几个方面给大家分享,爱奇艺在互联网视频AI方面的实践工作。
演讲大纲:
互联网视频发展现状
视频理解应用场景
深度学习核心算法
实验结果分析
总结与展望
互联网视频发展现状
首先,互联网视频行业的用户和数据量正在飞速增长。中国在线视频用户超过6亿,占全国互联网用户的75%。仅在爱奇艺视频平台,用户月观看时长超过60亿小时,接近甚至超过了美国Youtube的观看时长。爱奇艺有十几万部PGC专业影视剧,千万级的UGC用户生成短视频,视频数据量巨大。此外,传递视频的网络带宽巨大,爱奇艺的总带宽达到 49TB。海量用户、视频和带宽,对我们的工作带来巨大的挑战,必须要借助AI进行有效的分析处理,才能够提高用户体验和生产运营效率。
下面介绍我们这个行业在做什么事。爱奇艺视频是一个苹果园生态,核心是提供视频内容给用户观看,上游有文学、漫画,下游有票务、商城、游戏、直播等内容衍生品,围绕IP打造成了一个从创作,观看,到消费变现的闭环生态系统,为用户提供全方位的娱乐服务。这其中最重要的是IP,通过IP内容连接人与服务,通过AI提升极致的视听体验效果和各环节的生产运营效率。
视频理解应用场景
AI在互联网视频行业的成功应用,主要依赖以下几方面的核心要素:
(1)可供训练的大数据。
(2)精准算法,如正在进行的视频分析识别与语义理解等算法。
(3)计算芯片,需要非常强大的计算力。
(4)好的落地场景,更便捷的服务。
如上图所示,爱奇艺从创作、生产、分发、变现,到客户体验的每个环节,都有了AI的用武之地。
智能创作
这是 AI 在视频创作中应用,利用AI算法,可以生成特定风格化的视频,比如漫画风格等,还可以智能化添加虚拟道具和特效,让用户拍摄的短视频更加酷炫有趣。AI还可以自动生成背景音乐,根据视频内容的特点生成不同风格的配曲。
智能生产
接下来是AI在生产流程里的应用。首先是是智能拆条,视频进来之后,把片头、片尾和广告去掉,其次是标注,就像把所有的商品打上标签一样,根据这个标签进行推荐和搜索。然后是审核,过滤盗版、情色等内容。最后是播放处理,比如自动生成封面和动态海报图,帮助对剪辑不熟悉的自媒体用户选取魅力封面图,也提高了海量视频的分发效率。目前爱奇艺首屏的每一栏目左上角都有动态的海报图,AI 会把视频的精彩的片段识别出来进行播放,帮助用户更好地选择视频内容。
视频标注为视频打上时间-语义标签,是AI视频理解的关键。标签有不同类别、层次和粒度,例如识别不同人物、行为、场景、物品等等,还可以用于对内容和用户的精细化分析,例如年龄、表情、服装款式,手机品牌等,更好地进行搜索推荐,实现精准的内容分发。
AI可用于人物识别,实现用户仅观看喜欢演员片段的“只看TA”应用。在著名的Labeled Faces in the Wild(LFW)等图片数据集上,人脸识别精度达99%,超过了人类的识别能力。但在真实视频场景中,由于分辨率,姿态,表情,还有化妆等干扰因素给人物识别任务带来巨大挑战,仍然有很多研究工作急需突破。爱奇艺发布的全球最大的明星影视剧视频数据集(iQIYI-VID)上,一般技术仅达到 80%左右的识别精度,现在全球通过人脸特征做得最好的精度是 88%,爱奇艺通过人脸,头部和音频等多特征融合方法获得89%精度。更进一步,我们除了识别人,还要识别人体姿势、行为,穿的什么衣服、鞋子等属性信息,用于以图搜剧和情景广告等应用。