背景-全民直播大时代
在疫情的影响下,直播从传统的秀场应用逐渐渗透到行业的各个领域。包括在线课堂,旅游,政企,房车销售等等,可以说是全民直播时代已经到来。
在这样的一个大背景下,过去一年淘宝直播得以快速发展。2019年,淘宝直播拥有了4亿+的年度用户规模,有100万+年度主播入驻,2000亿+年度直播成交以及4000万+直播商品。春节期间,钉钉在线课堂更是有350万+的教师主播,为1.2亿+中小学生提供了在线课程服务。
直播痛点分析
在这么大的一个业务体量下,我们将会面对非常多的难点与挑战。总的来说,包含以下三个部分,首先是成本,包括带宽、存储和转码三个方面。其次是用户体验,例如画质,音质,秒开、卡顿和延时。最后是效率方面,例如开播的效率、审核的效率和理解分发的效率。接下来我们就来看一下淘宝在成本和体验优化方面做了哪些工作。
淘宝直播窄带高清技术
▐ 淘宝直播窄带高清
淘宝直播有三大核心技术,第一大核心技术是端上窄带高清。我们采用HEVC编码实现了720p,25fps,800kbps的压缩,并且PSNR> 43db/VMAF>90。端上窄带高清技术主要应用有三个方面:第一是音视频增强,采用基于AI的图像增强、美颜和语音增强来提高生产质量。第二是感知处理,采用信源信道联合自适应编码。第三是S265编码器,S265编码器是业界领先的HEVC编码器。
第二大核心技术是零转码系统,我们实现了端到端原始流生产的和播放,成功的解决了两个核心的痛点问题:不同网络速度的兼容和不同播放设备的兼容,后者主要通过高性能解码器实现iOS,Android和H5三端的100%解码。
第三大核心技术是低延时技术,我们实现了端到端秒级延时。主要依靠两个技术,一个是基于RTC的实时直播系统,第二个是S265低延时编码技术。
▐ 淘宝直播系统架构
如图所示淘宝直播的系统架构,从生产侧来看,有采集、增强、感知处理、S265编码四个环节。云端我们有边缘的接入,有中心接入、切片录制和CDN分发以及边缘分发。在播放端有拥塞控制、解码、渲染和显示。除此之外,在云端还有内容审核,质量监控,内容理解和智能分发。
▐ 端上窄带高清
生产侧的第一个环节是图像增强,为了提升主观质量,我们引入了图像增强技术,对编码前的视频做去噪、去抖、纹理增强以及美颜、美型的功能。除此以外,在后处理部分,我们还引入了适时超分和HDR技术来提高观看质量。在美颜、美型以及图像处理等方面,我们引入了GPU的技术,包括内存带宽优化、shader优化、Pipeline优化等等以减少GPU的开销。
针对音质的优化,我们采用了智能降噪技术。无论是在STO还是PESQ的指标上都显著高于传统WebRTC算法,在性能和包大小方面也都可以实现普通设备的覆盖。下面播放的三段音频,分别是原始音频、RTC降噪和阿里降噪音频。原始音频我们可以明显听到马路上车呼啸而