视频云AI进化新纪元。
最近Gartner发布2024年十大战略技术趋势,AI显然成为其背后共同的主题。全民化的生成式人工智能、AI增强开发、智能应用......我们正在进入一个AI新纪元。
从ChatGPT的横空出世,到开发者大会的惊艳亮相,OpenAI以一己之力掀起生成式AI产业变革。与此同时我们也看到,AI正以超乎想象的进化速度,给云服务和音视频带来了更多机遇与挑战。
在“云智深度融合”的行业共识之下,如何用好大模型,构建出符合行业需求的垂直场景模型,如何将生成式AI更好地与实际业务相结合,最大化发挥云服务“最佳拍档”的优势,已成为视频云领域甚是关心的话题。
同时,我们也对AI技术在音视频的进一步渗透,以及视频云应用场景的拓宽充满好奇与期待。
我们对话了「阿里云视频云」视觉算法方向负责人刘国栋、媒体服务负责人邹娟,一起围绕视频云大模型探索与AIGC实践应用,聊聊阿里云视频云在AI方向的新进展与新思考。
01 一场AI的热力风暴
高热的OpenAI开发者大会,给大模型与生成式AI风潮再次升温。在AI的遽变中,我们看到音视频的“危”与“机”都面临着更为深刻的变革。同时,我们希望获得AI的全面加持,在音视频全链路中将云智进行更深入地融合,从而提升整体音视频服务水平。
Q1:最近OpenAI开发者大会可以说是AI届的“科技春晚”,哪些令你印象深刻?
印象深刻的内容有很多,比如,OpenAI最新推出的GPT-4 Turbo模型,拓展到了128K的上下文窗口长度,实现了模型知识库的全面升级,支持DALL.E 3、GPT4-Vision、TTS等多模态API,以及支持模型微调定制;在开发者生态构建方面,OpenAI发布了GPT Assistants API和GPT Store,让开发者可以更方便地调用模型以及共享GPT的创意玩法;首次推出可为特定目的进行自定义的GPT,让不懂代码的用户也可轻松创建自己的ChatGPT版本。
毫无疑问,OpenAI带来的震撼是巨大的。它不只带来革命性的技术,而且已经开始构建自己的生态系统了,从炼丹走向商业化。同时,它也让我们看到AI技术已经进化到了更高层次,特别是在多模态理解与生成,语言理解与生成,以及GPT-4 Turbo作为决策中心的能力等方面,这些都与音视频技术有着直接或间接的联系,让我们看到了音视频技术发展的更多可能性。
Q2:你提到AI技术为音视频带来更多可能性,与此同时是否也带来了新的冲击?音视频领域对AI的要求是否更苛刻?
在音视频领域中,我们看到,音视频服务已广泛应用于互娱、广电传媒、教育、金融等各种行业,对场景的渗透也越来越深。这些行业、场景对体验的追求愈来愈高,同时用户希望用得起、更普惠,这都要求音视频服务具有高度的智能化。将提升音视频服务质量寄希望于AI,已逐渐成为业界共识。
随着AIGC的日新月异,音视频领域的AI技术也呈现出了新的趋势,即对算法的通用性、理解能力、生成能力都提出了更高的要求。过去纯粹的定制小模型开发、单模态处理和预测范式不再完美适配,而是走向了泛化能力非常强的预训练大模型、多模态信息融合、生成式范式等技术领域