从大模型到内容生成，初窥门径的AI新次元

阿里云CloudImagine

于 2023-11-21 17:29:02 发布

阅读量452

点赞数

CC 4.0 BY-SA版权

分类专栏： AIGC与媒体生产文章标签：云计算视频云 AIGC

本文链接：https://blog.youkuaiyun.com/VideoCloudTech/article/details/134537099

本文讨论了Gartner发布的AI技术趋势下，阿里云视频云如何利用大模型构建行业垂直场景，提升音视频服务。文章详细介绍了AI在音视频领域的挑战和机遇，以及阿里云在视觉算法、媒体服务中的实践，包括大模型的算法系统、AIGC应用和未来展望。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

视频云AI进化新纪元。

最近Gartner发布2024年十大战略技术趋势，AI显然成为其背后共同的主题。全民化的生成式人工智能、AI增强开发、智能应用......我们正在进入一个AI新纪元。

从ChatGPT的横空出世，到开发者大会的惊艳亮相，OpenAI以一己之力掀起生成式AI产业变革。与此同时我们也看到，AI正以超乎想象的进化速度，给云服务和音视频带来了更多机遇与挑战。

在“云智深度融合”的行业共识之下，如何用好大模型，构建出符合行业需求的垂直场景模型，如何将生成式AI更好地与实际业务相结合，最大化发挥云服务“最佳拍档”的优势，已成为视频云领域甚是关心的话题。

同时，我们也对AI技术在音视频的进一步渗透，以及视频云应用场景的拓宽充满好奇与期待。

我们对话了「阿里云视频云」视觉算法方向负责人刘国栋、媒体服务负责人邹娟，一起围绕视频云大模型探索与AIGC实践应用，聊聊阿里云视频云在AI方向的新进展与新思考。

01 一场AI的热力风暴

高热的OpenAI开发者大会，给大模型与生成式AI风潮再次升温。在AI的遽变中，我们看到音视频的“危”与“机”都面临着更为深刻的变革。同时，我们希望获得AI的全面加持，在音视频全链路中将云智进行更深入地融合，从而提升整体音视频服务水平。

Q1：最近OpenAI开发者大会可以说是AI届的“科技春晚”，哪些令你印象深刻？

印象深刻的内容有很多，比如，OpenAI最新推出的GPT-4 Turbo模型，拓展到了128K的上下文窗口长度，实现了模型知识库的全面升级，支持DALL.E 3、GPT4-Vision、TTS等多模态API，以及支持模型微调定制；在开发者生态构建方面，OpenAI发布了GPT Assistants API和GPT Store，让开发者可以更方便地调用模型以及共享GPT的创意玩法；首次推出可为特定目的进行自定义的GPT，让不懂代码的用户也可轻松创建自己的ChatGPT版本。

毫无疑问，OpenAI带来的震撼是巨大的。它不只带来革命性的技术，而且已经开始构建自己的生态系统了，从炼丹走向商业化。同时，它也让我们看到AI技术已经进化到了更高层次，特别是在多模态理解与生成，语言理解与生成，以及GPT-4 Turbo作为决策中心的能力等方面，这些都与音视频技术有着直接或间接的联系，让我们看到了音视频技术发展的更多可能性。