Google Veo 3.1视频生成模型升级,图像转视频能力增强

Google发布了其Veo AI视频生成模型的最新更新版本,新版本在遵循提示指令和将图像转换为视频方面表现更出色。Veo 3.1现已通过Google的Gemini API开放试用,同时也为公司的Flow视频编辑器提供技术支持。

Veo 3.1在Google I/O 2025大会上发布的Veo 3基础上构建了新功能。据Google介绍,新模型具有更好的"提示遵循"能力,能够更轻松地根据用户上传的图像"素材"和书面提示创建视频。Veo 3.1还实现了同时进行图像转视频和音频生成的功能,这是Veo 3所不具备的能力。

在Flow编辑器中,Veo 3.1支持一项新功能,让用户对生成的视频拥有更精细的控制。通过Google称之为"帧到视频"的功能,Flow允许用户上传首帧和尾帧,然后生成中间的视频内容。由Veo 3驱动的Adobe Firefly也提供类似功能,但Flow能够在完成这一任务的同时创建音频。这些增强的音频功能也适用于视频编辑器的剪辑延展和在现有素材中插入对象的能力。

根据Google分享的样本,使用Veo 3.1生成的视频仍然具有某种奇异的质感,效果似乎会根据提示和主题的不同而大幅变化。尽管可能在真实感方面还不如OpenAI的Sora 2,但Google决定让Veo对真正从事视频工作的人员更有用,而不是成为社交媒体垃圾内容的来源,这一做法值得赞赏。

Q&A

Q1:Google Veo 3.1相比之前版本有什么改进?

A:Veo 3.1在提示遵循能力方面有显著提升,能更好地根据用户上传的图像和文字提示创建视频。最重要的是,它可以同时进行图像转视频和音频生成,这是之前Veo 3不具备的功能。

Q2:Flow视频编辑器的"帧到视频"功能是什么?

A:"帧到视频"功能允许用户上传视频的首帧和尾帧,然后由AI生成中间的视频内容。与Adobe Firefly类似功能不同的是,Flow可以在生成视频的同时创建音频,提供更完整的视频制作体验。

Q3:Veo 3.1生成的视频质量如何?

A:根据Google分享的样本,Veo 3.1生成的视频仍然具有某种奇异质感,效果会根据不同的提示和主题而有很大变化。虽然在真实感方面可能还不如OpenAI的Sora 2,但整体质量有所提升。


谷歌的 Veo 3 是一个强大的文本视频生成模型,能够根据图像或文本提示生成高质量、高清的视频。虽然目前 Veo 3 的完整实现和 API 接口并未完全开源,但可以通过 Vertex AI 平台使用该模型的预训练版本。以下是一个模拟的 API 使用示例,展示了如何通过类似 Veo 3模型图像换为视频。 假设有一个基于 PyTorch 的简化版本,以下是一个示例代码片段,用于演示图像视频生成的基本流程: ```python import torch from torchvision import transforms from model import Veo3Model # 假设的模型定义模块 # 加载预训练的 Veo3 模型 model = Veo3Model.load_pretrained("veo3_pretrained.pth") model.eval() # 图像预处理 preprocess = transforms.Compose([ transforms.Resize((256, 256)), transforms.ToTensor(), ]) # 加载输入图像 input_image = Image.open("input_image.jpg") input_tensor = preprocess(input_image).unsqueeze(0) # 添加 batch 维度 # 设置生成参数 num_frames = 30 # 生成视频的帧数 fps = 10 # 视频帧率 # 生成视频 with torch.no_grad(): generated_video = model.generate_video(input_tensor, num_frames=num_frames) # 保存生成的视频 output_path = "generated_video.mp4" save_video(generated_video, output_path, fps=fps) print(f"生成的视频已保存到 {output_path}") ``` 在上述代码中,`Veo3Model` 是一个假设的模型类,`generate_video` 是模型的一个方法,用于从输入图像生成视频。`save_video` 是一个假设的函数,用于将生成的视频帧保存为 MP4 文件。 请注意,这只是一个示例,实际的 Veo 3 API 可能会有不同的接口和参数。对于实际使用,建议查阅 Google 的官方文档或 GitHub 项目页面以获取最新的 API 文档和示例代码[^2]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值