实测万相2.1文生视频大模型:能歌善舞、能写会画,堪比四栖艺术家

阿里最新开源的视频生成模型阿里万相Wan2.1火遍全网,不仅迅速在全球权威垂直类榜单VBench上登顶,完胜‌Sora,更在整个AI界,乃至内容创意领域一石激起千层浪,开启了视频生成的无限可能。

今天就让我们来看看万相2.1到底支持哪些炫酷好玩的功能吧~

万相2.1叠了哪些好玩的buff?

  1. 懂中文:首次实现基于中文提示词的视频生成,再阳春白雪的表达都能听懂。
  2. 会写字:首创了中文艺术字与多种特效,告别书写“鬼画符”的文盲AI。
  3. 有审美:懂得电影质感的运镜,还能实现水墨晕染等东方美学表达,0预算拍大片也不是不可能。
  4. 能跑会跳:在大幅度复杂运动、物理规律遵循方面十拿九稳,消除了AIGC人物动作的塑料感。

(prompt:一只非常可爱的柯基狗,带着笑容,叼着一根木棍,从一片草丛中,向你奔跑过来。视频的背景有天空和阳光,整体色调柔和。)

哪里能玩万相2.1?

万相2.1现已上线东方超算AI应用商店(访问网址appmall.ai),使用价格低至2.3元/小时,平台按分钟数实际计费,比如使用10分钟,那么只会收费约0.4元。

您可以查看《手把手教你玩转AppMall》,了解安装开启站内应用全流程。

在线安装后如何上手?

(1)用户界面什么样?

万相2.1的用户界面非常简单,一共分为3个区域:(左上)提示词输入,(左下)优化参数,以及(右侧)结果生成。

比较值得展开讲讲的是(左下)优化参数区域,目前有4个可调节参数,分别是:

  1. Diffusion steps(扩散步数):表示模型从纯噪声逐步生成视频帧的迭代次数,数值50意味着生成过程要经历50 次处理,数值越大,视频画面越精细,但耗时也更长。
  2. Guide scale(引导尺度):用来控制文本提示对生成视频的影响程度,6表明在生成时会较严格遵循文本描述,数值越高,生成内容和提示相关性越强,可能也会更缺乏多样性。
  3. Shift scale(移位尺度):该参数影响视频帧之间的变化和连贯性,数值8代表一种特定的变化幅度调节,数值越大,视频帧间变化可能越明显。
  4. Seed(随机种子):-1代表未指定固定随机种子,每次生成会是不同结果。若指定具体数值,在相同参数下可复现相同视频生成效果,便于调试和获得一致内容。

(2)提示词如何写?

文生视频,“文”是一切的前提。提示词越详细,生成视频效果会越好,但也不宜过长,否则会影响万相2.1大模型的理解,生成过程的时长也会被无限拉长(实测一般长度提示词至少需要300s以上的生成时长)。

一般来说,提示词应该至少包括画面主体(比如,人、地、物、事、情),背景信息(环境、色调、动作、颜色、场景)等。

如果说自己大致知道想要什么感觉的画面,但对细节难以校准的话,可以利用豆包、通义千问等,先请AI帮忙撰写一段提示词,再复制到万相2.1里。

万相2.1最适合用在哪些场景?

(1)中文艺术字生成。

(prompt:一只手拿着一支笔,在红纸上用墨写下一个“福”字。)

(2)中文复杂语意/电影感场景生成。利用前面这段由豆包AI撰写的复杂语意提示词,可以看到万相2.1的对中文的理解,以及最终视频的生成效果,都超出预期。

(prompt:身着素色汉服、青丝挽起的女子,撑着淡蓝色油纸伞,于烟雨江南的石桥款步而来。脚下青石板泛着水光,石桥边流水碧绿。她衣袂飘飘,裙上白梅隐约,眉眼低垂含愁。远处山峦被薄雾笼罩,似水墨洇开,山脚下白墙黛瓦,炊烟袅袅。河面漂着粉色桃花瓣,岸边垂柳柔枝轻摇。画面以淡雅水墨色调为主,点缀亮色,尽显东方温婉诗意与独特韵味。)

(3)精细动作生成。

(prompt:身着潮流街头服饰的舞者,伴着动感的电子音乐,有力地摆动身体,利落的滑步穿梭于光影之间,快速的手臂挥舞带起阵阵风。)

(4)电影感运镜生成。

(prompt:一片沙滩上,海浪有节奏地拍打着海岸,镜头从下方的山脊逐渐拉近海面。)

快来appmall.ai,探索更多AI应用的可能吧~

### 关于万相2.1模型部署至魔塔平台的方法教程 #### 准备阶段 为了成功将万相2.1模型部署到魔塔平台上,需先完成一系列准备工作。确保环境配置正确无误对于后续操作至关重要[^1]。 #### 环境搭建 安装必要的依赖库和工具包是必不可少的一环。具体来说,应按照官方文档指示设置Python虚拟环境,并通过pip命令安装指定版本的PyTorch和其他辅助软件包。此外,还需下载并解压预训练好的万相2.1权重文件以便加载使用。 #### 数据准备 针对特定应用场景调整输入数据格式同样重要。通常情况下,需要编脚本来批量转换原始图片集成为符合预期标准的数据结构形式。此过程可能涉及到图像尺寸统一化处理、色彩空间变换等一系列预处理措施。 #### 模型迁移适配 考虑到不同框架之间的差异性,在实际移植过程中可能会遇到API接口不兼容等问题。此时可以参考开源社区内相似案例的经验分享来解决问题;必要时修改源码实现自定义层或函数以满足目标平台的要求。 #### 测试验证 最后一步是对整个系统进行全面的功能性和性能测试。一方面要确认各个模块能否正常协同运作达到预期效果;另一方面则关注推理速度、资源占用率等方面的表现指标是否理想。只有经过充分检验后的方案才能正式上线投入使用。 ```python import torch from PIL import Image from torchvision.transforms import Compose, Resize, ToTensor def load_model(model_path): model = torch.load(model_path) model.eval() return model transform_pipeline = Compose([ Resize((256, 256)), ToTensor(), ]) image = Image.open('example.jpg') input_tensor = transform_pipeline(image).unsqueeze(0) model = load_model('wanxiang_v2_1.pth') # 假设这是保存有万相2.1参数的路径 output = model(input_tensor) print(output.shape) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值