视频生成的控制方式类似于使用 [ControlNetModel 控制文本到图像、图像到图像和修复的方式]。唯一的区别是需要使用 [~pipelines.text_to_video_synthesis.pipeline_text_to_video_zero.CrossFrameAttnProcessor],因此每个帧都和第一帧关联。
Text2Video-Zero视频生成可以以姿势和边缘图像为条件,以更好地控制生成视频中主体的运动,或保留视频中主体/物体的身份。您还可以将 Text2Video-Zero 与 InstructPix2Pix 一起使用来编辑带有文本的视频。
import os os.environ["HF_ENDPOINT"] = "https://hf-mirror.com" rom huggingface_hub import hf_hub_download from PIL import Image import imageio
# 以下代码加载姿态控制视频
filename = "__assets__/poses_skeleton_gifs/dance1_corr.mp4"
repo_id = "PAIR/Text2Video-Zero"
video_path = hf_hub_download(repo_type="space", repo_id=repo_id, filename=filename)
reader = imageio.get_reader(video_path, "ffmpeg")
frame_count = 8
pose_images = [Image.fromarray(reader.get_data(i)) for i in range(frame_count)]
import t