数字人技术在近年来得到了越来越多的关注,其中最引人注目的便是生成式AI技术。随着这些技术的逐步完善和应用,数字人技术正在变得越来越接近真实。
作为数字人技术中的重要一环,图像换脸技术(即deepfake),已经被广泛应用于电影、电视剧等领域。通过使用深度学习算法及生成式模型,图像换脸技术可以将两张不同脸部的图片进行精细合成,使得换脸后的图像非常逼真。为了让深度学习模型能够更好地学习到面部特征,研究者们还开发了一系列辅助工具,例如wav2lip、PaddleGAN、FaceSwap等。这些工具不仅可以提升图像换脸技术的效果,还可以扩大其应用范围,例如可以将一个演员的脸替换成另一个演员的脸,或者将一个虚构角色的脸替换成现实人物的脸等。
与此同时,声音转嘴唇技术也在不断发展。这种技术可以将语音转化为对应的嘴型动画,并实现与之配合的图像和声音同步。最初,这项技术主要是通过利用LSTM等循环神经网络模型,辅以图像生成器来实现。但是,这种方法虽然能够在一定程度上实现语音转嘴唇的效果,却需要大量的训练数据,并且难以处理长时间的语音信号。因此,研究者们又研发了一系列新的算法,例如audio2face、Lip Generation、Talking Head