根据科技媒体的报道,最近deepmind的新模型VQ-VAE-2的生成效果甚至超过了BigGAN,作为生成模型的初学者,我知道GAN,知道AE和VAE,但是却对这篇文章的VQ没有了解。“这会是一种新的生成模型吗”—这个问题使我想一探究竟。
效果图
容我先放几张模型生成的图片来吸引读者的阅读兴趣。你相信这些人脸只是模型臆想出来的吗,这么优美的图像细节到底是如何产生的呢
模型架构
让我们先从一个高层的角度审视一下整个模型,我喜欢这种思维方式—从大到小的思维方式,我想这可能也比较符合中国人的思维方式。当然,这个模型里面的很多东西你可能并不懂,但是这并不影响我们建立对它的整体认知。
该篇文章的整体架构来自于第一代VQ-VAE,其架构图如下:
根据上述模型图,配合图中我加上