- 博客(2)
- 收藏
- 关注
原创 UniTok-统一视觉生成和理解任务
1.1 视觉生成与理解的挑战在自然语言处理(NLP)领域,自回归(autoregressive)模型(如 GPT)已广泛用于语言生成和理解。类似地,在视觉领域,视觉生成(image generation)和视觉理解(image understanding)也被认为可以采用统一的自回归模型进行建模。生成任务需要高分辨率、细节丰富的编码,通常使用 VQVAE(Van Den Oord et al., 2017)这类离散标记器。理解任务。
2025-03-11 09:16:41
973
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅