Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation 翻译

最新推荐文章于 2026-01-09 21:51:15 发布

原创

最新推荐文章于 2026-01-09 21:51:15 发布 · 1k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

Doc2X：科研翻译与解析工具
提供批量PDF处理、公式解析、多栏识别，以及 GPT 翻译与深度语料提取功能。
Doc2X: Research Translation and Parsing Tool
Offers batch PDF processing, formula parsing, multi-column recognition, along with GPT translation and corpus extraction.
👉 立即使用 Doc2X | Use Doc2X Now

原文链接：https://arxiv.org/pdf/2410.13848

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Janus：解耦视觉编码以实现统一的多模态理解和生成

Chengyue ${\mathrm{ {Wu}}}^{1,2}\;$ Xiaokang ${\mathrm{ {Chen}}}^{1,*, \dagger }\;$ Zhiyu ${\mathrm{ {Wu}}}^{1,3}\;$ Yiyang ${\mathrm{ {Ma}}}^{1,3}\;$ Xingchao ${\mathrm{ {Liu}}}^{1}\;$ Zizheng Pan ${}^{1}$ Wen Liu ${}^{1}$ Zhenda Xie ${}^{1}$ Xingkai Yu ${}^{1}$ Chong Ruan ${}^{1}$ Ping Luo ${}^{2, * }$