近日通义千问发布了Qwen-Image,具有200亿参数的MMDiT图像基础模型,实验表明,该模型在图像生成与编辑方面均展现出强大通用能力,其中文本渲染表现尤为突出,中文场景下的生成效果更是卓越非凡。
我也在魔搭平台上第一时间也体验了一把,例如我输入提示词:炎热的夏天,在河边露营,吃着西瓜。
点击开始生图,右下方可以看到很快就生成了一张图,而且还可以对生成的图片进行修改,看起来功能很强大。
Qwen-Image自动生成的图片:
我们一起来看下Qwen-Image主要功能:
(1)该模型突出的能力之一,是能在各类图像中实现高保真文本渲染。无论是中文还是英语,Qwen-Image都能很准确度保持字体细节、版式协调和语境融合。生成的文字并非简单叠加,而是与视觉元素浑然天成地交织在一起。
(2)除文本渲染外,Qwen-Image在通用图像生成领域同样表现卓越,支持从写实场景到印象派绘画、从动漫美学到极简设计的多元艺术风格。该模型能流畅响应各种创意指令,可以说为艺术家、设计师和内容创作者提供了高度灵活的创作工具。
(3)在图像编辑方面,Qwen-Image突破了简单调整的局限,实现了多项高阶功能:无论是风格迁移、物体增删、细节增强、图中文字修改,还是人物姿态调整,都能通过直观指令获得协调一致的输出效果。这种专业级的操控能力,让普通用户也能轻松实现以往需要专业技巧的编辑操作。
(4)Qwen-Image不仅擅长创作与编辑,更具备深层理解能力。它支持包括目标检测、语义分割、深度与边缘(Canny)估计、新视角合成以及超分辨率重建等一系列图像理解任务。这些技术各异的功能,本质上都可视为基于深度视觉理解的智能图像编辑——只不过是以更专业化的形式呈现。
综合以上特性,Qwen-Image不仅仅是一个生成精美图片的工具,更是一个集语言理解、版式设计和图像处理于一体的智能视觉创作基础模型,实现了文字、布局与视觉元素完美融合。
感兴趣的小伙伴快体验一下吧,该模型的一些参考学习资料如下:
Technical report:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face:https://huggingface.co/Qwen/Qwen-Image
GitHub:https://github.com/QwenLM/Qwen-Image
Demo:https://modelscope.cn/aigc/imageGeneration?tab=advanced
欢迎WX搜索关注公众号 南and北 ,获得更多内容,留言交流!