VectorSpaceLab团队正式发布了OmniGen2,这是一个功能强大的多模态图像生成模型。与前代OmniGen v1不同,OmniGen2采用了文本和图像模态的双路径解码设计,使用独立参数和解耦的图像分词器,在图像编辑领域实现了显著的性能提升。
一、OmniGen2简介
OmniGen2是一款强大且高效的统一多模态模型。与 OmniGen v1相比,OmniGen2为文本和图像模态分别设置了独立的解码路径,采用未共享参数和解耦的图像标记器。OmniGen2在具有以下四项主要核心优势:
- 视觉理解:OmniGen2集成并集成了Qwen-VL-2.5视觉大基础模型解读和分析图像内容的强大能力。
- 文生图生成:同时OmniGen2包含基本的文生图能力,能够根据文本提示创建高保真且美观的图像。
- 指令引导图像编辑:以高精度执行基于指令的复杂图像修改,属于优秀的开源图像融合模型。
- 上下文生成:能够处理并灵活组合包括人物、参考对象和场景在内的多种输入,生成新颖且连贯的视觉输出。
二:模型测评与体验
OmniGen2体验工作流如下:
01.增加帽子和眼镜
Add a fisherman hat and red sunglassess to the woman
02.局部修改
Replace the sword with a wooden stick.
03.人物换背景
change the background to an outdoor scene, maintain the consistency of the characters, and depict the woman's fair skin.
04.表情编辑
make the women simle and raise her hand
05.服装修改
Change the dress to red dress
06.图像转绘
Convert the picture into the style of Studio Ghibli and Hayao Miyazaki's animated films.
07.多图编辑-拥抱
Let the woman from image1 and the man from image2 hug together. Maintain the consistency of the characters and their costumes
08.商品展示
Add the toy from image 1 to the bed in image 2
三:文章总结
关于OmniGen2框架的使用技巧总结如下:
调整关键超参数:
text_guidance_scale
:控制输出对文本提示的遵循程度。image_guidance_scale
:决定最终图像与输入参考图像的相似度。高值使输出更忠于参考图像,但可能忽略部分文本提示;低值 (~1.5) 则使文本提示更具影响力。图像编辑任务建议设在 1.2 - 2.0,上下文生成任务建议设在 2.5 - 3.0。max_input_image_side_length
:设置输入图像的最大边长。negative_prompt
:明确告知模型不希望在图像中出现的内容,如 “blurry, low quality, text, watermark” 等,可尝试不同负提示以优化结果。cfg_range_start
和cfg_range_end
:定义应用 CFG 的时间步长范围,适当降低cfg_range_end
可减少推理时间且对质量影响不大。
提高生成质量建议:
- 图片融合:使用图像融合可以明确指定 image1、image 2。OmniGen2框架在单图编辑效果更佳。多图融合则有明显少有下降。
- 使用高质量图像:输入图像分辨率最好大于 512×512 像素,避免小尺寸或模糊图像导致输出质量差。
- 指令要具体:清晰描述要更改的内容及期望的更改方式,上下文生成任务中明确说明各元素来源,例如
Add the bird from image 1 onto the desk in image 2.
。 - 优先使用英语:模型目前对英语提示效果最佳。