有了Google的Gemini，再也不用学PS了

最新推荐文章于 2025-12-20 19:32:34 发布

原创最新推荐文章于 2025-12-20 19:32:34 发布 · 578 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉

部署运行你感兴趣的模型镜像

一 Gemini 2.0 介绍

Gemini 2.0 Flash是谷歌推出的全新AI模型，这款全新AI模型不仅支持原生多模态生成（文本、图像、音频），还能通过自然语言对话直接修改图片，甚至一键生成动漫、游戏角色。具有以文生图功能，结合多模态输出、增强推理和自然语言理解。

Gemini 2.0 Flash具备以下特点：

图像原始模态生成，不需要调用其他图像生成模块；
多轮对话编辑图像；
对于多图可以保持角色形象的一致性，方便用于创造漫画故事等；
支持文本图像一起输出。
基于常识的图像生成能力。

二动手实操

2.1 登录和模型选择

科学上网，进入到下面网址，正常登录后选择模型即：

https://aistudio.google.com/prompts/new_chat

2.2 对话方式连续改图测试

如下图，测试过程中被中断了，基本可以的，图像生成的有些效果不是特别好，理解上稍微有点偏差，总体上还不错的。适用场景：适合于我们天马行空的创造，根据想象力，立刻就可以生成自己想要的图像，就算一次生成不对，还可以继续改造 screencapture-aistudio-google-prompts-new-chat-2025-03-30-12_11_30.png

2.3 连续绘本创建能力

可以根据我一句话描述，生成故事场景，生成连续图文，有时候文字提示多了，反而只能生成故事，而不是图文，需要给出多次提示才可以；生成的速度还是非常快的，主要这里面多张图的狗狗的形象都保持了一致；适合场景：适用于制作漫画故事，或者只有好故事，缺乏画面； 连续绘本

2.4 PS尝试

做个简单的尝试，将赛车和沙漠图结合起来，如下图，效果是实现了，不过沙漠图不是原图了。不过都失败了。图片组合

第二次尝试是把狗狗印到杯子上，图和手指有些更改，整体还是满足要求，不过有些失真了，杯子形状和后面拿杯子的衣服颜色有些变化。

2.5 长文生成能力

对于长文小说的生成，不适合再用Gemini 2.0 Flash，更适合用Gemini 2.5 Pro，谷歌最新推出的 Gemini 2.5 Pro 是目前其最强大的 AI 模型之一，具备多项突破性能力，在推理、编程、多模态处理等方面表现卓越，超长上下文窗口，支持100万个token，约75万的单词，相当于整本《指环王》的文本量，用来生成小说再合适不过了，下面是测试的例子：小说生成