有了Google的Gemini,再也不用学PS了

一  Gemini 2.0 介绍

Gemini 2.0 Flash是谷歌推出的全新AI模型,这款全新AI模型不仅支持原生多模态生成(文本、图像、音频),还能通过自然语言对话直接修改图片,甚至一键生成动漫、游戏角色。具有以文生图功能,结合多模态输出、增强推理和自然语言理解。

Gemini 2.0 Flash具备以下特点:

  1. 图像原始模态生成,不需要调用其他图像生成模块;

  2. 多轮对话编辑图像;

  3. 对于多图可以保持角色形象的一致性,方便用于创造漫画故事等;

  4. 支持文本图像一起输出。

  5. 基于常识的图像生成能力。

二 动手实操

2.1 登录和模型选择

科学上网,进入到下面网址,正常登录后选择模型即:

https://aistudio.google.com/prompts/new_chat

2.2 对话方式连续改图测试

如下图,测试过程中被中断了,基本可以的,图像生成的有些效果不是特别好,理解上稍微有点偏差,总体上还不错的。适用场景: 适合于我们天马行空的创造,根据想象力,立刻就可以生成自己想要的图像,就算一次生成不对,还可以继续改造screencapture-aistudio-google-prompts-new-chat-2025-03-30-12_11_30.png

2.3 连续绘本创建能力

可以根据我一句话描述,生成故事场景,生成连续图文,有时候文字提示多了,反而只能生成故事,而不是图文,需要给出多次提示才可以;生成的速度还是非常快的,主要这里面多张图的狗狗的形象都保持了一致;适合场景: 适用于制作漫画故事,或者只有好故事,缺乏画面;连续绘本

2.4 PS尝试

做个简单的尝试,将赛车和沙漠图结合起来,如下图,效果是实现了,不过沙漠图不是原图了。不过都失败了。图片组合

第二次尝试是把狗狗印到杯子上,图和手指有些更改,整体还是满足要求,不过有些失真了,杯子形状和后面拿杯子的衣服颜色有些变化。狗狗印到杯子上

2.5 长文生成能力

对于长文小说的生成,不适合再用Gemini 2.0 Flash,更适合用Gemini 2.5 Pro,谷歌最新推出的 Gemini 2.5 Pro 是目前其最强大的 AI 模型之一,具备多项突破性能力,在推理、编程、多模态处理等方面表现卓越,超长上下文窗口,支持100万个token,约75万的单词,相当于整本《指环王》的文本量,用来生成小说再合适不过了,下面是测试的例子:小说生成

三 总结

Gemini 2.0 适合需要快速响应、多模态创作的用户,适合做设计、绘本、生成图像等,亲测,速度还是非常快的,虽然有时候质量稍微差了点,但胜在免费。Gemini 2.5 Pro 则是科研、编程、复杂推理的首选,堪称“会思考的AI”,用来编程和写小说还是非常不错的。

不得不说一句,Google回来了!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值