一 Gemini 2.0 介绍
Gemini 2.0 Flash是谷歌推出的全新AI模型,这款全新AI模型不仅支持原生多模态生成(文本、图像、音频),还能通过自然语言对话直接修改图片,甚至一键生成动漫、游戏角色。具有以文生图功能,结合多模态输出、增强推理和自然语言理解。
Gemini 2.0 Flash具备以下特点:
图像原始模态生成,不需要调用其他图像生成模块;
多轮对话编辑图像;
对于多图可以保持角色形象的一致性,方便用于创造漫画故事等;
支持文本图像一起输出。
基于常识的图像生成能力。
二 动手实操
2.1 登录和模型选择
科学上网,进入到下面网址,正常登录后选择模型即:
https://aistudio.google.com/prompts/new_chat
2.2 对话方式连续改图测试
如下图,测试过程中被中断了,基本可以的,图像生成的有些效果不是特别好,理解上稍微有点偏差,总体上还不错的。适用场景: 适合于我们天马行空的创造,根据想象力,立刻就可以生成自己想要的图像,就算一次生成不对,还可以继续改造
2.3 连续绘本创建能力
可以根据我一句话描述,生成故事场景,生成连续图文,有时候文字提示多了,反而只能生成故事,而不是图文,需要给出多次提示才可以;生成的速度还是非常快的,主要这里面多张图的狗狗的形象都保持了一致;适合场景: 适用于制作漫画故事,或者只有好故事,缺乏画面;
2.4 PS尝试
做个简单的尝试,将赛车和沙漠图结合起来,如下图,效果是实现了,不过沙漠图不是原图了。不过都失败了。
第二次尝试是把狗狗印到杯子上,图和手指有些更改,整体还是满足要求,不过有些失真了,杯子形状和后面拿杯子的衣服颜色有些变化。
2.5 长文生成能力
对于长文小说的生成,不适合再用Gemini 2.0 Flash,更适合用Gemini 2.5 Pro,谷歌最新推出的 Gemini 2.5 Pro 是目前其最强大的 AI 模型之一,具备多项突破性能力,在推理、编程、多模态处理等方面表现卓越,超长上下文窗口,支持100万个token,约75万的单词,相当于整本《指环王》的文本量,用来生成小说再合适不过了,下面是测试的例子:
三 总结
Gemini 2.0 适合需要快速响应、多模态创作的用户,适合做设计、绘本、生成图像等,亲测,速度还是非常快的,虽然有时候质量稍微差了点,但胜在免费。Gemini 2.5 Pro 则是科研、编程、复杂推理的首选,堪称“会思考的AI”,用来编程和写小说还是非常不错的。
不得不说一句,Google回来了!