本篇使用豆包、通义、Kimi三款产品来看同一幅原创画作、并生成对绘画的文字介绍。
让我们来看看国内主流大模型对图像的理解能力,也为日后的工具选择提供一些主观依据。
目录
-
背景
-
1、豆包-字节
-
2、通义-阿里
-
3、Kimi-月之暗面
-
小结
背景
这幅作品是一位三年级小学生的原创,准备报名参展时,被要求填写“作品名称”和“作品说明”(200字以内)。
于是想着不妨试试AI的水平咋样🙂
给三个APP上传图片后,分别都提了以下2个问题:
Q1:作者是小学三年级学生,从作者角度描绘这幅作品的内容,编写200字以内的作品说明,文字风格偏文艺和活泼
Q2:取个有趣的作品名字
咱们来看效果:
1、豆包-字节
2、通义-阿里
3、Kimi-月之暗面
小结
以上三家的回答,你最喜欢哪一款呢?
我最喜欢豆包的回答,而且APP的响应速度和交互体验也最佳。
绘画作者(也就是我闺女🙂)明确表示最喜欢豆包取的第3个名字——《雪枝上的彩色歌唱家》。
综合来看,三家大模型都较充分准确地理解了绘画中的景物和色彩,并组装出了风格匹配的文字描述,效果已远超我的预期👍!
产品 | 公司 | 特色 |
---|---|---|
豆包 | 字节跳动 | 字节的Coze(扣子)在AI Agent方面太火了 |
通义 | 阿里巴巴 | 阿里在开源方面(Qwen系列)做得很棒 |
Kimi | 月之暗面 | 超长文本处理能力令人印象深刻 |