基于跨模态AI模型实现图像检索诗歌

本文介绍了如何利用BriVL模型实现图像检索诗歌,该方法类似于CLIP论文的思想。通过输入图片,AI能够检索出匹配场景的古诗词,如清华大学九歌系统的实例所示。博客提供了一种将视觉与文学结合的新方式,适用于‘此时此景,我想吟诗一首’的场景。代码已上传至GitHub供参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基于跨模态AI模型实现图像检索诗歌


前言

生活中我们,我们常常会听到这样的说法:“啊,此时此景,我想作首诗”,或者“啊,此时此景,我想吟诗一首。”
在这里插入图片描述
清华大学九歌系统对上述图片已经生成的诗句如下:
一溪流水绕柴关
上有悬崖绝壁攀
丹灶烟霞通别岛
万年琪树接人寰

对于该博客介绍的方法检索出的诗句如下:
日照香炉生紫烟
遥看瀑布挂前川
飞流直下三千尺
疑是银河落九天

AI检索名诗名篇,引经据典,符合“啊,此时此景,我想吟诗一首”使用场景。

一、原理

在这里插入图片描述
与“CLIP”论文思想一致,本实现使用的是悟道公司的BriVL模型。

二、流程

在这里插入图片描述

三、代码

代码见github

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值