将视觉效果转化为文字:人工智能图像字幕

该项目使用两块W5100S-EVB-PICO板,一块连接Arducam和以太网传输图片到网页,另一块通过‘复制API’执行图像到文本字幕并显示在屏幕。采用BLIP - 2模型,其在零样本字幕方面表现出色。项目当前为图像加标题,未来或用于视障人士等应用。
使用 W5100S-EVB-PICO 板进行的基本项目,利用复制的图像字幕模型生成图像描述

转发: Translating Visuals into Words: Image Captioning with AI


项目介绍

概述

在这个项目中,我们使用两块 W5100S-EVB-PICO 板。

1.第一块板连接Arducam和以太网,起到接收网络请求时将图片传输到网页的作用。

2.第二块板将通过“复制 API”以网址的形式执行图像到文本字幕,通过以太网连接提供来自第一块 PICO 板的图像,并将其显示在 ssd1306 OLED 屏幕上。

下面更详细地讨论这个问题。

用于图像字幕的模型

BLIP-2 是 Salesforce LAVIS 项目的一部分。 BLIP-2 是一种通用且高效的预训练策略,它利用了预训练视觉模型和大语言模型 (LLM) 的进步。 BLIP-2 在零样本 VQAv2 中超越了 Flamingo(得分为 65.0 vs 56.3),并在零样本字幕方面创下了新的最先进水平(在 NoCaps 上获得了 121.6 的 CIDEr 分数,而之前的最高分数为 113.2)。 当与 OPT 和 FlanT5 等强大的法学硕士结合使用时,BLIP-2 推出了新的零样本指导视觉到语言生成功能,适用于一系列有趣的应用。

可在复制上测试模型

模型研究论文

官方GitHub

安装及使用方法

进行中

输出

潜在的发展

该项目当前的重点是为图像添加标题并显示文本。 然而,通过在未来添加扬声器,这可能会演变成针对视障人士或异常检测的应用程序以及各种其他项目想法。

贡献和反馈

始终欢迎对该项目的贡献和反馈。 请使用 GitHub 问题跟踪器报告问题或创建拉取请求。

原文链接

WIZnet maker Github

文件

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值