GPT-4 带视觉功能的首览

GPT-4 的多模态能力:超越预期,悄然应用于辅助盲人应用

这篇文章主要讲述了 OpenAI 的 GPT-4 模型在多模态方面取得的突破,以及该功能在辅助盲人应用 Be My Eyes 上的应用。

作者首先回顾了 GPT-4 发布初期,其多模态功能在演示后就销声匿迹,仅在少数案例中展现出其强大的能力。然而,GPT-4 的多模态功能并没有被遗忘,它正在悄然应用于 Be My Eyes 应用中,为盲人用户提供更便捷的帮助。

Be My Eyes 之前依赖志愿者帮助盲人用户理解图像内容,而 GPT-4 的加入使得盲人用户能够立即获得图像描述,无需等待志愿者。只有当 GPT-4 对图像的识别置信度低于 95% 时,才会调用志愿者进行确认。

作者认为,GPT-4 的多模态能力,特别是图像理解方面,有着巨大的潜力。它不仅可以生成图像描述,还能与用户进行关于图像内容的对话。作者对 GPT-4 在 Be My Eyes 上的应用感到欣慰,并认为其真正的能力远超预期。

文章最后简要介绍了 GPT-4 在图像理解方面的两个主要方向:图像描述和与用户进行关于图像内容的对话。

总而言之,这篇文章展示了 GPT-4 的多模态能力在辅助盲人应用中的成功应用,也预示着 GPT-4 在未来将有更广泛的应用场景。

制作这段视频真是过山车般的体验!从 Dall-e 3 尚未发布,到确认 GPT-4 多模态发布,我无法相信我碰巧赶上了这么有趣的时机。特别感谢 bruhmoment 为我提供 Bard 的结果,以及 Raphael 为我提供 BeMyEyes 的访问权限。[Dall-e 3 博客] https://openai.com/dall-e-3[ChatGPT 多模态博客] https://openai.com/blog/chatgpt-can-now-see-hear-and-speak[Be My Eyes] https://www.bemyeyes.com/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

bycloudAI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值