使用VLM搭建ComfyUI-Dream-Interpreter梦境解析器

BBM的开源HUB

于 2024-03-14 11:53:08 发布

阅读量2.4k

点赞数 23

CC 4.0 BY-SA版权

分类专栏： AI专栏文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/chengxuquan/article/details/136702936

人类学习本质上是多模态 (multi-modal) 的，因为联合利用多种感官有助于我们更好地理解和分析新信息。理所当然地，多模态学习的最新进展即是从这一人类学习过程的有效性中汲取灵感，创建可以利用图像、视频、文本、音频、肢体语言、面部表情和生理信号等各种模态信息来处理和链接信息的模型。随着自然语言处理和计算机视觉的交叉融合，视觉-语言模型（VLM）已成为一个热门的研究领域。

视觉语言模型（VLM）采用多模态架构，可同时处理图像和文本数据。他们可以执行视觉问答（VQA）、图像标题和文本到图像搜索类型的任务。VLM 利用多模态融合与交叉注意力、掩码语言建模和图像文本匹配等技术将视觉语义与文本表示相关联。此存储库包含有关著名视觉语言模型（VLM）的信息，包括有关其架构、训练过程和用于训练的数据集的详细信息。单击以展开以了解每种架构的更多详细信息。

接下来我们使用ComfyUI-Dream-Interpreter搭建一个全景的梦境解析器，话不多说，下面开始部署：

一：安装ComfyUI的三个节点插件

git clone https://github.com/gokayfem/ComfyUI-Dream-Interpreter.git
git clone https://github.com/gokayfem/ComfyUI_VLM_nodes.git
git clone https://github.com/jags111/ComfyUI_Jags_VectorMagic.git

二：下载

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

BBM的开源HUB 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。