详解多模态 AI

yule.yang

于 2024-03-25 18:52:00 发布

阅读量2k

点赞数 29

分类专栏： AI 文章标签：人工智能 chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/yugongpeng/article/details/137022165

版权

2022 年 11 月，OpenAI 推出了 ChatGPT。它只用了几天时间就以其前所未有的能力席卷了世界。生成式人工智能革命已经开始，每个人都在问同一个问题：下一步是什么？

当时，ChatGPT 和许多其他由大型语言模型（LLM）提供支持的生成式 AI 工具旨在处理来自用户的文本输入并生成文本输出。换句话说，它们被认为是单模态的人工智能工具。

今天，如果我们要回答一个问题，下一步是什么？最好的答案可能是多模态学习。这是正在进行的人工智能革命中最有希望的趋势之一。多模态生成式 AI 模型能够组合各种类型的输入，并创建可能还包括多种类型输出的输出。

在本指南中，我们将带您了解多模态 AI 的概念。我们将了解多模态 AI 的定义、其核心概念、底层技术和应用，以及如何在现实世界中实现它们。准备好实现多式联运了吗？让我们开始吧！

了解多模态 AI

虽然大多数先进的生成式人工智能工具仍然无法像人类一样思考，但它们正在提供突破性的结果，使我们更接近通用人工智能（AGI）的门槛。该术语指的是一个假设的人工智能系统，它可以像人类一样理解、学习和应用知识来完成各种任务。

在关于如何实现 AGI 的辩论中，我们需要解决的一个核心问题是人类如何学习。这就引出了人类大脑是如何工作的。长话短说，我们的大脑依靠我们的五种感官从周围环境中收集各种信息。然后，这些信息被存储在我们的记忆中，经过处理以学习新的见解，并用于做出决策。

第一个现代生成式 AI 模型，如 ChatGPT，被认为是单模态的;也就是说，他们只能将一种类型的数据作为输入并生成相同类型的输出。特别是，这些模型中的大多数被设计为处理文本提示并生成文本响应。

这是有道理的，因为这些模型需要大量的数据来训练，而文本不仅是一种可以轻松存储和处理的数据类型，而且也很容易获得。ChatGPT 等工具的大部分训练数据都来自互联网上的不同来源也就不足为奇了。

然而，阅读只是人类学习新事物的各种方式之一，而且对于许多任务来说，并不是最有效的。

多模态学习是人工智能的一个子领域，它试图通过使用大量文本以及其他数据类型&

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。