多模态学习讲座记录

Ray Song

于 2022-10-05 17:26:57 发布

阅读量818

点赞数

CC 4.0 BY-SA版权

文章标签：学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/rayso9898/article/details/127173670

清华大学张长水教授——多模态学习讲座

任务

在这里插入图片描述

Introduction to Multi-modal Learning

在这里插入图片描述
基础的：NLP Vision Auditory
进阶：触觉嗅觉等等
进一步：脑电信号皮电红外图深度图脑电图等等

在这里插入图片描述

Multi-Modal Learning Tasks

Language-Audio

在这里插入图片描述

文本生成语音 -> 后序还要生成语音和人图像口型对上

Vision-Audio

在这里插入图片描述

第一件是早期的，在深度学习之前；
视频声音分离，加入视觉的信息，比如口型辅助声音分离，声源定位。
结合语音和口型，动画配音生成三维口型。
（局部点- - 构建声音和点的位置关系映射）

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
某个人在哪个时间段说话了，完成标记的任务。

在这里插入图片描述
声音转换成动作，建立拉琴和声音任务手势和声音的映射

Vision-Language

在这里插入图片描述

机器人根据人的语言进行导航，比如看到树往哪儿走，看到红绿灯干嘛？

在这里插入图片描述

在这里插入图片描述

通过图像辅助翻译

定位相关任务

在这里插入图片描述

只有文字，没有视觉，无法完全理解客观世界。

在这里插入图片描述

在这里插入图片描述

Core Challenges

在这里插入图片描述

1. Representation

在这里插入图片描述

word2vec , 不同模态的信息都表示为向量

在这里插入图片描述

2. Alignment

在这里插入图片描述
显示对齐隐式对齐例子如下：

在这里插入图片描述

3. Fusion

在这里插入图片描述
融合过程，融合越早越好，但是不是所有的数据能够很早融合。

4. Translation

在这里插入图片描述

5. Co-Learning

在这里插入图片描述

CMU 98年的论文

在这里插入图片描述

Short History

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

多模态大模型

在这里插入图片描述

在这里插入图片描述

问题

多模态学习：
表示 - 语言 + 语音
对齐和评价好坏

生成任务上，是否有一个比较好的评价指标

根据实际任务设置

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ray Song 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。