多模态学习 讲座记录

清华大学张长水教授——多模态学习讲座

任务

在这里插入图片描述

Introduction to Multi-modal Learning

在这里插入图片描述
基础的:NLP Vision Auditory
进阶:触觉 嗅觉等等
进一步: 脑电信号 皮电 红外图 深度图 脑电图等等

在这里插入图片描述

Multi-Modal Learning Tasks

Language-Audio

在这里插入图片描述

  1. 文本 生成 语音 -> 后序还要生成语音和人图像口型对上

Vision-Audio

在这里插入图片描述

第一件是早期的,在深度学习之前;
视频声音分离,加入视觉的信息,比如口型辅助声音分离,声源定位。
结合语音和口型,动画配音生成三维口型。
(局部点- - 构建声音和点的位置关系映射)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
某个人在哪个时间段说话了,完成标记的任务。

在这里插入图片描述
声音转换成动作,建立拉琴和声音 任务手势和声音的映射

Vision-Language

在这里插入图片描述
在这里插入图片描述
机器人根据人的语言进行导航,比如看到树往哪儿走,看到红绿灯干嘛?

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

通过图像辅助翻译

定位相关任务

在这里插入图片描述

只有文字,没有视觉,无法完全理解客观世界。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

Core Challenges

在这里插入图片描述

1. Representation

在这里插入图片描述
在这里插入图片描述

word2vec , 不同模态的信息都表示为向量

在这里插入图片描述

2. Alignment

在这里插入图片描述
显示对齐 隐式对齐 例子如下:
在这里插入图片描述

在这里插入图片描述

3. Fusion

在这里插入图片描述
融合过程,融合越早越好,但是不是所有的数据能够很早融合。
在这里插入图片描述
在这里插入图片描述

4. Translation

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5. Co-Learning

在这里插入图片描述

CMU 98年的论文

在这里插入图片描述

Short History

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

多模态大模型

在这里插入图片描述

在这里插入图片描述

问题

多模态学习:
表示 - 语言 + 语音
对齐 和 评价好坏

生成任务上,是否有一个比较好的评价指标

根据实际任务设置

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ray Song

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值