全球名校AI课程库(13)| CMU卡内基梅隆 · 多模态机器学习课程『Multimodal Machine Learning』

11-777; Multimodal Machine Learning; 多模态机器学习

🏆 课程学习中心 | 🚧 其他名校AI课程合辑 | 🌍 课程主页 | 📺 中英字幕视频 | 🚀 项目代码解析


课程介绍

目前在工业界的实际应用场景中,有大量不同形态数据存在的场景,对这些数据联合应用与建模驱动业务,是研究界和工业界都异常关心的主题。多模式机器学习 (MMML) 是一个充满活力的多学科研究领域,它通过集成和建模多种交流模式(包括语言、声学和视觉信息)来解决人工智能的一些目标。

11-777; Multimodal Machine Learning; 多模态机器学习

CMU 11-777 是全球顶校卡内基梅隆开设的AI专项课程,课程以多模态(MMML)为主题,讲解基本数学概念、文本与图像等多种数据形态联合应用&建模的前沿知识与方法,并回顾最近描述 MMML 的最先进的概率模型和计算算法的论文,并讨论当前和即将面临的挑战。通过本课程的学习,大家可以了解到目前前沿研究下对多模态处理的方法。

11-777; Multimodal Machine Learning; 多模态机器学习

课程讲师 Louis-Philippe Morency,CMU 语言技术学院的终身教授,领导多模式通信和机器学习实验室 (MultiComp Lab),研究重点是建立计算基础使计算机能够分析、识别和预测社交互动中微妙的人类交流行为,核心就是应对多模态机器学习面临的技术挑战。


课程主题

本课程将介绍与多模态机器学习的主要概念,并将讨论近期的诸多应用。课程在官网发布了详细主题,ShowMeAI 对其进行了翻译。

  • Multimodal applications and datasets(数据集
  • Basic concepts: neural networks(基本概念:神经网络
  • Basic concepts: network optimization(基本概念:优化
  • Visual unimodal representations(CNN 和视觉表示
  • Language unimodal representations(语言表示
  • Multimodal representation learning(多模态表示
  • Coordinated representations(协调表示
  • Multimodal alignment(多模式对齐
  • Alignment and representation(对齐和表示
  • Alignment and translation(对齐和平移 (映射)
  • Probabilistic graphical models(生成模型
  • Discriminative graphical models(判别式图模型
  • Deep Generative Models(深度生成模型
  • Reinforcement learning(强化学习
  • Multimodal RL(多模态强化学习
  • Fusion and co-learning(融合、协同学习和新趋势
  • New research directions(新的研究方向
  • Embodied Language Grounding
  • Multimodal Human-inspired Language Learning(受人类启发的多模态语言学习
  • Learning to connect text and images(连接文本和图像
  • Bias and fairness(偏见和公平

课程资料 | 下载

11-777; Multimodal Machine Learning; 多模态机器学习

扫描上方图片二维码,关注公众号并回复关键字 🎯『11-777』,就可以获取整理完整的资料合辑啦!当然也可以点击 🎯 这里 查看更多课程的资料获取方式!

11-777; Multimodal Machine Learning; 多模态机器学习

ShowMeAI 对课程资料进行了梳理,整理成这份完备且清晰的资料包:

  • 📚 课件。PDF文件。覆盖Lecture 1~14 所有内容(说明:L6、L11、L13是break)

课程视频 | B站

【双语字幕+资料下载】CMU 11-777 | 多模态机器学习(2020·完整版)

🌍 B站 | 【双语字幕+资料下载】CMU 11-777 | 多模态机器学习(2020·完整版)

ShowMeAI 将视频上传至B站,并增加了中英双语字幕,以提供更加友好的学习体验。点击页面视频,可以进行预览。推荐前往 👆 B站 观看完整课程视频哦!


全球名校AI课程合辑

作者ShowMeAI内容团队
阅读原文https://www.showmeai.tech/article-detail/365

上传者不拥有讲义的原始版权。所有版权归属CMU。 该文件集是CMU开设的11-777课程,名为multimodal machine learning,每年fall学期开设。 本讲义是2019 Fall的版本。 课程介绍: Description Multimodal machine learning (MMML) is a vibrant multi-disciplinary research field which addresses some of the original goals of artificial intelligence by integrating and modeling multiple communicative modalities, including linguistic, acoustic and visual messages. With the initial research on audio-visual speech recognition and more recently with language vision projects such as image and video captioning, this research field brings some unique challenges for multimodal researchers given the heterogeneity of the data and the contingency often found between modalities. The course will present the fundamental mathematical concepts in machine learning and deep learning relevant to the five main challenges in multimodal machine learning: (1) multimodal representation learning, (2) translation mapping, (3) modality alignment, (4) multimodal fusion and (5) co-learning. These include, but not limited to, multimodal auto-encoder, deep canonical correlation analysis, multi-kernel learning, attention models and multimodal recurrent neural networks. We will also review recent papers describing state-of-the-art probabilistic models and computational algorithms for MMML and discuss the current and upcoming challenges. The course will discuss many of the recent applications of MMML including multimodal affect recognition, image and video captioning and cross-modal multimedia retrieval. This is a graduate course designed primarily for PhD and research master students at LTI, MLD, CSD, HCII and RI; others, for example (undergraduate) students of CS or from professional master programs, are advised to seek prior permission of the instructor. It is required for students to have taken an introduction machine learning course such as 10-401, 10-601, 10-701, 11-663, 11-441, 11-641 or 11-741. Prior knowledge of deep learning is recommended.
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ShowMeAI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值