CCL 2021 讲习班暨中国中文信息学会《前沿技术讲习班》第25期(CIPS ATT25)](CCL 2021 讲习班暨中国中文信息学会《前沿技术讲习班》第25期(CIPS ATT25
跨视觉语言模态的联合语义建模和推理——魏忠钰
1. 匹配
2. Vision-based Text Generation Evalution
主流:深度神经网络的Encoder-Decoder框架
Visual Genome:短的信息、物体关系的标注

3. VQA

Visual Commonsense Reasoning (VCR)基于常识的视觉推理

跨模态表征

Contrastive cross-modality representation learning对比跨模态表征学习
文本:Transformer可以考虑到任何词之间的关系
视觉:Transformer(Swin Transformer)

跨模态视觉和语义的隐藏空间。
图片往语义空间映射:文本不动,视觉向文本的对齐


找负样本
极难负样本

负样本采样(学决策平面):batch——数据集里找负样本

三元组(图片,正样本,负样本)

预训练模型中使用Loss

Cross-modality representation learning via Structure Semantics 基于结构语义的跨模态表示学习
Faster-RCNN进行目标检测(RoI)

Scene Graph:Faster RCNN发现物体,查找两个物体之间的关系。

图像描述:是不是覆盖了核心语义
SPICE:从句子构造场景图的工具。

场景图:捕捉信息工具。使用特征,辅助任务。
场景图足够描绘图像语义?文本有一些是抽象语义。高层语义需要对场景图进行扩展。

抽象场景概念

- 场景图辅助
- 场景图作为多粒度语义标签
构建分层语义树

Cross-modality pre-training Models 跨模态预训练模型
2020年之前:双塔模型,视觉和语言模态交互在初始表达之后(ViLBERT、LXMBert)
跨模态Transformer交互

2020年,单塔模型。混合视觉和文本。

预训练任务:
MLM:掩码语言
MOC:学习遮盖


2020下半年-2021.12月:
跨视觉语言模态模型

场景图:捕捉核心语义

之前预训练语言模型:视觉端采用FasterRCNN,使用局部Box作为Transformer输入。
Pixel-Bert:视觉端采用CNN提取特征

视觉处理高效——Patch完成视觉端处理

OSCAR:桥接语义空间。跨视觉语义模态

图像特征提取+语义桥接


物体发现+描述生成

UNIMO:某个模态信息缺失,是否还能进行学习?支持单模态、跨模态的预训练

训练过程:单词级别——短语级别——句子级别。不同粒度的语义信息,对下游任务的影响。

Cross -Modality Tasks of Various Semantic Levels 不同语义层次的跨模态任务

图片与文本匹配:多粒度样本学习
“子图与短语相似度匹配”

句子:双向LSTM编码

文本端构建——树结构

动态深度神经网络——黄高
1. Overview of CNN architecture design

不同网络结构:拟合不同的网络结构。
网络压缩、减枝


2. Dynamic neural networks 动态神经网络
神经网络推理
本文概述了魏忠钰关于跨视觉语言的匹配、生成评价与VCR技术,探讨了跨模态表征学习和预训练模型的发展,同时深入解析了黄高关于动态深度神经网络的不同设计。重点涉及Transformer、视觉常识推理和场景图在跨模态任务中的应用。
354

被折叠的 条评论
为什么被折叠?



