深度学习预训练与MMPretrain_哔哩哔哩_bilibili
这节课主要集中谈MMPretrain.虽然半个小时的样子。但是基本把里程碑的视觉和多模态网络都提到了。
1.mmpretrain从基础的分类和检测算法进化而来。并且现在越来越有和LLM一样的范式:在预训练模型的基础上对下游任务进行调优。
2.基本上主要的视觉模型都已经囊括在内。然后预训练工具箱强调了易用性。只要在配置模板上调整些参数。弄弄数据集,就差不多可以启动起来
3.回顾了下CNN,其中提到残差网络的巨大贡献。说到这个工作的直觉就是反向传递走捷径。还挺有道理。谈到transformer的注意力机制,主要是在卷积上加成了一个函数。这个函数其实就是于输入相关的权重函数。也提到了多头注意力相当于多通道分开的注意力卷积后的级联。
4.最让我感到诧异的其实是提高对比学习和MAE掩码学习的融合。才知道现在大名鼎鼎的DINO,居然就是这两种方式的融合。
5.接下来谈到了非常重要的方向:多模态。 CLIP算是经典之作,双流网络结构。图像文本对的clip目标函数借鉴了对比学习:拉近正样本,退远负样本。最后用prompt的方法,可以把clip变成一个分类器,居然比传统的分类器好很多。关键是可以zero-shot.
6.最后提到了BLIP这个多模态多任务的算法。采用了3个loss. 进入到blip2的话,对文本和图像的encoder/decoder都不再训练。只训练其中的桥接不分的Q-former。觉得这个方法很cool。还是插拔式的。