- 博客(1)
- 收藏
- 关注
原创 ADAPT视觉语言模型分析
预训练的 Video Swin Transformer (Swin_base_patch244_window877_kinetics400_22k.pth),用于提取图片特征,其参数参与调试;DCG基本结构由 BertImgModel 和 BertPredictionHeadTransform 构成,实现一个图像识别解释的Bert结构:BertForImageCaptioning;
2024-09-23 10:57:38
796
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人