
总结
文章平均质量分 63
不当菜鸡的程序媛
你若盛开,清风自来
展开
-
论文小trick-如何更关注图像特征中的关键 Object?
这样模型会显式地将图像特征和文本 token 进行对齐,使得生成描述时模型可以更加关注到视觉特征上关键的对象。: 使用经过预训练的多模态模型(如 CLIP、VLP)作为基础,然后在上面进行微调。这类模型已经在对齐图像与文本的表示上有较好的性能,可以帮助你在下游任务(如图像描述)中更好地利用图像特征。: 在 VL-PET 模块中或者 Encoder 中引入显式的 Attention Mechanism,让模型强制性地在某些层次关注特定的图像特征(如前景对象、检测到的显著性区域)。原创 2024-09-26 16:29:37 · 286 阅读 · 0 评论 -
深度学习训练技巧
的第一步是不要碰代码,先彻底检查自己的数据。我喜欢用大量时间浏览数千个样本,理解它们的分布,寻找其中的模式。有一次,我发现数据中包含重复的样本,还有一次我发现了损坏的图像/标签。我会查找数据不均衡和偏差。我通常还会注意自己的数据分类过程,它会揭示我们最终探索的架构。比如,只需要局部特征就够了还是需要全局语境?最后,为了更加确保网络是个合理的分类器,我喜欢可视化网络第一层的权重,确保自己获得了有意义的边缘。如果第一层的滤波器看起来像噪声,那需要去掉些东西。类似地,网络内的激活函数有时候也会揭示出一些问题。转载 2024-08-18 17:01:29 · 124 阅读 · 0 评论