- 博客(4)
- 收藏
- 关注
原创 (论文阅读自用)DINOv2: Learning Robust Visual Features without Supervision
这些模型应生成在任何任务中开箱即用的视觉特征,无论是在图像级别,图像分类和像素级,例如,细分针对这些基础模型的最有希望的努力集中于文本引导的预训练,即,使用文本监督的形式来指导特征的训练(Joulin等人,2016年;例如,在标记的细胞成像上训练机器学习模型是具有挑战性的,因为可以注释细胞的专家数量有限,而且肯定不会达到所需的规模。文章表明,通过构建高质量的图像数据集和改进的自监督学习方法,DINOv2 实现了高效的通用视觉特征学习,并且在多个任务中表现出色。,在多个视觉任务中达到了新的高度。
2025-01-21 16:50:15
874
1
原创 (自用)Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles
Modern hierarchical vision transformers(ViT)模型在追求监督分类性能过程中加入的多个视觉特定组件。尽管这些组件提高了分类准确性并使计算复杂度(FLOP)看起来更具吸引力,但它们实际上使得这些模型的速度比标准ViT模型更慢。本文作者认为,这些额外的复杂性是没有必要的。作者提出,通过在强大的视觉预训练任务(如MAE,Masked Autoencoders)上进行预训练,可以去除这些多余的组件,而不会损失模型的准确性。这个过程中,
2024-12-03 08:02:42
1367
原创 (自用)MAE:Masked Autoencoders Are Scalable Vision Learners论文阅读
1)文章的写作意图2)对文字的模型算法的描述3)模型在某任务的效果MAE的核心设计:非对称编码器-解码器架构编码器:仅对可见token(没有mask,未被遮掩的图像块)进行输入,得到一个隐含的特征表示,之后再跟之前被遮掩的块结合输入到解码器中。编码器只接受被曝光的patches作为输入,被遮掩的patches不用输入到编码器中。轻量级解码器:输入来自编码器的输出 以及编码器中没有被接收到的被遮掩的块。(后面会介绍)
2024-11-25 21:09:28
1202
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人