多模态之路
文章平均质量分 91
Mr_Oak
原世界500强工地搬砖狗,离职后义无反顾踏上转码之路,一边学习一边更新博客
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【multi-model】DINOv2(包含iBOT)& 问答
摘要: DINOv2是一种自监督视觉模型,基于DINOv1改进,融合了iBOT的掩码图像建模思想。其核心创新包括:1)使用LVD-142M数据集,通过PCA哈希和SSCD流程进行严格去重;2)结合DINOv1的全局对齐损失、iBOT的局部掩码预测损失和KoLeo特征正则化损失;3)采用解耦的检测头(CLS token与patch token独立处理)和Sinkhorn-Knopp中心化提升稳定性;4)支持多分辨率训练(224×224预训练后切换至518×518)。模型通过teacher-student框架实原创 2025-12-04 23:47:22 · 997 阅读 · 0 评论 -
【multi-model】attention机制&VIT&CLIP&DINO
本文总结了四种重要的深度学习模型机制: Attention机制:包括self-attention、multi-head-attention和cross-attention,分别用于捕捉序列内部依赖、增强关注模式和序列间交互。 ViT(Vision Transformer):将图像切分为小块编码后输入Transformer,使用可学习位置编码和DropPath正则化。 CLIP:对比学习模型,通过联合训练图像和文本编码器实现零样本分类,依赖Prompt Engineering和可学习温度系数。 DINO:自监原创 2025-11-23 00:49:10 · 775 阅读 · 0 评论 -
【multi-model】moco系列&SimCLR&BEiT
moco系列,SimLR和BEiT算法整理汇总原创 2025-11-09 22:47:37 · 628 阅读 · 0 评论
分享