
大模型
文章平均质量分 95
qq_41627642
这个作者很懒,什么都没留下…
展开
-
自监督学习用于现实世界目标检测:综述
自监督学习(SSL)是计算机视觉领域一个令人兴奋且活跃的研究方向。它通过使用精心设计的前置任务对深度学习网络(通常仅为编码器)进行无监督训练。该前置任务的目的是帮助网络学习与下游任务相关的特征或不变性。在文献中,SSL方法已被证明能提高许多应用场景中的最先进(SOTA)性能。更具体而言,SSL使网络能够从大型未标记数据集中学习通用特征,这些特征在转移到最终任务时,能够改善在困难的微调条件下的表现(例如,标注数据很少或计算资源有限)。基本的SSL方法涉及实例区分,旨在建模在潜在空间中数据子集之间的决策边界。原创 2025-02-25 17:35:06 · 925 阅读 · 0 评论 -
LVM: Sequential Modeling Enables Scalable Learning for Large Vision Models(视觉大模型论文阅读与环境搭建)
这段文字介绍了一种新颖的序列建模方法,该方法使得在不使用任何语言数据的情况下学习大型视觉模型(LVM)成为可能。具体来说,研究者们定义了一种通用格式,称为“视觉句子”,这种格式可以用来表示原始图像和视频,以及注释数据源(如语义分割和深度重建),而无需超出像素的任何元知识。一旦将这些多样化的视觉数据(总计约4200亿个标记)表示为序列,模型就可以通过最小化交叉熵损失来进行下一个标记的预测。通过在不同规模的模型架构和数据多样性上进行训练,研究者们提供了实证证据,证明他们的模型在扩展性方面表现良好。原创 2024-12-24 11:18:45 · 995 阅读 · 0 评论