关键词:SAM;PCB;SA-1B;Prompt;CV;NLP;PLM;BERT;ZSL;task;zero-shot;data;H100、H800、A100、A800、LLaMA、Transformer、OpenAI、GQA、RMSNorm、SFT、RTX 4090、A6000、AIGC、CHATGLM、LLVM、LLMs、GLM、NLP、AGI、HPC、GPU、CPU、CPU+GPU、英伟达、Nvidia、英特尔、AMD、高性能计算、高性能服务器、蓝海大脑、多元异构算力、高性能计算、大模型训练、通用人工智能、GPU服务器、GPU集群、大模型训练GPU集群、大语言模型、深度学习、机器学习、计算机视觉、生成式AI、ML、DLC、ChatGPT、图像分割、预训练语言模型、PLM、机器视觉、AI服务器
摘要:Segment Anything Model (SAM)是Meta 公司最近推出的一个创新AI 模型,专门用于计算机视觉领域图像分割任务。借鉴ChatGPT 的学习范式,将预训练和特定任务结合在一起,从而显著提升模型的泛化能力。SAM 的设计初衷是简化图像分割的过程,减少对专业建模知识的依赖,并降低大规模训练所需的计算资源。
在计算机视觉领域,SAM模型是一种基于CV领域的ChatGPT,提供强大的图像分割功能。然而,要使用SAM模型,我们需要进行SAM大模型环境的配置。虽然配置SAM环境可能会面临一些挑战,但一旦配置完成,我们将能够充分利用SAM模型的强大功能。
为配置SAM环境,我们需要确保服务器具备足够的计算资源和存储空间,以支持SAM模型的高效运行。SAM模型通常需要大量的计算资源和存储能力来进行准确的图像分割。然而,也需要注意SAM本地部署对服务器的影响。SAM模型的部署可能对服务器的性能和稳定性产生一定的影响。
蓝海大脑大模型训练平台提供强大计算集群、高速存储系统和高带宽网络连接,加速模型的训练过程;同时采用高效分布式计算框架和并行计算,使模型训练可以在多个计算节点上同时进行,大大缩短训练时间。兼备任务调度、资源管理和监控等功能,提升训练效率和可管理性。此外,丰富的工具和库,可用于模型开发、调试和优化。还为模型部署和推理提供支持。一旦模型训练完成,平台可将训练好的模型部署到生产环境中,以供实际应用使用。
如图片无法显示,请刷新页面
SAM模型:CV领域的ChatGPT
一、什么是SAM模型?
SAM模型是 Meta 推出的人工智能模型,在官网上被描述为“仅需一次点击,即可在任何图像中分割出任何物体”。采用以前图像分割模型作为基础,并在庞大的数据集上进行训练,该模型旨在解决多个下游任务并成为一种通用模型。
该模型的核心要点有:
1、借鉴ChatGPT的启发思想,采用可提示学习范式,提高学习效率;
2、建立迄今为止最大的图像分割数据集Segment Anything 1-Billion(SA-1B),包含1100万张图像和超过10亿个掩码;
3、构建通用且自动的分割模型,在零样本情况下灵活应用于新的任务和领域,其结果优于以往的监督学习结果。
IMG_257
SAM 模型官方文章
二、Prompt:将 ChatGPT 的学习思维应用在 CV 领域
SAM 利用先进技术路线实现计算机视觉底层技术突破,具备广泛的通用性和零样本迁移的能力。采用 prompt-based learning 方式进行学习训练,即利用提示语作为模型输入。与传统的监督学习方式不同,该方法在 GPT-3 团队的推动下得到广泛应用。
1、Prompt之前的模型在做什么
预训练语言模型(PLM)是一种先进的自然语言处理(NLP)模型,在人和计算机交互方面起着重要的作用。NLP旨在改善人与计算机之间的交流和理解,而PLM则是这一领域前沿模型之一。
自然语言处理(NLP)的常用算法和模型
预训练模型根据学习范式和发展阶段可以分为四代:
1)特征学习:通过设置规则来提取文本特征编码文本,例如TF-IDF模型。
2)结构学习:引入深度学习在NLP中应用,代表性模型是Word2Vec。第一代、第二代预训练模型的共同点是输出被用作下游任务的输入,但本身并不直接执行下游任务。随后的模型将预训练结果和模型自身都应用于下游任务中。
IMG_259
预训练模型(PLM)的发展阶段和特征
3)下游微调:采用预训练加下游微调方式,代表性模型有BERT和GPT。
4)提示学习:在BERT和GPT的基础上进一步改进,采用基于提示学习(Prompt-based Learning)方法。该方法将输入信息经过特定模板处理,将任务转化为更适合预训练语言模型处理形式。代表性模型有ChapGPT、GPT3.5和SAM。
预训练模型就像是培养出的高中毕业生,而下游任务则相当于大学的专业课程。高中毕业生学习未来应用领域相关的课程,就能够成为具备专业技能和知识的大学生,以应对专业岗位的要求。
IMG_260
基于提示的学习(prompt-based learning)各分支
2、Prompt 的优势:实现预训练和下游任务的统一
如下图所示(左图),传统的PLM+微调范式存在上下游之间差异较大、应用不匹配问题,在预训练阶段使用自回归或自编码方法,但对于下游的微调任务来说,需要大量新数据来适应不同的形式和要求。
IMG_261
传统的预训练+微调模型以及 prompt范式
随着模型参数越来越庞大,企业部署模型成本非常高。同时为满足各种不同下游之间的任务,需要专门对每个任务进行微调,也是一种巨大的浪费。主要有以下两个缺点:
1)微调所需的样本数量非常大
2)模型的专用性高,部署成本高昂
针对以上缺点,PT-3团队提出在大量无监督文本阅读后,语言模型可以通过"培养广泛技能和模式识别能力"有效地解决问题。实验表明在少样本场景下,模型不需要更新任何参数就能实现不错的效果。预训练加微调范式是通过大量训练使模型适应下游任务。而Prompt则是将下游任务以特定模板的形式统一成预训练任务,将下游任务的数据组织成自然语言形式,充分发挥预训练模型本身的能力。
IMG_262
Fine-tune 和 prompt 两种范式的区别
以情感分类任务为例,使用传统Fine-tune方法需要准备一个微调数据集,其中包含对电影/书籍的评价以及人工阅读后的感受。该微调数据集必须足够大,以满足复杂任务需求。但是微调数据集的大小可能超过预训练数据集的规模,导致预训练的目的失去意义。
相比之下,利用Prompt的方式可以更好地处理情感分类任务并且充分利用预训练模型能力,避免繁重微调数据集准备工作。Prompt可以根据输入的句子来输出对MASK位置单词的预测,进而推测出用户对该作品作品的态度。
IMG_263
预训练+下游任务微调(PLM+Fine-tuning)处理情感分类任务(写影评)
Prompt范式具有以下优点:
1)大大降低模型训练所需样本量,可以在少样本甚至零样本的情况下进行训练
2)提高模型的通用性,在实际应用中减少成本并提高效率
当下,大型模型如GPT-4已经不再完全开放全部的模型参数,用户只能通过API接口使用模型进行预测。由此可见,Prompt工程在下游任务中的重要性已经不言而喻。
三、ZSL:零样本学习降本增效,提高模型泛化能力
1、什么是零样本学习能力?
零样本学习(Zero-shot Learning, ZSL)是机器学习中的一个难题,其目标是让模型能够对从未见过的"未知物体"进行分类和识别。下图中展示一个经典案例,即认识斑马。一个"儿童"在动物园里见过许多动物,如马、熊猫、狮子、老虎等,但从未见过斑马。通过老师的描述,该"儿童"了解到斑马有四条腿、黑白相间的条纹以及尾巴。最终这个"儿童"轻松地辨认出斑马。
类似,模型也可以通过零样本学习方式,从已见过的类别中提取特征(如外形类似马、具有条纹、黑白色),然后根据对未知类别特征的描述,识别那些从未见过的类别。换言之,模型通过之前学到的知识和特征,将其应用于未知物体的识别。
零样本学习(ZSL)示例
2、SAM 的零样本学习能力得到认可
SAM 正具备这样一种零样本分割能力,可以从各种 prompt 输入(包括点、方框和文本)中生成高质量的掩膜(Mask)。学术界有多篇论文探讨SAM 的 ZSL 能力, 如《SAM.MD: Zero-shot medical image segmentation capabilities of the Segment Anything Model》测试 SAM 的 ZSL 效果,在图像分割任务中输入部分点和框作为 prompt 提示,结果显示:专家用户可以通过 SAM 实现大部分场景下的快速半自动分割。虽然在实验中 SAM 没有表现出领先的全自动分割性能,但可成为推动临床医生半自动分割工具发展的潜在催化剂。
IMG_265
SAM 的零样本学习能力在 CT 影像中的应用
四、SA-1B:迄今为止最大的分割数据集,助力模型增效
1、Data Engine:使用数据引擎生成掩码
SAM使用数据集进行训练,并采用SAM交互式注释图像的方式对数据进行标注。另外,采用新颖的数据收集方法,结合模型和标注人员的力量,从而提高数据收集的效率和质量。整个过程可以分为三个阶段,让SAM的数据引擎更加完善和高效。
SAM使用数据引擎(data engine)渐进式收集数据示意图
1)手工阶段:在模型辅助的手工注释阶段,标注人员利用SAM模型作为辅助工具,在图像上进行点击、框选或输入文本等操作来生成MASK,并且模型会实时根据标注人员的输入更新MASK,并提供一些可选的MASK供标注人员选择和修改。该方式使得

本文介绍了Meta推出的SAM模型,它用于计算机视觉图像分割,借鉴ChatGPT范式提升泛化能力。还阐述了Prompt学习、零样本学习、SA - 1B数据集等特点,以及配置SAM环境的要求。此外,介绍了蓝海大脑大模型训练平台及多种GPU服务器常用配置。
最低0.47元/天 解锁文章
2021

被折叠的 条评论
为什么被折叠?



