用SageMaker HyperPod扩展基础模型开发

用SageMaker HyperPod扩展基础模型开发

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, SageMaker HyperPault, Distributed Training, Foundation Models, Open Source, Model Development, Infrastructure Resiliency]

导读

从初创公司到大型企业,各类组织都信赖亚马逊云科技提供全面、安全且性价比高的生成式AI基础设施来进行创新。Amazon SageMaker HyperPod是一种专为大规模基础模型(FM)开发而设计的基础设施。在本次会议中,您将了解领先的AI公司如何制定其基础模型开发策略,并利用SageMaker HyperPod高效构建最先进的基础模型。

演讲精华

以下是小编为您整理的本次演讲的精华。

在2024年亚马逊云科技 re:Invent大会上,一场关于基础模型发展和行业领导者如何为客户提供前沿解决方案的精彩小组讨论吸引了与会者的目光。该小组讨论由来自亚马逊云科技 AI组织的高级经理Shibakum Bakone主持,由来自知名公司的专家组成,每位专家都为各自的领域贡献了宝贵见解。

致力于推广良好机器学习的Hugging Face公司产品主管Jeff Budy上台阐述了他们的使命和开放科学在其中所扮演的关键角色。Hugging Face坚定不移地致力于开源、社区驱动的倡议和道德原则,这一直是推动他们事业发展的动力。Budy介绍了Hugging Face Hub平台,该平台托管了超过100万个模型,使个人和组织能够探索、评估并构建自己的AI解决方案。此外,他强调了Transformers库和Hugging Face提供的一系列工具在文本生成、推理和模型部署方面的变革性影响。

Budy的讨论深入探讨了开放科学,这是Hugging Face使命的基石。他们的研究团队一直处于开发能够超越闭源模型性能的基础模型的前沿,弥合了专有解决方案与开源社区可用解决方案之间的性能差距。Budy举例说明,如1750亿参数的多语种大型语言模型Bloom,以及在发布时是代码生成领域最佳开源模型的StarCoder模型系列。最近发布的小型LM模型系列在其规模上也是当时最佳的开源模型。

在阐述开发Bloom过程中所面临的挑战时,Budy回顾了训练如此庞大模型所需的艰苦工程努力。尽管有来自世界各地数千名研究人员的合作,但负责维护训练集群的团队相对较小,由Stas Beckman领导。Budy赞扬了HyperPod的出现,它有效地将Bloom训练过程中遇到的痛点产品化并简化了流程。

WritersWriters这家面向企业的AI平台的联合创始人兼CTO Wassim Alshek分享了他们公司旨在为企业转变工作方式的使命,尤其关注医疗保健和金融服务领域。Alshek强调WritersWriters致力于构建越来越大、越来越复杂的模型,最新的前沿模型Belmar X4目前是市场上最佳的功能调用模型。

Alshek强调,在开发他们最新模型时,HyperPod发挥了关键作用,尤其是在扩展到数百亿参数的模型时。在如此大规模下,硬件的可靠性和稳定性变得至关重要,因为即使一个GPU发生故障也可能导致整个训练任务停滞,可能导致数月的努力付诸东流。HyperPod的自我修复能力和自动节点替换功能在缓解这些风险方面显示出了宝贵的价值。

此外,Alshek强调WritersWriters认为更深层的模型比单纯依赖更大的参数计数更为重要。他们拥有超过500层的模型展现出了比更大模型更出色的性能,这归功于其深度和复杂性。Alshek还认可了开源社区的关键作用,尤其是Hugging Face所促进的贡献,为WritersWriters的创新奠定了基础,包括他们最近宣布的自我进化模型。

专注于构建医学影像领域基础模型和医疗级平台的Hopper公司的联合创始人兼CTO Robert Beckis阐明了他们所在领域面临的独特挑战。医学影像数据通常包括16位高分辨率图像,需要使用具有大量内存容量的大型GPU实例。Beckis强调HyperPod提供的灵活性和可扩展性,使Hopper能够最佳地利用计算基础设施、安装自定义工具和文件系统,并高效地在集群中分发数据。

Hopper的方法是将他们专有的视觉转换器与开源语言模型相结合,构建多模态图像到文本模型。这种创新技术可以识别医学影像中的特征,并生成诸如初步放射学报告、发现清单以及XML格式的分割掩码或边界框表示等输出。

小组讨论随后转向了小组成员所采用的分布式训练技术。Budy阐述了Hugging Face开发Nanotron库的目的是为了促进大规模训练操作。他解释说,训练技术的选择取决于研究团队所从事的具体项目,对GPU数量和训练持续时间有不同的要求。

Alshek分享了WritersWriters使用各种库的经验,包括PyTorch、Nemo、Megatron,以及他们自己的实现,如利用托管KV缓存在转换器层之间的Frugal Transformer。HyperPod提供的灵活性使他们能够无缝集成任何开源库,没有限制,这对于促进开源社区的创新至关重要。

Beckis强调Hopper使用DeepSpeed和PyTorch,并计划为另一个正在开发的模型实现FSDP。他赞赏HyperPod的易用性和能够安装任何所需库的能力,强调在处理如此规模的复杂数据和GPU需求时,拥有完全控制权和优化特定工作流程的能力至关重要。

讨论接着转向了模型推理的挑战以及小组成员采取的应对策略。Beckis强调医学影像领域的独特需求,即单个研究可能包含多个高分辨率图像。为了解决这一问题,Hopper目前正在探索将HyperPod作为一种可扩展的方法,一次同时对多于两个图像进行推理,可能支持多达十个图像。

Alshek表达了WritersWriters对即将与Amazon Elastic Kubernetes Service (EKS)集成的兴奋,这将彻底改变他们的可扩展模型服务方式。以前,在Kubernetes集群上运行大型模型存在着巨大挑战,尤其是在扩展和GPU利用率方面。HyperPod与EKS的协同作用,将Kubernetes的网络和隔离能力与HyperPod的GPU管理能力相结合,为WritersWriters提供了一个无缝且期待已久的解决方案。

Budy阐述了Hugging Face在推理方面的方法,强调让客户能够在自己的基础设施中部署模型的重要性。这种分散的方法对于确保AI体验不被少数公司控制至关重要,否则可能会引发关于数据隐私、客户体验一致性以及过度依赖第三方提供商的潜在问题。

Hugging Face的深度学习容器和最近在亚马逊云科技市场上推出的Hugs (Hugging Face Generic Services)服务提供了流行开源AI模型的优化、开箱即用的部署,允许客户在自己的亚马逊云科技租户中托管模型。Budy强调,当研究团队的训练工作负载未完全利用可用资源时,HyperPod可以动态地将集群容量分配给生产基础设施。

小组成员一致认可与亚马逊云科技的合作关系在加速他们各自的使命和巩固市场地位方面发挥了关键作用。Budy赞赏与亚马逊云科技的协同合作,这促进了通过将Hugging Face模型与亚马逊云科技的定制AI加速器(如Inferentia和最近推出的Trainium 2)相集成,从而实现了经济高效的模型部署。

Alshek对亚马逊云科技团队提供的全面支持和培训表示感谢,这对于确保有效利用和实施HyperPod等服务至关重要。他强调这种合作关系的重要性,不仅仅是产品文档,而是亚马逊云科技积极与客户合作、解决具体挑战并提供量身定制的指导,无论客户的规模如何。

Beckis也表达了类似的观点,称与亚马逊云科技的合作关系是Hopper取得成就的推动力。从利用Snowball设备进行数据摄取和使用S3进行存储,到通过Spark作业识别大规模数据并将其移动到计算集群,亚马逊云科技服务的端到端集成使Hopper能够凭借相对较小的工程团队取得了卓越的成就。Beckis赞赏了技术支持、战略合作以及提供反馈的机会,这有助于他们所依赖的服务不断迭代改进。

总而言之,亚马逊云科技 re:Invent 2024大会为行业领导者提供了一个平台,分享他们在基础模型开发领域的经验、挑战和创新方法。小组讨论强调了亚马逊云科技的SageMaker HyperPod服务在实现前所未有的大规模分布式训练方面发挥的关键作用,同时提供了弹性、灵活性和优化的性能。亚马逊云科技与Hugging Face、WritersWriters和Hopper等公司的协同合作,培育了一个创新生态系统,使组织能够推动人工智能领域的发展。

下面是一些演讲现场的精彩瞬间:

亚马逊云科技高级经理Shibakum Bakone介绍了他自己和Jeff,他们讨论了亚马逊云科技的差异化AI基础设施产品SageMaker HyperPault。

c35ce2724825386e53188b47b882bdb1.png

HyperPod提供了对基础设施的深入可见性和控制,同时确保了高级ML工作负载的弹性。

49ca28c6841e13d21f4b455335bc9124.png

亚马逊云科技负责自动化,允许工程师专注于训练过程,而无需担心监控和管理集群。

42710d5f3a8aee6196ac735e767cf6f7.png

亚马逊云科技强大的GPU实例和灵活的集群管理工具使研究人员能够高效地处理复杂的工作负载和实验。

d5bcb6bc9897dbf216b7b055ab0b2b65.png

亚马逊的开源方法允许无缝集成诸如Frugal Transformer和Nemo Megatron库等前沿创新,从而实现AI开发的灵活性和速度。

236fddf6796f4060d96f576730ac51e2.png

Lusi对亚马逊云科技的合作伙伴关系表示感谢,强调了他们致力于培训和支持各种规模的公司有效利用其技术。

ba9bc8830b874d288dc29dfc2e66dd7c.png

总结

在这个引人入胜的叙述中,我们深入探讨了基础模型开发的世界,以及亚马逊云科技 SageMaker HyperPod所扮演的关键角色。这个故事通过Hugging Face、WriterAI和Hopper等行业领导者的视角展开,他们分享了构建尖端人工智能模型的经验和见解。

来自Hugging Face的Jeff强调了他们通过开放科学、开源和道德原则来实现机器学习民主化的使命。他强调HyperPod如何简化了他们的模型训练过程,使他们能够扩展到数千个GPU,同时确保了弹性和高效的资源利用。来自WriterAI的Wassim强调了可靠基础设施对于训练他们复杂的深度模型(可能需要数月时间)的重要性。HyperPod的自动弹性和监控功能是游戏规则的改变者,让他们能够专注于创新,而不是基础设施管理。

从事医学影像领域的Hopper公司的Robert分享了HyperPod的灵活性和可扩展性如何让他们能够在大型高分辨率数据集上进行训练,利用分布式训练技术(如DeepSpeed和FSDP)的强大功能。与会者还讨论了他们的推理方法,强调了HyperPod和EKS在可扩展、经济高效的部署方面的潜力。

在整个讨论过程中,与会者强调了开源社区和与亚马逊云科技的合作伙伴关系在加速人工智能进步方面的宝贵作用。这个叙述以一个响亮的呼吁作为结束,呼吁去中心化的人工智能,让每个公司都能构建和托管自己的模型,从而促进创新并保护客户数据。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值