- 博客(42)
- 收藏
- 关注
原创 萤火跑模型 | 高性能 Stable Diffusion 助力高质量 AI 绘图
幻方 AI 近期在萤火二号上使用 Google Caption 数据集复现了 Stable Diffusion 的训练,并进行了优化。通过幻方自研的hfai.pl插件将源代码 Pytorch Lightning 框架与萤火集群的特性轻松整合,并通过 3FS、hfreduce、算子等优化工具对模型训练提速。本文将分享我们对 Stable Diffusion 训练优化的心得体验,帮助研究者和开发者们降低研究门槛。
2023-01-05 13:38:23
1432
原创 hfai 心法总章 | 快速上手攻略
整个套件的功能较多,而熟悉掌握了这套规则,是能够轻松地调用起平台的算力资源,从而高效完成训练任务的。为此,我们专门创建了 “hfai 使用心法” 系列专辑,陆续为大家介绍 hfai 一些功能的设计思路和原理,帮助大家更快上手 hfai,游刃有余得应对深度学习作业的各项挑战。整个套件的功能较多,而熟悉掌握了这套规则,是能够轻松地调用起平台的算力资源,从而高效完成训练任务的。一套专门为数据集量身定制的“神功”,解决大规模的训练数据,上传、管理和部署。运转数据入萤火训练的不二法门。自建镜像,环境配置的最后绝招。
2022-12-19 16:58:29
309
原创 haiscale | 幻方萤火高性能并行训练工具库
haiscale (Highflyer AI Scale) 是一个轻量级的高性能并行训练工具库,其整合了幻方 AI 多年的并行训练研发优化经验,能够帮助 PyTorch 用户更加高效、便捷地在大规模集群上训练模型。
2022-12-12 16:35:00
474
原创 萤火跑模型 | 多卡并行实现 YOLOv5 高性能训练
总的来说,完整的 hfai 相比原始训练方式有将近 50% 的训练提速,这得益于优秀的训练数据集管理,高速存储系统和优良的算子与通信能力;与轻量版 hfai 对比中,我们可以明显看到,在使用同样的数据加载模式下,hfreduce 和 hfai 优化算子充分利用加速卡计算资源,加速的具体表现为整体有近 20% 的进一步提速。YOLOv5 作为目标检测领域的旗舰模型,受到了广泛的关注。我们借助幻方萤火集群,很轻松地实现了集群特性与这套新的开发模式的打通,获得明显的加速效果,证明了萤火集群的易用性和实力。
2022-12-09 17:09:27
1416
原创 hfai images | 自建镜像,环境配置的最后绝招
之前的文章为大家介绍了使用 hfai venv 构建运行环境和执行任务,然而对于一些特殊的场景,如强化学习、物理仿真等,单单通过安装 Python 依赖已不足以满足需求。研究者往往会构建项目特有镜像。如何将这类需求在萤火集群上支持是幻方 AI 研发者们在思考研究的问题。最近,hfai images 功能面世,为研究者和开发者们提供了一套解决此类方法的绝招。本期文章将为大家详细介绍。
2022-11-25 13:18:50
470
原创 hfai.pl | 兼具萤火集群优化特性的 PyTorch Lightning
Pytorch Lightning(简称 pl) 是在 PyTorch 基础上进行封装的库,它能帮助开发者脱离 PyTorch 一些繁琐的细节,专注于核心代码的构建,在 PyTorch 社区中备受欢迎。hfai.pl 是 high-flyer 对 pl 的进一步封装,能更加轻松的适配各种集群特性,带来更好的使用体验。本文将为大家详细介绍优化细节。
2022-11-21 14:16:03
874
原创 萤火跑模型 | 分布式训练大规模深度图神经网络
幻方AI最近尝试对图神经网络的并行训练进行优化,以 OGB 图数据集作为训练样本,在幻方萤火集群上复现 DeepGCNs 的实验。基于幻方自研的3FS、hfreduce等工具,采用灵活的分布式训练方法,进行不同任务场景下的 GNN 训练提速,取得预期效果。本期文章将为大家详细描述。
2022-11-14 10:16:19
589
原创 如何在 MM-* 框架上无缝使用 ffrecord
幻方AI针对mmdetection, mmsegmentation 等广受研究者欢迎的 mm-* 系列框架下ffrecord的转化进行了优化,提供了 FFRecordClient 接口。用户能够在配置文件中选择使用 FFRecordClient 来替换默认的读取后端。那么 FFRecordClient 和之前的 ffrecord 有什么不同?它具体该如何使用?本期文章将为大家分享。
2022-11-04 16:36:07
328
原创 萤火跑模型 | 英伟达元宇宙创造营 GET3D
英伟达的最新工作 GET3D 希望训练更好的 3D 生成模型,来生成下游任务可以直接使用的、保真纹理和复杂几何细节的 3D 模型。幻方 AI 最近对这项工作进行了整理和优化,在幻方萤火二号上复现了实验,本期文章将为大家详细描述。
2022-11-01 10:42:09
451
原创 NeurIPS 2022 | 能量函数指导的图图翻译扩散模型
最近来自人民大学李崇轩课题组的研究者们提出了一种基于能量函数的扩散模型生成指导方法 EGSDE。该方法旨在通过预定义的能量函数对预训练好的扩散模型进行指导,从而实现可控生成。现有指导生成方法如 classifier-guidance 等可以理解为 EGSDE 的特例。理论上,研究者从专家乘积(PoE)的角度解释了 EGSDE 的采样分布。值得一提的是,该项目利用了幻方AI深度学习训练平台的算力及加速性能,在无监督的图到图翻译任务上进行了大量实验。
2022-10-24 09:58:44
1815
原创 hfai datasets | 运转数据入萤火训练的不二法门
幻方 AI 在不久前发布了沉淀多年的深度学习套件 hfai ,集成了幻方对集群性能及易用性提升进行的大量开发。整个套件的功能较多,而熟悉掌握了这套规则,就能够轻松地调用起平台的算力资源,高效完成训练任务。为此,我们专门创建了 “hfai 使用心法”系列专辑,分集陆续为大家介绍 hfai 一些功能的设计思路和原理,帮助大家更好更快地习得心法,带着 hfai 这套“神功”游刃有余的应对深度学习作业的各项挑战,举重若轻、例不虚发。
2022-10-14 16:27:22
392
原创 萤火跑模型 | 多卡并行助力 BEVFormer 三小时全精度训练
感知系统是自动驾驶系统中不可或缺的部分,系统中包括许多视觉任务,例如目标检测分割、目标跟踪、语义和实例分割、车道线检测等等。感知系统通过对周围环境状态的准确估计,为预测、规划等下游任务提供重要的依据。其中如何利用车载环视相机采集到的多个视角图像,实现精准的 3D 目标检测和分割是感知系统中最为基础且重要的任务。
2022-10-08 16:39:20
2139
2
原创 幻方萤火 | 一行代码,自动调参
调参是深度学习中的必经过程,研究者们往往需要花费大量的时间进行调参,以获取最好效果的模型参数。对于参数规模不大的小模型,手工运行实验进行参数调优还是可以接受的方法,但当遇上大模型时,只凭人工进行参数优化就会变得难以实操,也难以高效利用GPU集群的强大算力。为了解决这一问题,幻方 AI 基于萤火集群的特性,研发了一套辅助调参工具——Autotune。用户只需要设定好参数搜索范围,在幻方萤火集群上发起训练,Autotune 会自动帮您尝试所有的参数组合,合理分配算力进行测试,最后统计输出不同参数下的模型表现。
2022-09-23 13:35:02
889
原创 幻方萤火 | 显存节省利器 CPUOffload
hfai.nn.CPUOffload 为什么可以节省显存?如何使用?它和 PyTorch 原始版本有何不同?本期文章将为大家分享 CPUOffload 设计背后的故事,讲述幻方 AI 设计 CPUOffload 的理念,展现 CPUOffload 的性能和便捷。
2022-09-14 10:14:47
1282
原创 在幻方追寻热爱,在「萤火」定义极限
D哥,大学读的是物理,却误打误撞进入了计算机的世界,目前在幻方负责萤火二号的运维。谈及他最近“不务正业”的折腾——自己写操作系统,D哥表示,这一切都源自物理人对这个世界的好奇和求根问底。正是这份好奇,让他永远充满寻求why的热情;正是这份求根问底,让他在直面最复杂的技术难题时,仍能保持游刃有余。
2022-09-05 09:56:12
834
原创 幻方斜杠青年W:金牌收割机/内推王/王者小国标
W同学,游泳业余三级运动员,平时最爱在公司健身房打乒乓球;游戏爱好者,王者荣耀弈星小国标,皇室战争准职业水平;周末喜欢在家钻研厨艺,也爱和朋友们一起桌游。两年前,他从北大毕业,来到了幻方。
2022-08-30 16:59:42
1585
1
原创 模型实践| Informer 上手实践
近年来的研究表明,Transformer具有提高预测能力的潜力。然而,Transformer也存在几个问题,使其不能直接适用于LSTF问题,例如时间复杂度、高内存使用和“编码-解码”体系结构的固有局限性。为了解决这些问题,作者基于Transformer设计了一种适用于LSTF问题的模型,即Informer模型,该模型具有三个显著特征:ProbSpare self-attention机制,有效降低了时间复杂度和内存使用量。
2022-08-30 16:52:55
5643
原创 数据模型可训不可见?hfai同态加密深度学习训练实践
通过本次实践,我们验证了同态加密的可行性,其在保障数据在外部的计算资源隐私安全的同时,会极大得影响训练的性能。目前同态加密处于不断研究优化的过程中,相信未来会有更多优化且可商用的技术突破和方案。我们将持续关注该领域的发展。
2022-08-29 10:39:27
1919
原创 hfai python | 任务提交任意所至,萤火训练行云流水
上两个招式为大家介绍了 hfai workspace 和 hfai venv,其可以帮助用户快速同步本地工程目录代码和环境到远程萤火超算中。而这套组合拳下来,其实我们可以认为是“蓄力”和“提气”的过程,接下来就是“神功”最核心的部分,本次文章将为大家介绍 hfai python,其可以帮助大家方便快捷地发起、管理训练任务。
2022-08-19 10:26:20
607
原创 模型并行 | 大规模语言模型架构 Megatron
Megatron是NVIDIA提出的一种由于分布式训练大规模语言模型的架构,针对Transformer进行了专门的优化(也就是大矩阵乘法)。,主要提出了通过将矩阵分块提高并行度的方法。,对于分布式中的一些重要的设计,如tensor parallel、pipeline parallel、micro batch size等进行了一些分析与讨论。同时提出了更加精细的pipeline结构与communication模式。
2022-08-16 13:33:13
6945
原创 幻方萤火 | 并行训练中的快速保存与加载 hfai.checkpoint
分布式训练中模型的保存,特别是大模型,常常需要耗费很多的时间,降低了整体的 GPU 利用率。针对这类问题,幻方 AI 进行了攻关,优化过往深度学习模型单机训练保存的方法,研发出分布式 checkpoint 方案,大幅度降低模型保存与加载上的开销。
2022-08-16 13:25:39
458
原创 模型实践 | CLIP-GEN无需文本训练即可文字生成图像
最近字节在 Arxiv 上发表了一项文本生成图像 (text2img) 的工作,其利用对抗网络 GAN 改造 CLIP模型,使得 CLIP-GEN 可以不依赖带文字描述的图片数据集,直接使用无文本图像数据集进行训练,通过预训练好的 CLIP 模型建立起文本和图像的映射关系。通过预训练好的 CLIP 模型建立起文本和图像的映射关系,在很多实验数据中表明,CLIP-GEN 的效果比 VQGAN-CLIP 要真实,尤其是泛化能力还比不少用大量“文本-图像”数据对训练出来的模型要好很多。一般单卡训练难度比较大。
2022-08-15 15:14:58
1580
原创 hfai venv | 运行环境的影分身术
上一招式为大家介绍了 hfai workspace,其可以帮助用户快速同步本地工程目录代码到远程萤火超算中。但是在实际的作业中,我们还会碰到另外一个问题——运行环境的同步怎么处理?这跟上一招式讲到的“本地-萤火,数据通路”其实是一套组合拳,那么本次“心法”就为大家介绍 hfai venv,“本地-萤火,环境共享”——快速实现运行环境的集群部署。
2022-08-09 15:37:50
438
1
原创 有点意思的小工具|JupyterLab TensorBoard Pro
对于深度学习开发者和研究者们来说,TensorBoard 是帮助理解深度学习运行机理,训练可视化和调试的重要工具。最近,幻方 AI 开发并集成了 JupyterLab TensorBoard 插件(JupyterLab TensorBoard Pro),帮助大家在使用幻方萤火超算集群训练模型的同时,也可以方便快捷地使用 Tensorboard 工具进行深度学习训练的调试。
2022-08-08 13:51:07
969
原创 hfai workspace│打通本地与萤火之间的任督二脉
本次文章为大家介绍 hfai workspace,其旨在同步本地工程目录代码到远程萤火超算中,更丝滑地利用萤火超算的算力运行您的项目工程。
2022-07-20 10:29:27
335
原创 幻方萤火 | 性能卓越的深度学习算子 hfai.nn
通过优化CUDAkernel和模型结构,融合多运算操作,幻方AI优化的深度学习算子在实际测试中表现出惊人的加速效果,优化的算子与幻方AI基础设施结合,让模型训练高效迅速,计算资源充分利用,加速更多场景的探索与研究。...
2022-07-19 17:15:08
718
原创 模型实践 | 可变形的 Attention 助力 ViT 优化
来自清华黄高课题组的研究者们对ViT模型中的Attention机制进行改进,提出了可变形的attention机制。研究者们让所有query都跟同⼀组key和value交互,通过对每个输⼊图像学习⼀组偏移量,移动 key和value到重要的位置。这种设计不仅增强了 sparse attention 的表征能⼒,同时具有线性空间复杂度。该项工作获得幻方AI算力资助,在大量的场景下进行了实验对比,验证了所提方法的优异性能。
2022-07-19 11:15:49
1287
原创 模型实践 | Autoformer 长时序预测
NeurIPS 2021,来自清华的几位学者结合之前和工作和 Informer 的模型设计,提出了 Autoformer 模型,在相同预测任务上大幅超越了之前的模型,实现了38%的相对效果提升。幻方AI最近对这项工作进行了整理和优化,在幻方萤火二号上复现了 Autoformer 的实验。通过幻方自研的 3FS、hfreduce、算子等,对模型训练进行提速,整合代码简化接口,融入hfai数据仓库和模型仓库中,帮助研究者和开发者们降低使用门槛。本期文章将为大家详细描述。
2022-07-18 14:50:05
2029
3
原创 模型高性能优化 | 如何实现一行代码 30% Alphafold 提速
幻方 AI 通过优化数据处理,采用特征预处理和特征裁切两种方式通过降低 CPU 开销,避免数据加载阻塞训练的方式提高了 Alphafold 整体的训练性能。本期,我们将尝试用另外一种方式,对这个“AI 顶流明星模型”进行二次提速。这次我们的实验思路是用上幻方 AI 的并行训练加速神器之二以及,它们是否能对 Alphafold 整体的训练进一步加速呢?本期文章将通过实验给出答案。扫描文末二维码,即可申请试用幻方的AI 训练平台。之前的文章。
2022-07-11 14:32:27
293
原创 模型实践 | 高精地图构建模型HDMapNet助力更精准的自动驾驶
高精地图是自动驾驶系统的关键模块,可以有效提升自动驾驶汽车的行驶安全度,强化自动驾驶系统的整体感知能力和决策能力。然而传统的高精地图构建流程复杂,需要消耗大量的资源和人力,导致其扩展性和实时性无法满足自动驾驶的使用需求。CVPR 2021 Workshop 最佳论文提名的一篇文章 HDMapNet,来自清华大学交叉信息院 MARS Lab,提出了一个使用深度神经网络实时构建局部高精地图的思路。
2022-07-11 14:27:29
2073
原创 模型实践 | AI驱动的全球精准气象预报
FourCastNet 采用 GPU 训练计算,比传统的 NWP 模型快约 45000 倍,能量节约12000倍,使得它能够以很低的成本生成大量的子模型,进行集合预测。实验表明 FourCastNet 极大地改善了概率天气预报的效果,可以在几秒钟内生成对飓风、大气层河流和极端降水等事件的大规模集合预报。幻方 AI 最近复现了该项工作,并通过幻方自研的 3FS、hfreduce、算子,对模型训练和推导进行优化。本文将为大家介绍。
2022-07-07 14:13:48
2056
1
原创 模型高性能优化 | 两步数据预处理让Alphafold 提速一倍
若说2021年人工智能学术界最令人振奋的成果,那么Alphafold可谓当之无愧。Alphafold2在CASP14 蛋白质预测挑战上取得了远远超出同类模型的准确率,并首次将蛋白质结构预测的精度提高到了原子级别——已经接近了实验测量的水准。幻方AI团队在Alphafold2推出不久就在萤火二号平台成功将Alphafold2训练运行了起来。
2022-07-06 14:21:36
619
原创 模型实践 | Alphafold 蛋白质结构预测
AlphaFold解决的问题是蛋白质折叠问题。输入是一个氨基酸序列,每一个位置代表一个元素,输出是一个拓扑结构,如下图所示:直接输出一个拓扑结构对于深度学习来说比较困难,一般需要输出结构化的数据。DeepMind将该问题转化为预测氨基酸链的一些性质。准确的来说,深度模型输出的是每一个氨基酸单元和其下一个氨基酸单元在空间中的夹角与距离,再组合成拓扑结构。
2022-07-06 14:17:49
4577
原创 模型实践| CLIP 模型
CLIP(Contrastive Language-Image Pre-Training,以下简称 CLIP) 模型是 OpenAI 在 2021 年初发布的用于匹配图像和文本的预训练神经网络模型,可以说是近年来在多模态研究领域的经典之作。该模型直接使用大量的互联网数据进行预训练,在很多任务表现上达到了目前最佳表现(SOTA)💯。
2022-03-28 09:34:32
16133
1
原创 幻方萤火 | 高性能数据格式 ffrecord
在之前的文章《幻方萤火 | 高速读写文件系统 3FS》中提到,幻方AI自研了一套适合深度学习模型训练场景的文件读写系统3FS,能提供高性能的批次数据读取,提高模型的训练效率。对于用户而言,使用3FS非常简单,只需要掌握我们封装设计的高性能数据格式,ffrecord,将数据存入幻方萤火超算平台中即可。那么ffrecord和一般的数据格式有什么不同?它应该要有哪些设计要求呢?本期文章将为大家分享ffrecord设计背后的故事,讲述幻方AI设计ffrecord的理念,展现ffrecord的高性能和便捷。
2022-03-25 11:07:38
355
原创 PyTorch分布式训练方法
本期文章分享的,是如何使用起多张显卡,来加速你的AI模型。分布式训练技术逐渐成为AI从业者必备技能之一,这是从“小模型”走向“大模型”的必由之路。我们以 PyTorch 编写的ResNet训练为例,为大家展示不同的分布式训练方法及其效果。
2022-03-15 15:00:09
5492
原创 模型实践 | AAAI 2022 气象预测之时空图神经网络
本期模型试跑将为大家体验该项研究成果,来看看最近火热的GNN是否可以有效提升气象预测的精度,缩短预测时间。
2022-03-15 10:32:49
2312
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人