
幻方AI-入门
文章平均质量分 90
幻方AI小编
让天才想法落地
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
啾咪~萤火AI三小只给您拜年~
我们希望让更多“想象力”和“创造力”生长,期待与各方科学家及开发者们一同共建AI时代。原创 2023-01-30 15:21:34 · 335 阅读 · 1 评论 -
幻方AI年度总结:2022我们坚持了一件事情
我们希望让更多“想象力”和“创造力”生长。期待与各方科学家及开发者们一同共建AI时代。原创 2023-01-13 13:33:09 · 836 阅读 · 0 评论 -
hfai images | 自建镜像,环境配置的最后绝招
之前的文章为大家介绍了使用 hfai venv 构建运行环境和执行任务,然而对于一些特殊的场景,如强化学习、物理仿真等,单单通过安装 Python 依赖已不足以满足需求。研究者往往会构建项目特有镜像。如何将这类需求在萤火集群上支持是幻方 AI 研发者们在思考研究的问题。最近,hfai images 功能面世,为研究者和开发者们提供了一套解决此类方法的绝招。本期文章将为大家详细介绍。原创 2022-11-25 13:18:50 · 481 阅读 · 0 评论 -
hfai.pl | 兼具萤火集群优化特性的 PyTorch Lightning
Pytorch Lightning(简称 pl) 是在 PyTorch 基础上进行封装的库,它能帮助开发者脱离 PyTorch 一些繁琐的细节,专注于核心代码的构建,在 PyTorch 社区中备受欢迎。hfai.pl 是 high-flyer 对 pl 的进一步封装,能更加轻松的适配各种集群特性,带来更好的使用体验。本文将为大家详细介绍优化细节。原创 2022-11-21 14:16:03 · 891 阅读 · 0 评论 -
萤火跑模型 | 分布式训练大规模深度图神经网络
幻方AI最近尝试对图神经网络的并行训练进行优化,以 OGB 图数据集作为训练样本,在幻方萤火集群上复现 DeepGCNs 的实验。基于幻方自研的3FS、hfreduce等工具,采用灵活的分布式训练方法,进行不同任务场景下的 GNN 训练提速,取得预期效果。本期文章将为大家详细描述。原创 2022-11-14 10:16:19 · 598 阅读 · 0 评论 -
如何在 MM-* 框架上无缝使用 ffrecord
幻方AI针对mmdetection, mmsegmentation 等广受研究者欢迎的 mm-* 系列框架下ffrecord的转化进行了优化,提供了 FFRecordClient 接口。用户能够在配置文件中选择使用 FFRecordClient 来替换默认的读取后端。那么 FFRecordClient 和之前的 ffrecord 有什么不同?它具体该如何使用?本期文章将为大家分享。原创 2022-11-04 16:36:07 · 343 阅读 · 0 评论 -
模型并行 | 大规模语言模型架构 Megatron
Megatron是NVIDIA提出的一种由于分布式训练大规模语言模型的架构,针对Transformer进行了专门的优化(也就是大矩阵乘法)。,主要提出了通过将矩阵分块提高并行度的方法。,对于分布式中的一些重要的设计,如tensor parallel、pipeline parallel、micro batch size等进行了一些分析与讨论。同时提出了更加精细的pipeline结构与communication模式。原创 2022-08-16 13:33:13 · 6993 阅读 · 0 评论 -
在减少网络拥塞上,我们的一点实践(一)
幻方AI自研了一套适配萤火二号的路由算法,本期文章针对网络这个话题,分享一点幻方 AI 的思考和优化。原创 2022-08-12 10:42:07 · 375 阅读 · 0 评论 -
PyTorch分布式训练方法
本期文章分享的,是如何使用起多张显卡,来加速你的AI模型。分布式训练技术逐渐成为AI从业者必备技能之一,这是从“小模型”走向“大模型”的必由之路。我们以 PyTorch 编写的ResNet训练为例,为大家展示不同的分布式训练方法及其效果。原创 2022-03-15 15:00:09 · 5537 阅读 · 0 评论