
深度学习
文章平均质量分 87
死亡之翼归来
行走世间,都是怪物。
展开
-
大模型分布式训练并行技术分享
目前业内解决大模型问题,基本以多节点、分布式方案为主。分布式方案具体的实施时,又分为数据并行、参数并行、流水线并行等,针对具体的业务场景采取合适的并行方案方可带来更高的效率。后续结合业内主流的分布式框架,具体介绍各种并行的思路以及可能带来的收益。原创 2024-05-26 10:13:24 · 1479 阅读 · 0 评论 -
Pytorch DDP分布式细节分享
如果find_unused_parameters设置为True,DDP 会分析本地模型的输出,从 out 开始遍历计算图,把未使用参数标示为 ready,因为每次计算图都会改变,所以每次都要遍历。此模式(Mode)允许在模型的子图上向后运行,并且 DDP 通过从模型输出out遍历 autograd 图,将所有未使用的参数标记为就绪,以减少反向传递中涉及的参数。自动微分的精髓在于它发现了微分计算的本质:微分计算就是一系列有限的可微算子的组合。假设显卡数量为N,将每张卡的梯度分为N个桶,每张卡的梯度总量是K。原创 2024-05-23 19:38:36 · 1319 阅读 · 1 评论 -
spark支持深度学习批量推理
在数据量较大的业务场景中,spark在数据处理、传统机器学习训练、深度学习相关业务,能取得较明显的效率提升。本篇围绕spark大数据背景下的推理,介绍一些优雅的使用方式。原创 2023-08-31 20:11:24 · 1928 阅读 · 0 评论 -
Kubeflow Artifact Store简介
artifact作为结果信息展示的工具,主要服务于kubeflow notebook server和kubeflow pipelines,现结合artifact的应用作介绍。Metadatakubeflow artifact store最早称之为metadata store,它的定位是记录和管理kubeflow机器学习工作流中的元数据。想要记录工程中的metadata,你需要使用专用的Metadata SDK,在python中使用pip安装即可:pip install kubeflow-metada原创 2020-10-30 20:39:42 · 1625 阅读 · 2 评论 -
使用kubeflow调参工具Katib
调参工具的工作原理是:将深度学习的训练、实验过程以kubeflow任务的形式发布,多次实验迭代会有多个任务发布;目前Katib能支持一些主流算法框架,如tensorflow、mxnet、pytorch、xgboost等。目前Katib调参功能细化为:超参数调节和神经网络结构搜索,开发者可以在kubeflow ui中实现配置和发布调参任务。Hyperparameter Tuning如下图所示,开发人员在ui中设置调参配置有两种方式:对k8s比较熟练的人员可以选择yaml文件配置;不熟练的人员可以选择原创 2020-10-30 20:30:48 · 1944 阅读 · 0 评论 -
使用Kubeflow pipelines
pipelines简介pipelines是一个机器学习工作流的抽象概念,这个工作流可以小到函数的过程、也可以大到机器学习从数据加载、变换、清洗、特征构建、模型训练等多个环节。在kubeflow中,该组件能以ui界面的方式记录、交互、反馈实验、任务和每一次运行。pipelines各流程组件构建成功后,会依据事先定义好的组件依赖关系构建DAG(有向无环图)。在pipelines构建各流程组件前,需要将对应流程的业务代码打包成docker镜像文件(kubeflow中运行业务代码均以容器的方式实现)业务代原创 2020-10-28 09:50:47 · 2905 阅读 · 11 评论 -
pipelines sdk简介
pipeline sdk是使用python配合kubeflow pipelines功能的工具包,文档在此进行了简单搬运,如果有想了解更多可以阅读原始文档:https://www.bookstack.cn/read/kubeflow-1.0-en/dc127d6c8622b832.md此外,为了简化用户使用kubeflow pipelines功能,对常用api做了使用封装。常用api简介将一个用dsl.pipeline装饰的工作流方法,编译成一个k8s任务.yaml配置的压缩文件:Compiler.原创 2020-10-28 09:49:30 · 1057 阅读 · 3 评论 -
构建docker镜像基本教程
构建自定义kubeflow notebook镜像构建notebook镜像的基本要求,是在镜像的python环境中安装jupyter和notebook 的工具包。下面我以tensorflow/tensorflow:1.12.0-gpu-py3官方的基础镜像为例,构建用户自定义notebook镜像。第一步:下载基础镜像在公司办公网络的环境下,下载基础镜像会比较花时间,可以把下载基础镜像的工作放在晚上。基础镜像作为构建个性化镜像的基础,可以复用。接下来我们的操作是在基础镜像的基础进行的。第二步:构建镜原创 2020-10-28 09:45:51 · 521 阅读 · 1 评论