- 博客(59)
- 收藏
- 关注
原创 【腾讯云-2】极简搭建边缘集群
边缘集群无法对云端进行操控,无法加入worker节点,只能接入边缘节点,云端只有一个master节点,因此不适合k8s的学习,只适合部分边缘计算场景。
2023-04-24 17:35:04
635
原创 【k8s完整实战教程1】源码管理-Coding
再小的帆,也能远航!拥有以下功能:是一个比较好的管理工具,还可以以记录版本的形式写文档(非广子,coding官方看到可给我打钱)废话不多说,主要有以下流程:(自己总结的,不喜勿喷,可选择自己喜欢的方式)Coding创建代码仓库–>本地创建git代码仓库–>本地代码仓库克隆Coding代码仓库以进行关联–>本地代码仓库中进行开发–>本地推送到Coding仓库–>创建制品仓库–>Coding代码仓库构建计划制作镜像制品并推送到制品仓库。
2023-04-14 15:30:48
910
原创 【Docker】将自定义的镜像上传至dockerhub或阿里云私有仓库,并在其他节点进行拉取
为了能实现镜像的异地使用以及进行更好的镜像管理,将自定义的镜像上传至dockerhub或阿里云私有仓库,并验证在其他节点进行拉取。
2022-08-29 17:25:57
839
原创 【Docker】Dockerfile构建自定义进阶的helloworld镜像-2
上一篇只是加入了flask框架,这次再试试加入html文件来优化显示的界面。具体实现的是一个数组相加的功能。
2022-08-29 17:19:02
425
原创 【Docker】Dockerfile构建自定义进阶的helloworld镜像-1
之前一篇构建了最简单的helloworld程序,只是在命令行界面打印,此篇博客尝试需要环境依赖的镜像(flask框架)构建,实现的效果是能在网页上显示helloworld。
2022-08-29 16:38:38
413
原创 【Docker】Dockerfile构建自定义的最简单的helloworld镜像
之前是直接根据别人现有的项目构建的镜像,这篇博客尝试自定义一个最简单的python项目并用dockerfile构建成镜像。
2022-08-29 16:16:18
1713
原创 Horovod 实战练习(含源码和详细配置)
上一篇详细学习了Horovod相关知识,因此,这一篇便开始尝试Horovod的实战练习。实验环境为矩池云的机器,里边提供了打包好的horovod镜像,因此暂未考虑如何安装的问题。
2022-07-26 20:57:02
501
原创 Horovod 基础知识(官网)
Horovod是一个适配TensorFlow,Keras,PyTorch和ApacheMXNet的深度学习分布式训练框架,目标是使得分布式深度学习更加快速、更加易用。目前最新版本为0.25.0。
2022-07-25 20:38:12
2381
原创 tensorboard使用界面介绍以及使用方法(看这篇就够了,都有源码可以直接测试)
参考文档机器学习总是涉及理解关键指标,例如损失(loss),以及它们如何随着训练的进行而变化。例如,这些指标可以帮助您了解模型是否过拟合,或者是否不必要地训练了太长时间。您可能需要比较不同训练中的这些指标,以帮助调试和改善模型。重新训练回归模型并记录自定义学习率。使用创建文件编写器。定义自定义学习率函数。这将传递给Keras回调。在学习率函数内部,使用记录自定义学习率。将回调传递给Model.fit()。#!"""运行后发现log里边多了一个metrics参考文档使用可视化层权重。...
2022-07-14 19:57:58
3452
原创 tensorboard可视化工具最简单使用示例(tf2.6:上手就会)
实验环境:tf2.6,对应的keras为2.6.0使用情境:最简单的在使用,十分简单。参考文档为官方文档~运行结果:并在当前目录下生成日志文件夹:教程是在终端执行以下命令:,但这好像是在linux系统中的命令,笔者使用的是window系统进行学习。因此可直接手动删除logs日志文件夹。如果不删除,也不会报错,将会同时将两次日志弄到一个图中。tensorboard中的情况:可以筛选查看~......
2022-07-13 21:21:39
810
2
原创 tensorflow2.x 数据集相关知识和操作
首先需要安装一个独立的Python包提供支持:导入mnist数据集示例:说明:返回的是一个类型的对象,由一些列的可迭代访问的元素(element)组成,每个元素包含一个或多个张量。比如说,对于一个由图像组成的数据集,每个元素可以是一个形状为 的图片张量,也可以是由图片张量和图片标签张量组成的元组(Tuple)。方法。具体而言,如果我们的数据集中的所有元素通过张量的第 0 维,拼接成一个大的张量(例如,前节的 MNIST 数据集的训练集即为一个 的张量,表示了 60000 张 28*28 的单通道灰
2022-07-12 16:00:44
972
原创 ParameterServerStrategy 中分布式数据集创建和输入相关问题
由于ParameterServerStrategy策略,会在各个ps上进行创建变量,因此涉及到变量分片、分布式数据集创建和输入的问题,本文主要对以下官方文档进行研读,以期能够完成对自己demo的特定化修改。由于ParameterServerStrategy必须用到,因此重点研读!我暂时理解它为一种数据集类型。学习过程中看到这篇文档,里边提到了如何使用加载数组,感觉我的demo结合这个可以很好地符合ps策略里边示例的形式。了解的不深,先mark下来。假设您有一个示例数组和相应的标签数组,请将两个数组作为元组传
2022-07-08 11:05:46
422
1
原创 ‘tf.distribute.experimental.ParameterServerStrategy‘官方文档取之我用
由于对ps策略具体原理不甚了解,导致编程后运行出错,分析应该是分布式数据集构建和输入时出现了错误,故对此文档进行翻译并着重理解自己需要的部分。官方文档参考链接也称作,但实际上实践后,tf2.4版本并不支持,不知道更高版本是否支持没有试过(截止目前已经是tf2.9版本了)。是一种常用的数据并行方法,用以将模型训练扩展到多台机器上。一个参数服务器训练集群包括和。变量在上被创建,并且在训练的每一步中都被读取和更新。默认情况下,之间不同步地独立地进行读取和更新变量。这也是为什么被称为异步训练的原因。在tf2.x中,
2022-07-07 15:01:25
441
原创 ubuntu删除snap和log文件解决var区空间不足的问题
最近突然系统跳出var区空间不足的提示,这往往是因为装双系统的时候分配的空间不够。通过查询可以发现,一般是snap文件和log文件的原因,而这些文件大多无用却占用很大空间,因此可考虑删除。第1步: 进入文件所在位置第2步:查看文件版本的可用性可见很多disable的版本,即可删掉第3步:直接删除相应文件(像很多使用指令的教程并不管用)删除log文件直接进入对应目录,删除相应文件...
2022-07-05 16:07:09
10587
4
原创 ‘Parameter server training with ParameterServerStrategy‘官方文档翻译及个人理解
由于目前全网很少关于的实践,而官网分布式训练模块就这一篇文章没有翻译,读者读起来很费劲。而使用机翻经常乱七八糟,因此笔者决定在尊重官网原文的准则下自己来翻译,并偶尔给出自己的思考。官方文档地址是一种常用的数据并行方法,用以将模型训练扩展到多台机器上。一个参数服务器训练集群包括和。变量在上被创建,并且在训练的每一步中都被读取和更新。默认情况下,之间不同步地独立地进行读取和更新变量。这也是为什么被称为异步训练的原因。在tf2中,被tf.distribute.ParameterServerStrategy这个A
2022-07-04 19:22:21
525
原创 如何选用GPU云服务器?
相关参数:地域、计费方式、CPU、内存、带宽、系统盘、数据盘就近原则,理论上,用户距离云服务器地域越近,网络延迟越低,速度越快。当需要部署大型项目涉及负载均衡和高并发量等时,地域节点的影响会慢慢凸显。包年包月:一般适用于24小时在线服务(无特殊需求则选择这个方案,性价比高)按量计费:间歇使用CPU是服务器的一个核心,表示云服务器的运算能力。............
2022-06-24 16:51:36
1447
原创 Tensorflow ParameterServerStrategy Training实战
基于前面的基础知识积累,废话不多说,直接实战~参考github项目前文使用Docker准备了5个相关开发环境,刚好来试试。项目源代码如下:1.2 转换代码在本地运行代码需要转换为文件主要是一下转换:需要注释掉jupyter文件中转换后的魔法函数,否则直接运行会出现以下错误1.3.2 但后续代码中仍然会用到解决:代码中加入,一般会报错找不到,直接安装即可:这个问题暂时解决报错:1.3.5 解决方法太多类似的import问题和找不到包的问题,很可能是版本的问题。但不可能重新配置开发环境
2022-06-22 16:28:16
719
原创 Tensorflow ParameterServerStrategy Training知识学习记录
前面部分很多只是笔者学习知识记录的部分并且会随着学习的深入不段增加知识,没有什么参考价值,实战部分或许更有借鉴意义。官方文档参考学习到的知识及需要学习的知识:异步训练支持keras高阶API和自定义训练(实验需要,目前只学习keras)和两个概念需要明确集群中的三个角色的分工需要了解:、、是什么?为什么需要这个东西?是什么?为什么需要这个东西?评估如何实现?官方示例需要创建2个ps服务器和3个worker服务器每个worker上支持调用多个GPU但需要保证所有worker上的GPU数目是一致的。成为分片,
2022-06-17 20:16:19
329
原创 分布式策略进行多GPU分布式训练(含源码可以直接测试)
笔者前一篇文章提到多GPU的使用可以有手动设置和分布式机制两种,并对手动设置进行训练做了实验和总结。这一篇笔者就来利用分布式策略进行多GPU分布式训练的实验和总结,希望对读者有所裨益~笔者搭建的开发环境是tensorflow-gpu版本的,具体可见这篇文章。tensorflow支持的分布式策略可见官方文档,或者略看一下笔者之前学习总结的文章。现在,万事俱备,咱就直接实战。首先,需要做一个单机单卡实验作为对照组,以体现后续分布式训练对训练速度的提升。1.0.2 运行测试1.0.3 结果分析观察运行输出
2022-06-15 18:25:54
961
2
原创 分布式训练的GPU设置与分配(含源码可以直接测试)
:输出日志信息,包含任务的布置情况 :自动指定设备布置任务 :设置可见设备,例如机器上有4个GPU,但设置只对一个GPU可见,则该进程无法访问其他设备 :获取所有物理设备(整块) :建立逻辑分区 :获取所有逻辑设备(分块) :设置内存自增长,需在程序开始的时候就被设置因此,本机有两块物理GPU先做一个默认gpu设置的实验,作为对照组。基础代码:容器内进行训练:默认情况下,此demo每步运行花费6ms。查看GPU占用情况:发现仅仅这一个进程就几乎占满GPU,对资源浪费十分严重。因此,进行
2022-06-13 22:03:27
2242
3
原创 基于Docker配置的tensorflow-gpu环境进行分布式训练
本文基于ubuntu18.04中基于Docker搭建tensorflow-gpu开发环境这篇文章中构建好的tensorflow-gpu环境进行开发。如果觉得有用,测试demo可以找我要,希望能帮助到大家。添加一行:4 重启ssh服务:5 宿主机上连接::此处端口是之前宿主机映射到容器的端口,详细见我上篇文章。6 将添加ssh功能的容器打包成一个镜像,在这篇文章的基础上。2 查看每个Docker容器的ip信息3 宿主机端口和docker容器端口映射3.0 端口映射相关知识基础参考链接TC
2022-06-10 16:43:51
1029
原创 ubuntu18.04中基于Docker搭建tensorflow-gpu开发环境
前提条件就不多提啦,首先得装好nvidia驱动和Docker19以上版本,网上有很多教程。deepo是一个囊括几乎所有深度学习框架的开源镜像,这里我们选择拉取一个tensorflow-gpu版本的,避免占用储存过大。多方查找原因无法解决,决定尝试另一种方法需要注意,选择的cuda版本需要满足宿主机的显卡驱动需求:官网宿主机的驱动版本为,因此选用11.0的即可拉取镜像官方地址这里选择,复制命令:镜像比较大,需要耐心等待,拉取中~拉取完成:2 通过镜像建立容器通过以下指令:说明::以交互模型运
2022-06-07 18:15:06
1225
原创 夯实基础篇--yaml文件规则研读
0 前言予读者言:本系列博客本义作为笔者记录所用,所以可能稍显冗长,但同时也记录了我的学习研究思路,会在学习的过程中不断更新,可供读者借鉴,能对大家有些许帮助就是笔者最为开心之事~由于最近在部署deployment的过程中遇到了问题,之前只是拿别人写好的yaml文件改改名称就作为自己的来创建,对其中的每个句段的具体含义不求甚解,所以自己也不是很懂个中原理,遂打算详细学习一下~1 简介YAML (YAML Aint Markup Language)是一种标记语言,通常以.yml或者.yaml为后缀
2022-04-27 19:10:38
2250
2
原创 k8s(v1.18.0)安装dashboard可视化插件(v2.00)
0 准备查看适配k8s版本的dashboard可视化界面1 下载并应用官方yaml文件(master)root@master:/home/hqc# kubectl apply -f https://raw.githubusercontent.com/kubernetes/dashboard/v2.0.0/aio/deploy/recommended.yaml secret/kubernetes-dashboard-certs created secret/kubernetes-dashboard-
2022-04-26 09:56:48
894
原创 夯实基础篇--k8s相关知识(持续学习)
官方文档1 相关概念1.1 k8s各组件1.1.1 控制平面组件(Control Plane Components)控制平面的组件对集群做出全局决策(比如调度)控制平面组件可以在集群中的任何节点上运行1.1.1.1 kube-apiserverAPI 服务器是 Kubernetes 控制面的前端水平伸缩相关1.1.1.2 etcd后台数据库1.1.1.3 kube-scheduler根据单个 Pod 和 Pod 集合的资源需求、硬件/软件/策略约束等因素进行调度决策。决
2022-04-25 21:04:26
386
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人