
分布式
James-0
福建帝视信息科技有限公司
E-mail:mydota@qq.com
展开
-
Ubuntu部署FfDL记录
Kubernetes是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应用部署,规划,更新,维护的一种机制。准备docker:k8s底层是基于docker的,所以你需要先安装docker.禁掉swap分区:你可以用sudo swapoff -a,要永久禁用swap分区的话,需要s...原创 2019-01-25 15:45:04 · 794 阅读 · 0 评论 -
FfDL任务挂起halt和恢复resume功能实现
FfDL官方目前代码任务挂起仅仅实现将数据库里面的Status字段修改为HALTED,没有实现真正意义上的pod销毁、任务状态信息保留,resume接口更是没有实现。由于项目需要,需要实现这部分功能。 思路:采用restapi PatchModel进行服用,当消息是Halt的时候标记挂起操作,Resume标记恢复操作。 挂起实现逻辑:请求参数为训练id,从mongo数据...原创 2019-02-18 11:37:55 · 856 阅读 · 0 评论 -
k8s pod指定在master节点上运行
在某些场景,例如资源有限或特殊的拓扑结构下,需要将某些服务可以或者指定到k8s的master节点进行运行。 这时候就需要通过修改pod的配置,使其可以在任意节点上运行(包括master和node): tolerations: - key: node-role.kubernetes.io/master effect: NoSchedul...原创 2019-02-13 19:58:25 · 10126 阅读 · 1 评论 -
AWS s3 java api使用
由于项目需要采用minio快速搭建了一个分布式s3存储系统,为了考虑以后迁移到ceph的可能性,后端api放弃了minio的官方api而采用Amazon提供的官方s3 api,由于minio是兼容s3协议的存储系统,因此理论上可以采用aws sdk进行调用。 下载java sdk的sample代码: git clone https://github.com/awsla...原创 2019-02-13 20:23:45 · 11396 阅读 · 0 评论