
云计算
文章平均质量分 60
runzhliu
毕业于中山大学,目前专注于容器和大规模并行计算
展开
-
【Longhorn】能否部署到专用的节点,业务使用其他节点
Longhorn 作为分布式存储,当然是有点复杂的…作为集群的使用者,当然会有一种想法就是能否在集群中只用几个节点部署 Longhorn,万一出问题了,不影响用户在节点上的其他工作负载。然而理想很美好,现实往往就不如人意了,可以阅读一下下面的文章. 虽然文章提出了可以在几个节点上部署 Longhorn 的组件,看起来是满足我们的需求,但是实际上还有一句话。Longhorn components are only deployed on node-1, node-2, and node-3. Workl原创 2022-01-25 17:39:40 · 1675 阅读 · 0 评论 -
Kubernetes v1.8 对 GPU 的支持
文章目录针对 Kubernetes 1.8在人工智能和深度学习领域,算法工程师对 GPU 的使用越来越多,因此用户也希望通过 Kubernetes 来为模型训练任务申请 GPU 资源。Kubernetes 支持 GPU 有几个前提条件。工作 Node 需要安装 Nvidia 的驱动程序工作 Node 的 kubelet 需要在启动参数增加 --feature-gates="Acce...原创 2020-02-01 10:03:39 · 579 阅读 · 0 评论 -
Spark Operator 是如何提交 Spark 作业
文章目录OverviewSpark Operator 中的 spark-submit 命令SummaryOverview本文将 Spark 作业称为 Spark Application 或者简称为 Spark App 或者 App。目前我们组的计算平台的 Spark 作业,是通过 Spark Operator 提交给 Kubernetes 集群的,这与 Spark 原生的直接通过 spark-...原创 2019-10-12 16:21:37 · 1372 阅读 · 0 评论 -
大规模离线计算产品的调研
文章目录Background资源调度产品形态1 传统计算集群1.1 腾讯云-弹性 MapReduce1.2 腾讯云-云数据仓库套件 Sparkling1.3 阿里云-大数据计算服务 MaxCompute1.4 阿里云-E-MapReduce2 容器化的计算产品2.1 Azure Kubernetes Service - AKS2.2 Amazon Elastic Kubernetes Servic...原创 2019-07-16 19:42:24 · 6744 阅读 · 0 评论 -
Kubeflow 部署采坑记录
文章目录1 Overview2 Deploy2.1 本地部署2.2 init 过程2.2 generate 过程2.3 apply 过程2.4 部署成功2.5 删除3 必须要注意的问题4 部署失败的原因附录Kubeflow = Kubernetes + Machine Learing + Flow1 OverviewKubeflow 是在 K8S 集群上跑机器学习任务的工具集,提供了 T...原创 2019-08-06 19:19:29 · 5424 阅读 · 3 评论 -
Tensorflow-gpu 运行在 cpu 母机的问题
tensorflow-gpu 的镜像当然运行在 GPU 的母机上了,但是如果容器被调度到没有 GPU 的母机上呢?# 导入 tensorflow# python -c "import tensorflow"Traceback (most recent call last): File "<string>", line 1, in <module> File "...原创 2019-09-02 15:22:16 · 349 阅读 · 0 评论 -
跑一个 OpenVINO 的 demo
上周在公司听了 Intel 的代表来介绍他们的 AI 芯片,Spring Hill (NNP-I 1000),关于这个芯片的资料,具体可以看看这个下面的 PPT。https://newsroom.intel.com/wp-content/uploads/sites/11/2019/08/Intel-Nervana-NNP-I-HotChips-presentation.pdf因为 GPU ...原创 2019-09-21 19:21:12 · 621 阅读 · 0 评论