K8S自建企业私有云方案 单台起配 NVMe全闪存储性能

作为老牌存储硬件厂商,Infortrend这回开了一把大的。在一套设备系统里,将计算节点、存储与Kubernetes结合,打造出EonStor KS IEC(Infortrend企业云),将硬件与软件、前端与后端、上层与底层统一融合在一套系统中,为企业提供专属本地私有云平台,为企业应用提供高效稳定安全地运行平台。

9407b20bcf3f547989313037f35075b1.jpeg

KS 同时内置 Kubernetes 平台和虚拟机管理程序(hypervisor),既能运行云原生容器化应用程序例如大数据、AI、ML、HPC等相关,也可以选择自己开发好的IMG快速部署安装,还能通过虚拟机运行传统应用程序。用户通过KS可以更好的部署应用资源配置,减少运营浪费。

a7fee3035423cbb6b528102af58113ba.jpeg

单台KS搭载两颗32核 Intel Xeon® Scalable 处理器共提供 64 核计算能力,还可配备高性能U.2 NVMe SSD,以及25/100 GbE通道板,单台性能可达 1M IOPS、30 GB/s 的读、25 GB/s 的写。

此外单台KS 可安装最多4张NVIDIA GPU卡,特别适用于人工智能、深度学习、高性能计算 (HPC),大数据分析等需要并行文件处理能力的应用。KS还能借助GPU虚拟化技术,共享GPU资源,并让虚拟机直接访问,从而优化GPU利用率,充分利用GPU算力。

9bbe01e47233461b7b4b0a0deb758ce5.jpeg

高扩展性,KS集群可以从3个节点开始部署,最多扩展到20个节点提供达 1280 核计算能力,同时计算和存储性能也随着节点增加而提升,并且KS可以连接统一存储GS、分布式CS,以及并行文件系统GSx,进一步扩展容量,适合超大数据量应用。

对计算与存储资源,KS可以智能监控管理,根据节点负载变化自动缩放、跨节点动态调整这些资源,让KS的扩展性更具有弹性,保证GPU算力及其业务。

KS 能够自动检测节点故障,将应用程序快速转移到正常节点。故障节点可以从集群系统中完全删除,修复后重新加入集群系统,不需要系统停机,确保企业应用连续运行。

KS还对硬盘做RAID保护,并支持多节点数据复制 (副本 X2和X3),在节点或硬盘发生故障时保证数据不会丢失。另外KS提供备份功能,将虚拟机与应用数据备份到存储、云等,给予KS容错与恢复能力。

4b246441dd8f54efe26c42af68ae475d.jpeg

这些功能都是通过EonKube、EonOne图形管理软件操作实现。EonKube针对软件管理,图形化安装向导可以简化AI模型这样的Kubernetes 应用部署,避免复杂配置与编码。而EonOne 则针对计算、GPU、存储的硬件资源实现全面、直观、高效的管理。

11684e4ea2226c4069861644441fb438.jpeg

### NVMe置及相关问题 #### NVMeNVMe (Non-Volatile Memory Express) 是一种高性能存储协议,通常用于 Kubernetes 中作为持久化存储解决方案的一部分。Kubernetes 支持通过 CSI (Container Storage Interface) 插件来管理 NVMe 存储卷。 在 Kubernetes 中,可以通过定义 `StorageClass` 和 `PersistentVolumeClaim` 来动态创建基于 NVMe 的存储卷。以下是典型的置流程: 1. **安装并启用 CSI 驱动程序** 使用支持 NVMe 的 CSI 驱动程序(如 AWS EBS、Azure Disk 或其他云提供商的驱动)。例如,在 AWS 上可以使用 Amazon EBS CSI Driver[^6]。 2. **定义 StorageClass** 下面是一个示例 `StorageClass` 定义文件,它指定了如何为 NVMe 卷分存储资源: ```yaml apiVersion: storage.k8s.io/v1 kind: StorageClass metadata: name: nvme-sc provisioner: ebs.csi.aws.com # 替换为您使用的 CSI 提供商 parameters: type: gp3 # 可选参数,指定性能等级 reclaimPolicy: Retain # 删除 PVC 后保留 PV ``` 3. **创建 PersistentVolumeClaim (PVC)** 创建一个请求特定大小和访问模式的 PVC 文件: ```yaml apiVersion: v1 kind: PersistentVolumeClaim metadata: name: my-nvme-pvc spec: accessModes: - ReadWriteOnce resources: requests: storage: 10Gi storageClassName: nvme-sc ``` 4. **挂载到 Pod** 将上述 PVC 挂载至容器中: ```yaml apiVersion: v1 kind: Pod metadata: name: app-with-nvme-volume spec: containers: - name: app-container image: nginx volumeMounts: - mountPath: "/data" name: data-vol volumes: - name: data-vol persistentVolumeClaim: claimName: my-nvme-pvc ``` --- #### 常见问题及解决方法 1. **无法拉取镜像或初始化失败** 如果遇到类似于国内网络环境下的镜像拉取问题,可参考替代方案。例如,手动下载所需的 Hyperkube 镜像并上传到私有仓库中[^5]。 2. **卷绑定与删除冲突** 当 Longhorn 或其他存储管理系统检测到卷已绑定到 PVC/PV 并尝试删除时,可能会触发警告提示。建议先解除绑定关系再执行删除操作[^4]。 3. **加密硬件加速功能未生效** 对于启用了加密功能的 Nvidia NIC 设备,需额外置 DPDK 环境变量以激活其加解密能力。具体做法可通过设置 `spdk_app_opts.env_context` 成员实现,或者利用命令行选项传递必要参数[^3]。 4. **启动过程中因磁盘不可用而报错** 若要忽略某些挂载错误以便实例能够正常引导运行,则可以在 fstab 文件里增加 `nofail` 参数项[^2]。 --- #### 总结 以上介绍了关于 NVMe 卷的基础置以及一些常见故障排查技巧。实际应用当中还需要考虑更多细节因素比如兼容性测试、性能调优等方面的内容。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值