- 博客(234)
- 资源 (13)
- 收藏
- 关注
原创 Nerve:分布式基础设施智能管理平台的设计与实现
Nerve✅零依赖安装:Agent 是单一二进制文件,无需 Python 环境✅一键部署curl | sh即可完成 Agent 安装✅实时通信:基于 WebSocket 的双向实时通信✅完整监控:详细的硬件信息采集(CPU、内存、GPU、磁盘、网络、IPMI)✅任务执行:远程命令执行、脚本运行、Hook 插件系统✅水平扩展:设计支持 6000+ 台机器需求:需要执行自定义的监控脚本或工具解决方案:通过 Hook 插件系统,动态加载和执行自定义脚本。
2025-10-29 18:47:55
1092
原创 Ansible + Kubernetes打造企业级私有化部署神器
在数字化转型的道路上,基础设施的自动化是现代企业的必修课。希望这个项目能帮助更多团队快速搭建自己的容器平台!
2025-10-28 11:02:46
597
原创 基于LSTM的Prometheus数据预测平台:从理论到实践
这是一个基于LSTM深度学习模型的时间序列预测平台,能够从Prometheus监控数据中学习模式,预测未来的资源使用趋势。其实就是某个服务组件调优的过程,只是相对来说更加专业一些,涉及到更多的数学知识,不过在大模型的加持下,问题也不是很大。比如用最近12小时的数据预测未来6小时是否会写满或超过阈值,但当用户进行瞬时快写和快删操作时,预测就完全失效了,最终导致存储写满,训练任务无法提交。在云原生和微服务架构盛行的今天,如何提前预测系统资源使用情况,避免资源瓶颈和故障,成为了运维团队面临的重要挑战。
2025-09-30 11:58:08
868
原创 Kubernetes Self-Healing Operator:让集群拥有自我修复能力
自动化故障修复: 自动检测并修复常见的集群故障降低运维成本: 减少人工干预,提升运维效率提高系统可用性: 快速响应故障,减少服务中断时间标准化运维流程: 固化最佳实践,减少人为错误。
2025-09-18 01:04:46
1146
原创 从零开始构建Kubernetes Operator:一个完整的深度学习训练任务管理方案
/ PyJobSpec 定义用户期望的任务配置Image string `json:"image"` // 训练镜像Command []string `json:"command"` // 执行命令GPU int32 `json:"gpu"` // GPU数量DatasetPath string `json:"datasetPath"` // 数据集路径OutputPath string `json:"outputPath"` // 输出路径。
2025-09-17 23:44:16
1119
原创 一次 Linux 高负载 (Load) 异常问题排查实录
backend频繁访问配置/日志文件 + 部分 IO 落在分布式存储导致延迟;配合 Go GC 活跃与锁竞争,线程大量阻塞于,最终引发 Load 飙升但 CPU 仍闲。经验要点:Load 高 ≠ CPU 忙;优先排查 IO/锁等待;先看线程状态与 wchan 快速定向;再用与火焰图定位热点;以获取真实 FD 数;方案从“缓存/异步/隔离/限并发/调 GC”多层优化落地。📌 经验教训:遇到 Load 高问题,不要只盯 CPU 使用率;更多时候是 IO + 锁 在背后捣鬼。
2025-09-13 22:37:01
1187
原创 用 PyTorch 打造 AIOps 小体系:日志异常、指标预测与训练失败根因分析
Dockerfile 模板(各 demo 通用):三个 Job 分别构建并推送三张镜像(见仓库README.md示例)Ansible:Docker 方式:拉取镜像,启动三容器,分别映射。systemd + venv 方式:无 Docker 内网环境的替代方案。K8s:提供 Deployment + Service 样例,直接上线到集群。详细文件与脚本在仓库README.md的“CI/CD + Ansible 部署指南”章节。
2025-09-13 19:52:57
1151
原创 智算运维场景下的可观测平台建设
监控:被动、防御、局限于"事后处理"可观测:主动、前瞻、贯穿于系统全生命周期的设计属性,支持预测性运维与持续优化。
2025-08-28 14:54:27
1298
原创 inhibitor_tool
inhibitor_tool` is a Python CLI tool for adding items to an inhibition list via an API, with authentication handled via `auth_token`.
2025-04-03 17:54:30
332
1
原创 DeepSeek 3FS集群化部署临时笔记
节点管理IP25G_IPOS服务说明需要配置admin_cli需要配置admin_cli需要配置admin_cli需要配置admin_cli端口冲突 : 由于我是mgmtd服务和clickhost_server一起部署,会导致存在9000端口冲突,导致mgmtd无法启动问题解决方法: 需要把clickhouse_server配置文件中的9000端口调整下,比如我这里调整为6000。
2025-03-16 19:47:31
2603
2
原创 Ceph分布式存储自动化运维平台开发实践
这个逻辑架构设计强调了后端与前端的协同工作,通过异步任务处理提高了系统的实时性和处理能力。前端使用了Vue3和Arco Design构建直观美观的用户界面,而后端则通过Tornado提供高性能的Web服务。 Celery的引入使得系统能够更好地应对复杂的任务和高并发情况。整体上,这个设计能够应对Ceph集群自动化运维的各种需求。
2024-01-26 23:39:16
1863
原创 云物理机ironic对接ceph云盘ceph-iscsi-gateway
OpenStack裸金属组件ironic对接云盘ceph-iscsi-gateway
2022-10-14 16:52:22
1441
6
原创 Neutron服务组件和Vxlan、Vtep隧道详解工作中的应用(一)
OpenStack网络服务组件Neutron(Vxlan)工作中用到最多的便是OpenStack,其中出现问题过多,疑问最多的便是Neutron组件了,Neutron的整个知识体系非常庞大。 刚开始接触这个组件时,是先熟悉Neutron的架构API/Plugin/Agent架构。从目前接触的角度来看,Neutron中最复杂的我觉得是Neutron自身实现的一套SDN方案中涉及到的知识体系 ,比如像:OpenvSwitch,这是基于flow的工作模式,因为OpenvSwitch实现VXLAN,所以N
2020-11-08 23:05:46
2561
1
原创 基于Django实现Linux运维管理平台的整个实现过程和各种API接口调用以及Echarts绘图项目介绍(一)记录点滴生活
基于Django实现Linux运维管理平台整个实现过程及各种API的调用以及Echarts绘图的使用介绍这是一个从后台到前端独自完成的自己的项目,虽然这两天刚加入的功能还没有完全实现,但是也差不多存在一些功能了。最近一段时间多个博客文章断断续续一直处于草稿状态,没有及时更新,是由于即将毕业进入社会实习并工作,想在简历上加上一个由自己独自完成的项目,这期间真是经历了酸甜苦辣咸------寂寞。...
2020-07-09 21:08:34
6896
12
原创 Ipmitool工具安装以及常见使用方法
Ipmitool工具安装以及常见使用方法( Intelligent Platform Management Interface)参考手册:http://ipmitool.sourceforge.net/manpage.html最近一直在公司实习,目前用到过一个陌生的云物理机管理工具,也是OpenStack的插件IronicServer组件派生的管理工具。功能非常强大。操作起来也很方便,下面来逐...
2020-02-28 14:55:50
45461
1
原创 基于IntelCAS加速的Glusterfs常见运维
Intel CAS全称是Intel cache acceleration software,这里是官方网站:http://www.intel.com/support/go/cas一、IntelCAS的使用这里是IntelCAS 的帮助文档。在搭配Intel自己的闪存产品时,这个软件没有cache的容量限制。如果使用其他品牌的闪存产品,则每个cache最大只能200GB。介绍下一个配置...
2019-12-09 11:15:37
4663
3
原创 小型网络中心服务器配置(四)WWW服务器的安装与配置
小型网络中心服务器配置(四)WWW服务器的安装与配置为做好模拟总公司及分公司网站的建设,网络中心经过研究,拟建立一台www服务器,存放公司总站网站、各分公司网站,维护和更新则由各自分公司自己进行,具体描述如下:公司的主网站为www. wmmtest. edu. en, IP地址为192. 168. 217.157,对外访问端口为80。各分公司网站分别为hb. wmmtest. edu. c...
2019-10-14 22:30:23
4773
原创 小型网络中心服务器配置(三)DNS服务器的安装与配置
为保证总公司网络中心的FTP、WWW、DHCP、SMTP服务器能正常访问,以及各公司冈站能有相应的域名,拟建立两台DNS服务器,解析网络中心诸多服务器,具体描述如下:建立DNS服务器,主域名服务器域名注册为wmmtest. edu. cn,网段地址为192. 168.217. *一台主域名服务器的域名为dns. wmmtest. edu. cn, IP地址为192.168. 217.155。...
2019-10-13 22:19:43
3914
原创 小型网络中心服务器配置(一)(Samba、DNS、FTP、WWW、STMP)服务安装配置
场景引入:为了巩固常见服务器的知识和概念,这里做一个小型的网络中心,假设自己有一个小公司,并且小公司有子公司,那么为了提高工作效率,实现信息化管理,公司拟建立自己的网络中心,计划采用Linux操作系统来配置服务器。现在要求如下:要求建立总部网络办公系统,实现各部门资源共享。同时分别建立总公司和子公司的网站。并且建设本公司的资源中心,为客户提供方便快捷的服务。根据刚刚模拟提出的需求,下...
2019-10-13 19:45:14
1287
原创 小型网络中心服务器配置(二)Samba服务器的安装与配置
为解决Windows计算机与linux计算机之间的资源共享以及打印机共享,经过研究后,决定建立并配置一台samba服务器,具体描述如下:Linux Samba服务器和MS Windows工作组均为NET。MS Windows系统计算机名为windowswmm,IP地址为,提供对外的共享资源目录为E:\share,不需要密码和用户名就能访问。Linux系统的计算机名为sambawmm,IP地...
2019-10-13 17:54:43
1826
原创 系统开启ipv6导致salt执行命令太慢的问题
WARNING ] Unable to find IPv6 record for “master” causing a 0:00:20.023294 second timeout when rendering grains. Set the dns or /etc/hosts for IPv6 to clear this.[WARNING ] Unable to find IPv6 record...
2019-09-14 21:49:25
1183
原创 saltstack的api安装以及使用解释
首先,贴上官方地址:https://docs.saltstack.cn/salt,一种全新的基础设施管理方式,部署轻松,在几分钟内可运行起来,扩展性好,很容易管理上万台服务器,速度够快,服务器之间秒级通讯。salt底层采用动态的连接总线, 使其可以用于编配, 远程执行, 配置管理等等.一、什么是saltstack什么是saltstack• Saltstack是基于python开发的...
2019-09-14 21:32:40
947
原创 saltstack 自动化运维工具管理命令的详细使用,获取指定数据集
Saltstack的master端监听4505与4506端口,4505为salt的消息发布系统,4506为salt客户端与服务端通信的端口;salt客户端程序不监听端口,客户端启动后,会主动连接master端注册,然后一直保持该TCP连接,master通过这条TCP连接对客户端控制,如果连接断开,master对客户端就无能为力了。当然,客户端若检查到断开后会定期的一直连接master端的。...
2019-09-14 21:18:24
928
原创 saltstack的安装和功能参数使用详解以及YAML语法使用解释
一、 salt简介:SaltStack是一个服务器基础架构集中化管理平台,具备配置管理、远程执行、监控等功能,基于Python语言实现,结合轻量级消息队列(ZeroMQ)与Python第三方模块(Pyzmq、PyCrypto、Pyjinjia2、python-msgpack和PyYAML等)构建。通过部署SaltStack,我们可以在成千万台服务器上做到批量执行命令,根据不同业务进行配置集中...
2019-09-14 20:40:22
1249
原创 基于Python调用zabbix监控的API接口详解,将数据展现到前台过程、思路分析
这是zabbix的官网,文档内容非常丰富,建议有需要的,可以多花点时间看一下官方的文档。下面这是部署在我的虚拟机下的zabbix监控上图中报红色的zabbix是因为那两个虚拟机我没有打开,只打开了zabbix-master我们可以看到我使用了linux server这个模板,有51个监控项,以及触发器和图形。我做的运维平台的监控原理大致是这样一个过程:首先,zabbix部署了一...
2019-09-14 16:39:15
5293
原创 最近练习的一些经典Shell脚本实战30个
首先,对于运维行业,不管是云计算运维还是linux运维都不开shell的使用,那么最近收集实战了一些很有用的shell脚本实例,这里分享给大家。目录:1、获取随机字符串或数字2、定义一个颜色输出字符串函数3、批量创建用户4、检查软件包是否安装5、检查服务状态6、检查主机存活状态7、监控CPU、内存和硬盘利用率8、批量主机磁盘利用率监控9、检查网站可用性10、检查MySQL主从...
2019-08-10 15:51:04
2118
原创 关于Shell脚本中出现如下 报错[: too many arguments
关于Shell脚本中出现如下 报错[: too many arguments今天执行shell脚本时出现如下报错。[: too many arguments先把报错的原由写下:本来是想判断一个变量是否是空值,谁知又蹦出来一个问题。[root@k8s-node2 ~]# cat kong.sh #!/bin/bashstr="wdadw"if [ -z "$str" ]; then ...
2019-08-03 20:44:54
5368
原创 Kubernetes最新版本1.15.1,shell脚本一键部署,刚刚完成测试,实用。
根据上一篇博客内容,《K8S最新版本集群部署超详细(k8s版本1.5.1)docker 版本19.03.1以及基本操作和服务介绍》由于自己一步一步安装,步骤有些不方便,今天趁着有时间,写了一个shell一键部署脚本,刚刚又测试了一遍,效果还不错,这里分享给大家。这是我的GitHub地址,脚本放到上面了。总共是3个脚本,一个变量脚本,一个Master节点脚本,一个Worker节点脚本。过程截...
2019-08-03 17:53:53
1854
3
原创 K8S最新版本集群部署超详细(k8s版本1.5.1)docker 版本19.03.1以及基本操作和服务介绍。
最近利用空闲时间,把之前部署和学习k8s时的整个过程和遇到的问题总结了一下,分享给有需要的小伙伴。对自己也是一种知识的加固针对于K8S的安装有很多种方法,像二进制啊等,这里介绍的是kubeadm方法,在线拉取镜像,使用的是最新版的镜像。废话不多说。组件版本清单:镜像组件、应用软件版本Virtual Box6.xSecure CRTXDocker ver...
2019-08-01 21:09:36
11584
4
原创 集群及高可用之LVS负载均衡(三种工作模式介绍)
linux自动化运维也好,云计算自动化运维也罢,基础技术都必须掌握严实,今天我们一起来完整的介绍一下真正的集群以及高可用技术中的LVS负载均衡技术。博客的引入内容是参考博客园的一位博主的文字内容,又加以详细补充完善,加上自己实践的两种LVS的工作模式。参考的博客园:https://www.cnblogs.com/xiaocheche/p/7695024.html1.1 什么是集群?随着互联网...
2019-07-13 13:41:22
1090
原创 Python自动化运维:DNS域名轮循业务监控(IP地址处理模块IPy和DNS处理模块dnspython)
IP地址规划是网络设计中非常重要的一个环节,规划的好坏会直接影响路由协议算法的效率,包括网络性能、可扩展性等方面。在这个过程当中,免不了要计算大量的IP地址,包含网段、网络掩码、广播地址、子网数、Ip类型等。IPy模块可以很好的辅助我们高校完成Ip的规划工作。1.1 IP地址、网段基本处理IPy模块包含IP类,使用它可以方便处理绝大部分格式为IPv6以及IPv4的网络和地址。比如通过ver...
2019-07-09 20:41:05
1183
原创 RAID技术详解以及性能测试
RAID磁盘阵列概述早在1978年,美国加州大学伯克利分校就提出了RAID (edundant Array of Independen Disk)虚拟存储系统。RAID即独立冗余磁盘阵列,其思想是将多块独立的磁盘按不同的方式组合为一个逻辑磁盘,从而提高存储容量,提升存储性能或提供数据备份功能。RAID 存储系统的组合方式根据RAID级别定义。RAID分为软件RAID和硬件RAID两类。在现有...
2019-06-30 14:29:15
4922
3
原创 LVM技术原理详解与逻辑卷的应用
本篇博客内容将介绍LVM逻辑卷技术下一篇介绍RAID技术以及RAID性能测试这是我很久之前录的在优酷上面的lvm技术https://v.youku.com/v_show/id_XMzgxNjI0NTk0OA==.html?spm=a2h0k.11417342.soresults.dtitle1.1LVM逻辑概述问题试想有一大随看业务的增加, 你的文件系统负载会越来越大,终于到了空间不足的情...
2019-06-30 13:57:16
1903
原创 Docker-compose容器编排的使用Web项目架构(前台web数据和后台数据库以及负载均衡容器统一部署在一个容器中)
Docker-compose容器编排的使用首先贴上官方手册https://docs.docker.com/compose/install/ 学东西尽可能读官方手册** 随着容器使用得越发频繁,应用服务和容器间的关系更是复杂,面对这种情况,研发部希望能使用更好的方法管理这些服务和对应的容器。工程师小w经过分析之后,决定使用集群来统一管理应用服务。最近公司有个项目,需要将前台Web服务器和...
2019-06-24 14:54:17
2712
原创 docker 使用supermin5工具制作镜像并且编写相应的dockerFile文件,并使用此文件来制作相应的镜像。两种方法进行例子分析
一 使用supermin5命令(若命令不存在则自己安装)构建centos7系统的docker镜像,镜像名称为centos-7,镜像预装yum、net-tools、initscripts和vi命令,构建完成后提交镜像仓库上传操作,并查看此镜像。1 针对于这个案例,我们首先安装我们的supermin5 工具[root@server media]# yum install -y super...
2019-06-24 14:51:44
1709
原创 Intellij IDEA 2019 Tomcat8配置、Servlet项目创建
1)首先打开我们的idea20192)File > New > Project3)勾选 Web Application(4.0) 然后选择 Next4)然后写一个Project name名字 点击finish如果提示在哪个窗口的话 会出现下面图示L5)在我们的文件夹下创建两个文件夹classes 和 lib6)File > Project Struc...
2019-06-24 14:51:15
8834
10
原创 JAVA学习心得(五)
1.在java中创建线程有几种方式?一种是继承java.lang包下的Thread类,覆写Thread类的run()方法,在run()方法中实现运行在线程上的代码。new Thread() {public void run(){}}.start();另一种就是实现java.lang.Runnable接口,同样是在run()方法中实现运行在线程上的代码。new T...
2019-06-24 14:50:51
852
3
原创 WARN hdfs.DFSUtil: Namenode for null remains unresolved for ID null异常会导致secondarynamenode守护进程无法开启
搭建hadoop并启动时 出现如下报错19/06/02 07:17:33 WARN hdfs.DFSUtil: Namenode for null remains unresolved for ID null. Check your hdfs-site.xml file to ensure namenodes are configured properly.警告异常时请查看core-sit...
2019-06-02 19:31:26
9482
1
原创 Java 面向对象中的小测试
编写环境为IDEA如下图所示请按照题目的要求编写程序并给出运行结果。 1、 设计一个学生类 Student 和它的一个子类 Undergraduate,要求如下: 1)Student 类有 name(姓名)、和 age(年龄)属性,一个包含两个参数的构造方法,用于给 name 和 age 属性赋值, 一个 show()方法打印 Student 的属性信息 2) 本科生类 Unde...
2019-05-28 21:36:50
1968
1
文件存储迁移dsync分布式工具适合linux环境spack+mvapich.tar
2023-06-30
基于CNN卷积神经网络实现人脸识别-人脸表情识别-同步ppt介绍
2022-10-18
宿舍管理系统.apk
2019-10-14
ZABBIX从入门到精通v3.0.1 - 运维生存时间(2016)真实内容
2019-04-09
salt-2019.2.0.tar.gz
2019-09-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅