- 博客(87)
- 收藏
- 关注
原创 rancher2.8.5的cattle-global-data/system-library-rancher-monitoring“ not found reason: Error
Rancher 2.8.5监控模块报错解决方案 问题描述:Rancher界面显示监控模块报错,提示"cattle-global-data/system-library-rancher-monitoring"未找到,但不影响RKE集群正常使用。 解决方案: 编辑集群CR(c-qfdxw): kubectl edit clusters.management.cattle.io c-qfdxw -n cattle-global-data 修改status.conditions段: 删除Prom
2025-12-14 11:11:01
612
原创 mixed混合模式的binlog数据恢复
摘要:本文介绍了一个MySQL二进制日志解析脚本(parse-sql.sh),用于将binlog转换为可读SQL语句。脚本通过mysqlbinlog工具提取指定时间段的日志,然后解析其中的INSERT、UPDATE、DELETE操作。主要功能包括:1)自动加载表结构信息;2)处理特殊数据类型如时间戳;3)构建完整的SQL语句并输出到文件。该脚本需要提供MySQL连接信息,最终生成包含还原操作的SQL文件,便于数据库恢复或审计。
2025-11-26 21:34:07
110
原创 rancher的monitoring使用probe
摘要:该YAML文件定义了一个名为"http-2xx-probe"的Prometheus Probe资源,用于监控HTTP 2xx响应状态。配置每30秒使用blackbox-exporter服务检测三个目标网址(QQ、百度和httpbin.org)的可用性。关键配置包括:必须的jobName字段、release标签使Prometheus Operator能选择该探针,以及指定blackbox-exporter服务地址和HTTP检测模块。该探针部署在monitoring命名空间,通过HTT
2025-09-09 09:40:54
141
原创 K8S 部署 NFS Dynamic Provisioning(动态存储供应)
本文档提供完整的 K8s NFS 动态存储部署流程,包含命名空间创建、RBAC 权限配置、Provisioner 部署、StorageClass 创建及验证步骤。
2025-09-03 16:34:49
476
原创 ELK使用ElastAlert飞书机器人发送报警通知
本文介绍了基于ELK架构的日志监控方案改进,通过ElastAlert2实现主动告警功能。主要内容包括:1)重新构建包含飞书通知插件的ElastAlert2镜像;2)配置elastalert.yaml基础参数;3)创建自定义预警规则(如错误日志监控);4)集成飞书告警功能,设置告警模板和机器人接口。该方案解决了被动响应问题,实现系统异常自动告警,提升运维效率。文中详细说明了Docker容器部署、插件集成和规则配置的具体步骤,并附有相关参考链接。
2025-07-25 15:14:09
662
原创 rancher使用rke在华为云多网卡的服务器上安装k8s集群问题处理
摘要:网络连接问题分析显示,主机192.168.0.213无法连接2379端口,而127.0.0.1可连通。根本原因是/etc/rc.local中配置的多网卡策略路由导致流量被强制路由到特定路由表,缺少到docker0网桥的路由。解决方案包括:1)在路由表10中添加docker0网段路由;2)调整Calico网络插件的FelixConfiguration,限制路由表范围为table10;3)修改BIRD配置并重启calico-node。操作需谨慎,建议备份路由表并在维护窗口进行,以避免网络中断风险。
2025-07-21 21:06:05
549
转载 zabbix6.0接收snmptrap,触发告警
启动snmptrap,修改SNMPTrapperFile,保持与zabbix_trap_receiver.pl中一致。将RFC1628.MIB文件上传至/usr/share/snmp/mibs,格式可以保持RFC1628.MIB,也可以RFC1628-MIB.txt.官网下载源码,复制misc/snmptrap/zabbix_trap_receiver.pl,确认其中SNMPTrapperFile路径并授权。配置zabbix服务器的snmptrap配置并启动(以团体字为public为例)
2025-07-17 17:20:48
377
原创 jmx_exporter监控java程序
jmx_exporter支持独立运行模式,通过配置JMX远程端口监控Java应用。配置步骤包括:下载jmx_prometheus_httpserver.jar,创建yaml配置文件指定JMX连接URL(如service:jmx:rmi://localhost:18081/jmxrmi),启动时指定HTTP服务端口(如5556)。远程监控需在目标应用启动时开启JMX端口(18081),并禁用SSL和认证(仅测试环境建议)。生产环境应启用安全措施。最后通过/metrics接口验证数据采集。
2025-07-09 10:47:03
485
原创 JMX Exporter 独立启动与远程 JMX 配置
jmx_exporter支持独立运行监控远程Java应用的JMX数据。操作步骤包括:下载jmx_prometheus_javaagent jar包,创建配置文件;启动时指定HTTP端口;在目标应用中启用JMX远程访问(配置端口/SSL等);在配置文件中添加远程JMX连接URL。安全建议启用认证和网络限制,可通过curl验证metrics数据采集。该方案实现了jmx_exporter与业务应用解耦的独立监控模式。
2025-07-09 10:43:03
483
原创 Linux监控node_exporter
这是一个用于安装Prometheus Node Exporter的Bash脚本。脚本会自动下载指定版本(1.9.1)的Node Exporter,解压安装到/usr/bin目录,并配置systemd服务。脚本包含版本检查、root权限验证、服务状态检查等功能,安装完成后会自动启动服务并开放9100端口。同时提供了仪表盘JSON文件的下载链接。整个过程包括下载、解压、安装、服务配置和防火墙设置等步骤,确保Node Exporter能够正常运行并提供系统监控数据。
2025-07-04 13:55:31
224
原创 基于Megacli 监控raid状态的megacli_exporter
摘要:本文介绍如何使用MegaCli工具监控磁盘状态并集成到Prometheus。首先安装MegaCli工具,重点关注MediaErrorCount、OtherErrorCount等关键指标。提供常用命令查询RAID信息、硬盘状态等。附自动安装脚本,包含MegaCli安装、创建Exporter服务、配置systemd单元等步骤,最终将数据收集到Prometheus进行告警展示。脚本支持CentOS7系统,包含错误检查和服务管理功能,需root权限运行。
2025-07-04 13:50:12
425
原创 k8s中topologyKey 的作用
摘要:该Kubernetes配置通过nodeAffinity强制Pod调度到具有特定标签的节点,并通过podAffinity要求所有Pod部署在相同拓扑域。然而,当前配置缺少有效的podAntiAffinity规则,无法防止相同Pod调度到同一节点。建议补充podAntiAffinity配置,使用hostname作为拓扑域,并匹配Pod标签,以实现Pod在节点间的隔离。完整方案需同时保留原有nodeAffinity,并添加针对Pod标签的反亲和性规则。 (150字)
2025-06-28 15:17:34
1321
原创 ingress-nginx的443端口不监听了
摘要:Kubernetes中使用hostPort暴露IngressController的443端口时,即使宿主机未监听该端口,流量仍能正常转发到Pod。其原理是通过CNI插件调用Linux内核的DNAT机制,利用iptables/ipvs/eBPF等规则将宿主机443流量直接重定向到Pod端口,无需用户态进程监听。该机制由CNI插件配置,可通过iptables或ipvsadm命令验证转发规则。相比NodePort,hostPort更适合需要固定端口(如HTTPS)的场景。常见问题包括CNI插件不支持、防火墙
2025-06-24 15:59:33
915
原创 Ingress-Nginx简介和配置样例
摘要:Ingress-Nginx是Kubernetes官方维护的Ingress控制器,基于Nginx实现HTTP/HTTPS流量管理。核心功能包括多路径路由(如/grafana、/prometheus)、负载均衡、SSL终止等,支持通过注解配置高级特性(路径重写、限速等)。典型配置通过YAML定义路由规则,需配合修改后端服务的外部URL参数(如Grafana的root_url)。其优势在于高性能、灵活的路由策略和丰富的监控集成,适用于多服务暴露、证书统一管理等场景。使用时需注意Nginx性能调优和安全配置,
2025-06-24 13:56:09
980
原创 Nginx-Ingress-Controller自定义端口实现TCP/UDP转发
Kubernetes Ingress配置摘要:通过Deployment部署HTTP服务,使用Ingress+TLS终止HTTPS流量,配置可支持443/80标准端口(需配置tls和rules)或非标端口(需在nginx-ingress-controller开启TCP/UDP支持,并配置ConfigMap指定端口转发)。标准端口配置包含defaultBackend、rules和tls设置;非标端口需添加--tcp-services-configmap参数,并创建对应ConfigMap(格式:"监听端
2025-06-20 10:00:58
477
原创 使用helm离线安装prometheus和grafana
本文介绍了Prometheus和Grafana在Kubernetes环境中的离线安装方法。主要内容包括:1) 下载Prometheus Helm包并创建监控命名空间;2) 配置持久化存储(PV/PVC);3) 使用自定义配置安装Prometheus服务;4) 通过端口转发访问Prometheus和Alertmanager;5) Grafana的安装配置及获取初始密码。文章还提供了相关资源的下载链接和注意事项,适用于受网络限制的环境部署监控系统。
2025-06-18 16:47:44
692
原创 QPS与TPS区分及压测指标解读
在性能压测中,QPS(Queries Per Second)和TPS(Transactions Per Second)是两个关键但易混淆的指标。前端可能发送1个API请求(QPS+1),但后台可能触发10个服务调用(TPS=1,因属于同一业务事务)。可能存在大量无效请求(如爬虫)、接口设计不合理(需多次请求完成一个事务),或后端处理能力不足(事务堆积)。QPS=500(500次HTTP请求),但TPS可能只有100(因每个事务包含多个子操作)(如支付、订单):必须监控TPS(反映真实业务处理能力)。
2025-05-19 14:00:51
1366
原创 Rancher权限控制
在 Rancher 中,用户的最终权限是由和共同决定的,两者协同工作以实现细粒度的访问控制。Rancher 的权限模型是和控制平台级操作和初始访问。细化具体资源的操作权限。两者共同决定用户的实际能力,确保灵活且安全的访问控制。
2025-04-24 15:05:43
834
原创 使用expdp+rsync同步 400G Oracle11g数据
针对 400G 数据的 Oracle 11g 同步,采用expdp全量导出 +rsync增量同步的方式,具体流程如下:主库使用expdp执行全量导出通过rsync传输到备库备库使用impdp导入数据定期通过归档日志实现增量同步。
2025-04-01 16:17:42
1099
原创 Rancher2.8.5架构
大多数 Rancher 2.x 软件均运行在 Rancher Server 上。Rancher Server 包括用于管理整个 Rancher 部署的所有软件组件。下图展示了 Rancher 2.x 的上层架构。下图中,Rancher Server 管理两个下游 Kubernetes 集群,其中一个由 RKE 创建,另一个由 Amazon EKS 创建。为了达到最佳性能和安全性,我们建议你为 Rancher Management Server 创建一个专用的 Kubernetes 集群。
2025-03-31 14:05:24
1324
原创 在Kubernetes 1.26 上使用 StatefulSet 部署 MySQL8
通过以上步骤,我们成功在 Kubernetes 1.26 上使用 StatefulSet 部署了 MySQL 8,并通过NodePort类型的 Service 暴露了 MySQL 服务。同时,使用 ConfigMap 管理了 MySQL 的配置文件,并为其添加了一些优化参数。你可以根据实际需求进一步调整配置。希望本文对你有所帮助!如果有任何问题,欢迎在评论区留言讨论。
2025-03-21 22:23:33
875
原创 ca证书和服务端证书两者之间的关系
CA证书用于验证服务端证书的合法性,而服务端证书则用于实际的加密通信。CA证书是根证书,由受信任的证书颁发机构(CA)签发,或者在本例中是自签名的。的关系:CA证书签发服务端证书,客户端使用CA证书验证服务端证书的合法性。如果服务端证书由受信任的CA签发,则客户端会信任该证书,并建立安全连接。服务端证书由CA证书签发,客户端通过CA证书验证服务端证书的合法性。客户端收到服务端证书后,会使用CA证书的公钥验证服务端证书的签名。服务端证书中包含CA证书的公钥信息,用于验证其合法性。
2025-03-10 21:05:48
1247
原创 CentOS 7.9 安装 ClickHouse 文档
通过以上步骤,你可以在 CentOS 7.9 上成功安装并运行 ClickHouse,同时将数据目录和配置文件目录映射到宿主机,确保数据的持久化和配置的灵活性。-v /hskj/clickhouse/config:/etc/clickhouse-server \ # 映射配置文件目录。-v /hskj/clickhouse/data:/var/lib/clickhouse \ # 映射数据目录。如果未安装 Docker,请先安装 Docker。确保宿主机的目录权限正确,避免容器无法访问映射的目录。
2025-03-03 16:48:57
1194
原创 etcd 3.15 三节点集群管理指南
本文档提供了 etcd 3.15 版本的三节点集群管理指南,涵盖了节点的新增、删除、状态检查、数据库备份和恢复等操作。通过遵循这些步骤,您可以有效地管理和维护 etcd 集群。
2025-02-26 21:53:18
643
原创 rancher上强制删除处于Removing状态的集群
虚拟机先删除,然后才想起来rancher里还有个集群没删掉,这个时候,再通过rancher的界面去删除托管集群,往往会一直卡在“当前集群Removing中”1.登录部署rancher的服务器,找到卡住集群。
2025-02-25 10:53:06
603
原创 XtraBackup备份数据库中某张表,并在异地恢复表数据
通过以上步骤,可高效备份单表数据并在异地完成恢复,同时最小化对生产环境的影响。传输到异地服务器(如使用。
2025-02-15 22:36:25
783
原创 自有证书的rancher集群使用rke部署k8s集群异常
自定义的域名需要使用kubectl导入映射关系。一步步排查进入到rke部署的k8s集群里面。。
2025-02-14 21:52:39
792
原创 删除命名空间长时间处于 Terminating 状态的方式
namespace状态无法删除,可以尝试强制删除。但这种方法有一定风险,可能会导致集群中残留一些未清理的资源。如果命名空间长时间处于。
2025-02-13 15:10:12
496
原创 k3s安装高可用的Rancher
sudo cat /var/lib/rancher/k3s/server/node-token 命令的作用是显示 K3s 集群的 node-token,这是一个用于在 K3s 集群中身份验证的关键令牌。在 K3s 中,当你想要将一个新节点(worker 节点)加入到已有的 K3s 集群时,需要使用这个 node-token。这有助于防止未经授权的节点加入集群,从而增强了集群的安全性。7.token位置:sudo cat /var/lib/rancher/k3s/server/node-token(可选)
2025-02-12 15:51:00
2174
原创 自签证书的dockerfile中from命令无法拉取镜像而docker的pull命令能拉取镜像
解决思路:把证书直接用openssl拉下来,然后加入到系统系统证书中,然后使用update-ca-certificates更新,最后重启docker服务,成功!上面的方式之所以可以搞定大多数由于公司替换https证书造成的错误,是因为很多程序是使用系统默认的证书(路径)。对于一些特殊的程序,比如python pip,不使用系统默认的证书,而是使用自己的路径,可以强制它使用*/etc/docker/daemon.json文件添加如下参数。/etc/docker/certs.d/配置免密。
2025-01-24 14:48:25
729
原创 Dockerfile另一种使用普通用户启动的方式
这个脚本非常适合在 Docker 容器中使用,其中可能需要以非 root 用户的身份运行应用程序。通过更改文件所有权并以特定用户身份运行应用,可以增强容器的安全性。如果对你有帮助,一块也是爱。
2025-01-20 22:04:42
526
原创 kibana中stackMonitoring监控参数指标介绍
Indexing Rate:对于单个索引,它是每秒索引的数量*分片数量。对于多个索引,它是每个索引的索引速率的总和。对于多个索引,它是每个索引的搜索速率的总和。搜索延迟: 搜索的平均延迟,即执行搜索所用的时间除以提交的搜索数目。搜索延迟: 搜索的平均延迟,即执行搜索所用的时间除以提交的搜索数目。索引延迟: 索引文档的平均延迟,即索引文档所用时间除以索引文档的数目。Search Latency:每个分片中的平均延迟。分片合计: 为主分片和副本分片索引的文档数目。主分片: 为主分片索引的文档数目。
2025-01-09 16:55:31
382
原创 一些elasticsearch重要概念与配置参数
ES 是在 lucene 的基础上进行研发的,隐藏了 lucene 的复杂性,提供简单易用的 RESTful Api接口。ES 的分片相当于 lucene 的索引。Node 节点的几种部署实例实例一: 只用于数据存储和数据查询,降低其资源消耗率实例二: 来协调各种创建索引请求或者查询请求,但不存储任何索引数据实例三: 主要用于查询负载均衡, 并请求分发到多个指定的node服务器,并对各个node服务器返回的结果进行一个汇总处理,最终返回给客户端实例四: 即有成为主节点的资格,又存储数据。
2024-12-23 14:01:57
1300
原创 部署单机版本的elasticsearch服务
我们部署elastic服务的物理主机,配置的是128GB内存,每个主机上共部署2个es服务节点,每个es节点可使用的内存为64GB。system模块收集系统级指标,例如CPU使用率,内存,文件系统,磁盘IO和网络IO统计信息,以及系统上运行的每个进程的类似顶级的统计信息。==== 编辑elastic-node1 jvm.options调优jvm参数 ======== 编辑config/kibana.yml文件 ======== 启动elastic-node1服务进程 ====
2024-12-20 19:57:36
653
percona-xtrabackup-2.4.28.tar.gz和boost-1-59-0.tar.gz
2025-03-26
percona XtraBackup2.4.28
2023-09-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅