
排障集合
文章平均质量分 57
知无涯学无尽
这个作者很懒,什么都没留下…
展开
-
ansible无法调用/etc/profile中的全局变量
ansible使用时,是无法调用/etc/profile、~/.bash_profile中的变量,只能调用/etc/bashrc中的变量并且在命令行使用shell也是无法调用的,需要利用playbook举例:我们在10.4.7.11 和 10.4.7.12 上的 /etc/bashrc 中声明两个全局变量[root@node1]# cat /etc/bashrc |tail -1export AAA=1111[root@node2]# cat /etc/bashrc |tail -.原创 2021-08-22 23:57:52 · 965 阅读 · 1 评论 -
误删数据⽂件.ibd,.frm⽂件,恢复数据表
⼀、背景二、排查过程三、解决⽅法:⼀、背景在我们的PaaS底座中,mysql数据库是运行在sts类型的pod中,构成mysql主从架构。客户方需要清空库中的某个表的数据,但是需要保留表。由于新同学图省事,直接删除了数据目录下的表文件,导致在数据库中的这个表消失后无法再被创建。原因是表空间存在该名称表;二、排查过程1、mysql启动报错:使用kubect logs 查看到的mysql日志2、创建表报错;进库创建表时报错报错:ERROR:Tablespace tablename exis.原创 2021-08-17 17:36:43 · 475 阅读 · 0 评论 -
k8s -- 通过 cluster-ip + 端口 访问服务过慢问题处理
1、执行如下命令ethtool -K flannel.1 tx-checksum-ip-generic off[root@master01 ~]# ethtool -K flannel.1 tx-checksum-ip-generic offActual changes:tx-checksumming: off tx-checksum-ip-generic: offtcp-segmentation-offload: off tx-tcp-segmentation:原创 2021-07-11 13:39:13 · 1973 阅读 · 1 评论 -
k8s排错---Accept error: accept unix /var/run/docker.sock: accept4: too many open files; retrying in 5m
报错现象:docker打开的文件句柄过多导致docker异常临时解决:重启docker永久方案:修改内核参数四种办法:报错现象:docker打开的文件句柄过多导致docker异常从messages日志中获取到的信息o old resource version: 188849596 (188851955)Jul 3 17:01:34 iZ2ze65tsjaqwt9pp6gjl7Z dockerd: http: Accept error: accept unix /var/run/docker..原创 2021-07-06 09:43:46 · 2039 阅读 · 0 评论 -
NFS共享储存故障——可以显示共享目录,却没有读写权限
事故描述主机192.138.30.22为nfs共享存储主机192.168.30.23连接存储服务器showmount -e 192.168.30.22 可以查看到共享目录,但是实际上并没有共享成功详细情况showmount -e 结果显示(everyone),就说明有问题,原因是在设置白名单时,192.168.30.0/24 与(rw,sync)之间有空格,去掉空格就可以了-----------------------------nfs共享储存服务器------------------原创 2020-10-07 12:25:07 · 3560 阅读 · 3 评论 -
解决X-shell无法上传文件问题
使用X-shell远程登入,无法拉取上传文件原因:Linux系统图形界面使用图形界面安装了开发工具,里面自带lrzsz程序而最小化安装则需要手动安装lrzszyum install lrzsz安装完毕即可使用。原创 2020-09-29 16:24:41 · 861 阅读 · 1 评论 -
论坛搭建报错——Access denied for user ‘bbsuser‘@‘promote.cache-dns.local‘ (using password:YES)
报错现象报错原因未授权给本地主机解决办法只需要在MySQL数据库去授权给本地主机即可,默认为localhost,可以忽略,但是如果主机名不是localhost,就需要另外授权了mysql> GRANT all ON bbs.* TO ' bbsuser'@'promote.cache-dns.local' IDENTIFIED BY 'admin123'; ##授权给本地主机,主机名要工具各自的主机来写,我这里是’promote.cache-dns.local'Query O原创 2020-09-29 16:17:32 · 1311 阅读 · 1 评论 -
MHA排障报错——[error][/usr/local/share/perl5/……at /usr/local/bin/masterha_check_repl line 48.
报错原因在master_ip_failover脚本文件中有一些内容是我们不需要的,因此需要注释掉[root@localhost ~]# masterha_check_repl -conf=/etc/masterha/app1.cnf //检查MHA状况……Sun Sep 20 01:05:06 2020 - [error][/usr/local/share/perl5/MHA/MasterMonitor.pm, ln229] Failed to get master_ip_failover_s原创 2020-09-19 19:20:22 · 1760 阅读 · 1 评论 -
排障秘籍——mysql主从同步复制报错Errno参数解释
MySQL主从复制Last_SQL_Errno错误代码汇总说明参数含义1005创建表失败1006创建数据库失败1007数据库已存在,创建数据库失败1008数据库不存在,删除数据库失败1009不能删除数据库文件导致删除数据库失败1010不能删除数据目录导致删除数据库失败1011删除数据库文件失败1012不能读取系统表中的记录1020记录已被其他用户修改1021硬盘剩余空间不足,请加大硬盘可用空间1022关键原创 2020-09-18 23:53:05 · 498 阅读 · 1 评论 -
MHA集群排障——[error][/usr/local/share/perl5/MHA/Config.pm, ln383] Block name “_“ is invalid.问题
使用masterha_check_ssh -conf=/etc/masterha/app1.cnf测试ssh无密码认证是出现的报错报错原因/etc/masterha/app1.cnf文件配置中区域名称错误示例错误配置正确配置使用masterha_check_ssh -conf=/etc/masterha/app1.cnf测试ssh无密码认证是出现的报错[root@localhost ~]# masterha_check_ssh -conf=/etc/masterha/app1.cnfSat Sep .原创 2020-09-18 16:48:19 · 2600 阅读 · 1 评论 -
解决MHA报错Can‘t locate Log/Dispatch.pm … cal/share/perl5……at /usr/local/bin/masterha_check_ssh line 25.
配置MHA高可用集群的报错masterha_check_ssh --conf=/data/mha/app1.cnf验证ssh远程是报错[root@localhost ~]# masterha_check_ssh -conf=/etc/masterha/app1.cnfCan't locate Log/Dispatch.pm in @INC (@INC contains: /usr/local/lib64/perl5 /usr/local/share/perl5 /usr/lib64/perl5/ven原创 2020-09-18 15:53:27 · 1967 阅读 · 1 评论 -
排障——数据库主从复制ERROR 3021 (HY000): This operation cannot be performed with a running slave io thread
故障起因停止一台从服务器后换上了一台新的mysql从服务器mysql> change master to master_host='20.0.0.12', -> master_user='myslave', -> master_password='123456', -> master_log_file='master-bin.000002', -> master_log_pos=154;ERROR 3021 (HY000): This operation cann原创 2020-09-18 13:52:38 · 5297 阅读 · 2 评论 -
排错:ssh免密登入——WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!报错
场景给两台服务器互相配置免密登入,其中一台服务器故障,我们当时决定用另一台服务器来替换并且ip地址还是使用之前的地址。替换后发现免密登入无效,出现WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!报错示例[root@mysql1 ~]# scp mysql-boost-5.7.20.tar.gz 20.0.0.19:/root //之前做过免密登入,远程出现下面报错@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@原创 2020-09-18 12:20:55 · 566 阅读 · 1 评论 -
MySQL主从同步复制,出现Slave_SQL_Running: No故障!!!
事件描述在虚拟机上做读写分离实验,结束后就发现slave从服务器SQL进程停止了,当时第一反应是master-bin二进制文件出了问题mysql> show slave status\G; //在slave上查看的状态记录*************************** 1. row *************************** Slave_IO_State: Waiting for master to send event原创 2020-09-15 22:54:05 · 2364 阅读 · 2 评论 -
排障集合——Slave_IO_Running:No和Slave_IO_Running:Connecting原因
Slave_IO_Running:No原因Slave_IO_Running:Connecting原因Slave_IO_Running:No原因进行主从同步,start slave后发现I/O线程没启动,显示Slave_IO_Running:No有以下可能原因:网络连接问题,检查是否能ping通log-bin文件输入错误,去master服务器show master status查看(这里注意,一定要主从时间同步,否则容易出现这种生成多个log-bin文件的状况,利用ntpdate命令同步时间.原创 2020-09-14 17:37:04 · 1667 阅读 · 3 评论 -
排障集合————DNS配置文件报错
做DNS解析服务器注意三个文件(两个主配置文件,一个解析文件)/etc/named.conf/etc/named.rfc1912.zones/var/named/目录下的解析文件做完配置后出现无法启动报错,检查了一遍还是没发现问题[root@localhost etc]# systemctl start namedJob for named.service failed because the control process exited with error code. See "syst原创 2020-09-12 14:08:14 · 6236 阅读 · 1 评论 -
排障集合——Nginx和Apache设置系统服务systemctl start时报错,Job for nginx.service failed because the control process
配置系统服务前价差了nginx配置,无误。[root@localhost system]# nginx -tnginx: the configuration file /usr/local/nginx/conf/nginx.conf syntax is oknginx: configuration file /usr/local/nginx/conf/nginx.conf test is successful**设置系统服务,使用systemctl启动时,启动服务失败,检查文件配置依旧无误。``*原创 2020-09-12 10:42:26 · 1673 阅读 · 3 评论 -
数据库:Incorrect table definition; there can be only one auto column and it must be defined as a key报错
错误提示:ERROR 1075 (42000): Incorrect table definition; there can be only one auto column and it must be defined as a key错误原因:id字段指定了auto_increment类型,因此主键只能指定id字段。mysql> create table llll (id int(10) not null auto_increment,user char(16) not null,primar原创 2020-09-10 16:59:13 · 2330 阅读 · 1 评论 -
排障集合———nginx: [emerg] getpwnam(“nginx“) failed报错
出现这种报错是因为nginx用户没有创建,导致无法启动成功[root@localhost nginx-1.15.9]# nginx -tnginx: the configuration file /usr/local/nginx/conf/nginx.conf syntax is ok==nginx: [emerg] getpwnam(“nginx”) failed ==nginx: configuration file /usr/local/nginx/conf/nginx.conf test原创 2020-09-10 08:26:06 · 1088 阅读 · 1 评论