MHA是一款用来进行主从故障在线切换的工具,为了最大程度的保持数据的一致性,对于其切换的原理分析就尤为重要。 所以下面我们就直观的从MHA的切换日志这个角度来进行具体的原理分析
MHA工作原理总结
-
从宕机崩溃的master保存二进制日志文件(binlog events)
-
识别有最新更新的slave
-
应用差异的中继日志(relaylog)到其他slave
-
应用从master保存的二进制日志事件(binlog events)
-
提升一个slave为新的master
-
使用其他的slave连接新的master进行复制
SSH互信登录配置
英文日志
[root@Rslavemha3 ~]# masterha_check_ssh --conf=/etc/masterha/app1/app1.cnf
Tue Apr 23 08:29:25 2019 - [warning] Global configuration file /etc/masterha_default.cnf not found. Skipping.
Tue Apr 23 08:29:25 2019 - [info] Reading application default configurations from /etc/masterha/app1/app1.cnf..
Tue Apr 23 08:29:25 2019 - [info] Reading server configurations from /etc/masterha/app1/app1.cnf..
Tue Apr 23 08:29:25 2019 - [info] Starting SSH connection tests..
Tue Apr 23 08:29:26 2019 - [debug]
Tue Apr 23 08:29:25 2019 - [debug] Connecting via SSH from root@172.16.12.1(172.16.12.1:22) to root@172.16.12.2(172.16.12.2:22)..
Tue Apr 23 08:29:26 2019 - [debug] ok.
Tue Apr 23 08:29:26 2019 - [debug] Connecting via SSH from root@172.16.12.1(172.16.12.1:22) to root@172.16.12.3(172.16.12.3:22)..
Tue Apr 23 08:29:26 2019 - [debug] ok.
Tue Apr 23 08:29:27 2019 - [debug]
Tue Apr 23 08:29:26 2019 - [debug] Connecting via SSH from root@172.16.12.2(172.16.12.2:22) to root@172.16.12.1(172.16.12.1:22)..
Tue Apr 23 08:29:26 2019 - [debug] ok.
Tue Apr 23 08:29:26 2019 - [debug] Connecting via SSH from root@172.16.12.2(172.16.12.2:22) to root@172.16.12.3(172.16.12.3:22)..
Tue Apr 23 08:29:26 2019 - [debug] ok.
Tue Apr 23 08:29:27 2019 - [debug]
Tue Apr 23 08:29:27 2019 - [debug] Connecting via SSH from root@172.16.12.3(172.16.12.3:22) to root@172.16.12.1(172.16.12.1:22)..
Tue Apr 23 08:29:27 2019 - [debug] ok.
Tue Apr 23 08:29:27 2019 - [debug] Connecting via SSH from root@172.16.12.3(172.16.12.3:22) to root@172.16.12.2(172.16.12.2:22)..
Tue Apr 23 08:29:27 2019 - [debug] ok.
Tue Apr 23 08:29:27 2019 - [info] All SSH connection tests passed successfully.
[root@Rslavemha3 ~]#
中文解释
[root@Rslavemha3 ~]# masterha_check_ssh——conf=/etc/masterha/app1/app1.cnf
2019年4月23日星期二08:29 -[警告]未找到全局配置文件/etc/masterha_default.cnf。跳过。
2019年4月23日星期二08:29 -[信息]从/etc/masterha/app1/app1.cnf.读取应用程序默认配置。
2019年4月23日星期二08:29 -[信息]从/etc/masterha/app1/app1.cnf.读取服务器配置。
2019年4月23日星期二08:29:25 -[信息]开始SSH连接测试。
2019年4月23日星期二8:29:26 -[调试]
2019年4月23日星期二8:29 -[调试]通过SSH从root@172.16.12.1(172.16.12.1:22)连接到root@172.16.12.2(172.16.12.2:22)。
2019年4月23日星期二8:29:26 -[调试]ok。
2019年4月23日星期二8:29 -[调试]通过SSH从root@172.16.12.1(172.16.12.1:22)连接到root@172.16.12.3(172.16.12.3:22)。
2019年4月23日星期二8:29:26 -[调试]ok。
2019年4月23日星期二8:29:27 -[调试]
2019年4月23日星期二8:29 -[调试]通过SSH从root@172.16.12.2(172.16.12.2:22)连接到root@172.16.12.1(172.16.12.1:22)。
2019年4月23日星期二8:29:26 -[调试]ok。
2019年4月23日星期二8:29 -[调试]通过SSH从root@172.16.12.2(172.16.12.2:22)连接到root@172.16.12.3(172.16.12.3:22)。
2019年4月23日星期二8:29:26 -[调试]ok。
2019年4月23日星期二8:29:27 -[调试]
2019年4月23日星期二8:29 -[调试]通过SSH从root@172.16.12.3(172.16.12.3:22)连接到root@172.16.12.1(172.16.12.1:22)。
2019年4月23日星期二8:29 - 27 -[调试]ok。
2019年4月23日星期二8:29 -[调试]通过SSH从root@172.16.12.3(172.16.12.3:22)连接到root@172.16.12.2(172.16.12.2:22)。
2019年4月23日星期二8:29 - 27 -[调试]ok。
2019年4月23日星期二08:29 -[信息]所有SSH连接测试都成功通过。
root@Rslavemha3 ~ #
健康检查日志
英文日志
[root@Rslavemha3 ~]# masterha_check_repl --conf=/etc/masterha/app1.cnf
Tue Apr 23 09:07:03 2019 - [warning] Global configuration file /etc/masterha_default.cnf not found. Skipping.
Tue Apr 23 09:07:03 2019 - [info] Reading application default configurations from /etc/masterha/app1.cnf..
Tue Apr 23 09:07:03 2019 - [info] Reading server configurations from /etc/masterha/app1.cnf..
Tue Apr 23 09:07:03 2019 - [info] MHA::MasterMonitor version 0.55.
Tue Apr 23 09:07:03 2019 - [info] Dead Servers:
Tue Apr 23 09:07:03 2019 - [info] Alive Servers:
Tue Apr 23 09:07:03 2019 - [info] 172.16.12.1(172.16.12.1:3306)
Tue Apr 23 09:07:03 2019 - [info] 172.16.12.2(172.16.12.2:3306)
Tue Apr 23 09:07:03 2019 - [info] 172.16.12.3(172.16.12.3:3306)
Tue Apr 23 09:07:03 2019 - [info] Alive Slaves:
Tue Apr 23 09:07:03 2019 - [info] 172.16.12.2(172.16.12.2:3306) Version=5.7.15-log (oldest major version between slaves) log-bin:enabled
Tue Apr 23 09:07:03 2019 - [info] Replicating from 172.16.12.1(172.16.12.1:3306)
Tue Apr 23 09:07:03 2019 - [info] 172.16.12.3(172.16.12.3:3306) Version=5.7.15-log (oldest major version between slaves) log-bin:enabled
Tue Apr 23 09:07:03 2019 - [info] Replicating from 172.16.12.1(172.16.12.1:3306)
Tue Apr 23 09:07:03 2019 - [info] Current Alive Master: 172.16.12.1(172.16.12.1:3306)
Tue Apr 23 09:07:03 2019 - [info] Checking slave configurations..
Tue Apr 23 09:07:03 2019 - [info] Checking replication filtering settings..
Tue Apr 23 09:07:03 2019 - [info] binlog_do_db= , binlog_ignore_db=
Tue Apr 23 09:07:03 2019 - [info] Replication filtering check ok.
Tue Apr 23 09:07:03 2019 - [info] Starting SSH connection tests..
Tue Apr 23 09:07:05 2019 - [info] All SSH connection tests passed successfully.
Tue Apr 23 09:07:05 2019 - [info] Checking MHA Node version..
Tue Apr 23 09:07:05 2019 - [info] Version check ok.
Tue Apr 23 09:07:05 2019 - [info] Checking SSH publickey authentication settings on the current master..
Tue Apr 23 09:07:05 2019 - [info] HealthCheck: SSH to 172.16.12.1 is reachable.
Tue Apr 23 09:07:05 2019 - [info] Master MHA Node version is 0.54.
Tue Apr 23 09:07:05 2019 - [info] Checking recovery script configurations on the current master..
Tue Apr 23 09:07:05 2019 - [info] Executing command: save_binary_logs --command=test --start_pos=4 --binlog_dir=/data --output_file=/tmp/save_binary_logs_test --manager_version=0.55 --start_file=server.000001
Tue Apr 23 09:07:05 2019 - [info] Connecting to root@172.16.12.1(172.16.12.1)..
Creating /tmp if not exists.. ok.
Checking output directory is accessible or not..
ok.
Binlog found at /data, up to server.000001
Tue Apr 23 09:07:05 2019 - [info] Master setting check done.
Tue Apr 23 09:07:05 2019 - [info] Checking SSH publickey authentication and checking recovery script configurations on all alive slave servers..
Tue Apr 23 09:07:05 2019 - [info] Executing command : apply_diff_relay_logs --command=test --slave_user='mha_monitor' --slave_host=172.16.12.2 --slave_ip=172.16.12.2 --slave_port=3306 --workdir=/tmp --target_version=5.7.15-log --manager_version=0.55 --relay_log_info=/data/relay-log.info --relay_dir=/data/ --slave_pass=xxx //这一步就是应用差异中继日志
Tue Apr 23 09:07:05 2019 - [info] Connecting to root@172.16.12.2(172.16.12.2:22)..
Checking slave recovery environment settings..
Opening /data/relay-log.info ... ok.
Relay log found at /data, up to Rslavemha3-relay-bin.000003
Temporary relay log file is /data/Rslavemha3-relay-bin.000003
Testing mysql connection and privileges..mysql: [Warning] Using a password on the command line interface can be insecure.
done.
Testing mysqlbinlog output.. done.
Cleaning up test file(s).. done.
Tue Apr 23 09:07:05 2019 - [info] Executing command : apply_diff_relay_logs --command=test --slave_user='mha_monitor' --slave_host=172.16.12.3 --slave_ip=172.16.12.3 --slave_port=3306 --workdir=/tmp --target_version=5.7.15-log --manager_version=0.55 --relay_log_info=/data/relay-log.info --relay_dir=/data/ --slave_pass=xxx
Tue Apr 23 09:07:05 2019 - [info] Connecting to root@172.16.12.3(172.16.12.3:22)..
Checking slave recovery environment settings..
Opening /data/relay-log.info ... ok.
Relay log found at /data, up to Rslavemha1-relay-bin.000004
Temporary relay log file is /data/Rslavemha1-relay-bin.000004
Testing mysql connection and privileges..mysql: [Warning] Using a password on the command line interface can be insecure.
done.
Testing mysqlbinlog output.. done.
Cleaning up test file(s).. done.
Tue Apr 23 09:07:06 2019 - [info] Slaves settings check done.
Tue Apr 23 09:07:06 2019 - [info]
172.16.12.1 (current master)
+--172.16.12.2
+--172.16.12.3
Tue Apr 23 09:07:06 2019 - [info] Checking replication health on 172.16.12.2..
Tue Apr 23 09:07:06 2019 - [info] ok.
Tue Apr 23 09:07:06 2019 - [info] Checking replication health on 172.16.12.3..
Tue Apr 23 09:07:06 2019 - [info] ok.
Tue Apr 23 09:07:06 2019 - [info] Checking master_ip_failover_script status:
Tue Apr 23 09:07:06 2019 - [info] /usr/bin/master_ip_failover --command=status --ssh_user=root --orig_master_host=172.16.12.1 --orig_master_ip=172.16.12.1 --orig_master_port=3306
Checking the Status of the script.. OK
Tue Apr 23 09:07:06 2019 - [info] OK.
Tue Apr 23 09:07:06 2019 - [warning] shutdown_script is not defined.
Tue Apr 23 09:07:06 2019 - [info] Got exit code 0 (Not master dead).
MySQL Replication Health is OK.
[root@Rslavemha3 ~]#
中文解释
[root@Rslavemha3 ~]# masterha_check_repl——conf=/etc/masterha/app1.cnf
2019年4月23日星期二09:07:03 -[警告]未找到全局配置文件/etc/masterha_default.cnf。跳过。
2019年4月23日星期二09:07:03 -[信息]从/etc/masterha/app1.cnf.读取应用程序默认配置。
2019年4月23日星期二09:07:03 -[信息]从/etc/masterha/app1.cnf.读取服务器配置。
2019年4月23日星期二09:07:03 -[信息]MHA::MasterMonitor版本0.55。
2019年4月23日星期二09:07:03 -[信息]死机服务器:
2019年4月23日星期二09:07:03 -[信息]活服务器:
4月23日星期二09:07:03 2019 -[信息]172.16.12.1(172.16.12.1:3306)
4月23日星期二09:07:03 2019 -[信息]172.16.12.2(172.16.12.2:3306)
4月23日星期二09:07:03 2019 -[信息]172.16.12.3(172.16.12.3:3306)
2019年4月23日星期二09:07:03 -[信息]活着的奴隶:
4月23日星期二09:07:03 2019 -[信息]172.16.12.2(172.16.12.2:3306)版本=5.7.15 log(奴隶之间最古老的主版本)日志箱:启用
2019年4月23日星期二09:07:03 -[信息]复制自172.16.12.1(172.16.12.1:3306)
4月23日星期二09:07:03 2019 -[信息]172.16.12.3(172.16.12.3:3306)版本=5.7.15-log(奴隶之间最古老的主版本)日志箱:启用
2019年4月23日星期二09:07:03 -[信息]复制自172.16.12.1(172.16.12.1:3306)
2019年4月23日星期二09:07:03 -[信息]目前在世大师:172.16.12.1(172.16.12.1:3306)
2019年4月23日星期二09:07:03 -[信息]检查从属配置。
4月23日星期二09:07:03 2019 -[信息]检查复制过滤设置。
2019年4月23日星期二09:07:03 -[信息]binlog_do_db=, binlog_ignore_db=
2019年4月23日星期二09:07:03 -[信息]复制过滤检查ok。
4月23日星期二09:07:03 2019 -[信息]开始SSH连接测试。
2019年4月23日星期二09:07:05 -[信息]所有SSH连接测试都成功通过。
2019年4月23日星期二09:07:05 -[信息]检查MHA节点版本。
2019年4月23日星期二09:07:05 -[信息]版本检查ok。
2019年4月23日星期二09:07:05 -[信息]检查当前主机上的SSH公钥身份验证设置。
2019年4月23日星期二09:07:05 -[信息]健康检查:SSH到172.16.12.1是可访问的。
2019年4月23日星期二09:07:05 -[信息]主MHA节点版本为0.54。
2019年4月23日星期二09:07:05 -[信息]检查当前主服务器上的恢复脚本配置。
执行命令:save_binary_logs—命令=test—start_pos=4—binlog_dir=