MySQL MHA高可用

什么是MHA#

MHA（Master High Availability）是用于提高数据库集群可用性的方案，基于虚拟IP技术，可以实现在Master故障时，在30s内实现故障转移并确保数据一致性。可以理解为MHA就是作用于数据库集群的KeepAlived。

MHA工作原理#

MHA的组成#

MHA由MHA Manager和MHA Node组成，其中Manager相当于服务端，Node相当于客户端；
Manager可以部署在Master或Slave机器上，也可以单独的部署在一台机器上；一般建议部署在一台单独的机器上，因为Manager是用于探测数据库实例是否在线和进行故障转移的核心程序，如果部署在Master上，一旦Master机器报销，整个数据库集群的不再可以；另外，如果部署在Slave机器上，那么这台机器就不能够被提升为Master。
Node需要部署在所有MySQL数据库实例的机器上。

MHA故障转移流程#

Manager会每隔一段时间(可以由用户在配置文件中指定)对主库进行一次探测；
如果Manager检测到Master故障，会执行：
1. 尝试从其他Node发起ssh链接；
2. 尝试从其他Node发起mysql链接。
如果两种链接皆失败，则开始进行故障转移：
1. 通过对比relay log，找到拥有最新数据的从库；
2. 将最新的从库中的新数据同步到其他从库中；
3. 提升从库为新的主库(如果没有预先指定，则提升拥有最新数据的从库为新主库)；
4. 通过原主库的binlog补全新主库的数据；
5. 其他从库CHANGE MASTER TO新的主库，并进行数据同步。

部署MHA#

环境准备#

使用三台机器，其中MySQL一主一从，Manager单独布置在一台管理机器上。

身份	主机名	公网ip	内网ip	开启binlog	开启GTID
Master	db-51	10.0.0.51	172.16.1.51	yes	yes
Slave	db-52	10.0.0.52	172.16.1.52	yes	yes
Manager	master-61	10.0.0.61	172.16.1.61	-	-

配置文件#

1
[mysqld]
2
port=3306
3
user=mysql
4
basedir=/opt/mysql
5
datadir=/mysql_data/mysql_3306
6
socket=/tmp/mysql.sock
7

8
server_id=51
9
log_bin=/mysql_data/binlog/mysql-bin
10

11
autocommit=0
12
binlog_format=row
13
gtid-mode=on
14
enforce-gtid-consistency=true
15
log-slave-updates=1
16

17
[mysql]
18
socket=/tmp/mysql.sock

除了server_id其他都一样

配置主从复制#

创建复制账号

1
--在master机器上执行--
2
grant replication slave on*.* to repl@'172.16.1.%' identified by '123456';

从库进行连接

1
change master to master_host='172.16.1.51', master_user='repl', master_password='123456' , MASTER_AUTO_POSITION=1;
2

3
start slave;

使三个节点之间互相免密登录：

1
ssh-keygen
2
ssh-copy-id root@172.16.1.51
3

4
ssh-keygen
5
ssh-copy-id root@172.16.1.52
6

7
ssh-keygen
8
ssh-copy-id root@172.16.1.61

安装MHA#

为所有节点安装环境依赖#

1
yum install -y perl-DBD-MySQL perl-Config-Tiny perl-Log-Dispatch perl-Parallel-ForkManager perl-ExtUtils-CBuilder perl-ExtUtils-MakeMaker perl-CPAN perl-Time-HiRes

三个节点都安装MHA Node#

MHA Node Github仓库

1
# 获得软件源
2
wget https://github.com/yoshinorim/mha4mysql-node/releases/download/v0.58/mha4mysql-node-0.58-0.el7.centos.noarch.rpm
3

4
# 安装
5
yum localinstall -y mha4mysql-node-0.58-0.el7.centos.noarch.rpm

安装MHA Manager#

MHA Manager Github仓库
这里由于只用了两台机器，因此Manager必须装在另外单独的一台主机上，否则对于一主一从配置来说，装在主库上，挂掉后会导致MHA失效；装在从库上，会导致无法提升为主库；

1
# 获取软件源
2
wget https://github.com/yoshinorim/mha4mysql-manager/releases/download/v0.58/mha4mysql-manager-0.58-0.el7.centos.noarch.rpm
3

4
# 安装
5
yum localinstall -y mha4mysql-manager-0.58-0.el7.centos.noarch.rpm

配置MHA#

为所有节点创建MHA用户#

因为目前已经配置好了主从复制，所以在主库上创建就可以了，会自动同步到从库。

1
grant all privileges on *.* to mha@'%' identified by '123456';

创建MHA Manager配置文件#

创建目录

1
mkdir -p /etc/mha
2
mkdir -p /var/log/mha/app1

配置文件

1
[server default]
2
manager_log=/var/log/mha/app1/manager.log
3
manager_workdir=/var/log/mha/app1.log
4
master_binlog_dir=/mysql_binlog/
5

6
# 这里涉及到vip偏移脚本，在后面
7
# master_ip_failover_script=/usr/local/bin/master_ip_failover
8

9
user=mha
10
password=123456
11
ping_interval=5
12
repl_user=repl
13
repl_password=123456
14
ssh_user=root
15

16
[server1]
17
hostname=172.16.1.51
18
port=3306
19

20
[server2]
21
hostname=172.16.1.52
22
port=3306

检查环境配置#

1
# 检查ssh免密登录
2
masterha_check_ssh --conf=/etc/mha/app1.cnf
3

4
# 检查主从复制
5
masterha_check_repl --conf=/etc/mha/app1.cnf

开发Virtual IP漂移脚本#

脚本路径：/usr/local/bin/master_ip_failover

1
#!/usr/bin/env perl
2

3
use strict;
4
use warnings FATAL => 'all';
5

6
use Getopt::Long;
7

8
my (
9
    $command,          $ssh_user,        $orig_master_host, $orig_master_ip,
10
    $orig_master_port, $new_master_host, $new_master_ip,    $new_master_port
11
);
12

13
my $vip = '172.16.1.55/24';
14
my $key = '1';
15
my $ssh_start_vip = "/sbin/ifconfig eth1:$key $vip";
16
my $ssh_stop_vip = "/sbin/ifconfig eth1:$key down";
17
my $ssh_Bcast_arp="/sbin/arping -I eth1 -c 3 -A 10.0.0.55";
18

19
GetOptions(
20
    'command=s'          => \$command,
21
    'ssh_user=s'         => \$ssh_user,
22
    'orig_master_host=s' => \$orig_master_host,
23
    'orig_master_ip=s'   => \$orig_master_ip,
24
    'orig_master_port=i' => \$orig_master_port,
25
    'new_master_host=s'  => \$new_master_host,
26
    'new_master_ip=s'    => \$new_master_ip,
27
    'new_master_port=i'  => \$new_master_port,
28
);
29

30
exit &main();
31

32
sub main {
33

34
    print "\n\nIN SCRIPT TEST====$ssh_stop_vip==$ssh_start_vip===\n\n";
35

36
    if ( $command eq "stop" || $command eq "stopssh" ) {
37

38
        my $exit_code = 1;
39
        eval {
40
            print "Disabling the VIP on old master: $orig_master_host \n";
41
            &stop_vip();
42
            $exit_code = 0;
43
        };
44
        if ($@) {
45
            warn "Got Error: $@\n";
46
            exit $exit_code;
47
        }
48
        exit $exit_code;
49
    }
50
    elsif ( $command eq "start" ) {
51

52
        my $exit_code = 10;
53
        eval {
54
            print "Enabling the VIP - $vip on the new master - $new_master_host \n";
55
            &start_vip();
56
            $exit_code = 0;
57
        };
58
        if ($@) {
59
            warn $@;
60
            exit $exit_code;
61
        }
62
        exit $exit_code;
63
    }
64
    elsif ( $command eq "status" ) {
65
        print "Checking the Status of the script.. OK \n";
66
        exit 0;
67
    }
68
    else {
69
        &usage();
70
        exit 1;
71
    }
72
}
73

74
sub start_vip() {
75
    `ssh $ssh_user\@$new_master_host \" $ssh_start_vip \"`;
76
}
77
sub stop_vip() {
78
     return 0  unless  ($ssh_user);
79
    `ssh $ssh_user\@$orig_master_host \" $ssh_stop_vip \"`;
80
}
81

82
sub usage {
83
    print
84
    "Usage: master_ip_failover --command=start|stop|stopssh|status --orig_master_host=host --orig_master_ip=ip --orig_master_port=port --new_master_host=host --new_master_ip=ip --new_master_port=port\n";
85
}

增加可执行权限：

1
chmod +x /usr/local/bin/master_ip_failover

将脚本路径加入到配置文件中：
master_ip_failover_script=/usr/local/bin/master_ip_failover

配置虚拟IP#

在db-51机器上创建虚拟IP

1
# 这里的虚拟IP必须是和perl脚本上的一致，并且虚拟ip必须是网段内未被占用的IP
2
ifconfig eth1:1 172.16.1.55/24

重启MHA#

1
# 停止MHA
2
masterha_stop --conf=/etc/mha/app1.cnf
3

4
# 启动MHA(后台运行)
5
nohup masterha_manager --conf=/etc/mha/app1.cnf  --remove_dead_master_conf  --ignore_last_failover /var/log/mha/app1/manager.log 2>&1 &
6

7
# 检查MHA运行状态
8
masterha_check_status --conf=/etc/mha/app1.cnf
9
app1 (pid:2220) is running(0:PING_OK), master:172.16.1.51

此时MHA就已经部署完毕了。

模拟故障#

实时查看manager日志：

1
tail -f /var/log/mha/app1/manager.log

停止当前mysql主库

1
systemctl stop mysqld

此时查看日志，可以发现manager尝试多次连接mysql主库失败，manager进行了主库身份转移。

1
Tue Aug 22 15:56:07 2023 - [warning] Got error on MySQL select ping: 2006 (MySQL server has gone away)
2
Tue Aug 22 15:56:07 2023 - [info] Executing SSH check script: exit 0
3
Tue Aug 22 15:56:07 2023 - [info] HealthCheck: SSH to 172.16.1.51 is reachable.
4
Tue Aug 22 15:56:12 2023 - [warning] Got error on MySQL connect: 2003 (Can't connect to MySQL server on '172.16.1.51' (111))
5
Tue Aug 22 15:56:12 2023 - [warning] Connection failed 2 time(s)..
6
Tue Aug 22 15:56:17 2023 - [warning] Got error on MySQL connect: 2003 (Can't connect to MySQL server on '172.16.1.51' (111))
7
Tue Aug 22 15:56:17 2023 - [warning] Connection failed 3 time(s)..
8
Tue Aug 22 15:56:22 2023 - [warning] Got error on MySQL connect: 2003 (Can't connect to MySQL server on '172.16.1.51' (111))
9
Tue Aug 22 15:56:22 2023 - [warning] Connection failed 4 time(s)..
10
Tue Aug 22 15:56:22 2023 - [warning] Master is not reachable from health checker!
11
Tue Aug 22 15:56:22 2023 - [warning] Master 172.16.1.51(172.16.1.51:3306) is not reachable!
12
Tue Aug 22 15:56:22 2023 - [warning] SSH is reachable.
13
Tue Aug 22 15:56:22 2023 - [info] Connecting to a master server failed. Reading configuration file /etc/masterha_default.cnf and /etc/mha/app1.cnf again, and trying to connect to all servers to check server status..
14
Tue Aug 22 15:56:22 2023 - [warning] Global configuration file /etc/masterha_default.cnf not found. Skipping.
15
Tue Aug 22 15:56:22 2023 - [info] Reading application default configuration from /etc/mha/app1.cnf..
16
Tue Aug 22 15:56:22 2023 - [info] Reading server configuration from /etc/mha/app1.cnf..
17
Tue Aug 22 15:56:23 2023 - [info] GTID failover mode = 1
18
Tue Aug 22 15:56:23 2023 - [info] Dead Servers:
19
Tue Aug 22 15:56:23 2023 - [info]   172.16.1.51(172.16.1.51:3306)
20
Tue Aug 22 15:56:23 2023 - [info] Alive Servers:
21
Tue Aug 22 15:56:23 2023 - [info]   172.16.1.52(172.16.1.52:3306)
22
Tue Aug 22 15:56:23 2023 - [info] Alive Slaves:
23
Tue Aug 22 15:56:23 2023 - [info]   172.16.1.52(172.16.1.52:3306)  Version=5.7.28-log (oldest major version between slaves) log-bin:enabled
24
Tue Aug 22 15:56:23 2023 - [info]     GTID ON
25
Tue Aug 22 15:56:23 2023 - [info]     Replicating from 172.16.1.51(172.16.1.51:3306)
26
Tue Aug 22 15:56:23 2023 - [info] Checking slave configurations..
27
Tue Aug 22 15:56:23 2023 - [info]  read_only=1 is not set on slave 172.16.1.52(172.16.1.52:3306).
28
Tue Aug 22 15:56:23 2023 - [info] Checking replication filtering settings..
29
Tue Aug 22 15:56:23 2023 - [info]  Replication filtering check ok.
30
Tue Aug 22 15:56:23 2023 - [info] Master is down!
31
Tue Aug 22 15:56:23 2023 - [info] Terminating monitoring script.
32
Tue Aug 22 15:56:23 2023 - [info] Got exit code 20 (Master dead).
33
Tue Aug 22 15:56:23 2023 - [info] MHA::MasterFailover version 0.58.
34
Tue Aug 22 15:56:23 2023 - [info] Starting master failover.
35
Tue Aug 22 15:56:23 2023 - [info]
36
Tue Aug 22 15:56:23 2023 - [info] * Phase 1: Configuration Check Phase..
37
Tue Aug 22 15:56:23 2023 - [info]
38
Tue Aug 22 15:56:24 2023 - [info] GTID failover mode = 1
39
Tue Aug 22 15:56:24 2023 - [info] Dead Servers:
40
Tue Aug 22 15:56:24 2023 - [info]   172.16.1.51(172.16.1.51:3306)
41
Tue Aug 22 15:56:24 2023 - [info] Checking master reachability via MySQL(double check)...
42
Tue Aug 22 15:56:24 2023 - [info]  ok.
43
Tue Aug 22 15:56:24 2023 - [info] Alive Servers:
44
Tue Aug 22 15:56:24 2023 - [info]   172.16.1.52(172.16.1.52:3306)
45
Tue Aug 22 15:56:24 2023 - [info] Alive Slaves:
46
Tue Aug 22 15:56:24 2023 - [info]   172.16.1.52(172.16.1.52:3306)  Version=5.7.28-log (oldest major version between slaves) log-bin:enabled
47
Tue Aug 22 15:56:24 2023 - [info]     GTID ON
48
Tue Aug 22 15:56:24 2023 - [info]     Replicating from 172.16.1.51(172.16.1.51:3306)
49
Tue Aug 22 15:56:24 2023 - [info] Starting GTID based failover.
50
Tue Aug 22 15:56:24 2023 - [info]
51
Tue Aug 22 15:56:24 2023 - [info] ** Phase 1: Configuration Check Phase completed.
52
Tue Aug 22 15:56:24 2023 - [info]
53
Tue Aug 22 15:56:24 2023 - [info] * Phase 2: Dead Master Shutdown Phase..
54
Tue Aug 22 15:56:24 2023 - [info]
55
Tue Aug 22 15:56:24 2023 - [info] Forcing shutdown so that applications never connect to the current master..
56
Tue Aug 22 15:56:24 2023 - [warning] master_ip_failover_script is not set. Skipping invalidating dead master IP address.
57
Tue Aug 22 15:56:24 2023 - [warning] shutdown_script is not set. Skipping explicit shutting down of the dead master.
58
Tue Aug 22 15:56:25 2023 - [info] * Phase 2: Dead Master Shutdown Phase completed.
59
Tue Aug 22 15:56:25 2023 - [info]
60
Tue Aug 22 15:56:25 2023 - [info] * Phase 3: Master Recovery Phase..
61
Tue Aug 22 15:56:25 2023 - [info]
62
Tue Aug 22 15:56:25 2023 - [info] * Phase 3.1: Getting Latest Slaves Phase..
63
Tue Aug 22 15:56:25 2023 - [info]
64
Tue Aug 22 15:56:25 2023 - [info] The latest binary log file/position on all slaves is mysql-bin.000002:725
65
Tue Aug 22 15:56:25 2023 - [info] Retrieved Gtid Set: 06fdc979-3cb2-11ee-8345-000c29948844:1-2
66
Tue Aug 22 15:56:25 2023 - [info] Latest slaves (Slaves that received relay log files to the latest):
67
Tue Aug 22 15:56:25 2023 - [info]   172.16.1.52(172.16.1.52:3306)  Version=5.7.28-log (oldest major version between slaves) log-bin:enabled
68
Tue Aug 22 15:56:25 2023 - [info]     GTID ON
69
Tue Aug 22 15:56:25 2023 - [info]     Replicating from 172.16.1.51(172.16.1.51:3306)
70
Tue Aug 22 15:56:25 2023 - [info] The oldest binary log file/position on all slaves is mysql-bin.000002:725
71
Tue Aug 22 15:56:25 2023 - [info] Retrieved Gtid Set: 06fdc979-3cb2-11ee-8345-000c29948844:1-2
72
Tue Aug 22 15:56:25 2023 - [info] Oldest slaves:
73
Tue Aug 22 15:56:25 2023 - [info]   172.16.1.52(172.16.1.52:3306)  Version=5.7.28-log (oldest major version between slaves) log-bin:enabled
74
Tue Aug 22 15:56:25 2023 - [info]     GTID ON
75
Tue Aug 22 15:56:25 2023 - [info]     Replicating from 172.16.1.51(172.16.1.51:3306)
76
Tue Aug 22 15:56:25 2023 - [info]
77
Tue Aug 22 15:56:25 2023 - [info] * Phase 3.3: Determining New Master Phase..
78
Tue Aug 22 15:56:25 2023 - [info]
79
Tue Aug 22 15:56:25 2023 - [info] Searching new master from slaves..
80
Tue Aug 22 15:56:25 2023 - [info]  Candidate masters from the configuration file:
81
Tue Aug 22 15:56:25 2023 - [info]  Non-candidate masters:
82
Tue Aug 22 15:56:25 2023 - [info] New master is 172.16.1.52(172.16.1.52:3306)
83
Tue Aug 22 15:56:25 2023 - [info] Starting master failover..
84
Tue Aug 22 15:56:25 2023 - [info]
85
From:
86
172.16.1.51(172.16.1.51:3306) (current master)
87
 +--172.16.1.52(172.16.1.52:3306)
88

89
To:
90
172.16.1.52(172.16.1.52:3306) (new master)
91
Tue Aug 22 15:56:25 2023 - [info]
92
Tue Aug 22 15:56:25 2023 - [info] * Phase 3.3: New Master Recovery Phase..
93
Tue Aug 22 15:56:25 2023 - [info]
94
Tue Aug 22 15:56:25 2023 - [info]  Waiting all logs to be applied..
95
Tue Aug 22 15:56:25 2023 - [info]   done.
96
Tue Aug 22 15:56:25 2023 - [info] Getting new master's binlog name and position..
97
Tue Aug 22 15:56:25 2023 - [info]  mysql-bin.000001:725
98
Tue Aug 22 15:56:25 2023 - [info]  All other slaves should start replication from here. Statement should be: CHANGE MASTER TO MASTER_HOST='172.16.1.52', MASTER_PORT=3306, MASTER_AUTO_POSITION=1, MASTER_USER='repl', MASTER_PASSWORD='xxx';
99
Tue Aug 22 15:56:25 2023 - [info] Master Recovery succeeded. File:Pos:Exec_Gtid_Set: mysql-bin.000001, 725, 06fdc979-3cb2-11ee-8345-000c29948844:1-2
100
Tue Aug 22 15:56:25 2023 - [warning] master_ip_failover_script is not set. Skipping taking over new master IP address.
101
Tue Aug 22 15:56:25 2023 - [info] ** Finished master recovery successfully.
102
Tue Aug 22 15:56:25 2023 - [info] * Phase 3: Master Recovery Phase completed.
103
Tue Aug 22 15:56:25 2023 - [info]
104
Tue Aug 22 15:56:25 2023 - [info] * Phase 4: Slaves Recovery Phase..
105
Tue Aug 22 15:56:25 2023 - [info]
106
Tue Aug 22 15:56:25 2023 - [info]
107
Tue Aug 22 15:56:25 2023 - [info] * Phase 4.1: Starting Slaves in parallel..
108
Tue Aug 22 15:56:25 2023 - [info]
109
Tue Aug 22 15:56:25 2023 - [info] All new slave servers recovered successfully.
110
Tue Aug 22 15:56:25 2023 - [info]
111
Tue Aug 22 15:56:25 2023 - [info] * Phase 5: New master cleanup phase..
112
Tue Aug 22 15:56:25 2023 - [info]
113
Tue Aug 22 15:56:25 2023 - [info] Resetting slave info on the new master..
114
Tue Aug 22 15:56:25 2023 - [info]  172.16.1.52: Resetting slave info succeeded.
115
Tue Aug 22 15:56:25 2023 - [info] Master failover to 172.16.1.52(172.16.1.52:3306) completed successfully.
116
Tue Aug 22 15:56:25 2023 - [info] Deleted server1 entry from /etc/mha/app1.cnf .
117
Tue Aug 22 15:56:25 2023 - [info]

结果报告：

1
----- Failover Report -----
2

3
app1: MySQL Master failover 172.16.1.51(172.16.1.51:3306) to 172.16.1.52(172.16.1.52:3306) succeeded
4

5
Master 172.16.1.51(172.16.1.51:3306) is down!
6

7
Check MHA Manager logs at master-61:/var/log/mha/app1/manager.log for details.
8

9
Started automated(non-interactive) failover.
10
Selected 172.16.1.52(172.16.1.52:3306) as a new master.
11
172.16.1.52(172.16.1.52:3306): OK: Applying all logs succeeded.
12
172.16.1.52(172.16.1.52:3306): Resetting slave info succeeded.
13
Master failover to 172.16.1.52(172.16.1.52:3306) completed successfully.

在完成故障转移后，可以看到现在的master是db-52；同时，manager还修改了自己的配置文件，挂掉的原master被删除

1
[server default]
2
manager_log=/var/log/mha/app1/manager.log
3
manager_workdir=/var/log/mha/app1.log
4
master_binlog_dir=/mysql_binlog/
5
password=123456
6
ping_interval=5
7
repl_password=123456
8
repl_user=repl
9
ssh_user=root
10
user=mha
11

12
[server2]
13
hostname=172.16.1.52
14
port=3306

除此之外，通过masterha_check_status命令还可以知道，一旦mha完成主从切换，manager管理进程就会自动终止。

1
[root@master-61 ~]#masterha_check_status --conf=/etc/mha/app1.cnf
2
app1 is stopped(2:NOT_RUNNING).

MHA故障修复#

方法比较简单

重启挂掉的mysql数据库
通过CHANGE MASTER TO使其成为新的主库的从库。
修复MHA Manager的配置文件

db-51重新加入主从复制#

1
systemctl start mysqld
2

3
change master to master_host='172.16.1.52', master_user='repl', master_password='123456' , MASTER_AUTO_POSITION=1;
4

5
start slave;

可以在db-52上进行确认：

1
mysql> show slave hosts;
2
+-----------+------+------+-----------+--------------------------------------+
3
| Server_id | Host | Port | Master_id | Slave_UUID                           |
4
+-----------+------+------+-----------+--------------------------------------+
5
|        51 |      | 3306 |        52 | 06fdc979-3cb2-11ee-8345-000c29948844 |
6
+-----------+------+------+-----------+--------------------------------------+
7
1 row in set (0.00 sec)

修复MHA Manager配置文件#

1
[server default]
2
manager_log=/var/log/mha/app1/manager.log
3
manager_workdir=/var/log/mha/app1.log
4
master_binlog_dir=/mysql_binlog/
5
password=123456
6
ping_interval=5
7
repl_password=123456
8
repl_user=repl
9
ssh_user=root
10
user=mha
11

12
[server1]
13
hostname=172.16.1.51
14
port=3306
15

16
[server2]
17
hostname=172.16.1.52
18
port=3306

再次确认ssh链接和repl主从复制状态后，重新启动MHA就可以了。

音乐