drbd+MFS+pacemaker+rocosync实现高可用集群架构

最新推荐文章于 2024-07-10 08:38:45 发布

原创

最新推荐文章于 2024-07-10 08:38:45 发布 · 999 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#centos7 #分布式存储 #moosefs #集群 #crm

本文介绍了如何在CentOS 7环境下，结合DRBD、MooseFS、Pacemaker和Corosync搭建高可用集群架构，解决MFS单点故障，实现分布式存储、服务检测切换和高可用性。详细步骤包括DRBD配置、MFS编译安装、Pacemaker和Corosync的使用，以及集群的故障检测和资源管理。

一、软件简介

DRBD是一个用软件实现的、无共享的、服务器之间镜像块设备内容的存储复制解决方案。

MooseFS是一个具有容错性的网络分布式文件系统。它把数据分散存放在多个物理服务器上，而呈现给

用户的则是一个统一的资源。

Moosefs：（mfs）存储海量小文件，支持FUSE。（国内企业使用比较多）

Pacemaker是一个集群资源管理器。它利用集群基础构件（corosync）提供的消息和成员管理能力来探

测并从节点或资源级别的故障中恢复，以实现群集服务的最大可用性。

尤为重要的是Pacemaker不是一个heartbeat的分支，似乎很多人存在这样的误解。Pacemaker是CRM项

目（亦名V2资源管理器）的延续，该项目最初是为heartbeat而开发，但目前已经成为独立项目。

Corosync是集群管理套件的一部分，它在传递信息的时候可以通过一个简单的配置文件来定义信息传递

的方式和协议等。

CRM是一个命令行基于群集配置和管理工具。其目标是尽可能地协助基于pacemaker的高可用性集群的

配置和维护。最为重要的是crm提供了交互界面，更加容易排错。

二、需求

1、解决mfs-master单点故障

2、提供图片服务器之类的分布式存储，也可以在其他集群中使用。

3、实现drbd的主备容灾备份。

4、实现心跳检测

5、实现服务（资源）的检测及切换

6、实现高可用集群

三、平台环境

OS：CentOS Linux release 7.3.1611 (Core)

kernel:3.10.0-514.el7.x86_64

网络信息规划如下表：

名称	hostname	IP
VIP	飘移	192.168.40.200
mfs-master1(drbd)	node4	192.168.40.131
mfs-master2(drbd)	node5	192.168.40.132
mfs-metalog server	node6	192.168.40.133
mfs-chunk server1	node7	192.168.40.134
mfs-chunk server2	node8	192.168.40.134
client	node1	192.168.40.128

网络拓扑如下：

四、环境准备

1、修改hosts文件保证hosts之间能够互相访问。

[root@node4 ~]# cat /etc/hosts
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.40.131 node4
192.168.40.132 node5
192.168.40.133 node6
192.168.40.134 node7
192.168.40.135 node8

2、同步时间

ntpdate cn.pool.ntp.org

3、mfs的各个server之间实现ssh互信（共5台server），命令如下：

ssh-keygen
ssh-copy-id node#主机名或者IP

五、安装软件

1、安装drbd

在node4和node5先划分出一个分区，而且不格式化那么快。如下：

[root@node4 ~]# fdisk -l /dev/sdb

Disk /dev/sdb: 5368 MB, 5368709120 bytes, 10485760 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk label type: dos
Disk identifier: 0xa56b82b0

   Device Boot      Start         End      Blocks   Id  System
/dev/sdb1            2048    10485759     5241856   83  Linux

[root@node5 ~]# fdisk -l /dev/sdb

Disk /dev/sdb: 5368 MB, 5368709120 bytes, 10485760 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk label type: dos
Disk identifier: 0x066827f3

   Device Boot      Start         End      Blocks   Id  System
/dev/sdb1            2048    10485759     5241856   83  Linux

安装derb并安装drbd

rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm
yum install -y kmod-drbd84 drbd84-utils

配置drbd全局配置文件

[root@node5 mfs]# cat /etc/drbd.d/global_common.conf 
# DRBD is the result of over a decade of development by LINBIT.
# In case you need professional services for DRBD or have
# feature requests visit http://www.linbit.com

global {
	usage-count no;

	# Decide what kind of udev symlinks you want for "implicit" volumes
	# (those without explicit volume <vnr> {} block, implied vnr=0):
	# /dev/drbd/by-resource/<resource>/<vnr>   (explicit volumes)
	# /dev/drbd/by-resource/<resource>         (default for implict)
	udev-always-use-vnr; # treat implicit the same as explicit volumes

	# minor-count dialog-refresh disable-ip-verification
	# cmd-timeout-short 5; cmd-timeout-medium 121; cmd-timeout-long 600;
}

common {
	protocol C;
	handlers {
		# These are EXAMPLE handlers only.
		# They may have severe implications,
		# like hard resetting the node under certain circumstances.
		# Be careful when choosing your poison.

		pri-on-incon-degr "/usr/lib/drbd/notify-pri-on-incon-degr.sh; /usr/lib/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f";
		pri-lost-after-sb "/usr/lib/drbd/notify-pri-lost-after-sb.sh; /usr/lib/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f";
		local-io-error "/usr/lib/drbd/notify-io-error.sh; /usr/lib/drbd/notify-emergency-shutdown.sh; echo o > /proc/sysrq-trigger ; halt -f";
		# fence-peer "/usr/lib/drbd/crm-fence-peer.sh";
		# split-brain "/usr/lib/drbd/notify-split-brain.sh root";
		# out-of-sync "/usr/lib/drbd/notify-out-of-sync.sh root";
		# before-resync-target "/usr/lib/drbd/snapshot-resync-target-lvm.sh -p 15 -- -c 16k";
		# after-resync-target /usr/lib/drbd/unsnapshot-resync-target-lvm.sh;
		# quorum-lost "/usr/lib/drbd/notify-quorum-lost.sh root";
	}

	startup {
		# wfc-timeout degr-wfc-timeout outdated-wfc-timeout wait-after-sb
	}

	options {
		# cpu-mask on-no-data-accessible

		# RECOMMENDED for three or more storage nodes with DRBD 9:
		# quorum majority;
		# on-no-quorum suspend-io | io-error;
	}

	disk {
		on-io-error detach;
		# size on-io-error fencing disk-barrier disk-flushes
		# disk-drain md-flushes resync-rate resync-after al-extents
                # c-plan-ahead c-delay-target c-fill-target c-max-rate
                # c-min-rate disk-timeout
	}

	net {
		# protocol timeout max-epoch-size max-buffers