搭建单分片二副本集群,使用MergeTree引擎测试数据同步
服务器:
127.0.0.1 clickhouse
127.0.0.2 clickhouse + keeper
结构图
1.修改hosts
vi /etc/hosts
添加需要部署的ip和名字
127.0.0.1 node1
127.0.0.2 node2
2. node1配置文件修改
2.1 修改/etc/clickhouse-server/user.xml
<clickhouse>
<profiles>
<!-- Default settings. -->
<default>
<!--默认值为0,表示不启用原子写入;改为与smartbi_replica集群中的副本数相等-->
<insert_quorum>2</insert_quorum>
<!--默认值为600000毫秒(10分钟);改为30分钟以防止写入和同步副本超时-->
<insert_quorum_timeout>1800000</insert_quorum_timeout>
</default>
<!-- Profile that allows only read queries. -->
<readonly>
<readonly>1</readonly>
</readonly>
</profiles>
</clickhouse>
2.2 修改/etc/clickhouse-server/config.d/metrika.xml
<?xml version="1.0"?>
<yandex>
<clickhouse_remote_servers>
<smartbi>
<!-- 数据分片1 -->
<shard>
<!-- 可选的。写入分布式表时是否只将数据写入其中一个副本。默认值:false(将数据写入所有副本)。 -->
<internal_replication>false</internal_replication>
<replica>
<!-- host:数据分片节点,可以写机器名,ip地址。-->
<host>node1</host>
<!-- port:消息传递TCP端口,默认9000,不要与http端口混淆 -->
<port>9000</port>
<!-- user:用于连接远程服务器的用户名。默认值:default。该用户必须有权限访问该远程服务器。访问权限配置在 users.xml 文件中。 -->
<user>default</user>
<!-- password:用于连接远程服务器的密码。默认为空,users.xml 文件中配置。 -->
<password></password>
</replica>
<replica>
<host>node2</host>
<port>9000</port>
<user>default</user>
<password></password>
</replica>
</shard>
</smartbi>
</clickhouse_remote_servers>
<!--zookeeper相关配置-->
<zookeeper-servers>
<!-- zookeeper节点1-->
<node index="1">
<!-- host:zookeeper服务器地址,可以写机器名,ip地址。-->
<host>node2</host>
<!-- port:zookeeper服务端口,默认2181。-->
<port>9181</port>
</node>
<!-- 定义用户名和密码,ZooKeeper需要它才能访问请求的zNode,可选项 -->
<!-- <identity>admin:manager</identity> -->
</zookeeper-servers>
<!-- 本节点副本名称,根据节点修改-->
<macros>
<replica>node1</replica>
</macros>
<!-- 监听网络 -->
<networks>
<ip>::/0</ip>
</networks>
<!-- 数据压缩算法 -->
<clickhouse_compression>
<case>
<min_part_size>10000000000</min_part_size>
<min_part_size_ratio>0.01</min_part_size_ratio>
<method>lz4</method>
</case>
</clickhouse_compression>
</yandex>
2.3 修改/etc/clickhouse-server/config.xml
<!-- 当前机器的主机名,根据节点修改,需配置到hosts中 -->
<interserver_http_host>node1</interserver_http_host>
<!-- 开启远程访问 -->
<listen_host>0.0.0.0</listen_host>
<include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from>
<!-- 导入metrika.xml的clickhouse_remote_servers -->
<remote_servers incl="clickhouse_remote_servers" />
<!-- 导入metrika.xml的zookeeper-servers -->
<zookeeper incl="zookeeper-servers" optional="true" />
<macros incl="macros" optional="true" />
3. node2配置文件修改
3.1 修改/etc/clickhouse-server/user.xml
<clickhouse>
<profiles>
<!-- Default settings. -->
<default>
<!--默认值为0,表示不启用原子写入;改为与smartbi_replica集群中的副本数相等-->
<insert_quorum>2</insert_quorum>
<!--默认值为600000毫秒(10分钟);改为30分钟以防止写入和同步副本超时-->
<insert_quorum_timeout>1800000</insert_quorum_timeout>
</default>
<!-- Profile that allows only read queries. -->
<readonly>
<readonly>1</readonly>
</readonly>
</profiles>
</clickhouse>
3.2 修改/etc/clickhouse-server/config.d/metrika.xml
<?xml version="1.0"?>
<yandex>
<clickhouse_remote_servers>
<smartbi>
<!-- 数据分片1 -->
<shard>
<!-- 可选的。写入分布式表时是否只将数据写入其中一个副本。默认值:false(将数据写入所有副本)。 -->
<internal_replication>false</internal_replication>
<replica>
<!-- host:数据分片节点,可以写机器名,ip地址。-->
<host>node1</host>
<!-- port:消息传递TCP端口,默认9000,不要与http端口混淆 -->
<port>9000</port>
<!-- user:用于连接远程服务器的用户名。默认值:default。该用户必须有权限访问该远程服务器。访问权限配置在 users.xml 文件中。 -->
<user>default</user>
<!-- password:用于连接远程服务器的密码。默认为空,users.xml 文件中配置。 -->
<password></password>
</replica>
<replica>
<host>node2</host>
<port>9000</port>
<user>default</user>
<password></password>
</replica>
</shard>
</smartbi>
</clickhouse_remote_servers>
<!--zookeeper相关配置-->
<zookeeper-servers>
<!-- zookeeper节点1-->
<node index="1">
<!-- host:zookeeper服务器地址,可以写机器名,ip地址。-->
<host>node2</host>
<!-- port:zookeeper服务端口,默认2181。-->
<port>9181</port>
</node>
<!-- 定义用户名和密码,ZooKeeper需要它才能访问请求的zNode,可选项 -->
<!-- <identity>admin:manager</identity> -->
</zookeeper-servers>
<!-- 本节点副本名称,根据节点修改-->
<macros>
<replica>node2</replica>
</macros>
<!-- 监听网络 -->
<networks>
<ip>::/0</ip>
</networks>
<!-- 数据压缩算法 -->
<clickhouse_compression>
<case>
<min_part_size>10000000000</min_part_size>
<min_part_size_ratio>0.01</min_part_size_ratio>
<method>lz4</method>
</case>
</clickhouse_compression>
</yandex>
3.3 修改/etc/clickhouse-server/config.xml
<!-- 当前机器的主机名,根据节点修改,需配置到hosts中 -->
<interserver_http_host>node2</interserver_http_host>
<!-- 开启远程访问 -->
<listen_host>0.0.0.0</listen_host>
<include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from>
<remote_servers incl="clickhouse_remote_servers" />
<!-- 自己有配置无需从外面导入 -->
<!-- <zookeeper incl="zookeeper-servers" optional="true" /> -->
<macros incl="macros" optional="true" />
<!-- 只在需要启动clickhouse-keeper的节点上使用此配置,根据节点修改 -->
<keeper_server>
<!-- keeper服务的端口 -->
<tcp_port>9181</tcp_port>
<!-- keeper服务的server_id,根据节点修改 -->
<server_id>1</server_id>
<!-- keeper服务的日志存储路径,可以自行指定,此目录需要配置clickhouse用户的读写权限。 -->
<log_storage_path>/var/lib/clickhouse/coordination/log</log_storage_path>
<!-- keeper服务的快照存储路径,可以自行指定,此目录需要配置clickhouse用户的读写权限。 -->
<snapshot_storage_path>/var/lib/clickhouse/coordination/snapshots</snapshot_storage_path>
<!-- keeper服务的其他参数信息,保持默认即可 -->
<coordination_settings>
<operation_timeout_ms>10000</operation_timeout_ms>
<session_timeout_ms>30000</session_timeout_ms>
<raft_logs_level>trace</raft_logs_level>
</coordination_settings>
<raft_configuration>
<!-- keeper服务节点配置信息 -->
<server>
<id>1</id>
<hostname>node2</hostname>
<port>9444</port>
</server>
</raft_configuration>
</keeper_server>
<!-- keeper配置标签起始点 -->
<zookeeper>
<!-- keeper节点1配置 -->
<node>
<host>node2</host>
<port>9181</port>
</node>
</zookeeper>
4.创建MergeTree引擎本地表和分布式表,测试副本间数据同步情况
1. 在任意节点执行sql创建本地表:
create table smp_local ON CLUSTER smartbi
(ID Int8,
Name String,
BirthDate Date
) ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(BirthDate) ORDER BY (Name, BirthDate) SETTINGS index_granularity = 8192;
-
可以看到同分片的所有副本都有了新建的本地表
-
上面sql中的 smartbi 为集群名,定义在配置文件中
2. 在任意节点执行sql创建分布式表:
CREATE TABLE smp_all ON CLUSTER smartbi (ID Int8, \
Name String, \
BirthDate Date \
) ENGINE = Distributed(smartbi, smp, smp_local, rand());
-
可以看到同分片的所有副本都有了新建的分布式表
-
上面sql中的参数: Distributed(集群名, 数据库名, 本地表名, 分片方式);
3. 插入数据,测试副本间同步情况\
-
在node1节点插入数据到本地表
insert into smp_local (ID,Name,BirthDate)values(1,'zhangsan','2001-10-12');
insert into smp_local (ID,Name,BirthDate)values(2,'lisi','2002-11-13');
查询node1本地表,可以看到存在新增的两条数据
查询node1分布式表,可以看到存在新增的两条数据
查询node2分布式表和本地表,发现不存在新增的两条数据
结论:直接将数据插入到某一节点的本地表,数据不会同步到其他副本
-
在node1节点插入数据到分布式表
insert into smp_all (ID,Name,BirthDate)values(4,'zhaoliu','2004-09-02');
insert into smp_all (ID,Name,BirthDate)values(5,'tianqi','2005-08-22');
查询node1本地表,可以看到存在新增的两条数据
查询node1分布式表,可以看到存在新增的两条数据
查询node2分布式表和本地表,可以看到存在新增的两条数据
结论:将数据插入到任意节点的分布式表,数据会同步到其他副本
5. 模拟某一节点宕机后数据同步情况
-
在node1节点关闭clickhouse: sudo service clickhouse-server stop
-
在node1关闭期间,在node2节点往分布式表中插入数据
-
启动node1节点clickhouse,查看node1本地表和分布式表,发现宕机期间在node2节点插入的数据都存在
-
结论:某一节点宕机一段时间后再恢复,增量数据会同步到宕机节点
补充
启动clickhouse
sudo service clickhouse-server start
停止clickhouse
sudo service clickhouse-server stop
重启clickhouse
sudo service clickhouse-server restart
登录clickhouse
clickhouse-client --host=127.0.0.1 --port=9000 --user=default --password=xxxx
查看ClickHouse Keeper 是否启动
echo mntr | nc localhost 9181