ClickHouse分布式部署搭建单分片二副本集群

搭建单分片二副本集群,使用MergeTree引擎测试数据同步

服务器:

127.0.0.1 clickhouse

127.0.0.2 clickhouse + keeper

结构图

1.修改hosts

vi /etc/hosts

添加需要部署的ip和名字

127.0.0.1 node1
127.0.0.2 node2

2. node1配置文件修改

2.1 修改/etc/clickhouse-server/user.xml
<clickhouse>
    <profiles>
        <!-- Default settings. -->
       <default>
      	<!--默认值为0,表示不启用原子写入;改为与smartbi_replica集群中的副本数相等-->
        	<insert_quorum>2</insert_quorum>
      	<!--默认值为600000毫秒(10分钟);改为30分钟以防止写入和同步副本超时-->
        	<insert_quorum_timeout>1800000</insert_quorum_timeout>
        </default>
        <!-- Profile that allows only read queries. -->
        <readonly>
            <readonly>1</readonly>
        </readonly>
    </profiles>
</clickhouse>
2.2 修改/etc/clickhouse-server/config.d/metrika.xml
<?xml version="1.0"?>
<yandex>
    <clickhouse_remote_servers>
         <smartbi>
			<!-- 数据分片1  -->
            <shard>
              <!-- 可选的。写入分布式表时是否只将数据写入其中一个副本。默认值:false(将数据写入所有副本)。 -->
                <internal_replication>false</internal_replication>
                <replica>
					<!-- host:数据分片节点,可以写机器名,ip地址。-->
					<host>node1</host>
					<!-- port:消息传递TCP端口,默认9000,不要与http端口混淆 -->
                    <port>9000</port>
					<!-- user:用于连接远程服务器的用户名。默认值:default。该用户必须有权限访问该远程服务器。访问权限配置在 users.xml 文件中。 -->
                    <user>default</user>
					<!-- password:用于连接远程服务器的密码。默认为空,users.xml 文件中配置。 -->
                   <password></password>
                </replica>
                <replica>
                    <host>node2</host>
                    <port>9000</port>
                    <user>default</user>
                    <password></password>
                </replica>
            </shard>
        </smartbi>
    </clickhouse_remote_servers>

    <!--zookeeper相关配置-->
    <zookeeper-servers>
		<!-- zookeeper节点1-->
        <node index="1">
			<!-- host:zookeeper服务器地址,可以写机器名,ip地址。-->
            <host>node2</host>
			<!-- port:zookeeper服务端口,默认2181。-->
            <port>9181</port>
        </node>
	<!-- 定义用户名和密码,ZooKeeper需要它才能访问请求的zNode,可选项 -->
	<!-- <identity>admin:manager</identity> -->
    </zookeeper-servers>
        <!-- 本节点副本名称,根据节点修改-->
    <macros>
        <replica>node1</replica>
    </macros>
        <!-- 监听网络 -->
    <networks>
        <ip>::/0</ip>
    </networks>
        <!-- 数据压缩算法  -->
    <clickhouse_compression>
        <case>
            <min_part_size>10000000000</min_part_size>
            <min_part_size_ratio>0.01</min_part_size_ratio>
            <method>lz4</method>
        </case>
    </clickhouse_compression>
</yandex>
2.3 修改/etc/clickhouse-server/config.xml 
<!-- 当前机器的主机名,根据节点修改,需配置到hosts中 -->
<interserver_http_host>node1</interserver_http_host>

<!-- 开启远程访问 -->
<listen_host>0.0.0.0</listen_host>

<include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from> 
<!-- 导入metrika.xml的clickhouse_remote_servers -->
<remote_servers incl="clickhouse_remote_servers" />
<!-- 导入metrika.xml的zookeeper-servers -->
<zookeeper incl="zookeeper-servers" optional="true" /> 

<macros incl="macros" optional="true" />

3. node2配置文件修改

3.1 修改/etc/clickhouse-server/user.xml
<clickhouse>
    <profiles>
        <!-- Default settings. -->
       <default>
      	<!--默认值为0,表示不启用原子写入;改为与smartbi_replica集群中的副本数相等-->
        	<insert_quorum>2</insert_quorum>
      	<!--默认值为600000毫秒(10分钟);改为30分钟以防止写入和同步副本超时-->
        	<insert_quorum_timeout>1800000</insert_quorum_timeout>
        </default>
        <!-- Profile that allows only read queries. -->
        <readonly>
            <readonly>1</readonly>
        </readonly>
    </profiles>
</clickhouse>
3.2 修改/etc/clickhouse-server/config.d/metrika.xml
<?xml version="1.0"?>
<yandex>
    <clickhouse_remote_servers>
         <smartbi>
			<!-- 数据分片1  -->
            <shard>
              <!-- 可选的。写入分布式表时是否只将数据写入其中一个副本。默认值:false(将数据写入所有副本)。 -->
                <internal_replication>false</internal_replication>
                <replica>
					<!-- host:数据分片节点,可以写机器名,ip地址。-->
					<host>node1</host>
					<!-- port:消息传递TCP端口,默认9000,不要与http端口混淆 -->
                    <port>9000</port>
					<!-- user:用于连接远程服务器的用户名。默认值:default。该用户必须有权限访问该远程服务器。访问权限配置在 users.xml 文件中。 -->
                    <user>default</user>
					<!-- password:用于连接远程服务器的密码。默认为空,users.xml 文件中配置。 -->
                   <password></password>
                </replica>
                <replica>
                    <host>node2</host>
                    <port>9000</port>
                    <user>default</user>
                    <password></password>
                </replica>
            </shard>
        </smartbi>
    </clickhouse_remote_servers>

    <!--zookeeper相关配置-->
    <zookeeper-servers>
		<!-- zookeeper节点1-->
        <node index="1">
			<!-- host:zookeeper服务器地址,可以写机器名,ip地址。-->
            <host>node2</host>
			<!-- port:zookeeper服务端口,默认2181。-->
            <port>9181</port>
        </node>
	<!-- 定义用户名和密码,ZooKeeper需要它才能访问请求的zNode,可选项 -->
	<!-- <identity>admin:manager</identity> -->
    </zookeeper-servers>
        <!-- 本节点副本名称,根据节点修改-->
    <macros>
        <replica>node2</replica>
    </macros>
        <!-- 监听网络 -->
    <networks>
        <ip>::/0</ip>
    </networks>
        <!-- 数据压缩算法  -->
    <clickhouse_compression>
        <case>
            <min_part_size>10000000000</min_part_size>
            <min_part_size_ratio>0.01</min_part_size_ratio>
            <method>lz4</method>
        </case>
    </clickhouse_compression>
</yandex>
3.3 修改/etc/clickhouse-server/config.xml 
<!-- 当前机器的主机名,根据节点修改,需配置到hosts中 -->
<interserver_http_host>node2</interserver_http_host>

<!-- 开启远程访问 -->
<listen_host>0.0.0.0</listen_host>

<include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from> 

<remote_servers incl="clickhouse_remote_servers" />
<!-- 自己有配置无需从外面导入 -->
<!-- <zookeeper incl="zookeeper-servers" optional="true" /> -->

<macros incl="macros" optional="true" />

<!-- 只在需要启动clickhouse-keeper的节点上使用此配置,根据节点修改 -->
<keeper_server>
    <!-- keeper服务的端口 -->
    <tcp_port>9181</tcp_port>
    <!-- keeper服务的server_id,根据节点修改 -->
    <server_id>1</server_id>
    <!-- keeper服务的日志存储路径,可以自行指定,此目录需要配置clickhouse用户的读写权限。 -->
    <log_storage_path>/var/lib/clickhouse/coordination/log</log_storage_path>
    <!-- keeper服务的快照存储路径,可以自行指定,此目录需要配置clickhouse用户的读写权限。 -->
    <snapshot_storage_path>/var/lib/clickhouse/coordination/snapshots</snapshot_storage_path>
         
    <!-- keeper服务的其他参数信息,保持默认即可 -->
    <coordination_settings>
        <operation_timeout_ms>10000</operation_timeout_ms>
        <session_timeout_ms>30000</session_timeout_ms>
        <raft_logs_level>trace</raft_logs_level>
    </coordination_settings>
 
    <raft_configuration>
        <!-- keeper服务节点配置信息 -->
        <server>
            <id>1</id>
            <hostname>node2</hostname>
            <port>9444</port>
        </server>
    </raft_configuration>
</keeper_server>

<!-- keeper配置标签起始点 -->
<zookeeper>
  <!-- keeper节点1配置 -->
  <node>
    <host>node2</host>
    <port>9181</port>
  </node>
</zookeeper>

4.创建MergeTree引擎本地表和分布式表,测试副本间数据同步情况

1. 在任意节点执行sql创建本地表:

create table smp_local ON CLUSTER smartbi 
(ID Int8,  
Name String, 
BirthDate Date 
) ENGINE = MergeTree() 
PARTITION BY toYYYYMMDD(BirthDate)  ORDER BY (Name, BirthDate) SETTINGS index_granularity = 8192;
  • 可以看到同分片的所有副本都有了新建的本地表

  • 上面sql中的 smartbi 为集群名,定义在配置文件中

2. 在任意节点执行sql创建分布式表:

CREATE TABLE smp_all ON CLUSTER smartbi (ID Int8,  \
Name String, \ 
BirthDate Date \
) ENGINE = Distributed(smartbi, smp, smp_local, rand());
  • 可以看到同分片的所有副本都有了新建的分布式表

  • 上面sql中的参数: Distributed(集群名, 数据库名, 本地表名, 分片方式);

 3. 插入数据,测试副本间同步情况\

  • 在node1节点插入数据到本地表

insert into smp_local (ID,Name,BirthDate)values(1,'zhangsan','2001-10-12');
insert into smp_local (ID,Name,BirthDate)values(2,'lisi','2002-11-13');

查询node1本地表,可以看到存在新增的两条数据

查询node1分布式表,可以看到存在新增的两条数据

查询node2分布式表和本地表,发现不存在新增的两条数据

结论:直接将数据插入到某一节点的本地表,数据不会同步到其他副本

  • 在node1节点插入数据到分布式表

insert into smp_all (ID,Name,BirthDate)values(4,'zhaoliu','2004-09-02');
insert into smp_all (ID,Name,BirthDate)values(5,'tianqi','2005-08-22');

查询node1本地表,可以看到存在新增的两条数据

查询node1分布式表,可以看到存在新增的两条数据

查询node2分布式表和本地表,可以看到存在新增的两条数据

结论:将数据插入到任意节点的分布式表,数据会同步到其他副本

5. 模拟某一节点宕机后数据同步情况

  • 在node1节点关闭clickhouse: sudo service clickhouse-server stop

  • 在node1关闭期间,在node2节点往分布式表中插入数据

  • 启动node1节点clickhouse,查看node1本地表和分布式表,发现宕机期间在node2节点插入的数据都存在

  • 结论:某一节点宕机一段时间后再恢复,增量数据会同步到宕机节点

补充

启动clickhouse 

sudo service clickhouse-server start 

停止clickhouse 

sudo service clickhouse-server stop

重启clickhouse 

sudo service clickhouse-server restart

登录clickhouse

clickhouse-client --host=127.0.0.1 --port=9000 --user=default --password=xxxx

查看ClickHouse Keeper 是否启动

echo mntr | nc localhost 9181

<think>嗯,用户之前让我对比Redis和MySQL,现在又问我RocketMQ是什么。看起来他们可能是在学习或工作中需要了解不同的技术组件,尤其是消息队列。用户可能已经对数据库和缓存有了一定的了解,现在想扩展到消息队列,特别是RocketMQ。我需要先确定RocketMQ的核心概念,然后解释它的用途、架构以及适用场景。 首先,RocketMQ是阿里开源的分布式消息中间件,属于消息队列系统。用户可能想知道它的基本功能,比如消息的发送、存储和消费。需要和之前提到的Redis对比,可能Redis也有消息队列的功能,但RocketMQ更专业。 接下来,用户可能关心RocketMQ的主要特点,比如高吞吐量、高可用性、可靠性、顺序消息、事务消息等。需要详细说明这些特性,以及它们在实际应用中的优势。比如,事务消息可以用于分布式事务场景,确保数据一致性。 然后,架构部分,RocketMQ由NameServer、Broker、Producer、Consumer组成。NameServer负责服务发现,Broker存储消息,Producer发送消息,Consumer消费消息。需要解释每个组件的作用和它们之间的协作流程,可能用流程图或示意图帮助理解。 适用场景也很重要,用户可能想知道什么时候应该选择RocketMQ而不是其他消息队列,比如Kafka或RabbitMQ。需要比较它们的差异,比如RocketMQ在事务消息和顺序消息方面的优势,适合电商、金融等需要高可靠性的场景。 另外,用户可能对RocketMQ的部署和运维感兴趣,比如集群搭建、监控、故障处理等。可能需要简要提及,但不用太深入,除非用户有进一步的问题。 还要注意用户的技术背景,可能不是特别深入,所以需要用通俗易懂的语言,避免过多专业术语。同时结合之前的Redis和MySQL对比,说明消息队列在系统架构中的位置和作用,比如解耦、异步处理、流量削峰等。 最后,是否需要给出一些实际的使用示例或者最佳实践?比如如何用RocketMQ处理订创建和库存扣减的异步流程,或者如何保证消息不丢失。这些例子能帮助用户更好地理解理论概念。 总之,回答需要结构清晰,先定义RocketMQ,再讲解核心特性、架构、应用场景,对比其他技术,最后可能给出使用建议。确保内容准确,同时易于理解。</think>### **RocketMQ 核心解析** #### **1. 定义与定位** - **本质**:阿里巴巴开源的**分布式消息中间件**(2012年开源,2017年成为Apache顶级项目) - **核心能力**:实现系统间**异步解耦**、**流量削峰**、**数据顺序性保障** - **对标产品**:Kafka、RabbitMQ(但设计更贴合互联网业务场景) --- #### **2. 核心特性** | **特性** | **说明** | |------------------|-------------------------------------------------------------------------| | **高吞吐** | 机支持10万+ TPS,集群可扩展至百万级(通过**多副本分片**实现) | | **严格顺序** | 同一队列(MessageQueue)内消息顺序存储与消费(适用于订状态流转等场景)| | **事务消息** | 支持**分布式事务**(两阶段提交),保障业务与消息发送的一致性 | | **延时消息** | 支持消息定时投递(精度:秒级),如30分钟后关闭未支付订 | | **消息回溯** | 可重新消费指定时间点的历史消息(排查问题或修复数据) | | **高可用** | 基于**主从架构**+**Dledger选举协议**,实现故障自动切换(99.95% SLA) | --- #### **3. 核心架构** ```mermaid graph TB Producer[生产者] -->|发送消息| Broker[(Broker集群)] Consumer[消费者] -->|拉取消息| Broker NameServer[NameServer集群] -->|注册与发现| Broker NameServer -->|获取路由信息| Producer NameServer -->|获取路由信息| Consumer subgraph Broker内部结构 BrokerMaster[Master节点] -->|同步数据| BrokerSlave[Slave节点] CommitLog[(CommitLog)] --> 存储原始消息 ConsumeQueue[ConsumeQueue] --> 消息逻辑队列索引 IndexFile[(IndexFile)] --> 消息关键词索引 end ``` ##### **关键组件** 1. **NameServer** - 轻量级服务发现组件(无状态) - 维护Topic与Broker的映射关系(类似Kafka的ZooKeeper,但更轻量) 2. **Broker** - 消息存储与转发核心节点 - 数据持久化到磁盘(CommitLog顺序写,性能优化关键) 3. **Producer/Consumer** - 生产者支持多种发送模式(同步、异步、向) - 消费者支持集群消费(负载均衡)和广播消费模式 --- #### **4. 典型应用场景** 1. **电商订系统** - **场景**:用户下 → 发送订消息 → 异步触发库存扣减、物流调度、支付通知 - **优势**:通过**削峰填谷**应对秒杀活动的高并发写入,MySQL仅处理最终持久化 2. **金融交易对账** - **场景**:支付成功消息 → RocketMQ → 对账系统消费(保证**严格顺序**,避免金额错乱) 3. **物联网数据采集** - **场景**:百万级设备上报数据 → RocketMQ缓冲 → 批量写入HBase/ClickHouse - **优势**:高吞吐支撑突发流量,避免直接压垮存储系统 4. **分布式事务** - **示例**: ```java // 事务消息伪代码 TransactionMQProducer producer.sendMessageInTransaction(msg, new LocalTransactionExecutor() { @Override public LocalTransactionState execute(Message msg) { // 1.执行本地业务(如扣减库存) if (inventoryService.reduceStock()) { return LocalTransactionState.COMMIT; // 提交消息 } else { return LocalTransactionState.ROLLBACK; // 回滚消息 } } }); ``` --- #### **5. 性能优化设计** - **写入优化** - **顺序写盘**:所有消息追加到CommitLog(避免磁盘随机I/O) - **页缓存加速**:利用Linux PageCache提升读写效率(避免JVM GC影响) - **读取优化** - **零拷贝技术**:通过`mmap`或`sendfile`减少数据拷贝次数 - **消费队列分片**:个Topic拆分为多个MessageQueue,并行消费 --- #### **6. 与Kafka关键差异** | **维度** | **RocketMQ** | **Kafka** | |----------------|---------------------------------------|------------------------------------| | **消息延迟** | 毫秒级(支持更多实时场景) | 毫秒级(两者相当) | | **事务消息** | 原生支持 | 依赖Kafka Streams或外部协调 | | **消息回溯** | 按时间戳精确回溯 | 仅支持Offset回溯(需自行维护时间映射)| | **运维复杂度** | 自带控制台(可视化监控) | 依赖第三方工具(如Kafka Manager) | | **适用场景** | 业务消息(电商、金融) | 日志流处理(大数据场景) | --- #### **7. 学习与实践建议** 1. **快速体验** ```bash # 部署 wget https://archive.apache.org/dist/rocketmq/4.9.4/rocketmq-all-4.9.4-bin-release.zip unzip rocketmq-all-4.9.4-bin-release.zip nohup bin/mqnamesrv & # 启动NameServer nohup bin/mqbroker -n localhost:9876 & # 启动Broker ``` 2. **生产注意事项** - **集群部署**:至少22从(跨机房容灾) - **监控指标**:关注堆积量(ConsumerOffset滞后)、Broker磁盘水位 - **容灾演练**:定期模拟主节点宕机,验证自动切换是否正常 --- **总结**:RocketMQ是支撑互联网高并发场景的“消息高速公路”,其**顺序消息**和**事务消息**设计尤其适合需要强一致性的业务系统。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

雨会停rain

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值