简介:
在阿里看到双流join的原理说明,以下从实例化的角度,模拟测试了一遍双流join的过程。
环境:
CentOS7.6
CDH6.3.1
Flink1.4.0
MySQL5.7
PYTHON3.7.12
其中,Flink已经集成到CDH6.3.1中,如需获取集成过程,请关注本博客。
步骤:
1. kafka创建topic
创建 source_inventory_tab 和 source_sales_tab 两个topic
# cd /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/kafka/bin/
# ./kafka-topics.sh --create --zookeeper node1.example.com:2181,node2.example.com:2181,node3.example.com:2181 --replication-factor 1 --partitions 1 --topic source_inventory_tab
# ./kafka-topics.sh --create --zookeeper node1.example.com:2181,node2.example.com:2181,node3.example.com:2181 --replication-fac