简单数据仓库知识点总结(2)

最新推荐文章于 2022-05-26 16:45:12 发布

邓禹

最新推荐文章于 2022-05-26 16:45:12 发布

阅读量172

点赞数

分类专栏：数据仓库

本文链接：https://blog.youkuaiyun.com/weixin_44803002/article/details/102983966

版权

数据仓库专栏收录该内容

2 篇文章

订阅专栏

收集Flume

收集Flume使用的各个组件
使用TailDir Source因为他可以实现断点续传功能，在flume1.6中我们则需要自定义source实现断点续传
使用Kafka Channel因为使用它省略了sink阶段提高了很多效率，使数据直接通到kafka中
在flume中要自定义两个拦截器
在数据传输第一层进行初步过滤脏数据和不符合我们规则的数据和将数据分成类型发给不同的topic
以下是拦截器的关键代码

拦截不合我们需求和脏数据

 // 1 切割
        String[] logContents = log.split("\\|");

        // 2 校验
        if(logContents.length != 2){
            return false;
        }

        //3 校验服务器时间
        if (logContents[0].length()!=13 || !NumberUtils.isDigits(logContents[0])){
            return false;
        }

        // 4 校验json
        if (!logContents[1].trim().startsWith("{") || !logContents[1].trim().endsWith("}")){
            return false;
        }

        return true;
    }

    public static boolean validateStart(String log) {

        if (log == null){
            return false;
        }

        // 校验json
        if (!log.trim().startsWith("{") || !log.trim().endsWith("}")){
            return false;
        }

将数据分成不同类发给不同topic

// 区分日志类型：   body  header
        // 1 获取body数据
        byte[] body = event.getBody();
        String log = new String(body, Charset.forName("UTF-8"));

        // 2 获取header
        Map<String, String> headers = event.getHeaders();

        // 3 判断数据类型并向Header中赋值
        if (log.contains("start")) {
            headers.put("topic","topic_1");
        }else {
            headers.put("topic","topic_2");
        }

Kafka

kafka创建两个和flume传输的topic相对应的主题（如果不提前创建其实也可以自动创建topic）

bin/kafka-topics.sh --zookeeper hadoop102:2181,hadoop103:2181,hadoop104:2181  --create --replication-factor 1 --partitions 1 --topic topic_1

bin/kafka-topics.sh --zookeeper hadoop102:2181,hadoop103:2181,hadoop104:2181  --create --replication-factor 1 --partitions 1 --topic topic_2

在使用kafka使提前进行压力测试非常重要如果结果不满足自己所需条件可以提前进行调优

对生产者进行测压

bin/kafka-producer-perf-test.sh  --topic test --record-size 100 --num-records 100000 --throughput 1000 --producer-props bootstrap.servers=hadoop102:9092,hadoop103:9092,hadoop104:9092

对消费者进行测压

bin/kafka-consumer-perf-test.sh --zookeeper hadoop102:2181 --topic test --fetch-size 10000 --messages 10000000 --threads 1

kafka机器数量计算
Kafka机器数量=2*（峰值生产速度*副本数/100）+1
先要预估一天大概产生多少数据，然后用Kafka自带的生产压测（只测试Kafka的写入速度，保证数据不积压），计算出峰值生产速度。再根据设定的副本数，就能预估出需要部署Kafka的数量。
比如我们采用压力测试测出写入的速度是10M/s一台，峰值的业务数据的速度是50M/s。副本数为2。
则带入公式
kafka机器数量=2x（50x2/100）+1 = 3

消费Flume

消费Flume各个组件选择
a. 使用Kafka Source,因为直接对应kafka相应的topic
b. 在channel的选择上有两种方案
第一种 MemoryChannel：这种基于内存的channel吞吐率极高，速度极快
但是发生flume宕机时内存中的数据会丢失，或者在Channel存储数据已满，
导致Source不再写入数据，造成未写入的数据丢失；
第二种 FileChannel：这种基于本地文件的channel数据保存在本地文件中
可靠性高，但是吞吐率低，速度慢
由于是自己造的假数据，数据量比较小,对速度要求不高,所以我选择了FileChannel
c. 使用HDFS Sink，直接将数据发送到HDFS上

## 组件
a1.sources=r1
a1.channels=c1
a1.sinks=k1

## source1
a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.r1.batchSize = 5000
a1.sources.r1.batchDurationMillis = 2000
a1.sources.r1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092,hadoop104:9092
a1.sources.r1.kafka.topics=topic_1

## channel1
a1.channels.c1.type = file
a1.channels.c1.checkpointDir = /opt/module/flume/checkpoint/behavior1
a1.channels.c1.dataDirs = /opt/module/flume/data/behavior1/
a1.channels.c1.maxFileSize = 2146435071
a1.channels.c1.capacity = 1000000
a1.channels.c1.keep-alive = 6

## sink1
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /origin_data/gmall/log/topic_1/%Y-%m-%d
a1.sinks.k1.hdfs.filePrefix = log1-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = second

## 不要产生大量小文件
a1.sinks.k1.hdfs.rollInterval = 10
a1.sinks.k1.hdfs.rollSize = 134217728
a1.sinks.k1.hdfs.rollCount = 0

## 控制输出文件是原生文件。
a1.sinks.k1.hdfs.fileType = CompressedStream 

a1.sinks.k1.hdfs.codeC = lzop

a1.sources.r1.channels = c1
a1.sinks.k1.channel= c1