
大数据相关基础知识和入门实例
你我皆凡人,生在人世间。终日奔波苦,用时间换经验。
瑜语
从事Java开发相关工作10多年,现就职于某上市互联网公司。
展开
-
SparkStreaming实时计算入门
我采用的是Log4j+Flume+Kafka来收集实时数据,使用SparkStreaming读取Kafka中的数据,进行实时处理。 严格来讲,SparkStreaming是准实时计算,因为它在读取Kafka数据时,是根据设置的时间间隔分批次去读取。只是这个时间间隔可以设置的很小,可以接近于达到实时的效果。 接下来我们一步步看下实现步骤。 在工程中引入Flume的包。 配置log4j 配置Flume 开发SparkStreaming任务 ...原创 2021-09-15 18:38:19 · 386 阅读 · 0 评论 -
Log4j连Flume源码分析
概述 通过log4j连flume,将日志记录到flume。是一种快速而有效的收集日志的方法。log4j连接flume有两种模式单机和集群。今天我们分别进行简单的分析。 引入Flume依赖 <dependency> <groupId>org.apache.flume.flume-ng-clients</groupId> <artifactId>flume-ng-log4jappender</artifactId> <ver原创 2020-12-19 17:11:24 · 148 阅读 · 1 评论 -
Flume应用简介
CDH系列之Flume 一、 Flume总览 Flume是一种分布式、可靠和可用的服务,用于高效地收集、聚合和移动大量日志数据。它有一个简单而灵活的基于流数据流的体系结构。它具有可调的可靠性机制和许多故障转移和恢复机制,具有健壮性和容错性。它使用一个简单的可扩展数据模型,允许在线分析应用程序。 二、 Flume架构 Source是数据收集端,负责将数据收集后进行特殊的格式化,将数据封装在事件(Event)中,然后推入到Channel。 Channel是连接Source和Sink的组件,可以把它看成是数据缓原创 2020-12-19 14:16:34 · 257 阅读 · 2 评论