自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 SparkStreaming核心-Spark Streaming2.3.0 Programming Guide学习

核心概念1)StreamingContext:对所有SparkStreaming程序的入口,可以通过SparkConf/JavaSparkContext初始化。需要注意的几个点如下图所示:2)DStream:一个DStream 代表一连串的RDDs,其中一个RDD代表某一时间间断的数据。3)Input DStreams and ReceiversInput DStreams代表来自流数据源的输入数据流,每个input DStream (除去文件系统外) 都关联着一个Receiver对象,其接受数

2021-03-07 18:23:43 157 1

原创 实时数据采集:整合Flume和Kafka

目录一、环境条件二、业务流程三、配置Flume四、启动Flume、Kafka与测试一、环境条件两台服务器:CAD01-ubuntu、CAD02-ubuntu1)CAD01-ubuntuFlume(版本:1.8.0)Zookeeper(版本:3.4.10)Kafka(版本:2.4.0):其中kafka已经配置好且启动,并有hello_topic的主题2)CAD02-ubuntuFlume(版本:1.8.0)二、业务流程三、配置Flume1)CAD02-ubuntu:exec-memor

2021-03-07 13:19:38 326

原创 Kafka环境搭建--单节点单broker

目录一、Zookeeper搭建二、kafka搭建三、启动Kafka(可参考官方文档)一、Zookeeper搭建1、官网下载zookeeper-3.4.10.tar.gz2、解压到特定目录下,进行环境变量配置,并使环境变量生效。3、配置参数修改conf/zoo.cfg中的存储数据位置(注意:不要放到tmp下)cp zoo_sample.cfg zoo.cfgvim zoo.cfgdataDir=/home/gxx/dataDir/zk_data二、kafka搭建1、官网下载kafka

2021-03-07 11:46:58 316

原创 分布式消息队列-Kafka

目录一、Kafka概述二、Kafka架构及核心概念三、Kafka部署四、Kafka容错性测试一、Kafka概述消息队列/管道,用来缓冲数据。具有可扩展性和高容错性。二、Kafka架构及核心概念producer:生产者,生产消息/数据consumer:消费者,消费数据/消息broker(代理):缓存代理,Kafka的核心功能topic:主题,给数据/消息打标签三、Kafka部署种类:单节点单Broker、单节点多Broker、多节点多Broker。在kafka中,配置文件中一个confi

2021-03-07 00:03:17 240 1

原创 Flume-概述与简单实践

Flume产生背景各种Server(WebServer/ApplicationServer)分散在各个机器上,想要在大数据平台Hadoop进行统计分析,日志如何收集到Hadoop平台上,可以采用Flume。Flume概述分布式、高可靠、高可用的服务,用于分布式的海量日志的高效收集、聚合、移动。其容错性、可靠性、扩展性、管理性等非常好。Flume架构及核心组件1)官网架构2)核心组件Source:收集Channel:聚集Sink:输出...

2021-03-06 20:07:35 138 1

原创 大数据基础-学习笔记

一、离线计算与实时计算对比1 数据来源离线:HDFS 历史数据 数据量比较大实时:消息队列(Kafka),实时新增/修改记录过来的某一笔数据2 处理过程离线:MapReduce、spark实时:SparkStreaming、Flink、Storm3 处理速度离线:慢实时:快速4 进程离线:启动+销毁实时:7*24二、实时流处理框架对比Storm、Flink(真正的实时,可以实现毫秒级别)SparkStreaming(微批次处理,可以实现秒级)三、一般实时流处理流程日志采集框

2021-03-06 19:13:15 260 2

原创 spark on yarn集群搭建

spark on yarn集群搭建前言描述:在三个节点搭建分布式集群,主机名分别为:CAD01-ubuntu、CAD02-ubuntu、CAD03-ubuntu(其中CAD01-ubuntu为主节点、其他两个为从节点)实验环境:服务器节点数量:3系统版本:LinuxJava版本:jdk-8u261-linux-x64Hadoop版本:hadoop-2.7.6Spark版本:spark-2.3.0-bin-hadoop2.7一、Hadoop搭建1、编辑主机名文件(不必须)su root

2020-10-21 11:44:48 655

原创 关于Linux权限问题

关于Linux权限问题关于Linux文件权限问题文件类型文件操作权限及数字代表权限分析![在这里插入图片描述](https://img-blog.csdnimg.cn/20201020213137982.png#pic_center)修改权限关于Linux文件权限问题输入命令:ls -l共显示了七列信息,从左至右依次为:文件类型、权限、文件数、归属用户、归属群组、文件大小、创建日期、文件名称文件类型d:文件夹-:普通文件l:链接b:块设备文件p:管道文件c:字符设备文件s:套接口文件

2020-10-20 21:47:15 349 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除