自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 离线数仓搭建——数据采集工具安装(zookeeper、kafka、flume)

离线数仓搭建——数据采集工具安装文章目录离线数仓搭建——数据采集工具安装一、zookeeper安装及配置(1)zookeeper-3.5.9安装(2)修改zookeeper配置文件(3)增加zookeeper环境变量(4)zookeeper启动(5)集群zookeeper配置(6)zookeeper集群脚本编写二、kafka安装及配置一、zookeeper安装及配置(1)zookeeper-3.5.9安装先去网上下载zookeeper-3.5.9安装包,将安装包放入flink102的安装包路径cd

2021-11-26 14:41:45 584

原创 离线数仓搭建——集群准备

大数据采集通道搭建1,服务器准备(以三台虚拟机为例)一、虚拟机环境准备(1)系统以Centos-7.5-x86-1804为例最小化安装后,使用yum安装基本的工具,安装epel-releaseyum install -y epel-release注:该工具相当于是一个软件仓库(2)安装net-tools:工具包集合包含很多命令yum install -y net-tools安装vim:编辑器yum install -y vim安装一些其他工具yum install -y psmi

2021-11-16 10:50:10 2514

原创 SparkCore简介(转换算子及依赖关系)

SparkCore简介文章目录SparkCore简介一.RDD概述1,RDD介绍2,RDD五大特性二.RDD的创建1,一.RDD概述1,RDD介绍RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的抽象数据RDD代表一个弹性的、不可变的、不可分区、包含的元素可以并行计算的集合2,RDD五大特性一组分区(Partition),即是数据集的基本组成单位,标记数据是哪个分区的一个计算每个分区的函数RDD之间拥有依赖关系一个Parti

2021-07-01 11:29:23 174

原创 kafka框架简介

kafka框架介绍1,kafka定义Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。(传统使用)Kafka是一个开源的分布式事件流平台(event streaming platform),被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。(最新定位)...

2021-06-17 11:03:57 175

原创 Flume框架介绍

Flume框架介绍文章目录Flume框架介绍1,Flume概述1.1 Flume定义1.2 Flume 基础架构AgentSourceSinkChannelevent2,Flume入门案例1)监控端口数据官方案例2)实时监控单个追加文件1,Flume概述1.1 Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。1.2 Flume 基础架构AgentAgent 是JVM的一个进程,它以event的

2021-06-03 16:43:16 541

原创 Hive中的基本查询和分区分桶

Hive中的基本查询0,数据准备1)先创建两张表,一张部门表,三个字段,部门id int,部门名 string, 地址编号 int。dept:10 ACCOUNTING 170020 RESEARCH 180030 SALES 190040 OPERATIONS 17002)再创建一张员工信息表,八个字段,员工编号 int,员工名 string,员工岗位 string,员工的上级编号 int,入职时间 string,工资 double,奖金 double,部门id int。emp:7

2021-05-30 22:33:36 451 3

原创 Hive数据类型介绍

1,基本数据类型 HIVE MySQL JAVA 长度 例子 TINYINT TINYINT byte 1byte有符号整数 2 SMALINT SMALINT short 2byte有符号整数 2

2021-05-24 16:18:29 705

原创 hadoop企业优化常用的调优参数

hadoop企业优化常用的调优参数1,资源相关参数(1)以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限(单位:MB),默认为1024。如果MapTask实际使用的资源量超过该值,则会被强制杀死。 mapreduce.reduce.memory.mb

2021-05-21 16:42:41 125 2

原创 hadoop作业全流程图解

hadoop全流程图解

2021-05-20 14:55:46 1472 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除