- 博客(4)
- 资源 (2)
- 收藏
- 关注
原创 cdh
尚硅谷大数据项目之CDH(作者:尚硅谷大数据研发部)版本:V6.0第1章 数仓之Cloudera Manager 1.1 CM简介1.1.1 CM简介Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。1.1.2 CM架构1.2 环境准备1.2.1 虚拟机准备克隆三台虚拟机(hadoop101、hadoop102、hadoop103),配置好
2021-01-19 10:12:03
692
原创 Sqoop 1.x系列导入、导出数据配置
Sqoop 1.x系列导入、导出数据配置脚本导入含时间列(增量、全量、更新及变化)import_data(){$sqoop import \--connect jdbc:mysql://hadoop102:3306/gmall \--username root \--password 123456 \--target-dir /origin_data/gmall/db/$1/$do_date \--delete-target-dir \--query "$2 and \$CONDITIO
2021-01-11 23:38:47
147
原创 SparkSql 常用参数配置
SparkSql 常用参数配置:1、常用持久化:RDD层面: 持久化cache:内存 MEMORY_ONLY_SER:序列化(启用sparkkryo序列化)有效降低内存占用,但耗费更多cpu性能序列化,而且还要注册需要序列化的类; 以yarn集群为例,一般数据可靠性要求高,memory and disk,yarn资源充足memory 的java序列化即可,yarn资源不充足可以采用kryo序列化;DFrame&DataSet持久化: cache:默认Memory and Dis
2020-11-25 20:33:04
3445
2
原创 Flink
Flink时间语义 引出:如果按照processing time处理,但是由于分布式运行或网络延迟,导致数据采集、传输一定延迟,导致乱序产生(即有些数据本来一批来的,但是后面才采集到)类型: Event time:事件创建事件(应该与传入数据的时间戳相关) Ingestion (射入)time:数据进入flink的时间 Processing time:执行操作算子的本地系统时间,与时间相关。(默认是处理时间)设置: env.setStreamTimeCharacteristicw
2020-11-12 13:50:56
138
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人