大数据开发

本文概述了大数据领域的关键技术,包括Hadoop分布式事务一致性、HDFS特性、Spark与Hive的应用场景对比、Spark框架介绍、Spark Streaming结合Kafka进行数据清洗的方法、RDD操作详解、Flume在ETL中的角色、Impala在MPP架构中的应用、Storm的特点、函数式编程在Spark和Python中的运用以及数据倾斜处理策略等。

1、hadoop分布式事物的一致性
2、hdfs的特征 只能attend,不能update(为什么)
3、spark和hive不同使用场景:spark是基于内存的,hive是,,,,,;rdd和sql(为什么有时候复杂的时候用sql,sql更高效,spark程序,rdd是一种数据结构,dataframe有表头,)
4、spark框架
5、sparkstreming ,清洗数据,kafka
6、rdd的操作:transfrom和action
7、python数据处理,python正则,python装饰器,
8、flume是数据抽取、传输(ETL是一整个数据的处理,flume是E的)
9、impala ,什么是MPP架构,impala主要用于MPP架构,spark做清洗,impala用于查询(源于不同的),,hbase也用于查询(大表)基于hdfs的,gbase也用查询(小表)
10、storm 基于java
11、函数式编程,函数是一个完整的对象,函数可以作为传参数来传(spark(scala)、python),函数可以继续调用函数,
12、数据倾斜的处理
倾斜原因:聚合操作时,
处理:新增随机数列,聚合时关联条件新增随机数,再次聚合关联条件不要随机数
13、广播变量、累加变量

转载于:https://www.cnblogs.com/hymmiaomiao/p/8998962.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值