- 博客(10)
- 收藏
- 关注
原创 Spark算子
1.手敲WCreduceByKeysc.textFile(“data/wccount.txt”).flatMap(.split(" ")).map(x=>{(x,1)}).reduceByKey(+_).foreach(println)sc.stop()groupBykeysc.textFile(“data/wccount.txt”).flatMap(.split(" ")).map(x=>{(x,1)}).groupByKey().mapValues(.sum
2022-04-19 14:08:24
152
原创 dataworks
1 数据集成数据同步,抽数,导数离线数仓,离线同步1.数据源从哪里来,到哪里去可以是数据库,也可以是别的,比如FTP,ES等2.表来源表 目标表3.字段映射关系4.同步方式/同步逻辑比如从mysql到hive先清空hive表的某些分区,再插入,全删全插直接插入hive到mysql呢?全删全插直接插入主键冲突updatehive到mysql,我们公司称为“回流”同步方法1.直接对mysql业务库进行操作优缺点:操作简单,风险较大2.写到kafka,让java后端去消费
2022-04-10 19:15:10
2167
原创 Hive4
1.四大byorder by(全局排序)只有一个reduce。这里无论设置多少个reduce数,都是一个优点:全局排序缺点:当数据量大的时候,耗时长,效率低,适用于较小数据量的场景(十万、百万)sort by(分区内排序)对每一个reduce内部的数据进行排序,全局结果来说不是排序的也就是说只能保证每一个reduce输出的文件中的数据是按照规定字段排序的适用于数据量大,但是对排序要求不严格的场景,可以大幅提高执行效率(抽样)需要预先设置reduce个数,reduce结果文件内部有序,全局是
2022-04-09 16:51:07
1246
原创 hive3
作业:1.自己建立多级分区,并观察hdfs上的目录以分区顺序建立文件目录2.lateral view的用法平铺数据,解析数组select case when phone is not null then phone else '000000' end as phonefrom jsonLATERAL VIEW json_tuple(line,'phone') t as phone3.json_tuple和get_json_object的区别,尤其是性能方面select json_tupl
2022-04-05 16:36:13
1690
原创 Hive2
Store as的含义hive文件存储格式包括以下几类1.TEXTFILE为默认格式,建表时不指定则默认为这个格式,导入数据时会直接吧数据文件拷贝到hdfs上不进行处理;SEQUENCEFILE,RCFILE,ORCFILE,PARQUET格式的表不能直接从本地文件导入数据数据要先导入到TEXTFILE格式的表中,再从表中用insert导入SEQUENCEFILE,RCFILE,ORCFILE,PARQUET表中;或者用复制表结构及数据的方式(create table as select * fr
2022-04-04 19:46:35
258
原创 dbeaver连接hive
1.进入app/hadoop/etc/hadoop/目录下配置core-site.xml,添加配置文件如下<property> <name>hadoop.proxyuser.sqq.hosts</name> <value>*</value></property><property> <name>hadoop.proxyuser.sqq.groups</name>
2022-04-04 18:26:06
998
原创 hadoop_mapreduce1
split 分片blocksize 128M比如300MB的文件,blocksize默认为128M分成3块如果是128.01MB,128有buffer,10%,其实是一个块3.mapword=>(word,1) kv键值对4.shuffle(耗内存)洗牌默认按照key的hash值进行分发相同的key肯定要分发到同一个reduce任务上去做汇总操作5.reduce汇总,对value做加法6.result输出成文件output_SUCCESS...
2022-03-30 09:48:59
229
原创 Hadoop_mapreduce2
面试题目1.hadoop解决数据倾斜的方法什么是数据倾斜?以及现象比如一个文件,abc a 1亿个 b 1个 c 1个做wordcountmap1 99% map2 100% map3 100%1.1combinera 1亿个 (a,1亿)b 1个 (b,1)c 1个 (c,1)减少数据的网络传输但是ava不适合,如果导致数据倾斜的kev分布在很多不同的文件,不同mapper,这种方法就不适合了。100mapper每个mapper里1万个a1.2 导致数据倾斜的kev分布在很多不同的
2022-03-28 22:31:05
2811
原创 Yarn
yarn 资源调度分配Mapreduce on yarnyarn主要的模块ResourceManager(RM)yarn的资源控制框架的中心模块,负责集群中所有的资源的统一管理和分配。调度器应用管理器ResourceScheduler(调度器)根据各个应用程序的资源需求,进行分配。Applications Manger(应用管理器)负责监控或跟踪AM的执行状态。NodeManger(名称节点,简称NM)是ResourceManager每台机器上的代理,负责容器的管理,并监控他们的资源
2022-03-26 19:59:10
1751
原创 hadoop HDFS2
HDFS读写流程HDFS client调用FileSystem.open(filePath),与NN进行[RPC]通信,返回该文件的block列表,返回FSDataInputStreamHDFS client调用FileSystem.read方法与第一个块最近的DN进行读取,读取完成后,检查是否OK?如果ok,就会关闭与DN通信如果不ok,就会从第二个节点去读取,以此类推当block列表全部完成后,HDFS client调用FSDataInputStream的close方法,关闭数据流..
2022-03-22 21:49:00
1627
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人