懒得幽默-优快云博客

原创 Spark算子

1.手敲WCreduceByKeysc.textFile(“data/wccount.txt”).flatMap(.split(" ")).map(x=>{(x,1)}).reduceByKey(+_).foreach(println)sc.stop()groupBykeysc.textFile(“data/wccount.txt”).flatMap(.split(" ")).map(x=>{(x,1)}).groupByKey().mapValues(.sum

2022-04-19 14:08:24 181

原创 dataworks

1 数据集成数据同步，抽数，导数离线数仓，离线同步1.数据源从哪里来，到哪里去可以是数据库，也可以是别的，比如FTP，ES等2.表来源表目标表3.字段映射关系4.同步方式/同步逻辑比如从mysql到hive先清空hive表的某些分区，再插入，全删全插直接插入hive到mysql呢？全删全插直接插入主键冲突updatehive到mysql，我们公司称为“回流”同步方法1.直接对mysql业务库进行操作优缺点：操作简单，风险较大2.写到kafka，让java后端去消费

2022-04-10 19:15:10 2245

原创 Hive4

1.四大byorder by(全局排序)只有一个reduce。这里无论设置多少个reduce数，都是一个优点：全局排序缺点：当数据量大的时候，耗时长，效率低，适用于较小数据量的场景（十万、百万）sort by(分区内排序)对每一个reduce内部的数据进行排序，全局结果来说不是排序的也就是说只能保证每一个reduce输出的文件中的数据是按照规定字段排序的适用于数据量大，但是对排序要求不严格的场景，可以大幅提高执行效率(抽样)需要预先设置reduce个数，reduce结果文件内部有序，全局是

2022-04-09 16:51:07 1291

原创 hive3

作业：1.自己建立多级分区，并观察hdfs上的目录以分区顺序建立文件目录2.lateral view的用法平铺数据，解析数组select case when phone is not null then phone else '000000' end as phonefrom jsonLATERAL VIEW json_tuple(line,'phone') t as phone3.json_tuple和get_json_object的区别，尤其是性能方面select json_tupl

2022-04-05 16:36:13 1729

原创 Hive2

Store as的含义hive文件存储格式包括以下几类1.TEXTFILE为默认格式，建表时不指定则默认为这个格式，导入数据时会直接吧数据文件拷贝到hdfs上不进行处理；SEQUENCEFILE，RCFILE，ORCFILE，PARQUET格式的表不能直接从本地文件导入数据数据要先导入到TEXTFILE格式的表中，再从表中用insert导入SEQUENCEFILE，RCFILE，ORCFILE，PARQUET表中；或者用复制表结构及数据的方式（create table as select * fr

2022-04-04 19:46:35 284

原创 dbeaver连接hive

1.进入app/hadoop/etc/hadoop/目录下配置core-site.xml，添加配置文件如下<property> <name>hadoop.proxyuser.sqq.hosts</name> <value>*</value></property><property> <name>hadoop.proxyuser.sqq.groups</name>

2022-04-04 18:26:06 1081

原创 hadoop_mapreduce1

split 分片blocksize 128M比如300MB的文件，blocksize默认为128M分成3块如果是128.01MB，128有buffer，10%，其实是一个块3.mapword=>（word，1） kv键值对4.shuffle（耗内存）洗牌默认按照key的hash值进行分发相同的key肯定要分发到同一个reduce任务上去做汇总操作5.reduce汇总，对value做加法6.result输出成文件output_SUCCESS...

2022-03-30 09:48:59 254

原创 Hadoop_mapreduce2

面试题目1.hadoop解决数据倾斜的方法什么是数据倾斜?以及现象比如一个文件，abc a 1亿个 b 1个 c 1个做wordcountmap1 99% map2 100% map3 100%1.1combinera 1亿个 (a，1亿)b 1个 (b,1)c 1个 (c,1)减少数据的网络传输但是ava不适合，如果导致数据倾斜的kev分布在很多不同的文件，不同mapper，这种方法就不适合了。100mapper每个mapper里1万个a1.2 导致数据倾斜的kev分布在很多不同的

2022-03-28 22:31:05 2858

原创 Yarn

yarn 资源调度分配Mapreduce on yarnyarn主要的模块ResourceManager（RM）yarn的资源控制框架的中心模块，负责集群中所有的资源的统一管理和分配。调度器应用管理器ResourceScheduler（调度器）根据各个应用程序的资源需求，进行分配。Applications Manger（应用管理器）负责监控或跟踪AM的执行状态。NodeManger（名称节点，简称NM)是ResourceManager每台机器上的代理，负责容器的管理，并监控他们的资源

2022-03-26 19:59:10 1785

原创 hadoop HDFS2

HDFS读写流程HDFS client调用FileSystem.open(filePath),与NN进行[RPC]通信，返回该文件的block列表，返回FSDataInputStreamHDFS client调用FileSystem.read方法与第一个块最近的DN进行读取，读取完成后，检查是否OK？如果ok，就会关闭与DN通信如果不ok，就会从第二个节点去读取，以此类推当block列表全部完成后，HDFS client调用FSDataInputStream的close方法，关闭数据流..

2022-03-22 21:49:00 1659

weixin_44374374的博客