
大数据
xugaopengjeep
活好事少的IT男
展开
-
Hive-面试之Hive数据倾斜的原因及主要解决方法
数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类Hive倾斜之group by聚合倾斜分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久;对一些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少。当按照类型进行group by的时候,会将相同的group by字段的reduce任务需要的数据拉取到同一个节点进行聚合,而当其中每一组的数据量过大时,会出现其他组...原创 2020-01-07 14:43:29 · 867 阅读 · 0 评论 -
哪些方法可以对 Spark 任务进行优化
1通过 spark-env 文件,对 spark 集群进行合理的参数设置2在程序中,设置合理的 sparkconf 和 set property3计算量大时,给已经缓存了的 RDD 添加 checkpoint,以减少容错带来的开销4使用 combine 对小分区进行合并,避免过小的分区造成过多的切换任务开销...原创 2019-12-10 15:23:47 · 228 阅读 · 0 评论 -
如何对MapReduce 任务进行优化
1设置合理的 map 和 reduce 的个数2设置合理的 blocksize3避免出现数据倾斜4使用 combine 函数5对数据进行压缩6优化 MM 参数()7将 HDFS 上的小文件合并成 SequenceFile 大文件后再进行文件处理操作...原创 2019-11-20 16:39:11 · 236 阅读 · 1 评论 -
写一行 shell 脚本,实现以下功能提取进程名包含 datastore 的进程 id 并强割杀死这些进程。
ps -ef| grep datastore| grep -v grep | awk 'datastore' | xargs kill -9原创 2019-11-11 11:23:39 · 213 阅读 · 0 评论 -
Linux ping不通Baidu
先敲route命令 等一会如果不出现default,就敲route add default gw 192.168.189.2,192.168.189.2虚拟机的默认网关每个人的或许不一样这个自己去查询原创 2019-06-17 11:00:46 · 800 阅读 · 0 评论 -
Linux服务器同步时间命令
ntpdate ntp2.aliyun.comntp2.aliyun.com(为阿里服务器2如果不行可以试试ntp3.aliyun.com ntp4.aliyun.com 等等)原创 2019-07-24 09:23:57 · 7607 阅读 · 0 评论