
大数据批处理相关
yscoder
欢迎关注 大数据与数据仓库公众号
展开
-
Hive常用函数
往期推荐Flink中Checkpoint和Savepoint 的 3 个不同点Flink实现固定时长或消息条数的触发器Flink方案设计中的4大误区使用 Broadcast State 的 4 个注意事项3种Flink State Backend | 你该用哪个?一文搞定 Flink 异步 I/OFlink State 使用的4点建议Flink在开发中的7点建议转载是一种动力 分享是一种美德,欢迎关注大数据与数据仓库公众号,回复spark领取资料...原创 2020-12-01 22:06:30 · 557 阅读 · 0 评论 -
Hive调优12法
目录1. 尽量不要使用COUNT(DISTINCT col)2. 小文件会造成资源的过度占用以及影响查询效率3. 请慎重使用SELECT *4.不要在表关联后面加WHERE条件5. 处理掉字段中带有空值的数据6. 设置并行执行任务数7.设置合理的Reducer个数8. JVM重用9. 为什么任务执行的时候只有一个reduce?10. 选择使用Tez引擎11. 选择使用本地模式12. 选择使用严格模式往期精选▼转载是一种动力 分享是一种美德,欢迎关注..原创 2020-11-30 22:43:51 · 152 阅读 · 0 评论 -
Hive必考面试题
笔者今年年初面试了很多个大数据开发岗位。今天整理了一点常用场景的hiveSQL,很可能就能在面试中帮到你。场景一:分组求TopN name subject score 张三 物理 66 张三 化学 89 李四 物理 90 李四原创 2020-11-30 22:40:09 · 155 阅读 · 0 评论 -
Spark VS Hadoop
spark 究竟比 mapreduce 好在哪里,为什么备受推崇, 有些人宣称spark 是大数据的未来, spark 宣布了 Hadoop 的死刑, 这种话到底能不能讲, 会不会被打脸?首先,理清一个基本概念, hadoop = hdfs + yarn + mapreducehdfs 现在是大数据分布式存储的标配, 如果公司没有牛x到可以自主开发一套分布式存储, 一般开源都是选择 hdfs 作为转载 2017-08-13 20:59:23 · 205 阅读 · 0 评论 -
一分钟吃透spark 之 TaskScheduler
DagScheduler 和 TaskScheduler 的任务交接spark 调度器分为两个部分, 一个是 DagScheduler, 一个是 TaskScheduler, DagScheduler 主要是用来把一个 Job 根据宽依赖划分为多个Stage(阶段),对于划分出来的每个 stage 都抽象为一个 TaskSet任务集 交给 TaskScheduler 来进行进一步的调度运行。转载 2017-08-13 21:26:01 · 2087 阅读 · 0 评论 -
从RDD的角度来看Spark内部原理
RDD为什么是Spark的核心概念通过一个wordCount例子来看一看RDDRDD的管理与操作(算子)常见的RDD操作有哪些(包括RDD的分类)RDD的依赖关系(DAG)RDD依赖关系的划分(stage)RDD为什么是Spark的核心概念 Spark建立在统一抽象的RDD之上,使得Spark可以很容易扩展,比如 Spark Streaming、Spark SQL、Machine Le转载 2017-08-14 10:23:47 · 1157 阅读 · 0 评论 -
MapReduce编程模型概述
mapreduce是hadoop的核心之一,mapreduce经常让我们产生各种困惑,我们只是知道什么是map,什么是renduce,甚至我们已经熟悉了mapreduce编程,但是内部的原理还是不明白。下面在回帖中,给大家解决部分问题。更多问题有待挖掘。 1.Shuffle的定义是什么? 2.map task与reduce task的执行是否在不同的节点上? 3.Shuffle产生的转载 2017-08-15 08:51:08 · 1085 阅读 · 0 评论 -
MapReduce模型中的Shuffle
Shuffle的正常意思是洗牌或弄乱,可能大家更熟悉的是Java API里的Collections.shuffle(List)方法,它会随机地打乱参数list里的元素顺序。如果你不知道MapReduce里Shuffle是什么,那么请看这张图: 这张是官方对Shuffle过程的描述。但我可以肯定的是,单从这张图你基本不可能明白Shuffle的过程,因为它与事实相差挺多,细节也是错乱的。后面我转载 2017-08-15 08:56:13 · 254 阅读 · 0 评论 -
Spark的Shuffle机制(讲得很好哦)
MapReduce中的Shuffle转载于: http://www.jianshu.com/p/60bab35bc01e在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Shuffle是MapReduce框架中的一个特定的phase,介转载 2017-09-28 19:16:48 · 2463 阅读 · 0 评论