
spark
As a layman
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkStreaming
storm和 SparkStreaming的区别Storm 是纯实时处理数据, SparkStreaming 微批处理数据,可以通过控制间隔时间做到实时处理.sparkStreaming 相对于storm来说,吞吐量大storm擅长处理简单的汇总型业务,sparkStreaming擅长处理复杂业务,storm相对于sparkStreaming来说轻量级,SparkStreaming中可以使用...原创 2019-12-31 15:34:29 · 368 阅读 · 0 评论 -
spark UDF,UDAF
UDF: user defined function原创 2019-12-31 10:27:16 · 168 阅读 · 0 评论 -
spark SQL
Shark,SparkSQLHive是Shark的前身,Shark是SparkSQL的前身相对于Shark,SparkSQL有什么优势呢?– SparkSQL产生的根本原因,其完全脱离了Hive的限制– SparkSQL支持查询原生的RDD,这点就极为关键了。RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础– 能够在Scala中写SQL语句。支持简单的S...原创 2019-12-27 17:27:30 · 321 阅读 · 0 评论 -
spark的shuffle
什么是 spark shufflereduceByKey的含义reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value,然后生成一个新的RDD,元素类型是<key,value>对的形式,这样每一个key对应一个聚合起来的value问题:每一个key对应的value不一定都是在一个partition中,也不太可能在同一个节点上,因为RDD是分...原创 2019-12-27 14:33:34 · 248 阅读 · 0 评论 -
Spark 累加器
Spark累加器val rdd = sc.textFile...var i=0val rdd2 = rdd1.map(one=>{ i+=1 one}rdd2.collect()println(*i=*+1)原创 2019-12-26 12:08:29 · 281 阅读 · 0 评论 -
spark
Spark什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写...原创 2019-12-24 17:23:59 · 227 阅读 · 0 评论