
spark
文章平均质量分 73
九剑问天
这个作者很懒,什么都没留下…
展开
-
Spark分布式内存及存储管理机制浅析
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎同,它最初是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是其中间输出结果更倾向于保存在内存中,从而不再需要读写HDFS,因此Spark的计算效率得...原创 2019-11-18 19:19:17 · 989 阅读 · 0 评论 -
Spark SQL 实现 group_concat
Spark SQL 实现 group_concat环境:Spark 2.0.1 以下貌似需要至少Spark 1.6支持,未实测表结构及内容:+-------+---+| name|age|+-------+---+|Michael| 29|| Andy| 30|| Justin| 19|| Justin| 20|| LI| 20|+----原创 2016-10-14 10:21:35 · 13448 阅读 · 2 评论