
Spark
文章平均质量分 76
跌倒的小绵羊
既然选择了远方,便只顾风雨兼程
展开
-
Spark SQL性能优化
转载自http://blog.youkuaiyun.com/yqlakers/article/details/68925328最近在学习spark时,觉得Spark SQL性能调优比较重要,所以自己写下来便于更过的博友查看,欢迎大家指导。在spark中,Spark SQL性能调优只要是通过下面的一些选项进行优化的:1 spark.sql.codegen 默认值为false,当它设置为true时,S转载 2017-08-12 13:10:50 · 2720 阅读 · 0 评论 -
Spark-SQL DataFrame操作
Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成 Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hive表,以及通过JD转载 2017-08-12 21:34:38 · 334 阅读 · 0 评论 -
大数据框架对比:Hadoop、Storm、Samza、Spark和Flink
简介大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。数据的计算则是指从大量单一数据点中提取信息和见解的过程。下文将介绍这些框架:仅批处理框架:Apache Hadoop仅流处理框架:Apa转载 2017-08-14 16:35:39 · 556 阅读 · 0 评论