
Spark
Mr.ChowSit
古人云:survive in disaster perish in comfort
展开
-
Spark2.3.0+新特性
参考http://spark.apache.org/docs/2.3.0/sql-programming-guide.html#broadcast-hint-for-sql-queries说明广播提示引导Spark在将每个指定表与另一个表或视图连接时广播它们。当Spark决定连接方法时,广播散列连接(i.e., BHJ)优先,即使统计数据高于配置spark.sql.autoBro...原创 2020-01-30 17:43:22 · 475 阅读 · 0 评论 -
Spark分组TopN(SQL风格SDL风格)另附:RDD操作
第一种:SQL风格package sqlimport org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}/** * * @ClassName: SparkSQL * @Descripti...原创 2020-01-30 15:37:56 · 1977 阅读 · 0 评论 -
SparkCore实现分类计数|分组TopN|分组平均
package exerciseimport org.apache.spark.{SparkConf, SparkContext}/** * @ClassName: Exec03 * @Description: * @Author: xuezhouyi * @Version: V1.0 **/object Exec03 { def main(args: Array[Str...原创 2019-09-19 22:08:58 · 485 阅读 · 0 评论 -
Spark优化总结
Spark优化主要分为两个方面的优化,一是代码逻辑的优化,二是资源配置的优化1.代码逻辑1.1.RDD优化RDD优化主要也有两个方面的考虑,一是RDD的复用,二是RDD的持久化。那么主要针对RDD的持久化进行说明。在Spark中多次对同一个RDD执行算子时,每次都会对这个RDD的父RDD重新计算一次,所以要避免这种重复计算的资源浪费,那么就需要对RDD进行持久化。Memory_...原创 2019-09-23 20:26:27 · 289 阅读 · 0 评论 -
Spark on Hive with Thriftserver
一、复制Hadoop配置文件(core-site.xml,hdfs-site.xml,hive-site.xml)到Spark的conf下二、复制Hive的mysql-connector-java-5.1.40-bin.jar到Spark的jars中三、启动Spark下的Thriftserver服务sbin/start-thriftserver.sh \--...原创 2019-10-04 12:22:15 · 2591 阅读 · 0 评论