
spark
明月不归尘
这个作者很懒,什么都没留下…
展开
-
Spark 重分区coalesce和repartition,合并小文件
源码包路径: org.apache.spark.rdd.RDDcoalesce函数:方法注释:Return a new RDDthat is reduced into numPartitions partitions. This results in a narrowdependency, e.g. if翻译 2017-11-29 11:25:40 · 6586 阅读 · 0 评论 -
spark将数据加载到postgresql中的Scala实现
spark将数据加载到postgresql中: 方法一:def save2Postgresql(jdbcDf: DataFrame, url: String, tableName: String) = { jdbcDf.insertIntoJDBC(url, tableName, false) }方法二:def save2Postgresql(jdbcDf: Da...原创 2018-08-17 12:12:29 · 2027 阅读 · 0 评论 -
Hive中关于日期函数使用
1.时间戳函数 日期转时间戳:从1970-01-01 00:00:00 UTC到指定时间的秒数 获得当前时区的UNIX时间戳: select unix_timestamp(); 1533716607将指定的时间转为UNIX时间戳 :select unix_timestamp('2018-08-08 16:22:01'); 1533716521将指定的时间转为UNIX时间戳: sele...原创 2018-08-08 16:43:41 · 5490 阅读 · 0 评论 -
Hive修改表语句
1.ALTER TABLE table_name RENAME TO new_table_name; 上面这个命令可以重命名表,数据所在的位置和分区都没有改变。2:改变列名/类型/位置/注释1.ALTER TABLE table_name CHANGE[CLOUMN] col_old_name col_new_name column_type[CONMMENT col_conmment]...转载 2018-08-09 15:42:52 · 2105 阅读 · 0 评论 -
Hive计算引擎的切换方法
1、配置mapreduce计算引擎set hive.execution.engine=mr;2、配置spark计算引擎set hive.execution.engine=spark;3、配置tez 计算引擎set hive.execution.engine=tez;原创 2018-07-05 15:28:16 · 15668 阅读 · 0 评论 -
自动化监控spark进程并重启
自动化监控spark进程并重启,实际生产中可能会出现服务进程挂掉的异常,自动监控与重启是非常重要。1、监控主节点的shell脚本[plain] view plain copy#!/bin/bash # master=`ps -ef | grep Master | grep spark | awk '{print $2}转载 2018-03-01 11:26:26 · 1389 阅读 · 0 评论 -
001:spark-submit提交参数之num-executors,num-executors,executor-cores
1.num-executors参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spark作业的运行速度是非常慢的。参数调优原创 2018-01-04 10:16:17 · 16233 阅读 · 2 评论 -
Hive四种数据导入方式
Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表,如下:转载 2017-12-11 15:18:18 · 347 阅读 · 0 评论 -
org.apache.spark.shuffle.MetadataFetchFailedException:Missing an output location for shuffle 5
org.apache.spark.shuffle.MetadataFetchFailedException:Missing an output location for shuffle 5解决方案:excouters分配的内存不足,分配更多内存后解决问题原创 2017-11-29 11:32:37 · 7927 阅读 · 2 评论 -
sparksql减少输出数据中的小文件数量
由于项目中开发用到sparksql ,将一个大表的数据查询后插入到另一种表中,此时数据令也不是太大,但是产生了200多个小文件,占用namenode资源,为了改善该情况使用,将hive中的表加载为一个df,然后重新分区+缓存+注册为临时表,在进行查询,插入操作,此时文件为20个关键代码如下:...........val aDF =hiveContext.原创 2017-11-30 14:19:53 · 9050 阅读 · 0 评论 -
spark读取hdfs上的bson包,并解析
公司的数据是bson的格式的,需要用到spark的dataF,代码如下:val mongoConfig =new Configuration() //输入数据的格式路径 mongoConfig.set("mongo.job.input.format","com.mongodb.hadoop.BSONFileInputFormat");原创 2017-11-29 11:38:24 · 1171 阅读 · 1 评论 -
spark读取postgresql中的数据
spark读取postgresql中的数据: 代码实现val pgUrl = "jdbc:postgresql://ip:5433/databaseName"// 读取pg中的数据val df1 = hiveContext.read.format("jdbc") .option("url", pgUrl) .option("user", "user") .opti...原创 2018-08-17 12:18:45 · 3421 阅读 · 0 评论