
spark
威尼斯的星期天
Console.log('♚')
展开
-
Spark任务使用yarn-client模式运行,yarn上job出现Accepted State
前言因为公司测试集群很low,所以yarn调度默认配置不满足,本来计算出来结果是资源刚刚够,但是死活起动不了job。解决办法修改配置文件vim capacity-scheduler.xml默认0.1修改的大些,我直接改到0.5<property> <name>yarn.scheduler.capacity.maximum-am-resource-percent</name> <value>0.5</value>原创 2020-10-10 17:00:24 · 446 阅读 · 0 评论 -
RDD转DF方式2,定义Schema
package com.atguigu.spark.sql.day02import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org.apache.spark.sql.{Row, SparkSession}/** * Author zhengkw * Date 2020/5/14 10:31 */object RDD2DF_2 { def main(args原创 2020-08-09 23:42:49 · 359 阅读 · 0 评论 -
浅谈spark中的standalone内核源码
Spark-standalone模式下内核分析1.1 Master和Worker启动在standalone模式下,如果配置了高可用,则必须先启动ZK和HDFS,HDFS里面有历史服务信息!使用启动命令start-all.sh启动 ->执行2个脚本 start-master start-slave1.2.1启动master启动master和worker并不冲突,他们为并行执行。脚本中执行java –cp org.apache.spark.deploy.master.Master相应原创 2020-05-21 23:21:59 · 244 阅读 · 0 评论 -
Spark中RDD与DF与DS之间的转换关系
前言RDD的算子虽然丰富,但是执行效率不如DS,DF,一般业务可以用DF或者DS就能轻松完成,但是有时候业务只能通过RDD的算子来完成,下面就简单介绍之间的转换。三者间的速度比较测试!这里的DS区别于sparkstream里的DStream!!转换关系RDD的出现早于DS,DF。由于scala的扩展机制,必定是要用到隐式转换的!所以在RDD下要转DF或者DS,就应该导隐式对象包! val conf = new SparkConf().setMaster("local[*]").setAppNa原创 2020-05-18 23:13:38 · 3059 阅读 · 0 评论 -
spark-streaming中DS的创建方法(用于测试)
由Socket方式构建package com.zhengkw.stu.day01import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkConf, SparkContext}/** * @ClassName:SoketWor原创 2020-05-18 22:17:54 · 334 阅读 · 0 评论 -
Sparkstreaming连接Kafka,利用CKP来保证输出数据不丢失
package com.zhengkw.stu.day01.kafkademoimport kafka.serializer.StringDecoderimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.ReceiverInputDStreamimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.strea原创 2020-05-17 22:56:21 · 312 阅读 · 0 评论 -
Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException):
Caused by:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException):Permission denied: user=swimer, access=EXECUTE,inode="/tmp/hive":zhengkw:supergroup:drwxrwx—windows环境下,idea编写spark-sql访问hive权限问题hive是在HDFS上的,一般作为数据仓库,.原创 2020-05-15 20:50:52 · 2204 阅读 · 0 评论 -
spark-shell --master yarn模式下 com.hadoop.compression.lzo.LzoCodec not found.
错误原因笔者在hadoop中配置了编解码器lzo,所以当使用yarn模式时,spark自身没有lzo的jar包所以无法找到!解决办法将lzo的jar包路径给spark!配置spark-default.conf文件!...原创 2020-05-04 21:21:29 · 795 阅读 · 1 评论