
spark
文章平均质量分 60
spark
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
mtj66
这个作者很懒,什么都没留下…
展开
-
Flink Sql双流join-回撤机制导致数据重复
数据源:kafka topic数据类型为json业务场景:解析json,由于数据层级比较深,而且包含数组,此处键值可能为空所以数据就变成了双流join,甚至是多流join。问题原因:采用left join导致数据回撤,然后同一个主键数据产生重复是采用inner join 还是 outer join,具体区别见Flink Sql教程(5)_狄杰的博客-优快云博客_connector.startup-mode由于此处关联可能存在键值为空匹配不到的情况,采用了很多left join,..原创 2021-10-12 13:56:16 · 3219 阅读 · 0 评论 -
如何更改cloudera-scm-server默认日志路径?
如何更改cloudera-scm-server日志目录 由于CM安装的所有的组件,路径默认是/var/lib或者是/var/log,如果系统盘太小的话,会一直有警告,看起来太烦了.有两种方式解决:1.直接选择抑制改告警2.在CM web ui所有能配置的/var/log 基本上我都修改了,甚至连 /tmp堆转储也都改了.手动清理历史日志/var/log/.上面...原创 2019-05-29 11:00:14 · 4581 阅读 · 1 评论 -
配置本地parcels安装CDH 6.2.0
安装步骤参考:https://blog.youkuaiyun.com/wolf_333/article/details/89071203https://blog.51cto.com/pizibaidu/2174297卸载参考:https://blog.youkuaiyun.com/xiaozhaoshigedasb/article/details/85264889文件路径如下所示[roo...原创 2019-04-28 20:00:25 · 2653 阅读 · 0 评论 -
clouder manager 配置邮件告警服务,对集群服务进行监控
clouder manager 配置邮件告警服务,对集群服务进行监控。有些服务可以采用zabbix进行监控,但是有些自带监控的就可以省去配置烦恼。 曾经考虑监控对应的服务端口的方式进行集群监控,也做过clouder manager API 进行监控的方式。此外 CM提供两种告警方式。 如图有两种方式 1.采用自带的邮件告警系统,只需要配置相应的邮件服务器,以及邮箱地址,以及SMTP服务密码,需原创 2017-12-07 15:17:38 · 2917 阅读 · 0 评论 -
scala.collection.mutable.WrappedArray$ofRef cannot be cast to java.lang.Double
scala.collection.mutable.WrappedArray$ofRef cannot be cast to java.lang.Double 这个问题,一般是在sparksql中做row转换时候出错,这个时候最好一步步debug,或者是log出来相应的类型,光靠猜测有点难以理解.这里要强调的是,row:Row是先做了一次强制类型转换(asInstanceOf),row的...原创 2019-02-21 10:54:34 · 5632 阅读 · 3 评论 -
shell定时删除spark的applicationHistory历史文件
删除很简单,但是不能删除一些正在运行的程序的日志,尤其是spark streaming 的日志文件,一旦删除无法再生,以后想查日志都难.下面的脚本实现删除一个月之前的spark application的历史文件,记录下,大伙可以参考修改使用.#! /bash # delete 30 day's before spark history logs ######################...原创 2018-06-01 15:35:59 · 4092 阅读 · 1 评论 -
Exception in thread "main" org.apache.hadoop.mapred.InvalidJobConfException: Output directory not se
Exception in thread "main" org.apache.hadoop.mapred.InvalidJobConfException: Output directory not se当从SparkSql得到的dataFrame,映射成RDD之后向hbase中直接保存数据的时候报错:Exception in thread "main" org.a...原创 2018-06-04 14:47:32 · 5332 阅读 · 1 评论 -
tensorflow on spark yarn model deploy on CDH5.12 cluster
TensorFlow是谷歌提供的开源深度学习框架TensorFlowOnSpark: 是雅虎提供的集成到Spark上的深度学习框架鉴于我们使用的是Spark核心计算框架,现在搭建TensorFlow ON Hadoop Yarn开发环境 架构 https://www.jianshu.com/p/62b4ebb5a2f4 http://yahoohadoop.tumblr.com/原创 2018-01-18 12:03:37 · 1438 阅读 · 0 评论 -
定时任务之不明显的错误导致任务失败
exception : hdfs file not find Caused by: org.apache.hadoop.ipc.RemoteException(java.io.FileNotFoundException): File does not exist: /user/hive/warehouse/cproject.db/cplatform_map_today/part-00176原创 2018-01-19 10:56:26 · 1512 阅读 · 0 评论 -
TensorFlowOnSpark 使用
搭建请参考上一篇文章。1.广播环境变量,指定Python的路径export PYTHON_ROOT=/data/Pythonexport PYSPARK_PYTHON=${PYTHON_ROOT}/bin/pythonexport SPARK_YARN_USER_ENV=”PYSPARK_PYTHON=Python/bin/python”2.提交具体任务遇到权限问题是普原创 2018-01-18 12:05:14 · 857 阅读 · 0 评论 -
Building online HBase cluster of Zhihu based on Kubernetes
Building online HBase cluster of Zhihu based on Kubernetes 采用 Kubernetes 进行hbase部署,扩展性大大增强。https://www.slideshare.net/HBaseCon?utm_campaign=profiletracking&utm_medium=sssite&utm_source=ssslideview同样对s原创 2017-12-14 15:33:20 · 603 阅读 · 0 评论 -
sql优化之一次from查询多次insert into操作
优化点:一次map多个reduce,有效节省了map操作.本脚本目的:实现表字段空值率统计流程:1.获取表结构2,通过excel或者是notepad进行批量转换,3,将语句格式化成如下的from insert 语句,然后执行就OK了.4,每个insert语句后面可以跟where语句create table if not exists tmp_null_static (...原创 2019-02-20 12:05:59 · 2246 阅读 · 0 评论 -
scala.collection.mutable.WrappedArray$ofRef cannot be cast to Array[Double] at
Caused by: java.lang.ClassCastException: scala.collection.mutable.WrappedArray$ofRef cannot be cast to [D at com.zhongan.bigdatalab.utils.DataProcessUtils$$anonfun$processMNGroupStatic$1.apply(Dat...原创 2019-03-19 11:36:10 · 2545 阅读 · 0 评论 -
spark history server 单独部署,作为微服务提供日志服务
场景:在spark history server部署的时候,一般在生产机器上,但是开发,或者是测试的时候,如果要做网络隔离,你就无法看到生产上的日志了,如果开放VPN访问生产集群,也是可以的,但是现在不开放了,如何解决查看spark日志的问题.打开history server的源代码:org.apache.spark.deploy.history.HistoryServer看个究竟....原创 2019-06-06 15:41:59 · 897 阅读 · 0 评论 -
为啥看不到kylin on spark的日志?
为啥kylin on spark的日志看不到,明明在运行时是能看到的,但是停止后就看不到了呢?在看下/user/spark/applicationHistory路径下根本没有kylin on spark 的app的日志.先屡一下思路,自己运行的正常的spark app停止后是可以看到日志的,但是kylin on spark 却看不到,说明这个不是yarn JobHistory Serve...原创 2019-05-29 16:34:12 · 659 阅读 · 0 评论 -
Tuning Java Garbage Collection for Apache Spark Applications
一篇非常精彩的spark JVM调优,转载记录下,一路英文,还是比较通俗易懂的。Tuning Java Garbage Collection for Apache Spark Applicationsby Daoyuan Wang and Jie Huang Posted in COMPANY BLOGMay 28, 2015This is a guest po转载 2017-11-14 16:40:04 · 875 阅读 · 0 评论 -
org.apache.zookeeper.KeeperException$InvalidACLException: KeeperErrorCode = InvalidACL for /f
在spark streaming中更新数据到zookeeper,第一次更新的时候可能会报如上错(from kafka_0.9),解决方案就是在测试过程中临时加入如下代码: 目的是创建相对应的文件夹ZkUtils(zkClient, false).updatePersistentPath(path="/consumers/groupId", data="groupId")ZkUt原创 2017-10-26 18:07:17 · 5125 阅读 · 0 评论 -
java.lang.RuntimeException: Stream '/jars/ ' was not found.
因为在 CDH5.7遇到如下的错误 ,java.lang.IllegalStateException: Did not find registered driver with class com.mysql.jdbc.Driver只能通过指定--conf 'spark.executor.extraClassPath=/data/share/spark/mysql-connector-j原创 2016-11-10 17:07:29 · 3654 阅读 · 0 评论 -
Spark Accumulator的正确使用方式
Spark1.6中的public static void main(String[] args) {SparkConf conf = new SparkConf().setMaster("local[3]") .setAppName("CoalesceTest");JavaSparkContext sc = new JavaSparkContext(conf);SQLCon原创 2016-10-06 20:02:44 · 3800 阅读 · 0 评论 -
sparksql 过滤出null值
过滤出空的值 : by_car_score_id.filter("type is not null") by_car_score_id.filter("type is null")下面的方法试了可是不行:df.where(df.col("type").isNull()) df.where(df.col("type").isNotNull())df.filter(d原创 2016-10-17 18:00:59 · 12721 阅读 · 0 评论 -
flatMap功能不只是wordcount,不知不觉用flatmap实现了hive的自带函数explode功能
// 不知不觉用flatmap实现了hive的自带函数explode功能。import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.sql.RowFactoryimport org...原创 2016-10-17 11:24:00 · 1584 阅读 · 0 评论 -
dataFrame selectExpr 使用示例
使用udf函数 别名添加一列值 var df_score = df_poi.selectExpr("*", "get_score(speed_up,speed_down,highspeed_count,start_time,end_time,avg_speed) as SCORE ");添加一列df_score.withColumn(colName, col)原创 2016-10-11 10:55:58 · 11443 阅读 · 0 评论 -
WARN zookeeper.RecoverableZooKeeper: Unable to create ZooKeeper Connection
在提交spark作業的時候遇到的问题。16/07/13 17:08:24 WARN zookeeper.RecoverableZooKeeper: Unable to create ZooKeeper Connectionjava.net.UnknownHostException: 10.24.62.184at org.apache.spark.deploy.Spar原创 2016-07-13 18:12:28 · 8032 阅读 · 1 评论 -
Recent Evolution of Zero Data Loss Guarantee in Spark Streaming With Kafka
Recent Evolution of Zero Data Loss Guarantee in Spark Streaming With KafkaSparkSteamingkafka数据零丢失当合理的配置之后,sparkstreaming 可以保证零数据丢失。当然在您想要使用这一特性时候,必须遵守一些配置要求。when properly deployed, Spark Str翻译 2016-09-01 15:22:20 · 552 阅读 · 0 评论 -
SchedulerBackend is ready for scheduling beginning after waiting maxRegisteredResourcesWaitingTime
INFO YarnClientSchedulerBackend: SchedulerBackend is ready for scheduling beginning after waiting maxRegisteredResourcesWaitingTime: 30000(ms) Exception in thread “main” java.lang.IllegalStateExceptio转载 2016-08-31 17:52:53 · 2627 阅读 · 0 评论 -
java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration
用sbt打包Spark程序,并未将所有依赖都打入包中,把Spark应用放到集群中运行时,出现异常:Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration at SparkHbase.main(SparkHbase.scala:34)at转载 2016-08-30 09:11:08 · 9864 阅读 · 0 评论 -
dataFrame操作
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行转载 2016-07-29 14:41:44 · 4130 阅读 · 0 评论 -
SparkException: org.apache.spark.streaming.dstream.MappedDStream has not been initialized
在使用故障恢复的时候采用此方法进行业务逻辑进行恢复的时候,所有的业务逻辑应该放在 functionToCreateContext 函数内部才能实现checkpoint目录数据的恢复。 eFormatimport java.util.Dateimport org.apache.commons.logging.LogFactoryimport org.apache原创 2016-12-16 16:33:38 · 2774 阅读 · 0 评论 -
决定Spark RDD分区算法因素的总结
RDD在调用引起Shuffle的方法的时候,如果没有显示指定ShuffledRDD的分区,那么会调用Partitioner.defaultPartitioner方法来确定ShuffledRDD的分区,比如RDD.combineByKey:[java] view plain copy def combineByKey[C](createCombin转载 2017-01-02 23:21:08 · 665 阅读 · 0 评论 -
yarn 配置log4j日志输出
To use a custom log4j configuration for the application master or executors, here are the options:upload a custom log4j.properties using spark-submit, by adding it to the --files list of files t原创 2016-12-26 13:53:04 · 4802 阅读 · 0 评论 -
Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "DBCP" plugin to create a ConnectionPool gave an error : The specified datastore driver ("com.mysql.jdbc.Driver") was no原创 2016-07-06 19:46:20 · 2423 阅读 · 1 评论 -
reduceByKey和groupByKey区别与用法
在spark中,我们知道一切的操作都是基于RDD的。在使用中,RDD有一种非常特殊也是非常实用的format——pair RDD,即RDD的每一行是(key, value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。针对pair RDD这样的特殊形式,spark中定义了许多方便的操作,今天主要介绍一下reduceByKey和groupByKey,因为转载 2017-09-13 09:49:40 · 6497 阅读 · 1 评论 -
org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No leas e on
异常信息:13/09/11 12:12:06 INFO hdfs.DFSClient: SMALL_BUFFER_SIZE is 512org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on /tmp/put_dir/20原创 2017-08-10 11:11:18 · 1220 阅读 · 0 评论 -
SparkStringApplication进行升级时保证零丢失
升级SparkStreaming Application代码在对StreamingApplication项目进行升级时,此时如果代码发生改变的话,有两种方式可以做到。1. 升级的代码和旧的代码同时运行起来,(接收同样的数据)直到新程序能够稳定的运行。旧的程序就可以停掉。注意: 这种方式只支持能够将数据发送到两个不同的地址(新程序和老程序)的数据源,比如kafka。2.采用优雅关闭c原创 2017-01-16 12:18:21 · 723 阅读 · 0 评论 -
SparkRDD的一些使用经验
要减少shuffle的开销,主要有两个思路:减少shuffle次数,尽量不改变key,把数据处理在local完成;减少shuffle的数据规模。先去重,再合并比如有A、B这样两个规模比较大的RDD,如果各自内部有大量重复,那么二者一合并,再去重:A.union(B).distinct()这样的操作固然正确,但是如果可以先各自去重,再合并,再去重,可以大幅度减小s原创 2017-01-24 17:10:30 · 970 阅读 · 0 评论 -
Hadoop YARN新特性—label based scheduling
Hadoop YARN新特性—label based scheduling 网址:http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-label-based-scheduling/在最新的hadoop 2.6.0版本中,YARN引入了一种新的调度策略:基于标签的调度机制。该机制的主要引入动机是更好地让YARN运行在异转载 2017-01-24 11:40:59 · 665 阅读 · 0 评论 -
SparkSql Data Sources(数据源)
Spark SQLSpark SQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD,它把行对象用一个Schema来描述行里面的所有列的数据类型,它就像是关系型数据库里面的一张表。它可以从原有的RDD创建,也可以是Parquet文件,最重要的是它可以支持用HiveQL从hive里面读取数据。转载 2017-01-18 15:35:55 · 912 阅读 · 0 评论 -
Spark-Streaming KafkaDirectDStream checkpoint的原理
JobGenrerator.generateJobs负责Streaming Job的产生,产生并且提交执行Job之后,会发送DoCheckpoint事件,源码如下:[java] view plain copyprivate def generateJobs(time: Time) { // Set the SparkEnv in t原创 2017-01-08 19:28:44 · 2140 阅读 · 0 评论 -
Spark-Streaming checkpoint的原理
本文以KafkaDirectDStream方式为例说明Spark-Streaming checkpoint的原理 JobGenrerator.generateJobs负责Streaming Job的产生,产生并且提交执行Job之后,会发送DoCheckpoint事件,源码如下:[java] view plain copyprivat转载 2016-12-28 22:54:32 · 1534 阅读 · 0 评论 -
spark on yarn作业运行的jar包缓存优化
这几天一直在追查spark on yarn的作业运行中的jar包分发,以及执行后的jar包删除的问题。从一开始的毫无头绪,到后来逐渐清晰,到后来通过hadoop的两个很简单的参数配置解决了问题。不得不说,虽然问题不大,对某些大牛们来说也真是小case,但是追查问题,定位问题到最终解决问题的过程,对我来说真是很不错的体验和学习过程。下面详细描述一下遇到的问题,以及解决的过程,给后面的同学一点参考。转载 2016-07-06 19:59:15 · 2695 阅读 · 0 评论