
spark
lmb633
这个作者很懒,什么都没留下…
展开
-
Spark Streaming, Kafka receiver, "Failed to get records for ... after polling for 512"
javajava.lang.AssertionError: assertion failed: Failed to get records for (...) after polling for 512使用spark streaming处理kafka中的数据,调试过程中,由于程序停了很长时间,导致kafka中挤压了很多数据,再次启动时,遇到了这个报错。网上查了很多资料,尝试了很多参数设置,发现然并...原创 2018-03-23 14:49:29 · 4381 阅读 · 0 评论 -
pyspark 任务提交 依赖打包
如果是一个简单的应用,没用多余的依赖,则可以直接提交就行了:spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.executor.memoryOverhead=4096 --executor-memory 2G --num-executors 4 --executor-cores 2 --driv...原创 2018-11-28 18:02:11 · 6641 阅读 · 3 评论 -
pyspark 读写 hbase (指定列)
spark使用newAPIHadoopRDD和saveAsNewAPIHadoopDataset来存取hbase的数据,直接上代码:1. spark读取hbase:readkeyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter"readvalueConv ...原创 2018-11-27 17:16:19 · 3401 阅读 · 4 评论 -
spark ml 源码分析
git上找到的一个大神写的spark ml源码分析,非常详尽地址:https://github.com/endymecy/spark-ml-source-analysis spark机器学习算法研究和源码分析 本项目对spark ml包中各种算法的原理加以介绍并且对算法的代码实现进行详细分析,旨在加深自己对机器学习算法的理解,熟悉这些算法的分布式实现方式。本系列文...转载 2018-12-04 12:04:15 · 783 阅读 · 0 评论 -
org.apache.spark.SparkException: Could not find CoarseGrainedScheduler pyspark
前几天跑pyspark时遇到的错误,搜索org.apache.spark.SparkException: Could not find CoarseGrainedScheduler这个错误的时候发现问题描述五花八门,解决方案也是五花八门。 后来往上翻详细的日志发现,真正出错的是在executor的task上,是插入hbase的时候类型错误。 因此,遇到类似的错误一定要...原创 2018-11-20 10:53:53 · 7198 阅读 · 0 评论 -
spark ml VectorIndexer 报错 java.util.NoSuchElementException: key not found: 0.0
采用用spark的DecisionTree来训练样本,在使用pipeline中使用了VectorIndexer 转换特征向量。生成模型后,用模型来训练大规模样本(上千万样本,生成模型的训练集只有几千个)的时候报如下错误。查阅资料,也没有得到正解。后来自己通过实验发现了原因。VectorIndexer(类似的还有StringIndexer)是一种Estimator,用来对特征值进行映射转换。例如,做...原创 2018-07-06 11:13:13 · 3312 阅读 · 3 评论 -
spark内存管理(转载)
转载 2018-06-26 15:36:57 · 121 阅读 · 0 评论 -
updateStateByKey函数详解及worldcount例子
updateStateByKey操作允许您在使用新的信息持续更新时保持任意状态。1、定义状态 - 状态可以是任意数据类型。 2、定义状态更新功能 - 使用函数指定如何使用上一个状态更新状态,并从输入流中指定新值。 如何使用该函数,spark文档写的很模糊,网上资料也不够详尽,自己翻阅源码总结一下,并给一个完整的例子updateStateBykey函数有6种重载函数:1、只传入一个更新函数,最简单的...原创 2018-06-01 15:06:47 · 7146 阅读 · 1 评论 -
sparkstreaming kafka Failed to get records for after polling for 512
这个错误上次说的解决方案是设置heartbeat.interval.ms 和 session.timeout.ms这两个参数,但发下效果不理想,错误还是会出现。从错误日志里翻阅源码,发现了问题所在,报错的代码是: at org.apache.spark.streaming.kafka010.CachedKafkaConsumer.get(CachedKafkaConsumer.scala:74)查...原创 2018-05-31 12:33:51 · 3774 阅读 · 0 评论 -
sparkstreaming中kafka的offset提交
就kafka而言,offset提交方式有两种,自动和手动。将enable.auto.commit设置为true,即可自动提交props.put("enable.auto.commit", "true");props.put("auto.commit.interval.ms", "1000");或者采用commitAsync来自动提交。sparkstreaming消费kafka数据,提交方式也是分为...原创 2018-05-31 12:10:01 · 4344 阅读 · 0 评论 -
Container killed by YARN for exceeding memory limits. 10.4 GB of 10.4 GB physical memory used
执行spark时遇到这种问题,最开始--executor-memory 设为10G,到后来20G,30G,还是报同样的错误。1.一种解决方法网上大部分都说要增加spark.yarn.executor.memoryOverhead,先是2048,然后4096,后来干脆增加到15G(并将executor-memory调小到20G),不再报错。但一直很郁闷,到底是为什么呢?首先可以肯定的...原创 2018-12-05 17:04:29 · 5103 阅读 · 0 评论