
spark
mamls
这个作者很懒,什么都没留下…
展开
-
spark streaming 应用程序监控
原文: http://www.w3cschool.cn/spark/9cdqmozt.html在WEB UI中的Processing Time和Scheduling Delay两个度量指标是非常重要的。第一个指标表示批数据处理的时间,第二个指标表示前面的批处理完毕之后,当前批在队列中的等待时间。如果批处理时间比批间隔时间持续更长或者队列等待时间持续增加,这就预示系统转载 2017-03-31 22:22:53 · 2978 阅读 · 0 评论 -
spark streaming 远程debug
--conf "spark.driver.extraJavaOptions=-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=9999"原创 2017-12-01 20:27:16 · 472 阅读 · 0 评论 -
spark 简单算子学习
foreach,遍历每一行数据,map,一行数据执行一次,通过回调函数返回一个对象,public Object call(String arg0) throws Exception {flatMap,一行数据执行一次,通过回调函数返回一个或者多个对象, public Iterable call(String arg0) throws ExceptionmapToPair,一行数据执行一原创 2017-04-26 15:12:46 · 250 阅读 · 0 评论 -
Spark Streaming Accumulator 并发问题
同一个executor 中 多线使用Accumulator数据不准确,偏少,主要是Accumulator 不支持并发。原创 2017-11-02 23:13:55 · 653 阅读 · 0 评论 -
spark submit 多个配置文件
多个配置文件 用逗号分开--file a.txt,b.txt原创 2017-11-02 23:07:24 · 2284 阅读 · 0 评论 -
spark 进程
History Server 上有一个相关进程,启动用户是spark,父进程是cloudera-scm-agent。提交spark程序的机器有一个进程,启动用户是提交程序的用户,这里是hdfs,父进程是1,系统内核进程。线程可以直接看到SparkSubmit相关信息。Executor(Streaming任务) 进程的启动过程:(yarn-cluster模式的Driver 也是同样过程。)原创 2017-09-21 22:11:32 · 1632 阅读 · 0 评论 -
spark 算子回调函数实现类中使用集合作为实例变量
在spark 算子中分配的空间,回到driver中,不被认可,因为自己分配的空间不是分布式的。比如以下代码中,到Driver中 获取ForeachImpl的map 永远是空map.原创 2017-09-22 22:15:03 · 491 阅读 · 0 评论 -
spark streaming 从kafka拉数据限速
--conf spark.streaming.kafka.maxRatePerPartition=10000 \单位数据条数原创 2017-09-22 22:01:44 · 3916 阅读 · 0 评论 -
rdd 操作的回调函数中不允许有其他rdd的操作
RDD transformations and actions can only be invoked by the driver原创 2017-09-22 22:01:02 · 934 阅读 · 0 评论 -
parquet file compress问题
AvroParquetOutputFormat.setOutputCompressorClass(job, SnappyCodec.class);SnappyCodec.class = org.apache.parquet.hadoop.codec.SnappyCodec 有效,但是查询时一个snappy文件会被多个mapper处理SnappyCodec.class = org.ap原创 2017-09-22 22:00:13 · 478 阅读 · 0 评论 -
ss+kafka 小坑
1.kafka 中堆积了很多数据,spark streaming 刚开始处理的时候会报OOM异常。 Java heap space spark.streaming.receiver.maxRate=1000 针对createStream生效spark.streaming.backpressure.enabled=true 不起作用 写在代码和作为启动参数shell中,都不起作用原创 2017-04-11 13:25:04 · 362 阅读 · 0 评论 -
createDirectStream 实现offset管理
public class MainBak2_ {private static Logger logger = LoggerFactory.getLogger(MainBak2_.class);private static KafkaCluster kafkaCluster = null;public static void main(String[] args)原创 2017-04-20 16:19:27 · 702 阅读 · 0 评论 -
kafka+ss create stream
createStream 只有一个executors 分多个(可配置)receiver 从kafka 拉数据,然后分发给其他executor执行。 这点通过thread dump得到论证。createDirectStream 每个executors都会从Kafka拉数据,每个executor 从kafka的一个分区拉数据。这点通过在kafka单个节点上执行iftop -n -i em1可以看到原创 2017-04-19 16:03:21 · 290 阅读 · 0 评论 -
spark submit脚本
location=`pwd`'/'class=com.ccd.Mainjars_path='libs'jars_file='spark_jar_file.txt'echo `ls -l $location$jars_path |awk 'NR>1 {print "'"$location"'""'"$jars_path"'""/"$9}'` > $jars_filesed -i原创 2017-04-19 10:04:09 · 488 阅读 · 0 评论 -
spark streaming 读取kafka数据问题
17/02/13 15:18:05 WARN consumer.ConsumerFetcherThread: [ConsumerFetcherThread-GROUP_ID_1_], Error in fetch kafka.consumer.ConsumerFetcherThread$FetchRequest@145c6c74. Possible cause: java.nio.BufferUn原创 2017-04-01 10:40:11 · 1636 阅读 · 0 评论 -
启动spark程序脚本示例
location=`pwd`'/'class=com.xxxjars_path='spark_libs'jars_file='spark_jar_file.txt'echo `ls -l $location$jars_path |awk 'NR>1 {print "'"$location"'""'"$jars_path"'""/"$9}'` > $jars_filesed -i原创 2017-04-01 10:31:01 · 537 阅读 · 0 评论 -
spark streaming 通过log4j 统一输出日志到kafka
1.log4j 自定义输出到kafka appenderpublic class KafkaLog4jAppender2 extends AppenderSkeleton {private Producer producer = null;private String topic = null;private String brokerList = null;priva原创 2017-12-24 23:10:49 · 3473 阅读 · 0 评论