
spark
安然烟火
如果人没有理想,那和咸鱼有什么区别呢?
展开
-
linux shell监控日志文件更新时间的方式,管理spark sreaming服务,实现异常重启
1.将spark streaming 服务jar放到指定目录中,创建启动脚本,后台启动将日志重定向到指定目录nohup /opt/cloudera/parcels/SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904/lib/spark2/bin/spark-submit --class pj.streamservice.Main --master yarn --executor-memory 512M --total-executor-cores 1 --num-exe原创 2020-07-22 14:08:26 · 777 阅读 · 0 评论 -
cdh下spark2-yarn运行sparkstreaming获取kafka数据使用spark-streaming-kafka-0-10_2.11报错解决
报错问题20/07/15 17:20:51 INFO utils.AppInfoParser: Kafka version : 0.9.0-kafka-2.0.020/07/15 17:20:51 INFO utils.AppInfoParser: Kafka commitId : unknownException in thread "streaming-start" java.lang.NoSuchMethodError: org.apache.kafka.clients.consumer.Kaf原创 2020-07-15 18:04:07 · 618 阅读 · 0 评论 -
记一次spark streaming+kafka 运行时间不稳定调优历程
记一次spark streaming+kafka 运行时间不稳定调优历程问题现象首次使用spark streaming进行流式计算的时候遇到的一个问题,即spark streaming读取kafka消息进行流式计算, 但是在数据量比较大的情况下总会出现一些batch的process time比较长,但是大多数batch能在较短的时间内完成,而且全部的batch运行时间呈两个极端分布,要么很长要么很短。如上图,运行时间曲线出现多处尖峰,而我们期望的一般是连续平滑的曲线。先说明题主这边的运行环境状况:转载 2020-06-19 10:32:41 · 1470 阅读 · 0 评论 -
spark端口作用配置及修改
spark端口作用配置及修改Master节点的web端口是8080 仅在 standalone模式使配置方式在spark-env.sh加一行export SPARK_MASTER_WEBUI_PORT=8080work节点的web端口是8081配置方式在spark-env.sh加一行export SPARK_WORKER_WEBUI_PORT=8081Master通信端口是707...原创 2019-12-18 15:42:24 · 8304 阅读 · 0 评论 -
多线程提高spark streaming数据写入到数据库
多线程提高spark streaming数据写入到数据库需求集群环境资源有限,需要跑多个spark streaming任务,每个任务必须占据1核,cpu利用率很低,需要对数据进行实时统计更新到数据库mysql给业务实时展示,数据聚合程度较低每批数据对数据库交互过多,正常提交submit提交使用一个核只能单线程操作数据库,数据高峰会出现延迟现象,如何不增加资源情况提高效率?Spark Stre...原创 2019-12-16 15:23:54 · 996 阅读 · 0 评论 -
spark streaming job监控
定时检查spark streaming job 运行状态保存到mysql中1.python3保存数据到mysqlvi rlt_log_job_dinc.pyimport pymysqlimport loggingimport pandas as pdimport timeimport sysdb_name = ‘’db_user = '’db_pass = ‘*’db_ip ...原创 2019-09-27 15:17:37 · 402 阅读 · 0 评论