Spark大数据分析
整理Spark大数据分析相关的案例,性能优化
it小奋
这个作者很懒,什么都没留下…
展开
-
QUARTZ基于SPARK LAUNCHER 驱动SPARK离线作业
场景:不同业务下输出了若干Spark的离线任务,原有的方式我们是基于Linux的CRON任务来驱动,不好进行监管、日志不好收集、服务不集中、难于管理、不好配置、资源调度不灵活。SparkLauncher 提供了编程方式提交Spark应用的方式提交Spark应用程序,可以结合Springboot、Quartz等技术来管理Spark任务的提交行为。SparkLauncher APIhttp:/...原创 2018-12-21 16:19:48 · 1379 阅读 · 0 评论 -
Spark1.5.2写kafka数据到Elasticsearch入坑总结
概述:总结一下Spark1.5.2+Kafka 0.8+中使用Direct Approach(直接获取的方式)消费Kafka数据开发过程中遇到的各种问题和经验.整合Spring Spark开发中引入Spring可以方便的管理配置信息,数据源等,借助于Scala的单例特性可以创建一个独立的加载Spring IOC容器的工具类,剩下的事情就好办了,在配置文件中完成就可以了,并没有尝试去使用注解,...原创 2018-04-19 19:53:02 · 1218 阅读 · 0 评论 -
Spark1.5.2日志配置&数据文件清理
本节讨论Spark Standalone Mode 模式下的日志配置及作用运行过程中的历史文件的清理,避免线上环境的不合理配置导致大量的遗留数据填满磁盘导致节点服务不可用的情况。日志文件Spark原生支持使用log4j配置文件,针对于Spark集群的log4j日志文件应该放置在SPARK_HOME下的conf目录下使用log4j.properties进行配置,该配置文件针对于Spark集群中所有的...原创 2018-03-15 12:57:27 · 1618 阅读 · 0 评论 -
记一次Phoenix写入优化
场景描述现有大量CSV格式的数据记录存储在HDFS中,需要批量索引到Hbase以便于数据查询。限于Hbase的主键索引以及使用Hbase API的诸多不方便,最后采用了Phoenix+Hbase的技术架构。基于此方案数据的索引可通过Phoenix的SQL API、Spark RDD插件、以及Phoenix提供的批量加载工具” CsvBulkLoadTool”来实现数据写入,由于HDFS原始数据原创 2018-01-21 20:23:05 · 6966 阅读 · 0 评论 -
Spark 基础学习笔记
原创 2017-04-16 16:52:05 · 292 阅读 · 0 评论 -
Spark 架构-初识
前言:一直想总结关于Spark架构方面的知识,限于所学,到目前也只是浅尝辄止,一方面受限于自我架构意识的欠缺,其次受限于对Scala语言的理解,总之还在不断的探索,实践,和总结中. 本小结简单阐述下笔者现阶段对Spark 的了解,为后续进一步的深入学习做一些准备,而更多的是思想上的理解,而不是细节.概述:Spark必然听过,现阶段与Hadoop生态系统共同构成大数据的两大阵营,显然Hadoop原创 2017-04-03 15:01:19 · 431 阅读 · 0 评论 -
Spark + Kafka 集成 指南
最近在考虑Spark在消费Kafka 分区数据的过程中究竟反生了什么? 因为比较疑惑现有系统架构会不会遭遇这方面的瓶颈,遂决定去搞一把,一探究竟.参考:Spark API章节 http://spark.apache.org/docs/1.5.0/streaming-kafka-integration.html 及 http://spark.apache.org/docs/1.5.0/原创 2017-03-19 13:44:54 · 4385 阅读 · 0 评论