
大数据
Zen of Data Analysis
Discover yourself, 不念过往,不畏将来,发掘数据之美
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据分析平台的演进之路
1、石器时代大数据技术刚起步时平台架构很简单,数据流从日志通过RSYNC(linux系统下的数据镜像备份工具)流入到Hive,然后通过Hive SQL语句统计分析,结果导入到MySQL,最后形成报表展示。整个流程的驱动基于Shell脚本完成,报表系统和数据处理是利用Java实现。所有业务需求都是手工处理,所有报表都要写Java代码开发,这个给开发人员造成了很大的工作量,并且用户获取数据周期长,速度慢。2、铁器时代整合了所有数据、所有计算资源和服务框架,重新构建形成一个大数据平台框架。底层是大原创 2020-06-26 08:54:29 · 1680 阅读 · 1 评论 -
Spark Yarn Cluster模式运行流程
以wordCount功能实现为例:命令行:bin/spark-submit –class WordCount –master yarn –deploy-mode cluster ./WordCount.jar ./input ./outputSpark Yarn Cluster模式运行流程命令行-脚本执行- SparkSubmit- 内部调用Client类里面的main方法并执行...原创 2020-03-26 12:06:29 · 649 阅读 · 0 评论 -
Spark Yarn Client模式运行流程
以wordCount程序为例:命令行内容:bin/spark-submit –class WordCount –master yarn –deploy-mode client ./WordCount.jar ./input ./output运行流程命令行-脚本执行- SparkSubmit- 调用main(即Driver)-执行代码-初始化SC-任务切分-申请启动Executor...原创 2020-03-26 11:48:00 · 521 阅读 · 0 评论 -
Spark 内核
Spark内核Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等。Spark核心组件DriverSpark驱动器节点,用于执行Spark任务中的main方法:将用户程序转化为作业(job);在Executor之间调度任务(task);跟踪Executor的执行情况;通过UI展...原创 2020-03-26 10:51:42 · 258 阅读 · 0 评论 -
scala的timeStamp格式转换
源码如下:import java.text.SimpleDateFormatimport java.util.Dateobject timeStamp { def main (args : Array[String]) : Unit = { val timeStamp = "1584864313644".toLong val day =new Date(timeStam...原创 2020-03-22 16:30:17 · 1999 阅读 · 0 评论