大数据
gbsmd
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark源码分析笔记(一)环境准备
已有环境hdfs+spark+yarn一.环境准备 JDK+Scala+Spark二.WordCount单词计数进入spark-shellval lines=sc.textFile("../README.md",2)val words=lines.flatMap(line=>line.split(" "))val ones=words.map(w=>(w,1))...原创 2018-07-17 22:27:04 · 182 阅读 · 0 评论 -
Spark源码分析笔记(二)Spark设计理念与基本架构
一. hadoop1.0 hadoop2.0 Spark对比hadoop1.0贡献了三个部分:运行时环境:任务管理者jobTracker ,任务的执行者taskTracker 编程模型:MapReduce,开发者完成Map函数和Reduce函数 数据处理引擎:Map任务,数据的过滤分类;Reduce任务,数据的汇聚但是也有很多不足:可扩展性差:jobTracker既负责资源管理又...原创 2018-07-28 18:36:35 · 335 阅读 · 0 评论 -
Spark源码分析笔记(三)SparkContext初始化之一SparkConf
val conf = new SparkConf().setAppName(appName).setMaster(master)val sc = new SparkContext(conf)val lines = sc.textFile("../README.md",2)一般一个RDD开始这样写,配置conf参数,然后用conf作为入参初始化SparkContext。SparkCon...原创 2018-08-05 22:30:38 · 795 阅读 · 0 评论 -
SparkSql的一些问题记录
1.在sparksql打开时(beeline),查询一张表是有数据的,如果此时该表有清洗任务执行,并重新写入数据,那么会出现如下情况 a.在2.0.2版本,如果此时继续查询数据,那么查询结果为没有记录;如果执行refresh table tablename,那么再次查询可以查询到最新数据;如果关闭beeline之后,再重新查询此表,也会查询到最新数据; b.在2.2.1版本,此...原创 2018-11-19 22:02:07 · 1290 阅读 · 0 评论
分享