
大数据梦工厂
向标杆直跑
这个作者很懒,什么都没留下…
展开
-
Spark听课笔记 (4)
第15课Spark用BlockManager来管理数据在磁盘/内存/Tacheyon上的位置,分多少片等等。例子:算一个文本文件每一行的长度val rdd = sc.textFile(filePath)val lines = rdd.map(line => line.length()) //map操作转换,每行统计字符数val sum = lines.reduce(_+_) /...原创 2019-02-22 05:58:28 · 140 阅读 · 0 评论 -
Spark听课笔记 (5)
第16课Spark RDD操作的种类transformaction (触发结果的作业,取结果)controller (checkpoint,persist, including cache)map(f:T=>U), U类型的集合产生新的RDDreduce(f:(T,T)=>T), 元素之间要符合交换律(没有数据Order)和结合律(必须能结合才能reduce嘛,比如相加...原创 2019-02-22 06:53:08 · 151 阅读 · 0 评论 -
Spark听课笔记 (1)
Thanks to DT 大数据梦工厂的王家林的公开课程“大数据IMF传奇行动”。王先生的VISION真的很大!“DT大数据梦工厂”团队第一个中国梦:免费为社会培养100万名优秀的大数据从业人员。每天早上4点起持续分享大数据、互联网+、O2O、工业4.0、微营销、移动互联网等领域的精华内容,帮助您和公司在DT时代打造智慧大脑,将生产力提高百倍以上!也感谢IT农夫的博文Spark RDD不是基于...原创 2019-02-19 06:42:10 · 154 阅读 · 0 评论 -
Spark听课笔记 (2)
第十四课Spark里面一个Stage里面跑1000个步骤,在默认情况下产生一次结果。在Hadoop MR中,会产生999次结果。Spark是分布式函数编程的抽象。RDD是只读分区的集合。不能让它立即计算,要不然就会产生中间结果。RDD的产生是Lazy的。开始Spark只做数据标记比如flatmap在构造中new RDD(this,。。。)把父RDD传了进去,每次构造RDD就...原创 2019-02-20 07:01:25 · 235 阅读 · 0 评论 -
Spark听课笔记 (3)
Spark的局限性:(1)粗粒度的更新操作,不支持记录级别的。(2)迭代的更新场景,与前面有个,更新很可能只更新部分数据,所以不合适。Flink支持迭代更新。Spark+kafka+flume能够替换Storm,只要能容忍分钟级的delay。也可以做到毫秒级。第15课第一个RDD是系统初始的数据,然后再做transformation方式有程序中的集合(collection)创建R...原创 2019-02-21 10:11:00 · 129 阅读 · 0 评论