
Hadoop&Spark
文章平均质量分 90
_well_s
这个作者很懒,什么都没留下…
展开
-
HDFS原理总结
1. HDFS优缺点1.1 优点1.1.1高容错性可以由数百或数千个服务器机器组成,每个服务器机器存储文件系统数据的一部分;数据自动保存多个副本;副本丢失后检测故障快速,自动恢复。1.1.2适合批处理移动计算而非数据;数据位置暴露给计算框架;数据访问的高吞吐量;运行的应用程序对其数据集进行流式访问。1.1.3适合大数据原创 2017-07-29 17:49:02 · 5155 阅读 · 0 评论 -
YARN原理总结
问题导读1.hadoop1.x中mapreduce框架与yarn有什么共同点?2.它们有什么不同点?3.yarn中有哪些改变?4.yarn中有哪些术语?yarn是比较难懂的一个地方,也是很重要的一个组件,不止hadoop使用yarn,spark,storm也可以使用yarn。因此yarn的理解是非常重要的。如果刚开始学习,其实还是挺难懂的。因为很多的概念比较抽象原创 2017-07-29 18:33:19 · 1280 阅读 · 0 评论 -
Spark原理总结
一、Spark 是什么 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用分布式并行计算框架。Spark拥有hadoop MapReduce所具有的优点,但和MapReduce 的最大不同之处在于Spark是基于内存的迭代式计算——Spark的Job处理的中间输出结果可以保存在内存中,从而不再需要读写HDFS,除此之外,一个MapRe转载 2017-07-30 12:55:05 · 915 阅读 · 0 评论 -
Map-Reduce和Spark
Overview回顾python中的函数式编程python中的map和reduce函数用map写并行代码Map-Reduce编程模型用python写spark程序ReadingIntroduction to Parallel Computing, Blaise Barney, Lawrence Livermore National Laboratory.De翻译 2017-07-30 14:29:43 · 824 阅读 · 0 评论