
spark
京河小蚁
不进则退
展开
-
为什么Spark官网上称其性能比Hadoop快100倍
背景Spark的特点1.减少磁盘IO随着实时业务的流行,Hadoop作为离线的高吞吐、低响应框架已不能满足这一需求。Hadoop MapReduce 的map端的中间结果会落地落地到磁盘,reduce端又需要从磁盘上读取中间结果,势必造成磁盘IO瓶颈。Spark在这一个环境则不一样,map端计算的中间结果存储到内存,reduce端在拉取中间结果的时候避免了大量的磁盘IO。Hadoop YA...原创 2020-04-04 09:13:10 · 1004 阅读 · 0 评论 -
Spark是什么?
目录什么是Spark?速度Spark数据处理速度秒杀MapReduce易用性通用性运行环境版本什么是Spark?Spark官网地址:http://spark.apache.org/Apache Spark™是一个用于大规模数据处理的统一分析引擎。速度Apache Spark使用最先进的DAG调度器、查询优化器和物理执行引擎,实现了批处理和流式数...原创 2020-01-02 23:51:20 · 327 阅读 · 0 评论 -
Spark源码包导入到idea
spark源码包导入到idea2019,利用maven管理依赖原创 2019-12-25 05:37:46 · 2326 阅读 · 0 评论