
spark
京河小蚁
不进则退
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
为什么Spark官网上称其性能比Hadoop快100倍
背景 Spark的特点 1.减少磁盘IO 随着实时业务的流行,Hadoop作为离线的高吞吐、低响应框架已不能满足这一需求。Hadoop MapReduce 的map端的中间结果会落地落地到磁盘,reduce端又需要从磁盘上读取中间结果,势必造成磁盘IO瓶颈。Spark在这一个环境则不一样,map端计算的中间结果存储到内存,reduce端在拉取中间结果的时候避免了大量的磁盘IO。Hadoop YA...原创 2020-04-04 09:13:10 · 1021 阅读 · 0 评论 -
Spark是什么?
目录 什么是Spark? 速度 Spark数据处理速度秒杀MapReduce 易用性 通用性 运行环境 版本 什么是Spark? Spark官网地址:http://spark.apache.org/ Apache Spark™是一个用于大规模数据处理的统一分析引擎。 速度 Apache Spark使用最先进的DAG调度器、查询优化器和物理执行引擎,实现了批处理和流式数...原创 2020-01-02 23:51:20 · 350 阅读 · 0 评论 -
Spark源码包导入到idea
spark源码包导入到idea2019,利用maven管理依赖原创 2019-12-25 05:37:46 · 2390 阅读 · 0 评论