
spark
sinat_28472983
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark
spark是一个快速且通用的集群计算平台 上park是快速的 spark扩充了流行的mapreduce计算模型 spark是基于内存的计算 spark是通用的 spark的设计容纳了其他分布式系统拥有的功能:批处理,迭代式计算,交互查询和流处理等 优点:降低了维护成本 spark是高度开放的 提供了python,Java,Scala,sql的API和丰富的内置...原创 2018-11-22 22:59:44 · 395 阅读 · 0 评论 -
spark与Hadoop比较
spark与Hadoop的比较 Hadoop应用场景:离线处理,对时效性要求不高硬盘 spark应用场景:基于内存时效性要求高的场景,机器学习等领域 比较 spark不具有HDFS等存储能力,要借助HDFS等持久化数据...原创 2018-11-22 23:05:25 · 240 阅读 · 0 评论 -
常用SQL-on-Hadoop产品:Hive、SparkSQL、Impala、HAWQ
常用SQL-on-Hadoop产品的不足 1. Hive Hive是最老牌的一款Hadoop数据仓库产品,更够部署在所有Hadoop发行版本之上。它在MapReduce计算框架上封装一个SQL语义层,极大简化了MR程序的开发。直到现在,Hive以其稳定性依然赢得大量用户。 但是Hive的缺点也很明显——速度太慢。随着技术的不断进步,Hive的执行引擎也从最初的M...转载 2018-11-23 11:35:37 · 1640 阅读 · 0 评论