
Spark
codepeng
这个作者很懒,什么都没留下…
展开
-
速度Spark为什么能够把云计算大数据的速度提高到100倍以上
**1、基于内存计算**Hadoop**  shuffle 70%决定了效率 map->reduce 每次计算结果放到磁盘上(容错,容灾),io网络开销都比较大 **Spark**  shuffle 70%决定了效率 map->reduce 每次计算结果放到磁盘上(容错,容灾),io网络开销都比较大 Spark 当然对内存要求比较大 2、DAG 有向无环图 对数据的操作首先记录下来,暂时不执行(transform阶段),具体要结果的时候(reduceByKey)才会执行 3、任务调度机制( Schedule原创 2016-03-11 20:56:21 · 526 阅读 · 1 评论 -
How to use SparkSession in Apache Spark 2.0
转载:http://geek.youkuaiyun.com/news/detail/96754 Spark2.0中引入了SparkSession的概念,它为用户提供了一个统一的切入点来使用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Spark的难度也会大大降低。 本文就SparkSession在Spark2.0中的功能和地位加以阐释。 Spark翻译 2016-08-24 09:33:53 · 757 阅读 · 0 评论 -
Spark安装部署
一、准备工作 1、三台机器,配置hosts,并确保java环境jdk1.7.0_72,scala环境scala-2.11.4 192.168.5.231 ubuntu231 192.168.5.232 ubuntu232 192.168.5.233 ubuntu233 2、ubuntu231选择作为主节点Master 下载spark-1.3.1-bin-hadoop2.6安原创 2016-03-30 12:22:35 · 398 阅读 · 0 评论