
spark
文章平均质量分 85
bigbigtree911
这个作者很懒,什么都没留下…
展开
-
Spark 官方文档(2)——集群模式
Spark版本:1.6.2 简介:本文档简短的介绍了spark如何在集群中运行,便于理解spark相关组件。可以通过阅读应用提交文档了解如何在集群中提交应用。组件spark应用程序通过主程序的SparkContext对象进行协调,在集群上通过一系列独立的处理流程运行。为了便于迁移,SparkContext可以支持多种类型的集群管理器(spark standalone、Yarn、Me翻译 2016-07-17 21:35:23 · 874 阅读 · 0 评论 -
Spark 官方文档(3)——Standalone 模式
Spark版本:1.6.2 Spark除了支持Mesos和Yarn集群管理,还提供了一种standalone简单的部署模式。你可以手动启动一个master和多个worker构建standalone集群或者通过Spark官方脚本(后面详细介绍)启动。standalone可以在单台机器运行。在集群上安装Spark Standalone在集群的每个节点安装同一版本的spark程序,用户可以下载Spar翻译 2016-07-19 11:30:55 · 2272 阅读 · 0 评论 -
Spark 官方文档(4)——Configuration配置
Spark可以通过三种方式配置系统:通过SparkConf对象, 或者Java系统属性配置Spark的应用参数通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量通过log4j.properties配置日志属性Spark属性Spark属性可以为每个应用分别进行配置,这些属性可以直接通过SparkConf设定,也可以通过set方法设定相关属性。 下面展示了在本地机使用翻译 2016-07-19 11:12:57 · 6897 阅读 · 0 评论 -
Spark 官方文档(5)——Spark SQL,DataFrames和Datasets 指南
Spark版本:1.6.2 概览Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQL进行交互,无论使用何种方式,SparkSQL使用统一的执行引擎记性处理。翻译 2016-07-21 11:33:49 · 8352 阅读 · 0 评论 -
spark 2.0.0特性 1.6.2特性
Spark 1.6.0新增Dataset API新增Dataset API,可以使用自定义对象和lambda函数。Dataset API扩展DataFrame API支持静态类型和运行已经存在的Scala或Java语言的用户自定义函数。对比传统的RDD API,Dataset API提供更好的内存管理,特别是在长任务中有更好的性能提升。性能提升提升读取parquet文件性能:Parquet是在Sp原创 2016-08-03 11:08:47 · 5122 阅读 · 0 评论