
spark
文章平均质量分 85
炼器散人
乒乓球+节食=减肥
展开
-
spark 通过 RDD 从HDFS文件加载JSON文件到sql表
RDD定义RDD全称是Resilient Distributed Dataset, 是spark的核心抽象层,通过它可以读取多种文件,这里演示如何读取hdfs文件。所有spark的工作都是发生在RDD上,比如创建新的RDD,转换已有的RDD,对现有的RDD计算求得结果。RDD在spark中是不可变的(immutable)对象集合,RDD可以被划分成多个分区,存放在不同的节点。创建RDD有两种方法,原创 2015-11-10 23:39:05 · 6560 阅读 · 0 评论 -
spark sql 创建dataframes
Table of Contents1. spark sql2. SQLContext2.1. sql context是spark sql的所有功能入口点2.2. 通过spark context创建sql context2.3. hive context功能上多于sql context,未来sql context也会增加功能3. DataFrames3.1. 功能3.2. 创建DataFrames3原创 2015-11-11 22:43:42 · 3703 阅读 · 0 评论 -
spark-shell客户机设置
本文介绍spark集群客户机的设置安装程序spark集群是standalone集群在root帐号下,从spark集群的master上复制spark1.5.2的安装包到目录下,这样配置文件就已经复制过来,其实主要是zookeeper的配置。owner为root,group和other用户都是可以读和运行drwxr-xr-x 14 root root 4.0K Nov 16 11:48 spar原创 2015-11-19 15:56:53 · 3905 阅读 · 1 评论 -
Spark standalone集群安装
本文不会搞什么Yarn混搭Spark,只想建立一个纯粹的Spark环境,太多层东西搅和在一起,不靠谱。创建spark服务运行帐号# useradd smilesmile帐号就是spark服务的运行帐号。下载安装包在root帐号下,下载最新安装包,注意不是source,而是bin安装包,支持hadoop2.6以后的wget http://mirrors.cnnic.cn/apache/spark/s原创 2015-11-08 22:52:56 · 6982 阅读 · 0 评论