
spark
G_scsd
决胜于千里之外,运筹于帷幄之中。
展开
-
hadoop上搭建spark
一、spark安装包链接:https://pan.baidu.com/s/1RyJ2I4wUlVxgaGJXtIsBNw提取码:rrzz复制这段内容后打开百度网盘手机App,操作更方便哦二、spark配置1. 上传并解压缩spark tar -xvf spark-2.4.4-bin-hadoop2.7.tgz 移动到 /usr/local/目录下 mv spark-2.4.4-bin-hadoop2.7 /usr/local/spark...原创 2020-05-24 22:40:58 · 588 阅读 · 0 评论 -
RDD操作之combineByKey
combineByKey combineByKey 接收三个参数,分别为createCombiner、mergeValue、mergeCombiners createCombiner:用于产生累加器键的初值。如lambda x:(x,1),实现输入RDD[(K,V)]中V到结果RDD[(K,C)]中C的转换,V 和...原创 2018-04-07 14:46:40 · 626 阅读 · 1 评论 -
RDD之键值配对的连接变换
连接变换 join 内连接 rightOuterJoin 右连接 leftOuterJoin 左连接 cogroup 全连接 subtractByKey 减连接cogroup 和subtractByKey 得到的是一个迭代器,要再将它循环输出多次,直至得到值 ...原创 2018-04-07 15:10:41 · 649 阅读 · 0 评论 -
RDD之累加器
先给大家看个列子对比两种方法求和的结果,发现我们定义的函数来求和和我们使用累加器的结果一样,没错,累加器的作用就是对每一个RDD元素进行操作,累加器和分区有关系,其中的关系可以将accumulator(0)中0这个参数改变下或者设置分区来查看不同结果,这里就不一一说了,感兴趣的可以试下,设置分区可这样写:sc.partitions(2),这样分区就设置成两个分区了,但这还是和我们的实际分区有关,加...原创 2018-04-07 15:19:47 · 1203 阅读 · 0 评论 -
SparkSQL和dataFrame简介和用法
SparkSQL 1. Spark中原生的RDD是没有数据结构的 2. 对RDD的变换和操作不能采用传统的SQL方法 3. SparkSQL应运而生并并建立在shark上,伯克利实验室spark生态环境的组件之一 4. SHARK最初很大程度上依赖性HIVE如语法解析器、查询优化器等 5....原创 2018-04-10 16:32:46 · 783 阅读 · 0 评论 -
spark介绍及RDD操作
Spark Spark的主要部件 Spark core:包含spark的主要功能。功能跟RDD有关的API都出自spark core Spark SQL:spark 中用于结构化数据处理的软件包。用户可以在spark环境下用SQL语言处理数据 Spark streaming:spark 中用于处理流数据的部件 MLlib :spark中...原创 2018-04-04 21:21:08 · 1413 阅读 · 0 评论 -
SparkRDD、SchemaRDD(dataFrame)和SparkSQL 之间的关系
普通数据--》SparkRDD-》SchemaRDD(dataFrame)-》sparkSQL 1. 普通数据的获取 首先我们要先获取到一些数据,有以下这些方法: a) 导入本地的文件 这种方法我也不会用,但是有这种,我们一般用后面那几种 ...原创 2018-04-22 17:56:02 · 2908 阅读 · 0 评论