
saprk学习
凤无痕
这个作者很懒,什么都没留下…
展开
-
HIVE常用函数
HIVE常用函数collect_set函数把同一分组的不同行的元素合成一个集合:示例:1、建表create table stud ( name string, area string, course string, score int);2、向原数据表中插入数据insert into table stud values('zhang3','bj','math',88);insert into table stud values('li4','bj','math',99);i原创 2020-09-07 14:51:19 · 123 阅读 · 0 评论 -
HBase(HA模式安装)
引言:在安装之前首先得确保hadoop,zookeeper安装成功,hadoop必须也是联邦HA模式安装搭建:1、下载2、解压3、修改配置文件(都在hbase安装目录的~/conf目录下)vim hdfs-site.xml<property> <name>hbase.rootdir</name> <description>下方的值如果是hadoop单namenode集群,配置写成hdfs://master:9000/hba原创 2020-07-03 20:00:16 · 412 阅读 · 0 评论 -
Spark学习_5(常用RDD学习_下)
combineByKeycombineByKey(createCombiner,mergeValue,mergeCombiners,partitioner,maoSideCombine)createCombiner:在第一次遇到key时创建组合器函数,将RDD数据集中的V类型转换成C类型(V=>C);mergeValue:合并值函数,同时在遇到相同的Key时,createCombiner的C类型与这次传入的V类型值合并成一个C类型值(C,V)=>CmergeCombiner:合并组合器函原创 2020-06-20 17:52:12 · 240 阅读 · 1 评论 -
Spark学习_5(常用RDD学习_上)
引言:该部分内容主要是学习常见的几个RDD算子,并且通过几个综合示例来加强理解。RDD是一个只读的,可分区的分布式数据集,可以全部内容或部分内容缓存在内存。RDD编程基础转换算子:每一次转换(Transformation)操作都会产生新的RDD,但是RDD的转换过程是惰性求值的,所以说转换操作只记录转换过程,不实际计算。只有发生行动操作时才进行计算,常用算子如下:fileter(func):筛选满足函数func的元素,并返回一个新的数据集val lines=sc.textFile(“file://原创 2020-06-20 15:50:35 · 190 阅读 · 0 评论 -
Spark学习_4(spark的启动方式解析)
引言:通过Spark-shell的交互式编程,有利于在spark学习的初级阶段练习和掌握基本的API,由于spark框架采用的scala语言就行开发的,所以使用spark-shell命令也会默认进入到scala的交互式执行环境中。spark启动命令在配置好了的系统中运行Spark-shell。就可以进入到交互式执行环境中。命令和参数如下:./bin/spark-shell --master master-url其中master-url表示spark的运行模式master-url含义原创 2020-06-20 15:45:27 · 336 阅读 · 0 评论 -
Spark学习_3(Spark集群YARN模式安装)
Spark on YARN引言:Spark 可以跑在很多集群上,有standalone,Yarn,mesos模式。 satandalone模式采用spark自带的集群资源管理器,效率较低。但不管你Spark采用的是何种集群,它的代码都是一样的,所以在做实验时,配置伪分布式也可以练习代码学习spark。有很多博客在搭建spark集群时将yarn模式和standalone模式混淆了。故本文将练习搭建在yarn模式上。1.配置安装在安装配置之前,需先完成hadoop的配置安装,具体安装方法可参考前文。原创 2020-06-16 16:03:36 · 733 阅读 · 0 评论 -
Spark学习_1(Hadoop集群HA模式安装)
1. 引言: 在Hadoop高可用搭建之前首先要准备好,hadoop,jdk,zookeeper的安装包,将安装包解压到合适的位置,本文设置路径位置位于/usr/java下,然后安装解压之后的文件夹名分别为hadoop,jdk1.8,zookeeper。具体路径位置可自由设置,当但你配置Hadoop中的xml文件时,文件路径必须对应好,否则肯定会出错的。 我这里用了三台虚拟机来搭建HA模式,各插件的位置如下图所示:其中master节点和slave1节点安装namenode,slave1和slave原创 2020-06-15 21:27:49 · 358 阅读 · 0 评论 -
Spark学习_2(Spark集群standalone模式安装)
Spark集群安装下载安装包下载安装包下载解压,进入官网根据Hadoop的版本下载对应版的 Spark:下载成功后通过rz命令上传该解压包到Linux系统中。rz将解压包移动到合适的文件夹中,我这里是移动到/usr/java中mv spark-2.4.5-bin-hadoop2.7.tgz /usr/java移动成功之后,进入到/usr/java目录中解压安装包,通过命令ls查看是否出现了解压成功之后的文件夹tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz原创 2020-06-14 14:55:37 · 220 阅读 · 0 评论