
spark深入学习
菜鸟也有梦想啊
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Virtual Box 安装centOS6.5
需要:win7电脑一台,Virtual Box 4.1,CentOS 6.5,SecureCRT,WinSCP 安装包会打包在一起在文末附上地址 CentOS6.5安装 1使用提供的CentOS 6.5镜像即可,CentOS-6.5-i386-minimal.iso。 2、创建虚拟机:打开Virtual Box,点击“新建”按钮,点击“下一步”,输入虚拟机名称为spark1,选择操作系统为...原创 2019-05-04 19:47:40 · 828 阅读 · 1 评论 -
查询学生成绩在80之上的学生信息
Java: package cn.spark.sql; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkCon...原创 2019-05-21 20:32:40 · 2939 阅读 · 0 评论 -
使用idea开发Scala的Wordcount程序并提交到spark集群中
开发准备,idea,配置了Scala的win10电脑,因为集群中的spark是1.6版本,所以需要Scala的版本为Scala2.10.5 接下来,将spark的包在win10解压,将lib目录下的 复制一份到一个不含中文的目录中,jar包会有两个,我们需要的是大的那个。 打开idea新建工程,按图选择 选择Scala版本,选择2.10.5的,因为之前安装过2.11的,需要选择到2...原创 2019-05-11 16:05:16 · 931 阅读 · 0 评论 -
spark宽依赖以及窄依赖
spark宽依赖以及窄依赖翻译 2019-05-15 22:35:31 · 172 阅读 · 0 评论 -
spark取一个班级的排名topN
java: package cn.spark.sparktest; import java.util.Arrays; import java.util.Iterator; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.ap...原创 2019-05-15 20:31:03 · 679 阅读 · 0 评论 -
spark取一串字的topN
Java: package cn.spark.sparktest; import org.apache.spark.SparkConf; import org.apache.spark.SparkContext; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; i...原创 2019-05-15 17:39:06 · 483 阅读 · 0 评论 -
自定义实现二次排序
Java: package cn.spark.sparktest; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaS...原创 2019-05-15 16:50:23 · 425 阅读 · 0 评论 -
使用idea开发Java的Wordcount程序并提交到spark集群运行
首先,我们需要确保集群已搭建好,win10安装idea,打开idea,选择创建maven项目 然后next,finish。 工程打开后再pom.xml中添加依赖,选择启动导入依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" ...原创 2019-05-11 15:39:06 · 3687 阅读 · 0 评论 -
基于排序机制的Wordcount程序
Java版: package cn.spark.sparktest; import org.apache.spark.SparkConf; import org.apache.spark.SparkContext; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; ...原创 2019-05-15 09:27:23 · 584 阅读 · 0 评论 -
Spark算子实战action(Scala)
1、reduce算子 package cn.spark.study.core import org.apache.spark.{SparkConf, SparkContext} object actionOpertion { def main(args: Array[String]): Unit = { reduce() } def reduce(): Unit ...原创 2019-05-14 19:46:00 · 378 阅读 · 0 评论 -
Spark算子实战action(Java)
1、reduce算子操作 package cn.spark.sparktest; import org.apache.spark.SparkConf; import org.apache.spark.SparkContext; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSpa...原创 2019-05-14 19:45:46 · 655 阅读 · 0 评论 -
Spark算子实战transforma(Scala)
map算子:将集合中的每个元素乘2 package cn.spark.study.core import org.apache.spark.{SparkConf, SparkContext} object transformationOpertion { def main(args: Array[String]): Unit = { map() } def map()...原创 2019-05-13 22:56:06 · 912 阅读 · 0 评论 -
Spark算子实战transforma(Java)
map算子:将集合中的每个元素乘2 package cn.spark.sparktest; import java.util.Arrays; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark...原创 2019-05-13 22:53:12 · 1416 阅读 · 0 评论 -
CentOS6.5安装spark
安装spark包 1、将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。 2、解压缩spark包:tar zxvf spark-1.3.0-bin-hadoop2.4.tgz。 3、更改spark目录名:mv spark-1.3.0-bin-hadoop2.4 spark 4、设置spark环境变量 vi ~/.bashrc ...原创 2019-05-05 22:23:25 · 711 阅读 · 0 评论 -
CentOS6.5安装Scala和kafka
安装Scala2.11.4 1、将scala-2.11.4.tgz使用WinSCP拷贝到spark1的/usr/local目录下。 2、对scala-2.11.4.tgz进行解压缩:tar -zxvf scala-2.11.4.tgz。 3、对scala目录进行重命名:mv scala-2.11.4 scala 4、配置scala相关的环境变量 vi ~/.bashrc export...原创 2019-05-05 21:57:39 · 380 阅读 · 0 评论 -
CentOS6.5安装zookeeper
安装zookeeper包 1、将zookeeper-3.4.5.tar.gz使用WinSCP拷贝到spark1的/usr/local目录下。 2、对zookeeper-3.4.5.tar.gz进行解压缩:tar -zxvf zookeeper-3.4.5.tar.gz。 3、对zookeeper目录进行重命名:mv zookeeper-3.4.5 zk。 4、配置zookeeper相关的环...原创 2019-05-05 21:32:22 · 871 阅读 · 0 评论 -
CentOS6.5安装hive
安装hive包 1、将apache-hive-0.13.1-bin.tar.gz使用WinSCP上传到spark1的/usr/local目录下。 2、解压缩hive安装包:tar -zxvf apache-hive-0.13.1-bin.tar.gz。 3、重命名hive目录:mv apache-hive-0.13.1-bin hive 4、配置hive相关的环境变量 vi ~/.ba...原创 2019-05-05 21:09:18 · 585 阅读 · 1 评论 -
CentOS6.5中安装Hadoop
安装Hadoop包 1、使用课程提供的hadoop-2.4.1.tar.gz,使用WinSCP上传到CentOS的/usr/local目录下。 2、将hadoop包进行解压缩:tar -zxvf hadoop-2.4.1.tar.gz 3、对hadoop目录进行重命名:mv hadoop-2.4.1 hadoop 4、配置hadoop相关环境变量 vi ~/.bashrc expor...原创 2019-05-05 20:38:44 · 780 阅读 · 2 评论 -
使用反射的方式将RDD转换为DataFrame
Java: package cn.spark.sql; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.functio...原创 2019-05-18 11:06:35 · 428 阅读 · 0 评论