
Spark
nuc2015
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
什么是RDD
什么是RDD,RDD的transformation和action到底是什么原创 2018-08-30 20:56:01 · 4312 阅读 · 0 评论 -
spark-submit提交jar包到spark集群上
一、首先将写好的程序打包成jar包。在IDEA下使用maven导出jar包,如下:在pom.xml中添加以下插件 <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-...原创 2018-09-18 10:08:42 · 19252 阅读 · 2 评论 -
JdbcRDD在多个分区情况下是如何读取数据的
package nuc.sw.testimport java.sql.{Connection, DriverManager}import org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutable/** * creat...原创 2018-09-17 15:25:43 · 613 阅读 · 0 评论 -
深入理解java虚拟机(第一篇)
在eclipse中查看内存溢出的案例:package main;import java.util.ArrayList;import java.util.List;/** * @author 刘卫卫 * 2018年9月12日下午3:22:49 */public class HeapOOM { public static void main(String[] args) {...原创 2018-09-12 16:25:07 · 175 阅读 · 0 评论 -
什么是shuffle,如何区分操作是否还有shuffle
将一份数据分开发送到好几个地方的操作还有shuffle原创 2018-09-16 12:10:17 · 3349 阅读 · 3 评论 -
RDD算子2
http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.htmlhttp://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html//让我们先用分区标签打印出RDD的内容scala> val z = sc.parallelize(List(...原创 2018-09-03 21:44:14 · 201 阅读 · 0 评论 -
RDD算子1
RDD 是一个分布式的可变集合#常用的Transformation(即转换,延迟加载)#通过并行化scala集合创建RDDscala> val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8,9,10))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at par...原创 2018-09-03 21:43:01 · 166 阅读 · 0 评论 -
深入理解RDD
什么是RDD?RDD 是一个分布式的可变集合常用的Transformation(即转换,延迟加载)通过并行化scala集合创建RDD数据既可以放到内存当中,又可以放在磁盘当中五个特点:1、一系列分区组成2、每一个分区上都会有一个函数作用在上面3、RDD和RDD之间存在依赖关系4、如果RDD里面装的是Key-value类型,有分区器5、如果是从hdfs这种文件系统中创建RDD,会...原创 2018-09-11 22:03:58 · 353 阅读 · 0 评论 -
spark中的reduceByKey VS groupByKey
在编写spark程序时,reduceByKey和groupByKey都可以实现分组聚合的功能,但是在实际中使用哪一个更好呢。还记的在写MapReduce程序的时候,每一台机器上的数据会经过shuffle,分发到属于自己的机器上进行汇总计算。这个过程是通过网络进行IO操作的,是很费资源的。所以在MapReduce中可以在map端先进行combiner,也就相当于执行了一次reduce,然后再进行...原创 2018-08-31 20:22:43 · 442 阅读 · 0 评论 -
RDD常用的transformation及分区详解
RDD常用的transformation及分区详解常用的transformation(转换,延迟加载)创建RDD有两种方法:1.通过driver端,也就是spark-shell端通过集合来创建。2.可以通过集群上的数据来创建。原创 2018-08-30 21:52:48 · 420 阅读 · 0 评论 -
Spark2.2.0集群搭建学习笔记
一、Spark简介:Saprk可以运行在hadoop的yarn或Mesos,standalone,clude(资源管理框架)上,使用的文件系统可以是HDFS,也可以使Cassandra,HBase等。 二、环境搭建:如果想学习spark最好的方法是看官方文档。spark仅仅是一个通用的负责计算的框架,有很多内置的算子。而在mapreduce中需要在map中提供排序规则他可以生成一个...原创 2018-08-21 19:31:37 · 815 阅读 · 0 评论 -
Spark+zookeeper搭建高可用集群学习笔记
Master结点存在单点故障,所以要借助zookeeper,至少启动两台Master结点来实现高可用,配置方案比较简单先停止所有Spark服务,然后安装zookeeper,并启动zookeeper集群规划:主机名 IP地址 启动程序 master.hadoop 192.168.1.2 zookeeper、master、worker slave1.hado...原创 2018-08-21 21:09:18 · 5742 阅读 · 1 评论 -
Spark集群中的Master和Worker之间的通信原理
worker是如何知道master在哪台机器上的?在配置文件中也没有配。配置文件如下:export JAVA_HOME=/apps/jdk1.8.0_171 export SCALA_HOME=/apps/scala-2.11.7 #export HADOOP_HOME=/apps/hadoop-2.8.0/ #export HADOOP_CONF_DIR=/apps/h...原创 2018-08-23 19:19:24 · 3992 阅读 · 0 评论 -
WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources
提交Spark任务时,报错:WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources原创 2018-08-28 19:27:58 · 2443 阅读 · 0 评论 -
Spark提交任务的命令
bin/spark-submit --master spark://master.hadoop:7077,slave1.hadoop:7077 --executor-memory 512mb --total-executor-cores 4--class nuc.sw.test.ScalaWordCount /root/spark-1.0.jar hdfs://master.hadoop:90...原创 2018-08-28 19:47:29 · 4342 阅读 · 0 评论 -
Spark+HDFS实现wordCount
首先启动环境:1、启动hdfs[root@master conf]# start-dfs.sh2、然后启动spark[root@master spark-2.2.0]# sbin/start-all.sh --master spark://master.hadoop:7077[root@master spark-2.2.0]# bin/spark-shell --mast...原创 2018-08-30 15:04:27 · 853 阅读 · 0 评论 -
Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative
Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: D:%5CHadoop%5Chdfs%5Cwordcount%5Cinput%5Ca.txt原创 2018-09-18 10:12:38 · 2863 阅读 · 1 评论