spark
叫我三少爷
目前初学大数据
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0(Ljava/lang/String;JJJI)Ljava/io/F
转载自http://www.cnblogs.com/lovegmail/p/6053945.html项目中需要将本地文件拷贝到hdfs上,由于本人比较懒,于是使用擅长的Java程序通过Hadoop.FileSystem.CopyFromLocalFile方法来实现。 在本地(Window 7 环境)本地模式下运行却遇到了下述异常:An exception or error ca转载 2017-08-12 13:32:09 · 9087 阅读 · 14 评论 -
RDD数据去重(时间连续变化,断面以及客流连续不变的只保留第一条记录)
先将RDD按断面分组,生成新的RDDrdd.groupBy(s => (s.station_fore,s.station_back)).map(s=> cleandata(s)).flatMap(s=>s)//flatMap将数组展开,每条数据生成一条记录def cleandata(data:((String,String),Iterable[sample])):Array[sa...原创 2018-03-13 09:28:29 · 1621 阅读 · 0 评论 -
spark基础知识点
1. Spark是一个基于内存的用于处理、分析大数据的集群计算框架。他提供了一套简单的编程接口,从而使得应用程序开发者方便使用集群节点的CPU、内存、存储资源来处理大数据。2. Spark主要特点:1. 使用方便:spark提供了比MapReduce更简单的编程模型。Spark针对开发大数据应用程序提供了丰富的API,这些API比Hadoop MapReduce更易读懂。相...原创 2018-03-12 23:18:13 · 775 阅读 · 0 评论 -
iterable转rdd,iterable实现rdd操作的直接方法
/*** * iterable实现rdd操作的直接方法 * @param sparkSession * @param s * @return */ def iterable2rdd(sparkSession: SparkSession,s: Iterable[String]) = { sparkSession.sparkContext.pa...原创 2018-02-26 15:25:14 · 4759 阅读 · 0 评论 -
ERROR InsertIntoHadoopFsRelationCommand: Aborting job. ...please set spark.sql.crossJoin.enabled
下面是报错信息:18/01/18 10:28:00 ERROR InsertIntoHadoopFsRelationCommand: Aborting job.org.apache.spark.sql.AnalysisException: Cartesian joins could be prohibitively expensive and are disabled by default. T原创 2018-01-18 10:51:14 · 2778 阅读 · 0 评论 -
Exception in thread "main" java.lang.UnsupportedOperationException: No Encoder found for Any
Exception in thread "main" java.lang.UnsupportedOperationException: No Encoder found for Any- field (class: "java.lang.Object", name: "_1")- root class: "scala.Tuple3" at org.apache.spark.sql.catal原创 2018-01-17 11:43:26 · 5771 阅读 · 0 评论 -
[转]一些spark调优的经验
调优的经验总结1 输出信息在Spark应用里面可以直接使用System.out.println把信息输出出来,系统会直接拦截out输出到spark的日志。像我们使用的yarn作为资源管理系统,在yarn的日志中就可以直接看到这些输出信息了。这在数据量很大的时候,做一些show()(默认显示20),count() 或者 take(10)的时候会很方便。2 内存不够当任转载 2017-12-08 17:12:40 · 342 阅读 · 0 评论 -
Hadoop的性能问题
数据科学家在面对大规模数据分析时,经常需要面对两类问题(1)数据缓存:在应用数据挖掘算法时前,数据往往需要进行预处理操作,对数据中一部分不符合要求的数据进行不断的清洗过滤。而这些清洗工作又不是可以用简单的线性操作完成的。同时,算法计算过程中的中间结果也需要保留,以便后续操作使用。(2)算法迭代:数据科学家需要应用复杂的数据挖掘算法对数据进行分析,而这些算法往往需要复杂的运算逻辑和反原创 2017-11-19 11:28:03 · 615 阅读 · 0 评论 -
IDEA 运行调试Scala程序,做成jar包放到集群运行
为了让Scala运行起来还是很麻烦,为了大家方便,还是记录下来:1、首先我下载的是IDEA的社区版本,版本号为15.2、下载安装scala插件:2.1 进入设置菜单。 2.2 点击安装JetBrains plugin2.3 输入scala查询插件,点击安装说明:我的IDEA已经安装,所以这里面没有显示出来安装按钮,否则右边有显示绿色按钮。 3、新建Sc转载 2017-10-27 14:41:01 · 5207 阅读 · 0 评论 -
Hadoop和Spark是两个不同的分布式软件框架
Hadoop和Spark是两个不同的分布式软件框架。hadoop是一个MapReduce框架,在这个框架上可以运行支持map(),combine(),reduce()函数的作业。mapreduce的范式很适合单趟计算【先map,再reduce】,不过对于多趟算法的效率还是很低。spark不是一个mapreduce的框架,不过很容易用来支持mapreduce的框架的功能,他提供了一个适当原创 2017-09-22 13:52:12 · 633 阅读 · 0 评论 -
Spark代码调试遇到的错误Caused by: java.net.URISyntaxException: Relative path in absolute URI: file:
其实关键就在这一句:Caused by: java.net.URISyntaxException: Relative path in absolute URI: file:E:/spark/GPSline/spark-warehouse事实上我的本地并没有这个文件夹,所以就需要添加一个配置spark.sql.warehouse.dir,如果不添加上该配置,默认是找的user.dir下面的目录。val spark = SparkSession.builder().appNa原创 2017-08-28 15:19:27 · 7348 阅读 · 2 评论 -
spark循环读取日期文件数据
val TimeFormat = new SimpleDateFormat("yyyyMMdd")//设定日期的格式val year = "2016" val month = "01,02,03,04,05,06,07,08,09,10,11,12".split(",") val testpath = "E:\\Portable\\sibat\\spark\\testdata" ...原创 2018-04-12 14:19:04 · 1812 阅读 · 0 评论
分享