
spark
Gpwner
这个作者很懒,什么都没留下…
展开
-
Spark2.1.1<IDEA使用SBT或者Maven构建spark程序>
版本信息spark2.1.1scala 2.11.81.SBT 新建SBT项目 选择scala:2.11.8 添加依赖:spark_core name := "SBTTest"version := "1.0"scalaVersion := "2.11.8"libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1原创 2017-06-15 23:23:16 · 1858 阅读 · 0 评论 -
spark<SecurityException: Invalid signature file digest for Manifest main attributes>
driver打包程Jar包提交到集群上之后抛了以下异常:Exception in thread "main" java.lang.SecurityException: Invalid signature file digest for Manifest main attributes at sun.security.util.SignatureFileVerifier.processImp原创 2017-09-18 09:58:23 · 2043 阅读 · 0 评论 -
spark<CommunicationsException: Communications link failure>
driver在本地跑的好好的,打包提交打spark集群中却抛了以下异常:Exception in thread "main" com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failureThe last packet sent successfully to the server was 0原创 2017-09-18 09:49:49 · 2326 阅读 · 0 评论 -
spark<log4j配置控制台日志级别输出>
如果想要输出INFO级别以上的日志做如下配置,在src/main/resources/下新建一个log4j.properties文件,文件中的内容如下:# Set everything to be logged to the consolelog4j.rootCategory=INFO,consolelog4j.appender.console=org.apache.log4j.ConsoleA原创 2017-09-18 09:39:54 · 1197 阅读 · 0 评论 -
spark<Dataframe 直接写入hive表>
import org.apache.spark.rdd.RDDimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.sql.{DataFrame, SQLContext, SaveMode}import org.apache.spark.{SparkConf, SparkContext}object Main {原创 2017-09-15 14:35:47 · 7096 阅读 · 0 评论 -
spark<java.nio.channels.ClosedChannelException>
因为在提交spark任务的时候没有指定节点的内存的大小,采用了默认的配置导致发生了一下的异常: (106 + 45) / 200]17/09/15 10:04:46 ERROR client.TransportClient: Failed to send RPC 7807032932563004737 to dn129.avcdata.com/192.168.20.129:40006: java原创 2017-09-15 10:20:51 · 4151 阅读 · 0 评论 -
spark<java.io.NotSerializableException>
我新定义了一个类(tools.UCleaner),放到Spark中做数据清洗的时候,跑了一个任务未序列化的异常Exception in thread "main" org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.ensureSerializable(原创 2017-09-13 11:56:32 · 2823 阅读 · 0 评论 -
Spark2.1.1<scala版本不兼容问题>
今天在拆分以下数据集的时候area,perimeter,compactness,lengthOfKernel,widthOfKernel,asymmetryCoefficient,lengthOfKernelGroove15.26,14.84,0.871,5.763,3.312,2.221,5.2214.88,14.57,0.8811,5.554,3.333,1.018,4.95614.29,原创 2017-06-14 20:43:50 · 8372 阅读 · 2 评论 -
Spark<集群搭建Centos7.3+Spark2.1.1>
本集群搭建依赖于:VMware Workstation12 ProSecureCRT 7.3Xftp 5CentOS-7-x86_64-Everything-1611.isohadoop-2.8.0.tar.gzjdk-8u121-linux-x64.tar.gzspark-2.1.1-bin-hadoop2.7.tgz有关虚拟机和Hadoop的安装点击这里 IP role 172.17.原创 2017-06-11 21:24:29 · 1608 阅读 · 0 评论 -
Spark2.1.1<standalone模式下的FileNotFoundException>
2017年05月02日spark发布了稳定版2.1.1,据说是2.0+版本的spark替代了之前的JVM然后自己实现了一套JVM,说是更加节省内存了,于是满心欢喜的下载了 安装完成之后跑了Wordcount例子,代码是: val lines=sc.textFile(“file:///root/file.txt”) lines.flatMap(.split(” “)).map((, 1)).r原创 2017-06-10 15:47:06 · 591 阅读 · 0 评论 -
Spark2.1.1<Spark架构综述>
内容来自书籍《Spark技术内幕:深入解析Spark内核架构设计与原理》spark架构如下图所示: Driver是用户编写的数据处理逻辑,这个逻辑中包含用户创建的SparkContext。SparkContext是用户逻辑与Spark集群主要的交互接口,它会和Cluster Manager交互,包括向它申请计算资源等。Cluster Manager负责集群的资源管理和调度,现在支持Standalo转载 2017-06-30 19:19:35 · 626 阅读 · 0 评论 -
Spark2.1.1<SparkSQL中常用四大连接>
环境:Spark 2.1.1 准备工作persons.csv: +----+--------+---------+--------------+--------+ |Id_P|LastName|FirstName| Address| City| +----+--------+---------+--------------+------原创 2017-06-30 18:42:33 · 2683 阅读 · 0 评论 -
Spark2.1.1<spark写入Hbase的三种方法性能对比>
测试条件以下是我的PC信息 依赖:<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2.1.1</version> </dependency>原创 2017-06-21 11:21:19 · 12819 阅读 · 0 评论 -
Spark2.1.1<性能调优Spark运行时jar从yarn端访问>
1.为什么要让运行时Jar可以从yarn端访问spark2以后,原有lib目录下的大JAR包被分散成多个小JAR包,原来的spark-assembly-*.jar已经不存在每一次我们运行的时候,如果没有指定 spark.yarn.archive or spark.yarn.jars Spark将在安装路径下的Jar目录,将其所有的Jar包打包然后将其上传到分布式缓存(官网上的原话是:To ma原创 2017-06-19 10:55:12 · 3635 阅读 · 0 评论 -
Maven<打包Scala程序打不进class文件和依赖的解决办法>
新建一个Maven项目,开开心心地写完scala程序,在本地调试没什么问题,要打包部署在spark集群上运行的时候却出错了,说找不到主类java.lang.ClassNotFoundException: neu.WordCount at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java原创 2017-06-18 23:43:58 · 4973 阅读 · 1 评论 -
Spark2.1.1<通俗易懂理解combineByKey-combineByKeyWithClassTag>
combineByKey是Spark中一个比较核心的高级函数, groupByKey,reduceByKey的底层都是使用combineByKey实现的,这是我要弄清楚它的原因1.6.0版的函数名更新为combineByKeyWithClassTagcombineByKey会调用combineByKeyWithClassTag,源码 def combineByKey[C]( creat原创 2017-06-16 18:26:06 · 1938 阅读 · 2 评论 -
spark<实现SQL中的GroupBY后取组内TopN>
实现的思路是使用Spark内置函数,combineByKeyWithClassTag函数,借助HashSet的排序,此例是取组内最大的N个元素一下是代码:createcombiner就简单的将首个元素装进HashSet然后返回就可以了;mergevalue插入元素之后,如果元素的个数大于N就删除最小的元素;mergeCombiner在合并之后,如果总的个数大于N,就从一次删除最小的元素,知道Hash原创 2017-11-06 10:34:08 · 3654 阅读 · 0 评论