
spark
文章平均质量分 63
caiandyong
浮躁的心不会积淀出成功的土壤,清幽的路上风景更美好!
展开
-
spark安装
0.前提系统已经安装了:JDK Scala Hadoopspark的安装文件:spark-1.2.0-bin-hadoop2.4.tgz1.解压安装包caiyong@caiyong:~/setup$ sudo tar -zxvf spark-1.2.0-bin-hadoop2.4.tgz -C /opt/caiyong@caiyong:/opt$ sudo mv s原创 2015-03-09 19:39:16 · 827 阅读 · 0 评论 -
IntellijIDEA Build错误 Error:Abnormal build process termination: Build process started. Classpath:
IntellijIDEA 进行Build的时候出现的错误:Error:Abnormal build process termination:Build process started. Classpath: /home/hadoop/IntelliJ IDEA/IntelliJ IDEA 14.1/lib/jps-launcher.jar;/home/hadoop/JDK/lib/tools.jar;/home/hadoop/IntelliJ IDEA/IntelliJ IDEA 14.1/lib/o原创 2016-12-14 20:58:43 · 12069 阅读 · 0 评论 -
A master URL must be set in your configuration at org.apache.spark.SparkContext.<init>(SparkContext.
在Intellij idea中测试写好的Spark程序,运行时报如下错误:......Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties16/06/21 14:49:08 INFO SparkContext: Running Spark version 1.4.016/0原创 2016-06-22 21:15:05 · 9445 阅读 · 0 评论 -
欢迎使用优快云-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl原创 2016-07-06 19:15:53 · 312 阅读 · 0 评论 -
Spark提交任务到集群
提交Spark程序到集群与提交MapReduce程序到集群一样,首先要将写好的Spark程序打成jar包,再在Spark-submit下通过命令提交。Step1:打包程序 通说Intellij IDEA进行打包步骤:Step2:提交任务./spark-submit --class DT --master spark:master:7077 --exe原创 2016-07-05 14:54:36 · 4762 阅读 · 0 评论 -
Spark MLlib之决策树(DecisioinTree)
代码:/** * Created by hadoop on 16-7-3. */import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.tree.DecisionTree//import org.apache.spark.mllib.tree.model.DecisionTreeM原创 2016-07-05 14:31:03 · 5706 阅读 · 0 评论 -
搭建Spark集群
前提:系统已经安装了:JDK Scala Hadoop1.解压安装包到指定目录2.配置spark-env.shexport SCALA_HOME=/usr/scalaexport SPARK_HOME=/usr/sparkexport JAVA_HOME=/usr/java/jdkexport HADOOP_CONF_DIR=/usr/hadoop/etc/hado原创 2016-03-17 14:19:53 · 5031 阅读 · 0 评论 -
SparkContext类和SparkConf类
任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Spark shell会自动初始化一个SparkContext,在编程中的具体实现为:val conf = new S原创 2015-10-18 21:31:33 · 17007 阅读 · 1 评论 -
Spark的4种运行模式
Spark支持4种运行模式:本地单机模式 本地单机模式下,所有的Spark进程均运行于同一个JVM中,并行处理则通过多线程来实现。在默认情况下,单机模式启动与本地系统的CPU核心数目相同的线程。如果要设置并行的级别,则以local[N]的格式来指定一个master变量,N表示要使用的线程数目。例子:默认情况:caiyong@caiyong:/opt/spark$ ./原创 2015-10-18 21:29:40 · 8255 阅读 · 0 评论 -
RDD的创建
RDD可以从现有的集合创建:scala> val col = List("a","b","c","d")col: List[String] = List(a, b, c, d)scala> val rdd1 = col.papadTo par partition patch scala> val rdd1 = sc.p原创 2015-10-18 21:33:51 · 752 阅读 · 0 评论 -
Spark是什么?
Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。如果你熟悉Hadoop,那么你知道分布式计算框架要解决两个问题:如何分发数据和如何分发计算。Hadoop使用HDFS来解决分布式数据问题,MapReduce计算范式提供有效的分布式计算。类似的,Spark拥有多种语言的函数式编程API,提供了除map和reduce之外更多的运算符,这些操作是原创 2015-10-15 15:36:28 · 14951 阅读 · 0 评论 -
Spark转换算子和执行算子
在Spark编程模式下,所有的操作被分为转换(transformation)和执行(action)两种。 一般来说,转换操作是对一个数据集里的所有记录执行某种函数,从而使记录发生改变;而执行通常是运行某些计算或聚合操作,并将结果返回运行 SparkContext 的驱动程序。转换算子:reduce(func) 通过函数func聚集数据集中的原创 2016-12-13 19:26:16 · 4675 阅读 · 0 评论