
spark
LC900730
这个作者很懒,什么都没留下…
展开
-
Spark基础
Driver与WorkerDriver与Worker是两个重要角色。Driver程序是应用逻辑执行的起点,负责作业的调度,即Task任务的分发,而多个Worker用来管理计算节点和创建Executor并行处理任务。在执行阶段,Driver会将Task和Task所依赖的file和jar序列化后传递给对方的worker机器,同时Executor将对应数据分区的任务进行处理。Block-Manager管理原创 2017-12-10 17:55:50 · 316 阅读 · 0 评论 -
Spark语法
=>:scala中表示匿名函数line=>line.size:表示以=>操作符左边的部分作为输入,对其执行一个函数,并以=>操作符合右边代码执行结果为输出。此处表示以line为输入,line.size执行结果作为输出。 string=>int:将string对象映射为int。count:返回RDD中记录数目RDD缓存策略Spark最强大的功能之一就是把数据缓存在集群的内存中。Saprk广播变量和累原创 2017-12-11 00:07:53 · 1600 阅读 · 0 评论 -
Spark操作数据库
val conf=new SparkConf().setAppName("JdbcRDDDemo").setMaster("local[2]")val sc=new SparkContext(conf)def getConnection()={ Class.forName('com.mysql.jdbc.Driver').newInstance() DriverManager.g原创 2017-12-12 21:39:32 · 384 阅读 · 0 评论 -
IDEAJ中Scala打包提交Spark集群运行
最简单一个demo //读取hdfs,然后写入hdfspackage com.spark.FirstAppimport org.apache.spark.SparkContextimport org.apache.spark.SparkConfobject WordCountTest { def main(args: Array[String]) { val inputFile =原创 2017-12-11 22:27:33 · 1200 阅读 · 0 评论 -
Spark中错误
解决方法:在/etc/hosts/中添加 127.0.0.1 localhost原创 2017-12-11 22:23:50 · 566 阅读 · 0 评论 -
Spark编译安装
1.下载并安装maven 2.安装protubuf(需要解决依赖yum install -y gcc gcc-c++ make) 3.解压安装protobuf tar zxvf protubuf-2.5.0.tar.gz -C /usr/local/src/ cd /usr/local/src/protobuf-2.5.0 ./configure –prefix=/usr/local/pr原创 2017-12-10 22:09:52 · 374 阅读 · 0 评论 -
spark算子运算
使用spark-shell进入scala命令行中 ./bin/spark-shell – master spark://centos701:7077 这样才能拿到sc对象。运行sc.textFile(“hdfs://centos701:9000/wc”).flatMap(.split(” “)).map((,1)).reduceByKey(+).sortBy(_._2,false).collec原创 2017-12-10 13:46:04 · 613 阅读 · 0 评论 -
Spark
Spark目标是为基于工作集的应用(即多个并行操作重用中间结果的应用)提供抽象,同时保持MapReduce及其相关模型的优势特性,即自动容错、位置感知性调度和可伸缩性。每个RDD有5个主要属性 * 一组分片(Partition):即数据集的基本组成单位。对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。 * 一个计算每个分区的函数。每个RDD都会实现compute函数以达到这原创 2017-12-10 11:00:46 · 334 阅读 · 0 评论 -
Spark中算子
Value型Transformation算子处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型1.输入分区与输出分区一对一型2.输入分区与输出分区多对一型3.输入分区与输出分区多对多4.输出分区为输入分区子集型5.还有一种特殊的输入与输出分区一对一的算子类型:Cache型,对RDD分区进行缓存。1.输入分区与输出分区原创 2017-12-10 17:16:10 · 405 阅读 · 0 评论 -
Spark推荐系统中用户-物品模型
矩阵分解1.显式矩阵分解当要处理的那些数据是由用户所提供的自身的偏好数据,这些数据被称为显式偏好数据。 这类数据包括如物品的评级、赞、喜欢等用户对物品的评价。 这些数据可以转换为以用户为行、物品为列的二维矩阵。矩阵的每一个数据表示某个用户对特定物品的偏好。大部分情况下单个用户只会和少部分物品接触,所以该矩阵只有少部分数据非0(稀疏矩阵)如: Tom, Star Wars, 5 Jane, T原创 2018-01-02 17:59:49 · 1814 阅读 · 0 评论