
Spark
一只小菜鸟(* ̄︶ ̄)
这个作者很懒,什么都没留下…
展开
-
spark maven项目加入scala
POM文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="h...原创 2019-12-31 15:49:37 · 260 阅读 · 0 评论 -
Spark 广播变量和计数器
spark广播变量 将外部变量发送到executor中使用。注意事项1、不能,因为RDD是不存储数据的。可以将RDD的结果广播出去。2、 广播变量只能在Driver端定义,不能在Executor端定义。3、 在Driver端可以修改广播变量的值,在Executor端无法修改广播变量的值。4、如果executor端用到了Driver的变量,如果不使用广播变量在Executor有多少ta...原创 2019-12-05 15:23:12 · 1041 阅读 · 0 评论 -
Spark RDD
RDD : Resilient Distributed Dataset,弹性分布式数据集 是spark的基本数据结构,是不可变数据集。RDD中的数据集进行逻辑分区,每个分区可以单独在集群节点进行计算。可以包含任何java,scala,python和自定义类型。 RDD是只读的记录分区集合。RDD具有容错机制。 创建RDD方式,一、并行化一个现有集合。 had...原创 2019-04-30 17:26:49 · 331 阅读 · 0 评论 -
Spark 集成hadoop ha
spark集成hadoop ha1.复制core-site.xml + hdfs-site.xml到spark/conf目录下xcall cp /soft/hadoop/etc/hadoop/core-site.xml /soft/spark/conf/xcall cp /soft/hadoop/etc/hadoop/hdfs-site.xml /soft/spark/conf/2...原创 2019-04-30 18:05:01 · 672 阅读 · 0 评论 -
Spark Spark Streaming集成kafka
1.启动kafka集群 a.启动zk b.启动kafka 2.引入pom.xml <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-str...原创 2019-05-07 14:38:46 · 133 阅读 · 0 评论 -
Spark streaming中的容错
如果executor故障,所有未被处理的数据都会丢失,解决办法可以通过wal(hbase,hdfs/WALs)方式 将数据预先写入到hdfs或者s3. 如果Driver故障,driver程序就会停止,所有executor都是丢失连接,停止计算过程。解决办法需要配置和编程。 1.配置Driver程序自动重启,使用特定的clustermanager实现。 2.重启时...原创 2019-05-07 14:48:14 · 248 阅读 · 0 评论 -
Spark 机器学习
机器学习 1.监督学习 有训练数据集。规范数据。合规数据。产生推断函数.然后对新数据应用函数。 director actor edit Label 2.非监督学习 没有训练数据。 分组。 3.推荐 协同过滤. 猜测你喜欢. 电商。Spar...原创 2019-05-07 14:56:42 · 797 阅读 · 0 评论 -
Spark 集群
Spark集群部署模式 1.local 2.standalone 3.mesos 4.yarnSpark闭包处理 分区列表,function,dep Option(分区类, Pair[Key,Value]),首选位置。 运行job时,spark将rdd打碎变换成task,每个task由一个executor执行。执行 之前,spark会进...原创 2019-05-07 15:33:23 · 291 阅读 · 0 评论 -
Spark master HA 高可用模式
standalone和mesos集群部署情况: 使用zk连接多个mast er并存储state(只对standalone和mesos有用),master主要负责调度。[配置][spark/conf/spark-env.sh]export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspar...原创 2019-05-07 16:42:11 · 830 阅读 · 0 评论 -
Spark scala 文件编译后找不到问题
在Pom文件中添加如下插件解决: <build> <sourceDirectory>src/main/java</sourceDirectory> <plugins> <plugin> <groupId>org.apache....原创 2019-04-30 16:46:00 · 526 阅读 · 0 评论 -
Spark 脚本分析
[start-all.sh] sbin/spark-config.sh sbin/spark-master.sh //启动master进程 sbin/spark-slaves.sh //启动worker进程 [start-master.sh] sbin/spark-config.sh ...原创 2019-04-29 16:26:37 · 157 阅读 · 0 评论 -
Spark 集群模式
Spark 集群搭建 a)复制spark目录到其他主机 b)配置其他主机的所有环境变量 [/etc/profile] SPARK_HOME PATH c)配置master节点的slaves [/soft/spark/conf/slaves] ...原创 2019-04-29 16:25:42 · 337 阅读 · 0 评论 -
Spark RDD持久化
spark上下文package com.mao.scalaimport org.apache.spark.{SparkConf, SparkContext}object WordCountDemo { def main(args: Array[String]): Unit = { val conf = new SparkConf(); conf.setAppN...原创 2019-05-03 20:39:30 · 211 阅读 · 0 评论 -
Spark SQL
Hive //hadoop mr sql pheonix //hbase之上构建sql交互过程 该模块能在spark运行sql语句。 DataFrame //收据框.表. SparkSQL //SQL | DataFrame API. 使用类似SQL方式访问hadoop,...原创 2019-05-03 21:59:59 · 1168 阅读 · 0 评论 -
Spark JDBC操作mysql
package com.mao.scala.java;import org.apache.spark.SparkConf;import org.apache.spark.sql.*;import java.util.Properties;/** * spark jdbc操作mysql */public class SQLJDBCJava { public static...原创 2019-05-03 22:07:32 · 765 阅读 · 0 评论 -
Spark 整合hive
1.hive的类库需要在spark worker节点。 默认spark中包含了hive类库 2.复制core-site.xml(hdfs) + hdfs-site.xml(hdfs) + hive-site.xml(hive)三个文件 到spark/conf下。 cp /soft/hive/conf/hive-site.xml /soft...原创 2019-05-03 22:11:09 · 280 阅读 · 0 评论 -
Spark 分布式SQL引擎,ThriftServer
1.准备: 分发 [/soft/hadoop/etc/hadoop/] core-site.xml hdfs-site.xml [/soft/hive/conf/] hive-site.xml 三个文件到所有worker节点的spark/conf目录下 2.启动spark...原创 2019-05-03 22:48:28 · 295 阅读 · 0 评论 -
Spark Streaming Dstream Receiver
1.介绍 是spark core的扩展,针对实时数据流处理,具有可扩展、高吞吐量、容错. 数据可以是来自于kafka,flume,tcpsocket,使用高级函数(map reduce filter ,join , windows), 处理的数据可以推送到database,hdfs,针对数据流处理可以应用到机器学习和图计算中。 内部...原创 2019-05-04 13:20:11 · 232 阅读 · 0 评论 -
Spark 安装
Spark:Lightning-fast cluster computing。 快如闪电的集群计算。 大规模快速通用的计算引擎。 速度: 比hadoop 100x,磁盘计算快10x 使用: java / Scala /R /python 提供80+算子(操作符),容易构建并行应用。 通用: 组合SQL ,流计算 +...原创 2019-04-29 15:35:11 · 176 阅读 · 0 评论 -
Spark 实现word count
API [SparkContext] Spark程序的入口点,封装了整个spark运行环境的信息。 代表到Spark集群的连接,可以创建RDD、累加器和广播变量. 每个JVM只能激活一个SparkContext对象,在创建sc之前需要stop掉active的sc。 [RDD] resilient dist...原创 2019-04-29 16:18:47 · 2742 阅读 · 0 评论 -
Spark API
[SparkContext] 连接到spark集群,入口点. [HadoopRDD] 读取hadoop上的数据, [MapPartitionsRDD] 针对父RDD的每个分区提供了函数构成的新类型RDD. [PairRDDFunctions] 对偶RDD函数类。 可用于KV类型RDD的附加...原创 2019-05-03 14:46:29 · 317 阅读 · 0 评论