
spark
dian张
在路上。。。
展开
-
spark初识
第一个列子wordcountpackage com;/** * Created by kcz on 2017/2/18. */import org.apache.spark.api.java.function.VoidFunction;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.原创 2017-02-18 14:10:45 · 728 阅读 · 0 评论 -
spark 排序 取top3
top3.txt24168103489import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.Funct原创 2017-12-15 14:49:27 · 1195 阅读 · 0 评论 -
spark streaming kafka wordcount
首先启动zookerperzkServer启动kafka.\bin\windows\kafka-server-start.bat .\config\server.properties 创建主题.\bin\windows\kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1 --partitions原创 2017-12-26 14:14:40 · 276 阅读 · 0 评论 -
spark stage 划分
stage分为两大类 mapstage,resultstage。 遇到宽依赖就划分为一个stage。之后每一个stage进行流水线的优化。原创 2018-01-25 11:24:22 · 241 阅读 · 0 评论 -
spark共同好友
数据格式如下A B C D E FB A C D EC A B ED A B EE A B C DF Apackage com;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import o原创 2018-01-10 16:33:33 · 1275 阅读 · 0 评论 -
spark算子理解
map:将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从而生成一个新的JavaRDDflatMap:比map多的功能是能在任何一个传入call方法的元素后面添加任意多元素,而能达到这一点,正是因为其进行传参是依次进行的mapPartitions:传参的方式是将整个RDD传入,然后将一个迭代器传出生成一个新的RDDkeyBy:将给从RDD传入的参数一个Ke...原创 2018-03-06 17:05:39 · 299 阅读 · 0 评论 -
Hadoop Windows安装
winutils.exe 放在bin下面 Hadoop.dll 放在bin下面 配置bin目录 HADOOP_HOME G:\work\hadoop-2.7.6 %HADOOP_HOME%\binhadoop-env.cmd set JAVA_HOME=D:\work\java1.8core-site.xml <configuration> <pro...原创 2018-04-25 11:38:23 · 313 阅读 · 0 评论 -
kafka了解
性能高效大致分析: 1.每条消息都被append到该Partition中,属于顺序写磁盘,因此效率非常高(经验证,顺序写磁盘效率比随机写内存还要高,这是Kafka高吞吐率的一个很重要的保证) 2.因为Kafka读取特定消息的时间复杂度为O(1),即与文件大小无关,所以这里删除过期文件与提高Kafka性能无关。选择怎样的删除策略只与磁盘以及具体的需求有关。另外,Kafka会为每一个Consumer原创 2018-05-04 11:21:18 · 186 阅读 · 0 评论 -
hadoop yarn
集群唯一的ResourceManager每个任务对应的ApplicationMaster每个机器节点上的NodeManager运行在每个NodeManager上针对某个任务的ContainerResourceManager:Global(全局)的进程NodeManager:运行在每个节点上的进程ApplicationMaster:Application-specific(应用级别)的...原创 2019-02-11 19:03:07 · 141 阅读 · 0 评论 -
HDFS的一些理解
HDFS是一个分布式存储文件系统 1.保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。一个机架上保存两个,其他机架保存一个。 NameNode 是名称管理节点:负责维护整个hdfs文件系统的目录树,以及每一个路径(文件)所对应的数据块信息(blockid及所在的datanode服务器)datanode是数据节点:每一个block都可以在多个datanode上存储多个副本(副原创 2017-11-27 15:56:32 · 367 阅读 · 0 评论 -
RDD计算过程
RDD的计算过程是在Driver端定义好的,之后分发至各计算节点,分为以下四步 1.在Driver节点上序列化代码 2.分发至各节点 3.在计算节点上反序列化 4.执行 如果是单机本地运行,那也是在独立的执行进程上运行,与Driver进程属于不同的进程,因此其变量作用域不能共享。原创 2017-12-20 10:24:46 · 1077 阅读 · 0 评论 -
运行hadoop wordcount
版本 hadoop2.6.5 java1.8 1。需要先创建输入目录以及输出目录,由于hadoop1.X版本与2.x不同, 下面是2.x的命令创建HDFS目录bin/hdfs dfs -mkdir -p /input将数据放入到HDFS目录bin/hdfs dfs -put /root/data /input提交程序到hadoophadoop jar WordCount.jar原创 2017-11-22 14:40:01 · 192 阅读 · 0 评论 -
map flatmap mappartition flatMapToPair四种用法区别
map: 我们可以看到数据的每一行在map之后产生了一个数组,那么rdd存储的是一个数组的集合JavaRDD<String[]> mapresult=lines.map()flatMap: 同map函数一样:对每一条输入进行指定的操作,然后为每一条输入返回一个对象 最后将所有对象合并为一个对象 JavaRDD<String> objectJavaRDD = lines.flatMap()map原创 2017-02-18 14:12:27 · 8420 阅读 · 0 评论 -
spark学习笔记
job stage driver名词解析 一个Job被拆分成若干个Stage,每个Stage执行一些计算,产生一些中间结果。它们的目的是最终生成这个Job的计算结果。而每个Stage是一个task集合,包含若干个task。Task是Spark中最小的工作单元,在一个executor上完成一个特定的事情。 驱动程序就是执行了一个Spark Application的main函数和创建Spark Co原创 2017-05-16 11:32:48 · 213 阅读 · 0 评论 -
spark wordcount 提交运行
spark-submit --master spark://127.0.0.1:7077 --class com.WordCountLocal /usr/local/soft/com.spark-1.0-SNAPSHOT.jar原创 2017-07-06 11:59:24 · 294 阅读 · 0 评论 -
安装hive遇到的错误
Hive2:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient解决办法hive.metastore.schema.verificationset 为false<property> <name>hive.metastore.schema.verification</nam原创 2017-11-29 11:43:25 · 260 阅读 · 0 评论 -
hive的理解
hive主要职责 把HQL翻译成Mapper-Reducer的代码,并且可能产生很多MapReduce的JOB。 把生成的MapReduce代码及相关资源打包成jar并发布到Hadoop集群中运行(这一切都是自动的)。 也就是说,通过hql可以实现map_reduce的代码。 hive如何访问HDFS的数据 Metastore就是保存这些元数据信息的。Hive通过访原创 2017-11-29 15:01:57 · 339 阅读 · 0 评论 -
spark streaming 获取数据方式
推模式(Flume push SparkStreaming) VS 拉模式(SparkStreaming poll Flume) 采用推模式:推模式的理解就是Flume作为缓存,存有数据。监听对应端口,如果服务可以链接,就将数据push过去。(简单,耦合要低),缺点是SparkStreaming 程序没有启动的话,Flume端会报错,同时会导致Spark Streaming 程序来不及消费的情况。原创 2017-11-30 15:37:05 · 804 阅读 · 0 评论 -
什么是RDD以及如何创建RDD
RDD全称Resilient Distributed DataSets,弹性的分布式数据集。是Spark的核心内容。 RDD是只读的,不可变的数据集,也拥有很好的容错机制。他有5个主要特性 - A list of partitions 分片列表,数据能为切分才好做并行计算 - A function for computing each split 一个函数计算一个分片 - A list of原创 2017-11-30 15:45:41 · 1247 阅读 · 0 评论 -
RDD 数据操作主要有两个动作
Transformations(转换):return a new RDD map(f : T ) U) : RDD[T] ) RDD[U]返回一个新的分布式数据集,由每个原元素经过func函数转换后组成 filter(f : T ) Bool) : RDD[T] ) RDD[T]返回一个新的数据集,由经过func函数后返回值为true的原元素组成 flatMap(f : T ) Seq[U])原创 2017-11-30 15:53:33 · 1649 阅读 · 0 评论 -
Impala presto hbase hive sparksql
Impala 技术点梳理http://www.cnblogs.com/TiestoRay/p/10243365.htmlImpala优点:实时性查询计算的中间结果不写入磁盘缺点:对于内存的依赖过于严重,内存溢出直接导致技术任务的失败不支持UDF,不支持UPDATE/DELTE操作,不支持同一SELECT中多个DISTINCT即在内存不足时将数据存入磁盘进行计算。这是在Impala...原创 2019-04-29 17:54:05 · 852 阅读 · 0 评论