wuyue_fighting-优快云博客

原创 flume与kafka应用场景解析

今天也要努力学习flume与kafka是同级的一个消息传输通道：但是有各自的定位1：kafka定位消息队列，它可以有许多的生产者和消费者，并可以共享一个主题topic队列。而flume是定位数据传输，相比下，flume是一个专用工具被设计为旨在往HDFS，HBASE发送数据。它对H...

2019-09-07 21:07:37 995

转载 redis持久化方式

redis持久化的几种方式1、前言Redis是一种高级key-value数据库。它跟memcached类似，不过数据可以持久化，而且支持的数据类型很丰富。有字符串，链表，集合和有序集合。支持在服务器端计算集合的并，交和补集(difference)等，还支持多种排序功能。所以Redis也可以被看成是一个数据结构服务器。Redis的所有数据都是保存在内存中，然后不定期的通过异步方式保存到...

2019-09-05 20:58:28 241

原创 hive分层设计详解

今天也要努力学习源数据层（ODS）：此层数据无任何更改，直接沿用外围系统数据结构和数据，不对外开放；为临时存储层，是接口数据的临时存储区域，为后一步的数据处理做准备。细节层（DW）：为数据仓库层，DW 层的数据应该是一致的、准确的、干净的数据，即对源系统数据进行了清洗（去除了杂质）后的...

2019-08-28 21:07:27 5342 1

原创抽象类与接口的详解

今天也要努力学习抽象类是什么：抽象类不能创建实例，它只能作为父类被继承。抽象类是从多个具体类中抽象出来的父类，它具有更高层次的抽象。从多个具有相同特征的类中抽象出一个抽象类，以这个抽象类作为其子类的模板，从而避免了子类的随意性。(1) 抽象方法只作声明，而不包含实现，可以看成是没有实现...

2019-08-25 20:49:07 292

原创 MapReduce的map数量控制详解

今天也要努力学习在MapReduce过程中默认情况下是一个block块对应一个切片，一个切片对应一个map的，但是事实上map的数量应该是由具体的业务场景来决定的（一个块中对应了多行数据的情况下,为了提升性能可以考虑适当提高map的数量，而在有些情况比解码操作要求文件必须达到某个值时就应该考虑...

2019-08-18 14:23:26 1976

原创 Hive执行sql时的工作流程详解

今天也要努力学习简单的说下hive：hive是基于hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转化为Mapreduce任务进行运行。hive实现：hive是基于Hadoop的一个数据仓库工具，由Driver组...

2019-08-17 11:17:57 5122 1

原创 hadoop中重要的配置文件详解

今天也要努力学习1.slaves 2.core-site.xml 3.hdfs-site.xml4.mapred-site.xml:（注意要将mapred-site.xml.template重命名为 .xml的文件）5.Yarn-Site.xml ...

2019-08-15 21:02:32 929

原创大数据端口详解汇总

今天也要努力学习常见端口汇总：Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalN...

2019-08-15 19:44:30 773

原创常用且有用的sql练习（还在更新中。。。）

今天也要努力学习sql语句的掌握对于从事数据工作或者开发工作又或者是无关人员都是非常重要的，因为多掌握一门技术你就有机会做更多的事，哈哈。我练习的数据库是mysql（数据库都是大同小异的）提供练习的数据： --学生表CREATE TABLE `Student`( `s_id` V...

2019-08-10 20:36:05 207

原创 zookeeper部署奇数台以及脑裂问题解析

今天也要努力学习官方文档是这么解释zookeeper的：它是一个分布式服务框架，是Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。一：为什么zookeepe配置为奇数台？...

2019-08-10 14:56:51 1057

原创 SparkOnYarn的好处

今天也要努力学习开发上我们选择local[2]模式生产上跑任务Job，我们选择Spark On Yarn模式，将Spark Application部署到yarn中，有如下优点：1.部署Application和服务更加方便只需要yarn服务，包括Spark，Storm在内的多种应用程序不要要自带服...

2019-08-10 11:29:10 1408

原创 Scala闭包详解

今天也要努力学习闭包是一个函数，返回值依赖于声明在函数外部的一个或多个变量。闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。如下面这段匿名的函数：val multiplier = (i:Int) => i * 10 函数体内有一个变量 i，它作为函数的一个参数。如下...

2019-08-08 20:48:58 288

转载关于贝叶斯算法的学习

今天也要努力学习简介贝叶斯定理是18世纪英国数学家托马斯·贝叶斯（Thomas Bayes）提出得重要概率论理论。以下摘一段 wikipedia 上的简介：所谓的贝叶斯定理源于他生前为解决一个“逆概”问题写的一篇文章，而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之...

2019-08-07 16:50:49 254

原创 Kafka+SparkStreaming整合详解

今天也要努力学习SparkStreaming+Kafka1.SpringStreaming+Kafka 接受数据和发送数据(1)SparkStreaming 接受kafka方式基于Received的方式基于DirectKafkaStreamingDirectKafkaStreaming...

2019-08-07 16:21:46 560

原创 spark-kryo序列化方式

今天也要努力学习在Spark中，主要有三个地方涉及到了序列化：在算子函数中使用到外部变量时，该变量会被序列化后进行网络传输。将自定义的类型作为RDD的泛型类型时（比如JavaRDD<SXT>，SXT是自定义类型），所有自定义类型对象，都会进行序列化。因此这种情况下，也要求自定义的类必须实现Seria...

2019-08-02 16:22:12 656

原创自定义累加器代码解析

今天也要努力学习 package com.bjsxt.scalaspark.core.examplesimport org.apache.spark.util.AccumulatorV2import org.apache.spark.{SparkConf, SparkContext}/** ...

2019-08-02 09:58:30 1035

原创 map与flatmap的区别

今天也要努力学习def func_map(): data = ["hello world", "hello fly"] data_rdd = sc.parallelize(data) map_rdd = data_rdd.map(lambda s: s.split(" ")) ...

2019-08-01 20:25:47 353

原创 SparkSQL创建dataframe的方式大全

今天也要努力学习一：通过读取json格式的文件创建dataframe：package com.bjsxt.scalaspark.sql.DataSetAndDataFrameimport org.apache.spark.sql.{DataFrame, SparkSession}/** ...

2019-07-26 22:37:26 621

原创 Spark内存管理详解

Spark内存管理Spark执行应用程序时，Spark集群会启动Driver和Executor两种JVM进程，Driver负责创建SparkContext上下文，提交任务，task的分发等。Executor负责task的计算任务，并将结果返回给Driver。同时需要为需要持久化的RDD提供储存。Driver端的内存管理比较简单，这里所说的Spark内存管理针对Executor端的内存管理。...

2019-07-24 19:42:44 285

原创 SaprkShuffle详解

今天也要努力学习SparkShuffle1.SparkShuffle概念reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value，然后生成一个新的RDD，元素类型是<key,value>对的形式，这样每一个key对应一个聚合起来的...

2019-07-24 19:40:51 292

原创 SparkHA搭建与Spark历史服务器搭建

今天也要努力学习1.Master的高可用原理Standalone集群只有一个Master，如果Master挂了就无法提交应用程序，需要给Master进行高可用配置，Master的高可用可以使用fileSystem(文件系统)和zookeeper（分布式协调服务）。fileSystem只有存储功能，可以存储M...

2019-07-24 14:58:01 268

原创 Spark Shuffle 参数调优详解

今天也要努力学习SparkShuffle调优配置项如何使用？1.在代码中,不推荐使用，硬编码。new SparkConf().set(“spark.shuffle.file.buffer”,”64”)2.在提交spark任务的时候，推荐使用。spark-submit --conf spark.s...

2019-07-24 12:19:38 222

原创 Spark的资源申请与任务调度

今天也要努力学习粗粒度资源申请和细粒度资源申请粗粒度资源申请(Spark）在**Application执行之前，将所有的资源申请完毕，当资源申请成功后，才会进行任务的调度，当所有的task执行完成后，才会释放这部分资源。**优点：在Application执行之前，所有的资源都申请完毕，每一个tas...

2019-07-21 14:44:08 923

原创 spark的三种算子详解

今天也要努力学习1.Transformations转换算子定义：Transformations类算子是一类算子（函数）叫做转换算子，如map,flatMap,reduceByKey等。Transformations算子是延迟执行，也叫懒加载执行。需要被action类算子进行触发执行。算子举例：f...

2019-07-20 16:52:50 1119

原创 Spark中map与mapPartitions的区别详解-附测试

今天也要努力学习map与mapPartitions 两者的主要区别是作用对象不一样：map的输入变换函数是应用于RDD中每个元素，而mapPartitions的输入函数是应用于每个分区。假设一个rdd有10个元素，分成3个分区。如果使用map方法，map中的输入函数会被调用10次；而使用...

2019-07-20 16:18:10 3654 1

原创 spark利用yarn与standalone提交任务的方式解读

今天也要努力学习一：利用Standalone进行任务提交1：Standalone-client提交任务方式提交命令：./spark-submit --master spark://node1:7077 --class 包名.类名 ../jar包路劲参数（task数量）或者./spark-su...

2019-07-19 22:15:08 295

转载 Hadoop HA HDFS启动 NameNode启动失败解析

今天也要努力学习作者大哥：me2xp https://www.linuxidc.com/Linux/2016-03/129437.htm看日志真的很重要！！！！！！！！！！一、问题描述HA按照规划配置好，启动后，NameNode不能正常启动。刚启动的时候 jps 看到了NameNode，但是隔了...

2019-07-19 15:37:35 7228

原创隐式转换中隐式参数与隐式函数的使用

今天也要努力学习隐式参数的使用:要定义多个隐式参数时，需要使用柯里化函数。隐式转换作用就是：当调用方法时，不必手动传入方法中的隐式参数，Scala会自动在作用域范围内寻找隐式值自动传入。(1). 同类型的参数的隐式值只能在作用域内出现一次，同一个作用域内不能定义多个类型一样的隐式值。(2). imp...

2019-07-18 08:46:22 423

原创 HDFS读写流程的详解与重点分析

今天也要努力学习HDFS=====分布式文件系统hdfs的写流程：取某一时点的一个block块进行分析：1：hdfs的客户端（client）首先需要向namenode发起写的请求，调用Distributed Filesystem的create方法进行联系，请求是要写入到NameNode的虚拟目录树...

2019-07-13 22:39:01 296

wuyue的博客