- 博客(155)
- 资源 (12)
- 收藏
- 关注
原创 hadoop配置相关
core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://earth</value> <final>true</final> </property> &...
2020-01-03 15:33:42
528
原创 数据仓库的建模方法
数据仓库的建模方法一: 范式建模1、每个属性值唯一,不具有多义性; 2、每个非主属性,必须完全依赖于整个主键,而非主键的一部分; 3、每个非主属性不能依赖于其他关系的属性业务数据模型转向模型,同样也需要数据仓库的域模型,也叫概念模型,同时也要有域领域的逻辑模型数据仓库的域模型比业务系统的主题范围更加广泛数据仓库的逻辑模型需要从数据模型的逻辑中的抽象实体二:维度建模...
2018-03-02 23:31:32
1983
原创 transwarp Slipstream 简介之实战应用
Application间的资源隔离Exg:用户在基于某个App下的Stream时,只能在改App下查看该App下的StreamJob;当用户退出该App时,将无法查看其他App下的StreamJob只能查看当前App下的StreamJob。流上的统计Emily接到了老板的第一个任务:如何实现对网站访问次数做统计。假设源数据如下: 27.0.1.125,www.transwarp.io/home
2017-12-15 16:48:47
2178
原创 transwarp Slipstream 简介之高级功能
1. 监控告警Slipstream整合监控告警工具Alert4J,用于在流应用出问题的时候报错,支持邮件推送,也可以与微信、其 他监控工具整合。 Alert4J当前版本没有专门的配置界面,将在下个版本时支持。当前版本可以通过增加alert4j.properties文 件支持。下面是该文件的一般配置内容,以邮件推送为例: alert4j.service=email email.server.ho
2017-12-15 15:35:37
5142
原创 transwarp Slipstream 简介之事件驱动流处理
1. 从流表导数据到普通表SET streamsql.use.eventmode=true;CREATE STREAM s1(score INT, name STRING) TBLPROPERTIES("topic"="tps1","kafka.zookeeper"="tw- node127:2181", "kafka.broker.list"="tw-node127:9092");
2017-12-15 14:26:14
1299
原创 transwarp Slipstream 简介之运行时的管理
背压功能(Back Pressure)在Slipstream中,数据源发来的消息量大时,出于稳定性的考虑,有时会需要让receiver暂停接收发来的消 息,这个功能称为背压功能。设置方法如下:SET streamsql.enable.backpressure.receiver=true; 1 SET streamsql.backpressure.max.pendingJobs=<int>; 21 打
2017-12-15 14:11:25
851
原创 transwarp Slipstream 简介之权限管理
Slipstream权限管理简介 Slipstream采用基于SQL的权限管理: • 管理员可以管理角色(ROLE); • 用户或角色可以被授予或收回对不同数据对象的权限。 Slipstream的管理员角色的获取、角色管理以及对 DATABASE, VIEW 和 TABLE 这三个数据对象的权限 管理和Inceptor SQL一致。您可以直接查看《Transwarp Inceptor 使用手
2017-12-15 14:04:31
750
原创 transwarp Slipstream 简介之DDL|DML
Slipstream的优势:微批模式和事件驱动模式的(创建Stream的方式和简表语句基本相同,随心所欲) * 一体化极高的易用性(低门槛,只要会SQL就可以) * 性能提升(无需编码) * 产品化程度高(封装程度高) * 迁移成本低(基本不需迁移,Stream里面的数据可以直接通过查询insert到另一张表中)创建Stream及触发StreamJob的形式: 1.首先登入集群中的任意一个
2017-12-15 13:26:48
3138
转载 Hadoop 2.6.3动态增加/删除DataNode节点
Hadoop版本为:2.6.3一、动态增加DataNode1、准备新的DataNode节点机器,配置SSH互信,可以直接复制已有DataNode中.ssh目录中的authorized_keys和id_rsa2、复制Hadoop运行目录、hdfs目录及tmp目录至新的DataNode3、在新DataNode上启动hadoop..sbin/hadoop-daemon.sh start datanode
2017-10-28 07:11:02
473
转载 Namenode HA原理详解
Namenode HA原理详解社区hadoop2.2.0 release版本开始支持NameNode的HA,本文将详细描述NameNode HA内部的设计与实现。 一、为什么要Namenode HA?1. NameNode High Availability即高可用。2. NameNode 很重要,挂掉会导致存储停止服务,无法进行数据的读写,
2017-10-21 22:54:37
399
原创 Checkpoint原理剖析
Checkpoint是什么?Checkpoint,是Spark提供的一个比较高级的功能。有的时候啊,比如说,我们的Spark应用程序,特别的复杂,然后呢,从初始的RDD开始,到最后整个应用程序完成,有非常多的步骤,比如超过20个transformation操作。而且呢,整个应用运行的时间也特别长,比如通常要运行1~5个小时。在上述情况下,就比较适合使用checkpoint功能。因为,对于特别复杂的S
2017-10-21 21:58:24
2119
原创 BlockManager原理剖析与源码分析
BlockManager 会运行在 driver 和 Executor 上面,在 driver 上面的 BlockManager 是负责管理整个集群所有 Executor 中的 BlockManager,BlockManager 本身也是 Master-Slave 结构的,所谓Master-Slave 结构就是一切的调度和工作都是由 Master 去触发的,Slave本身就是专注于干活的,而
2017-10-21 21:55:55
579
原创 CacheManager原理剖析与源码分析
首先 RDD 是通过 iterator 来进行计算:CacheManager 会通过 BlockManager 从 Local 或者 Remote 获取数据直接通过 RDD 的 compute 进行计算,有可能需要考虑 checkpoint; 通过 BlockManager 首先从本地获取数据,如果获得不到数据的话会从远程获取数据 首先检查看当前的 RDD 是否进行了 CheckPoint ,如
2017-10-21 21:51:49
706
原创 Shuffle原理剖析与源码分析
普通Spark Shuffle操作第一个特点: 在Spark早期版本中,那个bucket缓存是非常非常重要的,因为需要将一个ShuffleMapTask所有的数据都写入内存缓存之后,才会刷新到磁盘。但是这就有一个问题,如果map side数据过多,那么很容易造成内存溢出。所以spark在新版本中,优化了,默认那个内存缓存是100kb,然后呢,写入一点数据达到了刷新到磁盘的阈值之后,就会将
2017-10-19 11:56:47
358
原创 TaskScheduler原理剖析与源码分析
def resourceOffers(offers: Seq[WorkerOffer]): Seq[Seq[TaskDescription]] = synchronized { var newExecAvail = false for (o <- offers) { executorIdToHost(o.executorId) = o.host executo
2017-10-16 15:54:32
814
原创 Hive数据倾斜
数据倾斜场景:少数key的数据量过于集中:由于聚合函数的操作造成jion类的倾斜处理倾斜:提前将倾斜的数据处理掉提高并行度,多分区多task对Group的聚合分段聚合局部整合对key随机打散将reduce端的聚合提前到map端
2017-10-15 09:25:59
352
原创 DAGScheduler原理剖析与源码分析
stage划分算法:必须对stage划分算法很清晰,知道自己的Application被划分了几个job,每个job被划分了几个stage,每个stage有哪些代码,只能在线上报错的信息上更快的发现问题或者性能调优。 //DAGscheduler的job调度的核心入口 private[scheduler] def handleJobSubmitted(jobId: Int, fina
2017-10-14 16:22:12
584
原创 job触发流程原理剖析与源码分析
以wordcount流程解析val lines = sc.textFile() def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { assertNotStopped() //hadoopFile()方法的调用,拿
2017-10-14 11:35:53
433
原创 Worker原理剖析与源码分析
Master会让worker启动一个Driver Runnner线程,启动Driver线程(launchDriver)。Master让Worker启动一个ExecutorRunner,去启动Executor进程并向Driver反向注册(launchExecutor)。case LaunchDriver(driverId, driverDesc) => { logInfo(s"Aske
2017-10-14 10:50:56
396
原创 Master原理剖析与源码分析:资源调度机制源码分析(schedule(),两种资源调度算法)
1、主备切换机制原理剖析与源码分析 2、注册机制原理剖析与源码分析 3、状态改变处理机制源码分析4、资源调度机制源码分析(schedule(),两种资源调度算法)*Driver的调度机制*//Master中的schedule()方法。 private def schedule(): Unit = { //standby的Master是不会被调用的 if (state != R
2017-10-13 21:52:24
382
原创 Master原理剖析与源码分析:Master状态改变处理机制原理剖析与源码分析
1、主备切换机制原理剖析与源码分析 2、注册机制原理剖析与源码分析3、状态改变处理机制源码分析4、资源调度机制源码分析(schedule(),两种资源调度算法)// Master中Driver状态改变的的信息 private def removeDriver( driverId: String, finalState: DriverState, except
2017-10-13 20:28:05
447
原创 Master原理剖析与源码分析:注册机制原理剖析与源码分析
1、主备切换机制原理剖析与源码分析 2、注册机制原理剖析与源码分析 3、状态改变处理机制源码分析 4、资源调度机制源码分析(schedule(),两种资源调度算法)
2017-10-13 19:20:30
386
原创 Master原理剖析与源码分析:主备切换机制原理剖析与源码分析
1、主备切换机制原理剖析与源码分析 2、注册机制原理剖析与源码分析 3、状态改变处理机制源码分析 4、资源调度机制源码分析(schedule(),两种资源调度算法)
2017-10-13 19:17:23
351
原创 Spark内核源码深度剖析:sparkContext初始化的源码核心
TaskSchedulerImplsparkContext中的创建createTaskScheduler(2000多行) private def createTaskScheduler( sc: SparkContext, master: String): (SchedulerBackend, TaskScheduler) = { import SparkMast
2017-10-13 15:00:53
371
原创 Spark内核源码深度剖析:SparkContext原理剖析与源码分析
1、TaskScheduler 2、DAGScheduler 3、SparkUI
2017-10-12 14:43:13
291
原创 Spark内核源码深度剖析:基于Yarn的两种提交模式深度剖析
Spark的三种提交模式1、Spark内核架构,其实就是第一种模式,standalone模式,基于Spark自己的Master-Worker集群。2、第二种,是基于YARN的yarn-cluster模式。3、第三种,是基于YARN的yarn-client模式。4、如果,你要切换到第二种和第三种模式,很简单,将我们之前用于提交spark应用程序的spark-submit脚本,加上--master
2017-10-12 14:01:29
288
原创 Spark内核架构
1、Application 2、spark-submit 3、Driver 4、SparkContext 5、Master 6、Worker 7、Executor 8、Job 9、DAGScheduler 10、TaskScheduler 11、ShuffleMapTask and ResultTask
2017-10-12 11:46:58
245
原创 thransformation操作
thransformation操作1、map:将集合中每个元素乘以2 2、filter:过滤出集合中的偶数 3、flatMap:将行拆分为单词 4、groupByKey:将每个班级的成绩进行分组 5、reduceByKey:统计每个班级的总分 6、sortByKey:将学生分数进行排序 7、join:打印每个学生的成绩 //使用join算子关联两个RDD,jion之后还是会根据key进
2017-10-12 11:19:29
312
转载 Kafka 高性能吞吐揭秘
本文将针对Kafka性能方面进行简单分析,首先简单介绍一下Kafka的架构和涉及到的名词: - Topic:用于划分Message的逻辑概念,一个Topic可以分布在多个Broker上。 - Partition:是Kafka中横向扩展和一切并行化的基础,每个Topic都至少被切分为1个Partition。 - Offset:消息在Partition中的编号,编号顺序不跨Partit
2017-10-02 10:23:42
486
原创 Hive中的简单窗口函数应用(TOPN)
窗口函数:lead lag FIRST_VALUE分析函数: RANK ROW_NUMBERTOPNrow number说明: row_number() over ([partition col1] [order by col2]) rank() over ([partition col1] [order by col2]) dense_rank() over ([partition col1
2017-09-23 16:34:48
4051
原创 hive 中的二级分区表和动态分区表
二级分区表/管理表: create table emp_part1( empno int, empname string, empjob string, mgrno int, birthday string, salary float, bonus float, deptno int ) partitioned by (day string,hour string)ro
2017-09-10 11:19:51
7835
原创 spark中的共享变量
Spark一个非常重要的特性就是共享变量。默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。Spark为此提供了两种共享变量,一种是Broadcast Variable(广播变量),另一种是Accumulator(累加变量)。Broadcast Va
2017-09-08 09:46:35
650
原创 spark 中RDD的持久化原理
spark 中RDD的持久化原理Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个RDD反复执行多个操作的场景,就只要对RDD计算一次即可,后面直接使用该RDD,而不需要反复计算多次该RDD。巧妙
2017-09-08 09:33:44
1099
原创 spark Job执行流程
spark Job执行流程从hdfs/local/集合中读取数据,放到worker的内存中。然后,work节点中的exector的task,再针对hdfs对应的linesRDD,依此进行我们的flatmap/map/reduceByKey等操作。
2017-09-07 09:09:43
418
原创 spark核心编程原理
spark核心编程原理首先定义初始的RDD,第一个RDD确定是从哪里读取数据,hdfs/local/还是程序中的集合定义RDD的计算操作,通过spark中的算子,map/flapmap/filter/groupBykey。这比map和reduce 的功能强大而又简洁。第三就是循环往复的过程,当第一个算子算完了以后,数据可能就会到了新的一批节点上,变成一个新的RDD,然后再次重复。针对所有的RD
2017-09-06 20:11:42
1193
原创 spark中 transformation和action介绍
spark中 transformation和action介绍Spark支持两种RDD操作:transformation和action。transformation操作会针对已有的RDD创建一个新的RDD;而action则主要是对RDD进行最后的操作,比如遍历、reduce、保存到文件等,并可以返回结果给Driver程序。例如,map就是一种transformation操作,它用于将已有RDD的每
2017-09-06 19:26:11
785
原创 spark standalone 集群配置
Spark Standalone是集群,是Spark自身所带的集群资源管理系统,进行任务调度 与YARN很类似,同样是主/从的分布式架构 主节点: Master(相当于ResourceManager)从节点: Worker(相当于NodeManager)park-env.sh主节点配置SPARK_MASTER_IP=blue01.mydomainSPARK_MASTER_POR
2017-09-06 18:40:01
377
原创 spark中RDD的基本操作方式
spark中RDD的基本操作方式读取本地文件val rdd = sc.textFile("file:///home/tom/a.txt")rdd.collect val rdd1=rdd.map(s=>Integer.parseInt(s)+1)rdd1.collectrdd1.saveAsTextFile("file:///home/tom/result")读取HDFS文件val
2017-09-06 18:22:44
2151
监控指标.pdf
2019-10-09
Elasticsearch调优实践.pdf
2019-10-09
sec_hdp_security_overview.pdf
2019-06-24
Hbase_目录结构.pptx
2019-06-19
Hbase_存储结构.pptx
2019-06-19
平安数据库试题
2018-10-13
数据仓库建模
2018-09-05
spark官方文档
2017-09-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人