- 博客(12)
- 收藏
- 关注

原创 写给算法小白的我们--动态规划
首先描述一下题目 :给你一根长度为n的绳子,请把绳子剪成整数长的m段(m、n都是整数,n>1并且m>1),每段绳子的长度记为k[0],k[1],…,k[m]。请问k[0]×k[1]×…×k[m]可能的最大乘积是多少?例如,当绳子的长度是8时,我们把它剪成长度分别为2、3、3的三段,此时得到的最大乘积是18。(2≤n≤60)求解:输入n --> 得出结果解题思路:解题前先...
2020-04-11 13:52:01
315

原创 关于Yarn-值得你看完的一篇文章
Yarn的诞生MapReduce1.x存在的问题 : 单点故障以及节点压力不易扩散等等, 这也就直接催生了Yarn的诞生Yarn的主要作用: 在不同的计算框架下,可以在同一个HDFS集群的数据中享受整体的资源调度,按资源需要进行分配,进而提高了集群资源的利用率!Yet Another Resource Ngotiator(另一种资源协调者)通用资源管理系统为上层应用提供统一的资源调度管...
2020-04-07 21:43:22
728

原创 MapReduce之Map,Reduce,Shuffle,Yarn的机制+流程图
MapReduce详细工作流程之Map阶段例如图中所示:我们要处理一个200M的文件切片: 在client提交之前,我们需要先将文件按照128M每块进行切片提交: 提交到本地工作环境过Yarn来处理提交时会把每个任务封装成一个job交给Yarn来处理,计算出MapTask数量,每个MapTask并行执行MapTask中执行Mapper的map方法,需要k,v作为键...
2020-04-07 16:57:32
396

原创 RPC协议+源码分析
------------------------------简述HDFS中的接口类型-----------------------------------HDFS中的接口类型分为三种:1.客户端相关接口 :(1)ClientProtocol(客户端与名字节点)(2)ClientDataNodeProtocol(客户端与数字节点之间)2.服务器端相关接口:(1)DataNodeProto...
2020-04-04 02:11:59
467
原创 推荐好文 : 2PC二阶段提交和3PC三阶段提交
一 . 2PC 二阶段提交协议算法(分为两阶段)一个阶段是请求阶段(表决)请求阶段: 协调作者通知参与者准备对事务进行提交或者取消事务, 这时参与者开始执行本地策略,写redo和undo日志,但是不进行提交,此时参与者将告诉协调者自己的决策:成功(参与者执行本地方法成功)或取消(执行本地方法故障)一个阶段是提交阶段(执行)提交阶段:跟据二阶段提交算法第一阶段的结果,成功或取消(如果...
2020-04-23 00:15:02
267
原创 数仓--Hive--总结之OLTP与OLAP
OLTP与OLAP的介绍数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观...
2020-04-09 10:45:26
1985
原创 数仓--Hive--总结之Hive常用命令以及作用
1 . 创建表-- 内部表create table a1(col1 string,col2 int) partitioned by(statdate int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';-- 外部表create external table b1(col1 string, col2 int) partitioned ...
2020-04-08 21:55:17
244
原创 数仓--Hive--总结之Hive架构原理
什么是HiveHive是由FaceBook开源用于解决海量日志文件的数据结构 ; Hive是基于Hadoop的一个数据仓库工具 , 可以将结构化的数据文件映射成一张表 , 并提供了类SQL的查询功能 , 底层计算的引擎默认是Hadoop的MapReduce(本质就是将sql转换为mapreduce程序),并且可以将引擎更换为Spark / Tez推荐学习博客 : 关于hive的那些事Hi...
2020-04-08 21:24:09
649
原创 Hive以及Hive分区的那些事
1.Hive 基本概念Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类似SQL的查询功能使用HQL作为查询接口使用HDFS存储使用MapReduce计算2. Hive的优缺点优点:减少开发人员的学习成本可以和impala/spark等共享数据支持UDF,自定义存储格式非常适合离线数据处理缺点:Hive实时性差Hive效率...
2020-04-08 18:12:31
487
原创 HDFS的高可用(HA)--------通俗易懂的分析
前言:(NN:NameNode ; DN:DataNode)HDFS的高可用(HA)也称为联邦HDFS,因为单个namenode在HDFS集群中可能发生单节点故障,一旦节点不可用,那么整个HDFS集群就会处于不可用状态.现在,在Hadoop2.x之后,出现了HDFS的高可用(HA)来解决上述问题,在HDFS集群中运行两个namenode节点,一个作为活动的NN(Active Namen...
2020-04-05 22:43:20
1059
原创 HDFS的读写操作流程
HDFS简介HDFS的特点:特点:a. 能运行在廉价的机器上b. 流式数据访问c.处理应对大规模数据集,可以进行批量处理d.一次写入,多次读取缺点:a. 不支持低延迟数据访问b.不能适应小文件的存储c.不支持并发写入d.不能随机修改,仅支持追加修改写操作流程:1.HDFS的client客户端调用Creat()方法创建写操作输出流2.向namenode发起写请求的询...
2020-04-05 01:58:22
681
原创 Fsimage和EditLog的合并过程
首先先介绍下Fsimage和EdiLog在HDFS中,有三个重要节点:NameNode的作用是维护和管理Fsimage和EditLog,进而实现对文件系统树和树下的所有目录以及文件的维护SecondaryNameNode的作用是为namenode创建检查点的同时自身保留一份数据, 也就是namenode的备份节点 , 以便于namenode后期的数据恢复DataNode用来存储和执行数据...
2020-04-04 12:25:58
866
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人