有这么个程序员-优快云博客

原创写给算法小白的我们--动态规划

首先描述一下题目 :给你一根长度为n的绳子，请把绳子剪成整数长的m段（m、n都是整数，n>1并且m>1），每段绳子的长度记为k[0],k[1],…,k[m]。请问k[0]×k[1]×…×k[m]可能的最大乘积是多少？例如，当绳子的长度是8时，我们把它剪成长度分别为2、3、3的三段，此时得到的最大乘积是18。(2≤n≤60)求解:输入n --> 得出结果解题思路:解题前先...

2020-04-11 13:52:01 349

原创关于Yarn-值得你看完的一篇文章

Yarn的诞生MapReduce1.x存在的问题 : 单点故障以及节点压力不易扩散等等, 这也就直接催生了Yarn的诞生Yarn的主要作用: 在不同的计算框架下,可以在同一个HDFS集群的数据中享受整体的资源调度,按资源需要进行分配,进而提高了集群资源的利用率!Yet Another Resource Ngotiator(另一种资源协调者)通用资源管理系统为上层应用提供统一的资源调度管...

2020-04-07 21:43:22 777

原创 MapReduce之Map,Reduce,Shuffle,Yarn的机制+流程图

MapReduce详细工作流程之Map阶段例如图中所示:我们要处理一个200M的文件切片: 在client提交之前,我们需要先将文件按照128M每块进行切片提交: 提交到本地工作环境过Yarn来处理提交时会把每个任务封装成一个job交给Yarn来处理,计算出MapTask数量,每个MapTask并行执行MapTask中执行Mapper的map方法,需要k,v作为键...

2020-04-07 16:57:32 447

原创 RPC协议+源码分析

------------------------------简述HDFS中的接口类型-----------------------------------HDFS中的接口类型分为三种:1.客户端相关接口 :(1)ClientProtocol(客户端与名字节点)(2)ClientDataNodeProtocol(客户端与数字节点之间)2.服务器端相关接口:(1)DataNodeProto...

2020-04-04 02:11:59 524

原创推荐好文 : 2PC二阶段提交和3PC三阶段提交

一 . 2PC 二阶段提交协议算法(分为两阶段)一个阶段是请求阶段(表决)请求阶段: 协调作者通知参与者准备对事务进行提交或者取消事务, 这时参与者开始执行本地策略,写redo和undo日志,但是不进行提交,此时参与者将告诉协调者自己的决策:成功(参与者执行本地方法成功)或取消(执行本地方法故障)一个阶段是提交阶段(执行)提交阶段:跟据二阶段提交算法第一阶段的结果,成功或取消(如果...

2020-04-23 00:15:02 325

原创数仓--Hive--总结之OLTP与OLAP

OLTP与OLAP的介绍数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观...

2020-04-09 10:45:26 2069

原创数仓--Hive--总结之Hive常用命令以及作用

1 . 创建表-- 内部表create table a1(col1 string,col2 int) partitioned by(statdate int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'；-- 外部表create external table b1(col1 string, col2 int) partitioned ...

2020-04-08 21:55:17 274

原创数仓--Hive--总结之Hive架构原理

什么是HiveHive是由FaceBook开源用于解决海量日志文件的数据结构 ; Hive是基于Hadoop的一个数据仓库工具 , 可以将结构化的数据文件映射成一张表 , 并提供了类SQL的查询功能 , 底层计算的引擎默认是Hadoop的MapReduce(本质就是将sql转换为mapreduce程序),并且可以将引擎更换为Spark / Tez推荐学习博客 : 关于hive的那些事Hi...

2020-04-08 21:24:09 708

原创 Hive以及Hive分区的那些事

1.Hive 基本概念Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类似SQL的查询功能使用HQL作为查询接口使用HDFS存储使用MapReduce计算2. Hive的优缺点优点:减少开发人员的学习成本可以和impala/spark等共享数据支持UDF,自定义存储格式非常适合离线数据处理缺点:Hive实时性差Hive效率...

2020-04-08 18:12:31 521

原创 HDFS的高可用(HA)--------通俗易懂的分析

前言:(NN:NameNode ; DN:DataNode)HDFS的高可用(HA)也称为联邦HDFS,因为单个namenode在HDFS集群中可能发生单节点故障,一旦节点不可用,那么整个HDFS集群就会处于不可用状态.现在,在Hadoop2.x之后,出现了HDFS的高可用(HA)来解决上述问题,在HDFS集群中运行两个namenode节点,一个作为活动的NN(Active Namen...

2020-04-05 22:43:20 1100

原创 HDFS的读写操作流程

HDFS简介HDFS的特点:特点:a. 能运行在廉价的机器上b. 流式数据访问c.处理应对大规模数据集,可以进行批量处理d.一次写入,多次读取缺点:a. 不支持低延迟数据访问b.不能适应小文件的存储c.不支持并发写入d.不能随机修改,仅支持追加修改写操作流程:1.HDFS的client客户端调用Creat()方法创建写操作输出流2.向namenode发起写请求的询...

2020-04-05 01:58:22 727

原创 Fsimage和EditLog的合并过程

首先先介绍下Fsimage和EdiLog在HDFS中,有三个重要节点:NameNode的作用是维护和管理Fsimage和EditLog,进而实现对文件系统树和树下的所有目录以及文件的维护SecondaryNameNode的作用是为namenode创建检查点的同时自身保留一份数据, 也就是namenode的备份节点 , 以便于namenode后期的数据恢复DataNode用来存储和执行数据...

2020-04-04 12:25:58 918 1

有个程序员的博客