hadoop
黑-白-色
厚德载物,知行合一
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Map-Reduce复习
Mapper端输入: 例:Mapper<LongWritable, Text, Text, IntWritable>,输入的键、值类型在作业中的 FileInputFormat 中定义,默认是 TextInputFormat。 TextInputFormat 的 键是LongWritable,表示截至目前从文件中读出的字节数。输入值是Text对象,表示从文本中读入的一行记录。当然了,如果使用不同的输入格式,很可能需要改变这些键、值的数据类型....原创 2020-09-28 17:37:30 · 235 阅读 · 0 评论 -
关于数据库范式、数仓的理解
有两篇文章感觉写得不错关系型数据库设计:三大范式的通俗理解数据仓库、数据库的对比介绍与实时数仓案例原创 2020-03-23 12:19:59 · 138 阅读 · 0 评论 -
OLTP---OLAP
OLTP和OLAP的区别联机事务处理OLTP(on-line transaction processing) 主要是执行基本日常的事务处理,比如数据库记录的增删查改。比如在银行的一笔交易记录,就是一个典型的事务。OLTP的特点一般有:1.实时性要求高。大约十年前,银行异地汇款,要隔天才能到账,而现在是分分钟到账的节奏,说明现在银行的实时处理能力大大增强。2.数据量不是很大,生产库上的数据量...原创 2020-03-23 09:34:41 · 362 阅读 · 0 评论 -
关于CAP理论的理解
网上有几篇文章写得不错感觉CAP理论的理解分布式系统中的CAP理论,面试必问,你理解了嘛?CAP原则(CAP定理)、BASE理论原创 2020-03-23 13:09:29 · 231 阅读 · 0 评论 -
CAP的理解
链接链接原创 2020-03-26 22:58:27 · 194 阅读 · 0 评论 -
关于mapreduce分片的一些问题
split大小设置:关于分片大小的设计,分片大小不能大于block大小,不然从多个block拉取数 据,增加磁盘IO,降低并行度,违反了mapreduce的设计原则。分片大小计算公式:splitSize = Max(splitMinSize, Min(splitMaxSize, blockSize))splitMinSize默认为1,并且强制为1,除非修改hadoop源代码splitMa...原创 2020-03-20 23:42:49 · 304 阅读 · 0 评论 -
hive语句
在hive终端执行shell语句,行首加!!ls /opt;建库本质:在数仓目录下创建一个目录(库名.db)create database [if not exists] dbName [comment 'this is dbName'];建表create [external] table [if not exists] tableName (col_name data_type...原创 2020-03-18 09:57:10 · 220 阅读 · 0 评论 -
hive一些特殊设置
set hive.cli.print.header=true;set hive.resultset.use.unique.column.names=false;原创 2020-03-16 12:41:07 · 187 阅读 · 0 评论 -
HDFS---HA
HA概述1)所谓HA(high available),即高可用(7*24小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。4)NameNode主要在以下两个方面影响HDFS集群NameNode机器发生意外,如宕机,集群将无...原创 2020-03-14 12:24:36 · 362 阅读 · 0 评论 -
HDFS工作机制
写1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)namenode返回3个datanode节点,分别为dn1、dn2、dn3。5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用d...原创 2020-03-14 12:06:20 · 143 阅读 · 0 评论 -
HDFS特点以及常用命令
HDFS优点:高容错海量数据存储流式数据访问:一次写入,多次读取,不能修改,只能追加。能保证数据的一致性可构建在廉价的机器上缺点不适合低延时处理不能高效处理很多小文件如果存储大量小文件,会占用NameNode大量的内存来存储文件、目录和快信息,不可取,因为NameNode内存有限小文件的寻道时间会 超过读取时间,违反HDFS的设计原则一个文件...原创 2020-03-14 11:12:09 · 320 阅读 · 0 评论 -
Hadoop复习二----YARN-MapReduce
YARNYARN进化:MapReduce在0.23版本经过了一系列的优化,现在把MapReduce称为MapReduce2.0或者YARN,它能够支持多种编程模型。YARN摒弃了MRV1的JobTracker和TaskTracker,采用一种新的AppMaster进行管理,并与两个守护进程ResourceManager和NodeManager一起协同调度和控制任务,避免单一进程服务的管理和调度...原创 2020-01-10 11:55:19 · 201 阅读 · 0 评论 -
Hadoop shell指令
所有的FS Shell 使用URI作为参数,格式:hdfs//namenode: namenodePort/file,如果是高可用,namenode换成集群名字Hadoop shell命令格式:hadoop fs args ::应用最广,可以操作任何文件系统。hadoop dfs 与hdfs dfs :只能操作HDFS相关文件系统,前者已经deprecated,一般使用后者。用户命令 h...原创 2020-01-09 12:30:36 · 176 阅读 · 0 评论 -
Hadoop基础复习(一)
概念:Apache Hadoop 一款用于可靠的、可扩展的、分布式计算的开源项目。Hadoop 软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大数据进行分布式处理。它被设计成扩展的,从单一服务器到上千台机器,每台机器提供本地仓储运算。库并不是依靠硬件来提供高可用性,而是被设计用来检测,处理应用层故障,因此其是在计算机集群的顶部提供高可用的服务,每台机器都容易发生故障。特点 : 一般...原创 2020-01-09 10:54:31 · 302 阅读 · 0 评论 -
高可用下DFSZKFailoverController没有启动
出现connection refused异常 , zoo.cfg 文件配置问题server.1=0.0.0.0:2888:3888server.2=hxb02:2888:3888server.3=hxb03:2888:3888本机地址要写成 0.0.0.0高可用集群,zookeeper 启动成功,zkfc 显示启动成功。namenode节点DFSZKFailoverController...原创 2019-12-19 12:46:40 · 5936 阅读 · 3 评论
分享