
BigData
水墨之白
悟已往之不谏,知来者之可追!
展开
-
HDFS系统架构及原理
一、HDFS简介分布式文件存储随着数据量的不断增大,文件的大小取决于单机存储的上限,这显然满足不了我们的需求。HDFS将大文件切块,部署到不同的机器节点上,完成分布式存储。 在分布式系统中,计算机节点放在机架上,每个机架存在很多节点,不同机架之间通过交换机通信,同一机架不同节点之间通过网络互连。远程调用:远程过程调用(RPC)是一种常用的分布式网络通信协议,它允许运行于一台计算机的...原创 2019-03-23 16:39:24 · 705 阅读 · 0 评论 -
YARN架构设计和原理
一、YARN简介YARN是一个资源调度平台,是为了克服MR1局限性演化而来。二、MR1的局限性Hadoop1.0中主要由分布式存储系统HDFS和分布式计算框架MapReduce组成。在这个版本中MapReduce由一个JobTracker和多个 TaskTracker 组成。从设计角度上看, Hadoop 1.0未能够将资源管理相关的功能与应用程序相关的功能分开 ,导致资源管理和应用程序管...原创 2019-05-27 15:35:17 · 481 阅读 · 0 评论 -
HBase基础知识
HBase简介分布式,多版本,面向列的数据库特点:强一致性 高扩展 高可用HBase数据原型 RowKey: 表中每条记录的主键,RowKey会进行字典排序Column Family: 列族,将表进行横向切割,后面简称CFColumn: 属于某一个列族,可动态添加列Version Number: 类型为Long,默认值是系统时间戳,可由用户自定义Value: 真实的数据...原创 2019-01-05 17:46:24 · 395 阅读 · 1 评论 -
什么是Zookeeper?
分布式协调服务一、Zookeeper使用场景适合读多写少的场景统一命名服务统一配置管理分布式集群管理(注册中心)分布式锁负载均衡二、 Zookeeper内部结构zookeeper节点类似于Unix文件系统 每个子目录项(路径) 都被称作为znode,和文件系统一样,我们能够自由的增加、删除znode,在一个znode下增加、删除子znode,唯一的...原创 2019-03-05 20:16:32 · 274 阅读 · 0 评论 -
Hive学习笔记(一)
一、Hive简介Hive是基于HDFS的一个数据仓库,它可以提供hql语句通过解释器映射成MapReduce任务完成提取、转换、加载(ETL)操作二、Hive架构CLI,Shell 终端命令行(Command Line Interface),采用交互形式使用 Hive 命令行与 Hive 进行交互JDBC/ODBC,是 Hive 的基于 JDBC 操作提供的客户端通过浏览器访问 Hi...原创 2019-05-20 20:28:35 · 212 阅读 · 0 评论 -
Hive学习笔记(二)—Hive数据类型和存储格式
Hive 支持关系型数据中大多数基本数据类型,除了额外的三个复杂的数据类型。一、数据类型array类比java中的array 有序的的同类型的集合create table test( id int, name string, hobby array<string>)row format delimitedfields terminated by ...原创 2019-09-30 15:52:12 · 365 阅读 · 0 评论 -
Hive学习笔记(三)—Hive分区表
一、分区简介为了对表进行合理的管理以及提高查询效率,Hive可以将表组织成“分区”。分区是表的部分列的集合,可以为频繁使用的数据建立分区,这样查找分区中的数据时就不需要扫描全表,这对于提高查找效率很有帮助分区是一种根据“分区列”(partition column)的值对表进行粗略划分的机制。Hive中的每个分区对应数据库中相应分区列的一个索引,每个分区对应着表下的一个目录,在HDFS上的表现...原创 2019-09-30 16:41:18 · 648 阅读 · 0 评论 -
Hive学习笔记(四)—Hive分桶表
一、分桶简介桶是通过对指定列进行哈希计算来实现的,通过哈希值将一个列名下的数据切分为一组桶,并使每个桶对应于该列名下的一个存储文件对于每一个表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分Bucket是对指定列进行hash,然后根据hash值除以桶的个数进行求余,决定该条记录存放在哪个桶中二、分桶操作1. 创建桶表:create table student(...原创 2019-10-08 16:31:25 · 1219 阅读 · 0 评论 -
Spark工作原理和流程介绍
Spark相关名词解释:Driver主进程,执行了一个Spark Application的main函数和创建Spark Contex的进程在Yarn集群中:Yarn-Cluster Driver进程在集群的节点上Yarn-Client Driver进程存在本地,方便调试,但是会有大量网络传输,不适合生成环境SparkContext负责和集群通讯,申请资源,监控集群任务状态...原创 2019-01-11 19:53:57 · 937 阅读 · 1 评论 -
Hive学习笔记(五)—Hive连接优化
1. Join 的基本原理大家都知道,Hive 会将所有的 SQL 查询转化为 Map/Reduce 作业运行于 Hadoop 集群之上。在这里简要介绍 Hive 将 Join 转化为 Map/Reduce 的基本原理。假定有 user 和 order 两张表,分别如下:user 表:sidname1apple2orangeorder 表:ui...原创 2019-10-08 19:41:39 · 559 阅读 · 0 评论