hadoop
文章平均质量分 76
C_FuL
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop之HDFS存储及读取机制
什么是HDFS? 首先HDFS称为分布式文件系统,是一个高容错性的系统。 分布式文件系统,首先其中有几点。分别是: 分布式。 文件。 系统 即横跨在多台计算机上的同一个文件存储系统。存储在分布式文件系统上的数据自动分布在不同的节点上。 由于是分布式文件系统,所以元数据与数据文件是分离存储的 NameNode DataNode原创 2017-08-02 15:05:35 · 862 阅读 · 0 评论 -
Sqoop安装及初体验
前言文章中所有的路径,均是演示所用. 实际情况请自行斟酌 首先介绍一下什么是Sqoop Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系原创 2017-09-02 13:25:21 · 1078 阅读 · 1 评论 -
HUE安装与配置
准备软件包准备 HUE官方网站 HUE官方帮助手册 已安装的分布式框架例如Hadoop 以及其它需要与HUE集成的软件需要的依赖$ yum install -y gcc libxml2-devel libxslt-devel cyrus-sasl-devel mysql-devel python-devel python-setuptools python-simplejson sqlite原创 2017-09-09 12:16:56 · 7012 阅读 · 0 评论 -
Hive环境搭建
前言: 首先Hive中的元数据默认存放在Derby中,Derby是单用户的,使用起来不方便,我们使用MySQL来存储Hive的元数据信息,元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 由于Hive的元数据需要不断的更新、修改,而HDFS系统中的文件是多读少改的,这显然不能将Hive的元数据存储在HDFS中。安装mysql直接使用yum安装mysql是无原创 2017-08-24 15:15:34 · 537 阅读 · 0 评论 -
Hive体系架构
Hive 是什么首先是一个构建在Hadoop之上的数据仓库(它并不是一个真实的数据库)由Facebook开源,最初用于解决海量结构化的日志数据统计问题 Hive定义了一种类似于SQL查询语言:HQL(非常类似于MySQL中的SQL语句,同时做了扩展) 通常用于离线数据处理(采用MapReduce) 可以认为是一个HQL=>MapReduce的语言翻译器 底层支持多种不同的执行引擎(默认是原创 2017-08-24 14:19:54 · 635 阅读 · 0 评论 -
HBase架构
首先摆一个架构图主要包含的方面是HDFS 因为数据是保存在HDFS上的HBase内存满了之后就会将内存中的数据写入到HDFS上.也就是说除了内存之外的数据全部保存在HDFS上Client: 与HBase进行读写操作可以有多个Client来访问HBaseZooKeeper 客户端是与ZooKeeper进行交互的并不是直接与HMaster进行交互的ZooKeeper中存储的信息是非常重要原创 2017-08-16 00:02:31 · 500 阅读 · 0 评论 -
HBase的物理模型
Table中的所有行都按照rowkey的字典顺序排列 Table在行的方向上分割为多个Region Region是按照大小分割的每个表开始只有一个region,随着数据增 多,region不断变大,当大到一定程度的时候,region就会分割成两个>新的region,之后会有越来越多的region; 那么为什么要拆分region呢? 第一点.可以并行化的处理数据.可以分割的数据可原创 2017-08-15 23:16:07 · 928 阅读 · 0 评论 -
HBase与RDBMS&HDFS对比
在使用Hbase之前,我们来简单的介绍一下HBase; Hbase是一种分布式的列式的存储系统,和传统的RDBMS不一样; Hbase是一种面向列的数据库;那么什么是面向列? 坐标系大家都知道吧?(不知道请自行百度.哈哈哈哈)几个坐标放在一起可以指定到一个准确的位置; Hbase中的数据需要通过行键(Rowkey以下称作rk),列族(ColumnFamily以下称作cf),列(Column以原创 2017-08-15 23:15:30 · 1761 阅读 · 0 评论 -
Hbase之Shell
Hbase的Shell操作写在前面因为格式问题,为了显示美观一点笔者在Shell命令中逗号后面添加了空格.实际使用请不要加空格 说明 名字 意义 tname TableName表名 rk Row_Key行键 cf Column_Family列族 c Column列 regex 正则表达式#使用如下命令进入Hbase 的shell 客户端,输入quit原创 2017-08-15 21:55:24 · 548 阅读 · 0 评论 -
HBase之JavaAPI
HBase提供了Java API的访问接口,实际开发中我们经常用来操作HBase,就和我们通过java API操作RDBMS一样。如下 API 作用 HBaseAdmin HBase 客户端,用来操作HBase Configuration 配置对象 Connection 连接对象 Table HBase 表对象 TableName HBase 中的表名原创 2017-08-15 20:47:02 · 775 阅读 · 0 评论 -
从零开始搭建Hadoop框架(单机模式)
准备工作Master和Slave1中都要安装Hadoop,在这我们以Master为例,Slave1类似 1).Hadoop 简介 Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,其最核心的设计包括:MapReduce 和 HDFS。基于 Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。 HDFS:Had原创 2018-01-05 12:14:58 · 753 阅读 · 0 评论
分享