haiboyu-优快云博客

转载如何用Hive搭建数据仓库

1、Hive简介2、Hive安装部署3、使用Hive搭建数据仓库ETL：extract-transform-load抽取-转换-加载数据仓库和数据都是用来存储数据的，结构化的数据存储在数据库里，例如用户订单信息，历史信息可以按主题存储到数据仓库里，比如某一品类的数据。启动Hive :

2017-06-13 17:30:53 3789

转载 HDFS数据操作

下面是对HDFS架构和Shell命令介绍。

2017-06-13 16:16:49 276

转载 MapReduce介绍

MapReduce是一种编程模型，主要用于大于1TB数据的并行计算。MapReduce主要包括Map和Reduce两个阶段，他的核心思想是函数式编程。MapReduce特性：1、自动实现分布式并行计算；2、容错3、提供状态监管工具4、模型抽象简单，程序易用Mapping：映射和分发，分发到Reducing之前经过Shuffling（洗牌）的过程。

2017-06-09 15:24:08 315

转载 Namenode管理元数据原理

Namenode职责：1、响应客户端请求2、维护目录树3、管理元数据（查询，修改）

2017-06-08 15:14:20 1269

转载 Hadoop集群安装部署

学习目标：掌握开发测试级别的hadoop集群安装部署启动Hadoop:一、手动启动hadoop hdfs服务进程:1、./hadoop-daemon.sh start namenode 使用jps查看该java进程是否启动成功2、./hadoop-daemon.sh start datanode 3、./hadoop-daemon.s

2017-06-05 15:02:17 443

原创 Hadoop体系介绍

两个功能：1、提供海量数据存储服务2、提供分析海量数据的分析框架及运行平台三大核心组件：HDFS：存储服务MapReduce：分布式运算框架（编程框架）（导Jar包写程序），海量数据运算分析，替代品是storm/spark。Yarn:资源调度管理集群，可以理解是一个分布式操作系统，管理和调度硬件资源。如何使用Hadoop：1、可以吧Hadoop理解成

2017-06-01 15:38:20 596

Hadoop 元老级的分布式海量数据存储处理系统，擅长离线数据分析Hbase 基于Hadoop的分布式海量数据库，离线和在线通吃Hive sql 基于Hadoop的数据仓库工具，使用方式类似sqlZookeeper 分布式系统的集群协调服务Sqoop 是Hadoop 和传统关系型数据库之间数据互导Flume 数据采集框架Storm 实时流式计算框架，首选框架Spark 基于内存的分布式运算框架，一

2017-06-01 15:24:58 2091

转载什么是集中管控式大数据安全架构？

*本文作者：银伞数据，转载自FreeBuf.com大数据已不再是一个单纯的热门词汇了，随着技术的发展大数据已在企业、政府、金融、医疗、电信等领域得到了广泛的部署和应用，并通过持续不断的发展，大数据也已在各领域产生了明显的应用价值。企业已开始热衷于利用大数据技术收集和存储海量数据，并对其进行分析。企业所收集的数据量也呈指数级增长，包括交易数据、位置数据、用户交

2017-05-23 18:25:47 1410

Na2S2O3的博客

转载 Hadoop安全认证

转载 HBase介绍及安装部署