- 博客(10)
- 收藏
- 关注
转载 如何用Hive搭建数据仓库
1、Hive简介2、Hive安装部署3、使用Hive搭建数据仓库ETL:extract-transform-load抽取-转换-加载数据仓库和数据都是用来存储数据的,结构化的数据存储在数据库里,例如用户订单信息,历史信息可以按主题存储到数据仓库里,比如某一品类的数据。启动Hive :
2017-06-13 17:30:53
3741
转载 MapReduce介绍
MapReduce是一种编程模型,主要用于大于1TB数据的并行计算。MapReduce主要包括Map和Reduce两个阶段,他的核心思想是函数式编程。MapReduce特性:1、自动实现分布式并行计算;2、容错3、提供状态监管工具4、模型抽象简单,程序易用Mapping:映射和分发,分发到Reducing之前经过Shuffling(洗牌)的过程。
2017-06-09 15:24:08
290
转载 Hadoop集群安装部署
学习目标:掌握开发测试级别的hadoop集群安装部署启动Hadoop:一、手动启动hadoop hdfs服务进程:1、./hadoop-daemon.sh start namenode 使用jps查看该java进程是否启动成功2、./hadoop-daemon.sh start datanode 3、./hadoop-daemon.s
2017-06-05 15:02:17
410
原创 Hadoop体系介绍
两个功能:1、提供海量数据存储服务2、提供分析海量数据的分析框架及运行平台三大核心组件:HDFS:存储服务MapReduce:分布式运算框架(编程框架)(导Jar包写程序),海量数据运算分析,替代品是storm/spark。Yarn:资源调度管理集群,可以理解是一个分布式操作系统,管理和调度硬件资源。如何使用Hadoop:1、可以吧Hadoop理解成
2017-06-01 15:38:20
557
原创 大数据生态体系介绍
Hadoop 元老级的分布式海量数据存储处理系统,擅长离线数据分析Hbase 基于Hadoop的分布式海量数据库,离线和在线通吃Hive sql 基于Hadoop的数据仓库工具,使用方式类似sqlZookeeper 分布式系统的集群协调服务Sqoop 是Hadoop 和传统关系型数据库之间数据互导Flume 数据采集框架Storm 实时流式计算框架,首选框架Spark 基于内存的分布式运算框架,一
2017-06-01 15:24:58
2054
转载 什么是集中管控式大数据安全架构?
*本文作者:银伞数据,转载自FreeBuf.com大数据已不再是一个单纯的热门词汇了,随着技术的发展大数据已在企业、政府、金融、医疗、电信等领域得到了广泛的部署和应用,并通过持续不断的发展,大数据也已在各领域产生了明显的应用价值。企业已开始热衷于利用大数据技术收集和存储海量数据,并对其进行分析。企业所收集的数据量也呈指数级增长,包括交易数据、位置数据、用户交
2017-05-23 18:25:47
1369
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人