
hadoop
GoJawee
这个作者很懒,什么都没留下…
展开
-
1.大数据处理架构Hadoop
一、Hadoop简洁 二、Hadoop特性 三、Hadoop版本演变 丰富的Hadoop生态系统 上面中组件以及对应的功能 一、Hadoop集群中节点类型以及作用Hadoop框架两大核心设计:(1)HDFS:读取数据I/O操作(2)MapReduce:计算数据两大类核心节点: namenode:负责整个源数据存储的协调数据存储的功能 datanode:存储被拆分后的原创 2017-08-17 21:03:33 · 493 阅读 · 0 评论 -
16.Hadoop架构再探讨第2部分
、 ——————————————————–原创 2017-08-19 17:04:42 · 288 阅读 · 0 评论 -
16.Hadoop架构再探讨第1部分
、原创 2017-08-19 16:37:39 · 402 阅读 · 0 评论 -
15.基于Hadoop的数据仓库Hive第3部分(Hive编程实践)
。原创 2017-08-19 16:03:10 · 394 阅读 · 0 评论 -
15.基于Hadoop的数据仓库Hive第2部分
Hive基本操作原创 2017-08-19 15:56:30 · 324 阅读 · 0 评论 -
14.基于Hadoop的数据仓库Hive第1部分
数据仓库、数据库的区别: 数据仓库相对稳定,数据基本不变化 数据仓库保留历史状态和历史信息,数据库不保留历史数据(以便于分析以往的数据,便于决策)【说明】传统的数据仓库进行存储数据还是借助底层的传统的关系数据库进行存储的,因此在大数据时代面临着极大的挑战,无法满足企业的需求。因此,引出了Hive数据仓库Hive系统架构(三大模块)Hive工作原理原创 2017-08-19 15:13:46 · 405 阅读 · 0 评论 -
13.MapReduce第3部分(编程实践WordCount)
1.程序要求2.编写map处理逻辑3.编写reduce处理逻辑 4.编写main方法完整代码编译打包代码以及运行程序 ————————————————————————–————————————————————————–扩展:使用Eclipse编译运行MapReduce程序原创 2017-08-19 14:36:50 · 507 阅读 · 0 评论 -
12.MapReduce第2部分(WordCount词频统计、自然连接)
一、程序要求二、WordCount设计思路假设三个分片,分别输入到三个不同的Map任务中去行号:key内容:value 三、MapReduce的具体应用之自然连接举例子:原创 2017-08-19 14:13:44 · 1061 阅读 · 0 评论 -
11.MapReduce第1部分
两个核心函数Map、ReduceMapReduce的体系结构TaskTracker是以什么方式衡量资源使用情况? 在MapReduce设计中,TaskTracker是使用一种槽slot的概念:先划分:TaskTracker使用slot把机器上的CPU、内存等资源进行等量划分,分成大小相同的slot。再调度:将各个TaskTracker上空闲的slot分配给task(maptask、red原创 2017-08-18 20:42:24 · 298 阅读 · 0 评论 -
10.NoSQL数据库第2部分
MongoDB简易安装和操作教程http://dblab.xmu.edu.cn/blog/115/课程链接http://dblab.xmu.edu.cn/blog/115/原创 2017-08-18 20:28:47 · 278 阅读 · 0 评论 -
9.NoSQL数据库第1部分
5.1NoSQL简介 5.2NoSQL兴起的原因 5.3NoSQL与关系数据库的比较 5.4NoSQL数据库的四大类型 5.1NoSQL的三大基石原创 2017-08-18 14:54:16 · 298 阅读 · 0 评论 -
8.分布式数据库HBase第4部分
=============HBase常用的Shell命令createlistputscangetenable/disabledrop=============实例讲解http://dblab.xmu.edu.cn/blog/install-hbase/原创 2017-08-18 14:20:54 · 265 阅读 · 0 评论 -
7.分布式数据库HBase第3部分
上图介绍: 【Region服务器工作原理简单介绍】Region服务器集群由很多个Region服务器构成的,并且每个Region服务器上有10-1000个Region,每个Region服务器 上的所有的Region共用一个HLog,并且,每一个Region有很多个Store,Store:数据是一个列族一个列族进行存储的,每个Store代表一个列族,即存储的一份信息存储过程:把每一分存储信息,先原创 2017-08-18 13:55:16 · 435 阅读 · 0 评论 -
6.分布式数据库HBase第2部分
概念视图、物理视图概念视图: 是一个稀疏的表,很多地方时没有值。--->浪费空间物理视图: 实际上存储在Hbase中的情况并不是“概念视图”中讲解的那样。而是以列族为一张表进行存储,这样就不会浪费大量的空间。见下图所示: 面向列的存储:列存储: 用于分析行存储: 树形操作比较多,经常需要增、删操作 那么问题来了: region被拆分到不同的机器上原创 2017-08-18 10:28:23 · 397 阅读 · 0 评论 -
5.分布式数据库HBase第1部分
================================================原创 2017-08-18 10:00:52 · 320 阅读 · 0 评论 -
4.Eclipse的安装和使用
利用Java API与HDFS进行交互(首先我们在Ubuntu下安装Eclipse) ————————————————–安装成功,下面打开Eclipse,配置并写代码原创 2017-08-18 08:45:12 · 326 阅读 · 0 评论 -
2.分布式文件系统HDFS之一
HDFS相关概念介绍其中,名称节点介绍: 数据更新时先不修改FsImage文件中的内容(因为FsImage文件太大,更新速度慢)而,把更新全部记录到EditLog中(因为EditLog比较小,更新起来速度快)下面讲述:如何解决EditLog文件不断增大影响效率的问题? 具体执行过程: 其中,数据节点介绍: ———-Eclipse链接:http://dblab.xmu.edu.cn/bl原创 2017-08-17 21:12:43 · 315 阅读 · 0 评论 -
3.分布式文件系统HDFS之二
———————————————-(二.1)冗余数据保存 (二.2)数据存取策略:1.数据存放 2.数据读取 (二.3)数据错误与恢复原创 2017-08-17 22:15:06 · 314 阅读 · 0 评论 -
17.Spark第1部分
·原创 2017-08-19 18:56:28 · 283 阅读 · 0 评论