
hadoop
南陵一梦
不喜张扬,戒骄戒躁,朝自己选择的方向慢慢前行。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HDFS文件系统
一. HDFS概述 1.HDFS 概念 HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS 的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。 2. HDFS优缺点 优点: 1)高容错性 (1)数据...原创 2019-02-15 09:33:59 · 438 阅读 · 0 评论 -
大数据技术
一. 大数据发展史 我们使用的各种大数据技术,最早起源于Google当年公布的三篇论文,Google FS(2003年)、MapReduce(2004年)、BigTable(2006年),其实Google当时并没有公布其源码,但是已经把这三个项目的原理和实现方式在公布的论文中详细的描述了,这几篇论文面世后,就引爆了行业的大数据学习和研究的浪潮。 随后一个叫 Do...原创 2019-02-21 19:50:02 · 250 阅读 · 0 评论 -
MapReduce 入门
一. MapReduce 定义 Mapreduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop 的数据分析应用”的核心框架。 Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 hadoop 集群上。 二.MapReduce 优缺点 1 优点 1)MapReduce 易于编程。它简...原创 2019-02-16 20:01:09 · 104 阅读 · 0 评论 -
Yarn
一.Hadoop1.x 和 Hadoop2.x 架构区别 在 Hadoop1.x 时代,Hadoop 中的 MapReduce 同时处理业务逻辑运算和资源的调度,耦合性较大。 在 Hadoop2.x 时代,增加了 Yarn。Yarn 只负责资源的调度,MapReduce 只负责运算。 二.Yarn 概述 Yarn 是一个资源调度平台,负责为运算程序...原创 2019-02-17 20:26:27 · 159 阅读 · 0 评论 -
Hadoop入门
一. Hadoop 三大发行版本 Hadoop 三大发行版本: Apache、Cloudera、Hortonworks。 Apache 版本最原始(最基础)的版本,对于入门学习最好。 Cloudera 在大型互联网企业中用的较多。 Hortonworks 文档较好。 1)Apache Hadoop 官网地址:http://hadoop.apache.org/releases.html 下载地址:...原创 2019-02-14 15:57:31 · 130 阅读 · 0 评论 -
Hadoop的优势
一. 与关系型数据库管理系统相比 1. 处理大数据 如果数据访问模式中包含大量的硬盘寻址,那么读取大量数据集就必然会花更长的时间(相较于流数据读取模式,流读取主要取决于传输速率)。另一方面,如果数据库系统只更新一小部分记录,那么传统的B树(关系型数据库中使用的一种数据结构,受限于寻址的速率)就更有优势。但数据库系统如果有大量数据更新时,B树的效率就明显落后于Ma...原创 2019-05-16 09:58:23 · 1675 阅读 · 0 评论