
hadoop
文章平均质量分 70
zhang_zhongkang
这个作者很懒,什么都没留下…
展开
-
(一)hadoop学习之大数据简介
大数据概念不能使用一台机器进行处理的数据大数据的核心是样本=总体特性大量性(volume): 一般在大数据里,单个文件的级别至少为几十,几百GB以上 快速性(velocity): 反映在数据的快速产生及数据变更的频率上 多样性(variety): 泛指数据类型及其来源的多样化,进一步可以把数据结构归纳为结构化(structured),半结构化(semi-structured...原创 2018-08-31 09:48:36 · 187 阅读 · 0 评论 -
(二)hadoop学习之Hadoop 简介
Hadoop - 简介Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点特别适合写一次,读多次的场景适合大规模数据 流式数据(写一次,读多次) 商用硬件(一般硬件)不适合低延时的数据访问 大量的小文件 频繁修改文件(基本就是写1次)Hadoop架构HDFS: 分布式文件存储 YARN: 分布式资源管理 MapReduce: 分布式计...原创 2018-08-31 09:51:11 · 126 阅读 · 0 评论 -
(三)hadoop学习之HDFS简介
Hadoop - HDFS简介Hadoop Distributed File System,分布式文件系统结构block:1.数据存储的基本单位,一般情况为64M2.大文件会被拆分成块,存储于不同机器,如果文件大小低于block大小,那么block大小为实际文件大小3.读写操作,每次读写一个block3.block会被复制到多个机器上(Replication)N...原创 2018-08-31 10:54:09 · 182 阅读 · 0 评论