很多人会问大数据是什么?
其实关于大数据并没有一个特别官方的说法,也没有特别标准的解释。
我个人觉得大数据就是短时间快速产生大量多种多样的有价值的真实信息。
大家都在淘宝等购物平台上买过东西,广大男性同胞也深知双十一以及双十二这种购物节的恐怖,这不是说女人有多恐怖,站在我们专业的角度上来说在短短时间内所产生的数据就相当恐怖。
在这些大量的数据面前,就要应用到大数据关于数据的一些计算,存储,计算等等,这也就是我接下来给大家分享的关于大数据HDFS技术。
怎样解决数据量过大的问题呢?
首先在面对海量的数据,我们首先要进行一个储存,为了解决空间不足,也就是内存或者存储资源不足的问题主要有两个方法:
1.垂直扩展
垂直扩展就是在你电脑本身或者机架上添加内存条或者增加硬盘数量,就是改变本身的硬件设施提升内存空间来存储数据。
2.横向扩展
所谓的横向扩展就是增加电脑数量或者添加机架数量,让其连接起来组成一个大型存储空间。
存储的问题解决了那接下来就需要对这些数据进行一个处理。
数据的处理
根据最早的谷歌的三大论文衍生了两种新型的技数:
1.GFS 衍生出HDFS 分布式文件系统也就是分布式的存储
2.MapReduce 分布式的处理
3.BigData 衍生出HBase
关于HDFS的总结
知道了HDFS是一个分布式文件系统
HDFS中包含了许多细小的技术
他们分别是
1.yarn 资源和任务的调度
2.mapreduce