大数据基础知识
一、什么是大数据
短时间内快速产生的海量的多种多样的有价值的数据。
大数据的技术:
1、分布式存储:
2、分布式计算:
1)分布式批处理:
当数据积累一定的时间后(假设一个月),进行统一的处理。
2)分布式流处理
分布式流处理是一个实时的处理。即数据生成后立即处理。
例子: 11.11天猫大屏幕 QQ实时在线的分布情况
3、机器学习
凡是预测类的都是机器学习。
分布式存储
简单案例:假如你要存储10PB的一个视频文件,自己一个人的电脑存储不了,需要存储在多个服务器上,每一个服务器就是一个datanode,当你需要获取文件时,逐一访问效率太低,可以找一个中间人来存放文件在哪台服务器的信息,通过信息可以快速的找到文件。这个中间人就是namenode,存储的有关文件的信息就是元数据。为了数据安全,每一个小的视频(存储单元)复制一份存放到不同服务器上,当有服务器停止运行时,可以通过访问备份来寻找到自己想要的数据,这种存储方式叫做分布式存储。
系统学习分布式存储 过程(HDFS原理)
1 如果要上传一个大文件,首先要计算大文件的block数量,block数量=大文件的大小/128M(一般采用128M为一个block块的大小)
2 clie