大数据内涵:
大数据是未来的钻石矿和新石油,一个国家拥有数据的规模和运用数据的能力成为综合国力的重要 组成部分,
对数据的占有和控制也成为国家间和企业间新的争夺点。
大数据并不是指大规模数据,而是海量数据和大数据处理技术的结合。
大数据是融合物理世界、信息空间和人类社会三元 世界的 纽带。
大数据的出现依赖集成电路技术和网络技术的发展,前者为大数据的产生和处理提供计算能力,
后者为大数据的网络传输提供可能。
特点:规模性(Volume:体量大,TB以上)、高速性(Velocity:分析和处理速度块)、
多样性(Variety:数据类型多样)、价值性(Value:高价值低密度)、
真实性(Veracity:客观反映事实)、易变性(Variability:多层结构)
简单概括4V:
要解决的问题:挖掘有价值的信息
数据的计量:信息的最小单位是bit(比特),一个0或者一个1就是一个比特,
8比特就是一个字节(Byte),例如:00010100就是 一个字节,
用一个B表示一个Byte,信息的计量一般以2的10次方为一个进制,如1024Byte=1KB
单位名称 | 换算关系 |
Byte(字节) | 1Byte=8bit |
KB(千字节) | 1KB=1024 Byte |
MB(兆字节) 1MB=2014 KB
GB(吉字节) 1GB=2014 MB
TB(太子字节) 1TB=2014 GB
PB(拍字节) 1PB=2014 TB
EB(艾字节) 1EB=2014 PB
ZB(泽字节) 1ZB=2014 EB
YB(尧字节) 1YB=2014 ZB
BB(珀字节) 1BB=2014 YB
NB(诺字节) 1NB=2014 BB
DB(刀字节) 1DB=2014 NB
科学研究的四种范式:
1.观测与实验科学:人类的认识由感性经验上升到理性理论
2.理论科学:用理论科学分析、预测师姐
3.计算与仿真科学:通过计算和仿真发现新的规律
4.数据密集型科学:利用大规模数据发现新的规律
常见的大数据的计算模式:分析计算、批处理计算、流计算(具有很强的实时性)、迭代计算、图计算、内存计算。
大数据涉及的技术:数据采集,数据存储,数据处理分析挖掘,数据可视化
大数据技术的挑战:现有数据库管理技术的挑战
经典数据库没有考虑多类别的数据存储
实时数据的处理
网络架构,存储
数据隐私安全
大数据与机器学习的关系:
看到吴恩达教授的一句话很好,下图概括的非常生动。大数据是人工智能的基础。
大数据是当今各种前沿科学的基石。
大数据的生态圈:
Hadoop生态圈,Spark生态圈......