目录
一、大数据概念
大数据由巨型数据集组成,这些数据集规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。
大数据分析挑战包括数据捕获、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据源。
适用于大数据的技术,包括:大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
大数据单位:
最小的基本单位是bit
按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
按照进率1024(2的十次方)来计算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
二、大数据特点
一般认为,大数据主要具有以下四个方面的典型特征:规模性(Volume)、多样性(Varity)、高速性(Velocity)和价值性(Value),即所谓的“4V”。
1. 规模性(Volume)
大数据的特征首先就体现为“数量大”,存储单位从过去的GB到TB,直至PB(1千个T)、EB(1百万个T)或ZB