大数据、NoSQL 与数据库连接技术全解析
1. 大数据与 NoSQL 数据库概述
1.1 大数据的定义与特征
大数据以其海量的数据量(Volume)、极快的数据产生和处理速度(Velocity)以及数据结构的多样性(Variety)为特征,这使得传统的关系型数据库模型难以适应。除了这传统的 3V 特征,数据管理行业还提出了变异性(Variability)、真实性(Veracity)、价值性(Value)和可视化(Visualization)等特征。变异性指数据含义随时间的变化;真实性关注数据的可信度;价值性考量数据是否有用;可视化要求数据能以易于决策者理解的方式呈现。
1.2 Hadoop 框架
Hadoop 框架迅速成为大数据物理存储的标准,主要由 Hadoop 分布式文件系统(HDFS)和 MapReduce 组成。HDFS 能可靠地将数据分布在大量商用服务器集群上,而 MapReduce 则是用于在分布式数据上进行数据处理的互补过程,其核心概念是将计算移动到数据所在处,而非移动数据到计算节点。MapReduce 通过 map 函数将子任务分配到存储待处理数据的集群服务器,再由 reduce 函数将 map 结果合并为一个结果集。Hadoop 框架还支持一系列如 Hive、Pig 和 Flume 等工具和技术,共同构成复杂的大数据处理系统。
1.3 NoSQL 数据库分类
NoSQL 是指多种非关系型数据库的数据管理方法,主要分为以下四类:
- 键值数据库 :以键值对形式存储数据,数据库管理系统(DBMS)需知道键的值,但对值部分的数据类型和含义不做解析。
超级会员免费看
订阅专栏 解锁全文
1073

被折叠的 条评论
为什么被折叠?



