大数据基本知识

本文深入探讨了大数据处理的核心技术,包括MPP数据库、Hadoop、NoSQL数据库及实时数据处理技术Stream。重点阐述了MPP数据库的并行处理能力、Hadoop在非结构化数据处理的优势、NoSQL数据库的实时查询特性以及Stream在实时数据处理的应用。此外,文章还强调了这些技术在大数据时代的优势互补与相互配合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、大数据的特点可以概括为4V: Volume Value Variety Velocity,即数据规模大、数据价值高、数据类型多、数据处理速度快。

 

2、核心特征是Value,数据价值高。但是价值密度低。

 

3、大数据处理主要关注的五项技术:高性能数据仓库、MPP数据库、HADOOP、NoSQL、Stream

 

MPP数据库:MPP即大规模并行处理系统,系统由许多松耦合处理单元组成的。其中,每个单元内的CPU都有自己私有的资源,如总线、内存、硬盘等。在每个单元内都有操作系统和管理数据库的实例副本。这种结构最大的特点在于不共享资源。

并行数据库体系结构包括三种基本体系:共享内存结构(Shared-Memory)、共享磁盘结构(Shared-Disk)、无共享资源结构(Shared-Nothing)。

 

Shared-Memory结构也就是SMP结构,包括多个处理器、一个全局共享的内存(主存储器)和多个磁盘存储,各个处理器通过高速通信网络(Interconnection Network)与共享内存连接接,并均可直接访问系统中的一个、多个或合部的碰盘存储,在系统中,所有的内存和磁盘存储均由多个处理器共享。

 

共享磁盘(Shared-Disk)结构: 系统中的每一个处理器可以访问全部的磁盘存储,磁盘存储中的数据被复制到各个处理器各自的高速缓冲区中进行处理,这时会出现多个处理器同时对同一磁盘存储位置进行访问和修改,最终导致数据的一致性无法保障,因此,在结构中需要增加一个分布式缓存管理器来对各个处理器的并发访问进行全局控制与管理,这会带来额外的通信开销。Oracle的RAC就是样的结构。

 

无共享资源(Shared-Nothing)结构: 

该结构由多个完全独立的处理节点构成,每个处理节点具有自己独立的处理器、独立的内存(主存储器)和独立的磁盘存储,多个处理节点在处理器级由高速通信网络连接,系统中的各个处理器使用自己的内存独立地处理自己的数据。目前,在并行数据库领域,Shared-Memory结构很少被使用了,Shared-Disk结构和Shared-Nothing结构则由于其各自的优势而得以应用和发展。Shared-Disk结构的典型代表是Oracle集群,Shared-Nothing结构的典型代表是Teradata,IBM DB2和MySQL的集群也使用了这种结构。

 

Stream:实时数据处理过滤,规则匹配

 

总结一下:

大数据时代没有“必杀技”可以高效低成本的满足整个架构,和种技术相辅相成,优势互补。

高性能数据仓库:高并发、高性能处理结构化数据、支撑高SLA需求

MPP数据库:结构化、关联性分析、即席分析

Hadoop:非结构化或批量简单汇总、非实时处理、数据挖掘

NoSQL:结构化或非结构化存储与实时查询

流处理(Stream):实时数据处理过滤,规则匹配

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值