大数据基础知识总结和大数据方面的核心技术

本文深入介绍了大数据的基础知识,包括其特征、数据单位、数据结构和计算模式,如批处理计算、流式计算、迭代计算和交互式计算。重点探讨了大数据处理的关键技术,如MapReduce、Spark以及分布式文件系统和数据库。此外,还概述了大数据的生命周期,从数据采集、存储管理到分析与挖掘,以及可视化处理。文章还提及了大数据技术生态和典型的大数据处理系统。

一、什么是大数据


         一种规模大到在获取、存储 、管理、分析方面大大超出了传统数据库 软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理 (MPP)数据库 、数据挖掘、分布式文件系统 、分布式数据库 、云计算平台 、互联网和可扩展的存储系统 。


二、大数据的基本特征

         数据量大(Volume):第一个特征是数据量大,包括采集、存储和计算的量都非常大。
     类型繁多(Variety):第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络                                            日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高                                             的要求。
     价值密度低(Value):第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物                                            联网的广泛应用,信息感知无处不在,信息海量,但价值 密度较低,如何结合业务逻辑并通                                            过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
     速度快时效高(Velocity):第四个特征数据增长速度快,处理速度也快,时效性要求高。
     数据是在线的(Online)。数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。

三、大数据的数据单位

      按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。(进率2^10)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值