浅谈大数据

大数据特性与关键技术

大数据概述

一、大数据是什么?

大数据目前没有一个严格的定义,但是我们可以举出很多具体的例子!例如:互联网上的网页数据、社交网站上的用户交互数据(如新浪微博)、物联网中产生的活动数据(如智能家居)、电话网络中的话单数据(如移动语音详单)等等都是大数据的具体表现。

二、大数据的三个特征

1、数据量大小–大容量

我们现在常说大数据,到底有多大呢?先看一组公式:
1024GB = 1TB;1024TB = 1PB;1024PB=1EB;1024EB=1ZB;1024ZB=1YB。
在淘宝上,每天新增的数据量大约有50TB,1年累计下来大约18PB。
与淘宝相对地,自人类开始记录历史以来,到现在为止全人类全部的印刷书本文字加起来大约50PB。
也就是说,仅淘宝3年的新增数据,就超过了全人类全部书本的数据量!
所以,大数据的第一个特征就是大容量!大到什么地步呢?远超于以前人类文明史全部书本的总数据量!
而且,不仅仅是容量大,而且增长速度也是越来越快的!

2、数据类型–多类型

大数据并不仅仅强调数据量的大小,还关系到数据类型的变化!
数据类型简单的可以分为结构化数据和非结构化数据。
在大数据出现的初期,数据基本都是以结构化的形式存储在数据库
但是随着大数据的蓬勃发展,目前已经超过80%的数据是以非结构的形式存在的!并且非结构化的数据增长速度远远超过结构化数据
所以,大数据的高速发展让数据从结构化形式快速地转向了非结构化,非结构化数据已经是占统治地位的数据。
正是非结构化数据的迅速增长,促进了现代数据处理技术从算法到架构的全方位变革,也就是下面即将提到的MapReduce计算模式。

3、数据时效性–高时效

在传统的数据分析或商业智能中,数据处理的工作重点更对地是放在对历史数据的分析和挖掘。例如,客户关系管理(BI),企业资源规划(ERP),几乎所有分析报表的产生都是以过去若干周或若干月的数据为基准产生,然后提交给企业管理者,以便他们做出决策。
但是在大数据时代,企业或组织必须具有实时分析所拥有的最新数据,并具备挖掘出有价值的信息的能力,才能产生对决策者有意义的分析结果。例如,搜索引擎如百度需要将几分钟前上线的新闻快速归并到检索索引中。因为,如果一个搜索引擎不能及时建立搜索结果,用户必将流失到时效性更高的其他搜索引擎中。电子商务网站如京东必须在当天分析用户的购买行为并预测第二天的货物短缺状况,如果不能达到这样的处理速度,第二天的缺货状况必将引来不可估量的用户流失和收入损失。地质管理机构必须在地震发生后的几分钟内发布海啸或其他灾害的预警,如果做不到及时发布,后果非常严重!

三、大数据的三大关键要素

1、存储

  • 1 提升系统容量
    传统地方式是通过提高硬盘性能,来满足直连式存储的需求。
    但是这种方式根本不能满足大数据的要求。大数据采用的是网络接入存储,也就是云存储。现在常用的是HDFS架构存储大数据。
  • 2 提升系统吞吐量
    对单个硬盘,提升吞吐量的主要方法是提高硬盘转速、改进磁盘接口形式或增加读写缓存等。而提升数据存储系统的整体吞吐量,比较典型的技术是早期的专用数据库机体系。
    数据库机具体实现架构按特点可以分为三类:每磁道专用处理架构(PPT)、每磁头专用处理器架构(PPH)、多处理器缓存架构(MPC)。

2、计算

  • 1 多处理技术
    提高计算节点的性能有两个途径,一方面是增加单处理器的计算能力;另一方面是增加处理器的数量。
  • 2 并行计算
    并行计算是指在具有并行处理能力的计算节点上,将一个计算任务分解成多个并行子任务,并分配给不同的处理器,各个处理器之间相互协同,并行执行子任务,从而达到加速计算速度或提升计算规模的目的。

3、容错

  • 1 数据存储容错
    目前主要的数据存储容错技术包括以下3类。
    (1)磁盘镜像和磁盘双工。(例如磁盘镜像,操作系统备份还原)
    磁盘镜像是使用1个通道控制主盘和从盘(从盘就是镜像盘),而磁盘双工是使用两个通道控制两个磁盘。
    (2)基于RAID的磁盘容错
    RAID就是冗余磁盘阵列,这个技术的基本原理就是采用多块便宜的磁盘组合成一个容量巨大的磁盘阵列。RAID技术常见的等级有RAID0~RAID5这几个等级。
    (3)基于集群的数据容错
    集群容错的基本思想是将一份数据在集群中的不同节点进行冗余存储,确保部分节点的故障不会导致系统整体的正常运行。(例如百度云盘)
  • 2 计算任务容错
    (1)失效节点检测
    心跳机制是目前在集群环境中进行失效节点检测使用最为广泛的技术,起基本思想是在网络中各节点定期互相发送报文来通知对方自己的当前状态。
    (2)计算任务迁移
    计算任务迁移就是将一个计算任务从当前节点移动其他指定节点。
    (3)数据定位与获取
    在集群数据容错机制中,会对数据在多个节点进行冗余备份,所以必须解决任务迁移时新的任务节点对计算任务所需的数据进行定位和获取的问题。
### 大数据分析理念与方法 #### 数据分析的理念 在大数据时代,数据分析的核心理念围绕着从海量数据中挖掘潜在的价值和洞察力展开。由于数据量的快速增长以及多样性的增加,传统的数据分析方式已无法满足需求[^1]。现代数据分析强调以下几个方面: - **以业务为导向**:数据分析不再仅仅是统计学的应用,而是紧密联系企业的实际运营目标,通过数据驱动决策支持企业战略发展。 - **实时性与动态调整**:鉴于数据更新速度快的特点,在大数据环境中,分析过程需要具备快速响应能力并能及时反馈结果以便于做出即时决策[^2]。 #### 常见的大数据分析方法 为了应对大数据带来的挑战,多种先进的技术和算法被引入到数据分析领域当中。以下是几种主要的方法及其应用场景描述: ##### 机器学习模型构建 利用监督学习、非监督学习或者强化学习等不同类型的机器学习技术建立预测模型或分类器。例如,随机森林(Random Forests)可用于客户流失预测;K-means聚类则适合发现市场细分中的隐含模式[^2]。 ```python from sklearn.cluster import KMeans import numpy as np X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]]) kmeans = KMeans(n_clusters=2).fit(X) print(kmeans.labels_) ``` ##### 文本挖掘与自然语言处理(NLP) 针对大量非结构化的文本资料(如社交媒体评论),采用NLP工具和技术进行语义理解和情感分析。这有助于品牌监测公众舆论趋势或是识别消费者偏好变化。 ##### 时间序列分析 对于金融交易记录或其他随时间连续产生的数值型变量集合,运用ARIMA(AutoRegressive Integrated Moving Average)之类的专门设计用于此类情况下的统计建模手段来进行未来走势预估[^1]。 ```r library(forecast) data <- ts(c(10, 20, 30), frequency = 12) model <- auto.arima(data) forecast(model, h = 5)$mean ``` ##### 可视化展示 借助专业的图表制作软件包比如Tableau 或者Python 的Matplotlib库把复杂抽象的结果转换成直观易懂的形式供相关人员解读参考。 ```python import matplotlib.pyplot as plt plt.plot([1, 2, 3, 4]) plt.ylabel('some numbers') plt.show() ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值