浅谈大数据

        在“ 云计算”的铺垫下,“大数据”最近一段时间已经成为了炙手可热的新名词。《大数据时代》(big data)是一本在全世界热销的大数据科普丛书,作者是大数据商用提出者维克托(viktor)教授,书中以非常生动的例子阐述了大数据将会在生活、工作与思维之中带给我们的大变革,虽然就像本书的译者周涛教授所说,书中的一些观点可能不会得到很多人的认同,但“大数据时代”确实到来了,我认为一些观点只有用近乎偏执的手法表达出来,才能让读者对它们印象深刻,而就算看了这本书一些人可能还是会对“大数据”这个概念的认识比较模糊。我最近读了一些大数据的书籍以及文章,还算是小有心得,所以我想试着从几个方面说明一下大数据的概念,如果有不正确的地方请各位看官嘴下留情。
        查了一下google scholar(google学术搜索)上关于“大数据”和“云计算”的文章数量(按照标题涵盖“big data”--大数据与“cloud computing”--云计算这两个关键词进行查询),按照文章的数量与年份做了一个对比统计如下:


        从上图可以看到,云计算在2011年达到了顶峰,之后开始出现回落,随之而来的便是大数据的逐渐流行。虽然大数据是最近才进入我们的视野的,但是从07年起已经开始有人提出了这个概念并开始研究(从搜索的结果来看2006年没有大数据的概念)。
        现在我们先来讨论一下大数据为什么是“大”数据。2007到2009年有了大数据的概念,涉及计算机行业我只搜索到关于google的一篇文章,而讨论这个概念大部分集中在生物医学领域,但也只是凤毛麟角。文章中基本都是对数据量的惊呼,处理TB级的数据在那时已经让作者们感到非常困扰,还记得07年的时候一张512MB的 MMC卡都要卖到500RMB,而现在一个4TB的硬盘也就1000块左右,而且还包邮;2010年后开始逐渐出现了很多关于大数据的文章,大部分文章都是关于大数据的概念、处理大数据的方法及工具的应用讨论,工具中最火的无非就是 MapReduce了,云计算对于大数据的普及起着非常大的推动作用。随着计算机硬件及软件的进步,现在一些顶尖公司已经拥有PB级别的数据,但是现在EB,ZB的概念也已经开始流行。可以看出其实大数据一直以来都有,它是一个相对大的概念,对于10年前的人们来说TB级的数据是大数据,但是到了10年后的今天这只是很多人笔记本电脑硬盘的容量;今天PB级的数据是大数据,可能用不了多久这就变成“小”数据了。大数据不仅表现在它相对的大,而且很大程度也表现出了它的“杂”,这个“杂”有两层意思,第一层是指数据格式的多样化,图片、文本、视频等等非结构化数据,分析它们所带来的好处对各大行业充满了诱惑,但是难度也是可想而知的大;第二层是指数据本身的杂乱无章,从各种渠道搜集而来的数据没有顺序,毫无章法的排列在一起,这想起来都让人觉得头疼。
        大数据是怎么来的呢?除了上面提到的计算机硬件、软件及方法论的进步外,还有很重要的一点就是人类搜集数据的技术及手段也在不断创新,例如: GPS可以搜集人们的地理位置、 RFID(无线射频标签)可以安装在任何需要跟踪的物品上采集数据、google搜集人们的搜索信息、社交网站保存人们分享的文字,图片等内容、 嵌入式传感器可以搜集复杂机器和发动机在运行时的状态信息、 Kinect可以捕捉我们身体的动作信息、具备操作系统的家用电器已经出现,今后我们使用家电的一切数据都会被保存,这些信息的用途之一恐怕就是节能环保方面的分析了。随着搜集数据方式的多样化,必然就会出现信息爆炸,技术的进步在最近几年尤为突出,所以数据的量在今后还会呈现加速增长的态势,而重要的是这种增长似乎无边无际,这就是大数据被提出的契机。
        大数据为什么会受到如此的热捧?首先一个新技术概念的流行需要受到业界及研究机构的关注,大数据这个概念正好涉及了多种学科领域,换句话说只要与数据研究有关系的领域都会或多或少的关注大数据,例如:数理统计、数据挖掘、机器学习、数据库、预测建模、数学、云计算、软件工程、生物医学等等,这些领域几乎在任何行业都发挥着重要作用,有了多种学科的共同参与及努力研究,大数据的关注度持续升温,像当时的云计算一样,受到业界的推崇后,大数据开始被媒体热炒,再加上美国又爆出 斯诺登(Snowden)事件,就这样大数据以一种爆炸性的方式进入了公众的视野,而且隐私问题是当下人们普遍重视的问题,这无疑使大数据更加受到关注。
        和其他的新技术、新概念一样,大数据也正在经历硅谷著名的 技术成熟度曲线,让我们用一颗平常心来看,其实大数据一直在我们身边,大数据的“大”只是一个相对的大,即使它现在看起来再巨大,再复杂,和以前一样我们总会找到新的工具、新的方法来处理和整合它。大数据也使“ 数据科学家”这个新职业开始走进各大公司的招聘目录,和大数据受到多学科领域的研究一样,这个新职业也需要具备一些交叉学科领域的知识。在接下来的文章中我将对从事大数据工作需要的知识以及运用的工具做一个详细的介绍,请大家关注,非常感谢各位的耐心阅读。
### 大数据分析理念与方法 #### 数据分析的理念 在大数据时代,数据分析的核心理念围绕着从海量数据中挖掘潜在的价值和洞察力展开。由于数据量的快速增长以及多样性的增加,传统的数据分析方式已无法满足需求[^1]。现代数据分析强调以下几个方面: - **以业务为导向**:数据分析不再仅仅是统计学的应用,而是紧密联系企业的实际运营目标,通过数据驱动决策支持企业战略发展。 - **实时性与动态调整**:鉴于数据更新速度快的特点,在大数据环境中,分析过程需要具备快速响应能力并能及时反馈结果以便于做出即时决策[^2]。 #### 常见的大数据分析方法 为了应对大数据带来的挑战,多种先进的技术和算法被引入到数据分析领域当中。以下是几种主要的方法及其应用场景描述: ##### 机器学习模型构建 利用监督学习、非监督学习或者强化学习等不同类型的机器学习技术建立预测模型或分类器。例如,随机森林(Random Forests)可用于客户流失预测;K-means聚类则适合发现市场细分中的隐含模式[^2]。 ```python from sklearn.cluster import KMeans import numpy as np X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]]) kmeans = KMeans(n_clusters=2).fit(X) print(kmeans.labels_) ``` ##### 文本挖掘与自然语言处理(NLP) 针对大量非结构化的文本资料(如社交媒体评论),采用NLP工具和技术进行语义理解和情感分析。这有助于品牌监测公众舆论趋势或是识别消费者偏好变化。 ##### 时间序列分析 对于金融交易记录或其他随时间连续产生的数值型变量集合,运用ARIMA(AutoRegressive Integrated Moving Average)之类的专门设计用于此类情况下的统计建模手段来进行未来走势预估[^1]。 ```r library(forecast) data <- ts(c(10, 20, 30), frequency = 12) model <- auto.arima(data) forecast(model, h = 5)$mean ``` ##### 可视化展示 借助专业的图表制作软件包比如Tableau 或者Python 的Matplotlib库把复杂抽象的结果转换成直观易懂的形式供相关人员解读参考。 ```python import matplotlib.pyplot as plt plt.plot([1, 2, 3, 4]) plt.ylabel('some numbers') plt.show() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值