原文链接:http://www.kdnuggets.com/2017/02/what-is-big-data.html
当我第一次听见“大数据”的时候,我并没有思考太多。不久之后,“大数据”开始不断的出现在我和我的IT朋友的聊天之中。所以我开始问自己“什么是大数据”?我不断的为我自己的朋友们这个问题,而从来没有得到过完全相同的答案。“是很多很多的数据”、“是各种各样的数据”、“是快速堆积起来的数据”。真的是这样吗?我不敢再去询问他人这个问题,而开始了自己的思考。虽然这个问题对我来说没有太大的意义,但是我决定亲自找出这个问题的答案,显然,我第一步是查询谷歌。
当我输入“大数据”,谷歌给我返回的一条消息是:“大数据就像”**“每个人都在讨论他,但是没有人知道如何做;每个人都觉得其他人在做大数据,所以每个人都声称他们也懂如何做大数据。“
这个回答对我来说真的是很有意义。因为我所问的每个人都不懂大数据,但是每个人都在按自己所想的在讨论大数据。这这个系列的文章里,我将计划持续写有关”大数据“的内容,我的读者对象是那些每天都在听到”大数据“但是并没有应用到他们的生活和工作中的人群。如果你是刚入门”大数据“的人,那么这篇文章将会给你一些基础的知识。请决定自己继续看下去,还是离开。
所以真正的”大数据“是什么?
我选择询问我最好的朋友”维基百科“,它说:
大数据是指我们无法用一般的工具处理的大量和复杂的数据集。维基百科的焦点是数据的容量和处理这些数据的复杂性。这是一个好的开端,但是维基百科并没有回答所谓的容量的界限是多少,既如何描述”大“?是100G,还是1PG?以及什么是一般的数据处理工具?是涉及到甲骨文和IBM公司的数据工具吗?
然后我又在O’Reilly media上搜索答案:
大数据是超越了传统数据处理工具容量的数据。大数据是如此之大,变化的是如此之快,它根本就不适合你的数据结构。要从这些数据里获得价值,你必须选择其他的方法来处理它。
在一定程度上,维基百科和O’Reilly对大数据处理的容量和传统的数据库的定义是相同的。但是O’Reilly增加了一个新的概念”如此之大“和”如此之快“。这让我想到了大象和美洲豹从我脑袋里跑过。
然后我又参考了Gartner的答案:”大容量、快速度、高复杂度的需要划算的、创新的方法来处理的数据”。
Gartner提到了数据的规模,数据生产的速度,和数据的种类这些都和维基百科与O’Reilly的定义大致的相同。
而Mike Gualtieri 觉得Gartner只是测量出了大数据的容量。Mike Gualtieri坚持认为Forrester的定义是更加可行的,他的定义是:“
大数据是一个公司可以储存,处理和访问的临界点,它需要高效的操作,做出决策,减少风险和服务客户。”
让我们一起来消化一下以上所讲的内容。Forrester认为任何公司所能处理数据的临界点就是大数据。而问题是临界点又是指什么呢?
我继续查找答案,我看到了McKinsey的定义:“大数据是超过了典型的数据库软件所能储存的,捕获的,管理的和分析的数据。”
很简单明了的描述,但是仍不是一个具体的概念能我区分是什么是数据什么是大数据。
然后我就看到了一篇文章(http://datasciencedegree.wisconsin.edu/data-science/what-is-big-data/)提到大数据是容量应该是大于1 petabyte的数据。然后这篇文章定义了大数据的3V(Volume,容量;Velocity,速度;Variety,多样)而IBM则又增加了一个V(Veracity,真实性)如下图所示:
所以,我学到了什么?
即使没有一个大数据的定义是被普遍的接收的,但是有一些概念可以概括大数据:
1.大的容量(Large Volume):大于1 Peta bytes
2.多样样性(Numerous Variety):不是单一的种类,所以传统的结构化数据库无法处理
3.产生速度快:(Fast Velocity):快于过去的传统数据产生速度
4.需要新型的处理方法