大数据:一场改变我们如何生活、工作和思考的革命(更多,凌乱,足够好)

更多,凌乱,足够好

         大数据将是新经济价值和创新的源泉。但更多的是频临危险。大数据的优势代表了三种我们分析需要理解和改变社会的信息的方法转变。

         第一种转变在第二章中已经描述了。在这个新的世界我们能够分析更多的数据。在一些情况下,我甚至能够处理所有与特殊现象相关联的信息。因为在十九世纪,社会已经在依靠一些事例,当面对大量数据的时候。然而对事例的需求是一个信息稀缺的人工制品,这是模拟时代在与信息交互的自然约束的一个产品。在高性能数字技术流行之前,我们没有认识到事例是人工的束缚,我们常常视为当然。用所有的数据让我们看到了细节之前从来不能看到的,当我们被限制到小的数量。大数据给我们一个对于颗粒特别清楚的视角:子类和子市场,那是事例不能判断的。

         看到巨量的数据也允许我们放宽对精确要求的限制,第二个转变,我们在第三章讨论。那是一个权衡:样例中少的错误使得我们接受更多的测量的错误。当我们测量的能力被限制的时候,我们仅仅计算最重要的事情。非常努力的取得精确的数字是适当的。那是没有用的去卖牛,如果买方不确定是否存有100或者仅仅80在牛群中。直到最近,我们所有的数字工具是基于精确的:我们假设数据库引擎检索记录能够非常匹配我们的查询,更多的电子表格制表在列中的数字。

         这个思考的模式是小数据环境的一个功能:用太少的事情去测量,我们不得不对待那些我们厌倦去尽可能精确的去定量。在一些情况下这是明显的:小的商店用计算现金用到分这样小的单位,但我们不能也确实不能用同样的方法计算一个国家的生产总值。随着规模的增长,数字的不准确也在增长。

         精确要求仔细地策划数据。它也许为了小数量工作,当然某种情况下仍然要求在银行有或没有足够的钱去写一个支票。作为回报用更复杂的数据集,我们能够流出一些刚性的精确在大数据世界。

         大数据常常是不清晰的,质量上有变化的,并且分布在无数的服务器上在世界范围内。用大数据,我们满意于一个一般方向性的感觉,而不是知道一个现象到一寸,一分钱,原子。整体上我们不放弃精确的态度。我们仅仅放弃对它的热爱。在微观级别上我们失去的东西可以在宏观级别上获得。

         这两个变化导致了第三个变化,我们将在第四章解释。从一个对于因果关系的古老的搜索中移除。作为人类,我们受限与寻找原因,即使寻找原因常常是困难的,并且常常使我们走上错误的道路。对比大数据的世界,我们不必关注原因,相反我们能够发现模式和关联在数据之间的,那将提供给我们新奇的和无价值的观点。这些关联也许不会精确地告诉我们为什么某事发生,但它将提醒我们什么将发生。

         在许多情况下那是足够好的。如果上百万的电子医疗记录揭示了癌症患者,某种组合例如阿司匹林和橙汁对他们的疾病进行了缓解,对于健康的提高的精确原因也许比我们生存这个事实显得更加不重要。否则,如果我们能节省钱通过知道购买机票的最佳时间,不需要懂得机票疯狂涨价背后的方法,那就足够好。大数据是关于什么,不是为什么。我们常常不需要知道某种现象的引起原因,我们仍然能让数据自己说话。

         在大数据之前,我们的分析常常被限制到去测试一定数量的假设,这些假设能够被定义好甚至当我们收集数据之前。当我们让数据说话的时候,我们能够做连接,那些我们从来不认为存在的。一些对冲基金解析推特来预测股票市场的性能。亚马逊和Netflix给出了产品的推荐对于那些与他们网站上交互的用户。推特,LinketIn,和脸谱都映射用户的关系的“社会图”来学习他们的喜好。

         当然,人类分析数据已经几千年了。在古代美索不达米亚是写作被开发了,因为政府想要一个有效率的工具来记录信息的痕迹。因为圣经时代,政府进行了人口普查来收集巨大的市民的数据记录,两百年来精算师相似地收集了大量的数据宝库,他们希望了解关心的风险,至少可以避免。

         然而在模拟时代,收集和分析这样的数据是花费极大的并且时间也消耗很大。新的问题常常意味这数据不得不被再次收集并且重新开始分析。

         向着管理数据更有效率迈进的一大步是数字化的出现:使得模拟信息被计算机可读,那也使得它更容易存储和处理。先进性被富有效率的戏剧性的提高了。信息收集和分析之前需要花费几年的时间现在几天甚至更少的时间就能完成。但别的仅有小的改变。分析数据的人们也常常浸透在模拟的范式当中,假设数据集有奇异的目的同他们的价值捆绑。我们的过程延续了这种偏见。使得这种转变到大数据与数字化是一样重要的。计算机存在少没有使得大数据发生。

         没有好的术语描述现在什么正在发生,但某个人帮助框架的改变是数据化,一个概念我们将在第五章介绍。它是关于在太阳下的所有事物的信息化,包括那些我们从来认为根本不是信息的,例如一个人的定位,引擎的震动,桥的压力,并且转换它成为数据的格式并大数据化。这允许我们使用信息采用新的方法,例如预测分析:监测一个引擎将要坏掉基于它产生的热和震动,作为一个结果,我们能够揭开信息的隐含的,潜在的价值。

         这是一个正在进行的宝藏的寻找,驱动的通过从数据中抽取的观点,潜在的价值能被释放从因果关系到相关联。但它不仅仅是一个宝藏。每一个单个的数据集想要有一些内在的,隐藏的,仍然没有挖掘的价值,这个竞赛是去发现并捕获它们。

         大数据改变了商业,市场和社会的天性,我们将在第六和七章描述。在二十世纪,价值改变从物理设施象土地和工厂到无形资产例如品牌和智力资产。现在正在被扩展到数据,它正在变成企业的资产,一种重要的经济输入和新经济模型的基础。它是信息经济的石油。尽管数据很少记录在公司的平衡表里,这可能只是一个时间问题。

         尽管一些数据处理技术已经出名了一段时间,在过去它们仅仅是间谍机构,研究所和世界级的大公司可利用的。在零售和银行业,沃尔玛和第一资本成了大数据使用的先锋,也正在改变这这些行业。现在这些工具中许多已经被民主化了(尽管数据仍然没有)。

         独立的影响也许是所有里边的最大的动摇。特殊领域的专家的重要影响比可能性和关联性更少。在电影点球成金中,棒球寻找是非常抢戏的被统计学,当天生本能给这些方法到复杂的分析。相似的,主题专家不将离开,但他们不得不与大数据分析去争辩。这将迫使一种调整对于传统的管理理念,决策,人力资源和教育。

         我们的机构的大部分被建立在推测之下,人类的决定基于那些信息,少的,精确的和自然原因。但形式发生了变化,当数据是巨大的,能被快速处理的,和容忍不精确的。此外,因为数据的巨大尺寸,决定常常被机器而不是人做出。我们考虑大数据的黑暗的一面在第八章。

         社会有几千年的经验在理解和监督人类的行为。但你怎样调节一个算法?在早期的计算当中,决策者认识到技术怎样被使用来破坏隐私。因为社会已经建立了规则的机体去保护个人的信息。但在大数据时代,这些规则成了没有用的马其诺防线。人们想要在线分享信息,服务的中心的功能,不是一个去避免的弱点。

         同时,对于我们的危险是单独的改变,从私有到可能性:算法将预测可能,一个人将心脏病发作(并且偿付更多的医疗保险),心脏病发作的默认(并且拒绝贷款),或者犯罪(也许提前被捕)。这将导致自由权的伦理的考虑对抗数据的专政。单独的意志胜过大数据,否则即使统计整理这个?当印刷机准备了保证了更早不存在的自由言论的法律范围,因为太少的书面表达去保护。大数据时代需要新的规则去保护个体的不可侵犯。

         在许多情况 下,我们控制的方法和处理的数据将不得不改变。我们正在进入一个持续的数据驱动预测的世界,那里也许我们不能解释我们做出决定的原因。那意味着医生不能证明药的干预,不问病人愿意到一个黑盒子,当这个医生必须去做来依靠大数据驱动的诊断?司法系统的标准关于可能原因需要改变到概率原因。如果这样,人类自由和尊严的含义是什么?

         信息的规则被需要在大数据时代,我们安排在第九章。尽管他们建立在价值之上,这些价值被开发和放置为了小数据的世界,那不是一个简单的事情,去更新老的规则为了新的形势,而是认识这些对于新的规则的需求。

         社会的利益是许多种的,当大数据变成了解决方案的一部分为了处理全球的问题例如气候变化,根除疾病,培养好的治理和经济开发。但大数据时代也挑战我们去变得更好,准备方法在利用技术改变我们的机构和我们自己。

         大数据标明了一个重要的步骤在人类的探索去量化和理解这个世界。事情的一个优势是以前从来不能被测量,存储,分析和共享的正在数据化。利用大量的数据而不是小部分,更多缺少精确性的数据将特权化,打开了理解的新方法之门。它导致社会去放弃历史悠久的喜爱对于因果关系,在许多情况开发关联的益处。

         识别原因的机制的思想是一个自我欣赏的病态;大数据颠覆了这个。然而我们有到了历史的僵局,“上帝死了”。这就是说,我们相信的确定性又一次发生了变化。在这个时候它们正在被代替,具有讽刺意味的是,通过更好的证据。什么角色被留下对于直觉,信仰,不确定性,行动在信仰的矛盾中,通过经验学习?当世界从因果关系到关联的改变,我们怎样能独断的向前走,不管社会基石的破坏,人类和基于原因的进展?这本书想要解释我们在哪里,我们怎样到达这里和提供一个紧急的需要指南为了在前面的利益和危险。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值