《大数据时代》摘抄,第一部分大数据时代的思维变革(2、不是精确性,而是混杂性)

大数据时代,精确性不再是唯一追求,混杂性成为关键。非结构化数据占比高达95%,接受并处理这些数据的不精确性和错误,能揭示全新世界。简单算法配合大数据比复杂算法更有效,允许一定程度的混乱是获取大规模数据价值的标准途径。非关系型数据库的发展允许处理更多样化的数据,开启数据利用的新篇章。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。

允许不精确——数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。然而,重点是我们通过努力避免这些问题,学会接受它们。混杂性一方面来自错误的数据(测量的不准确),也来自格式的不一致(如不同的日期格式、同义词)。为了扩大规模,我们接受适量错误的存在,有时得到2加2约等于3.9的结果,也很不错。为了了解大致的发展趋势,我们愿意对精确性做出一些让步。

“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。当我们试着扩大数据规模的时候,要学会拥抱混乱。

大数据的简单算法比小数据的复杂算法更有效——简单算法+大数据

纷繁的数据越多越好,如今,我们已经生活在信息时代。我们掌握的数据库越来越全面,它不再只包括我们手头现象的一点点可怜的数据,而是包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。

大数据不仅让我们不再期待精确性,也让我们无法实现精确性。错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。

要想获得大规模数据带来的好处,混乱应该是标准途径,而不是竭力避免。

今年大转变是非关系数据库的出现,它不需要预先设定记录结构,允许处理超大量五花八门的数据。因为包容了结构多样性,这些数据库设计就要求更多的处理和存储资源。

据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下97%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一个未涉足的世界的窗口。

社会将两个折中的想法不知不觉地渗入了我们的处事方法中,我们甚至不再把这当成一种折中,而是把它当成了事物的自然状态。第一个折中是,我们默认自己不能使用更多地数据,所以我们就不会去使用更多的数据。但是,数据量的限制正在逐渐消失,而且通过无限接近“样本=总体”的方

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值