《大数据时代》摘抄，第一部分大数据时代的思维变革（2、不是精确性，而是混杂性）

最新推荐文章于 2024-11-04 14:18:31 发布

原创

最新推荐文章于 2024-11-04 14:18:31 发布 · 6.2k 阅读

3 ·

CC 4.0 BY-SA版权

大数据时代，精确性不再是唯一追求，混杂性成为关键。非结构化数据占比高达95%，接受并处理这些数据的不精确性和错误，能揭示全新世界。简单算法配合大数据比复杂算法更有效，允许一定程度的混乱是获取大规模数据价值的标准途径。非关系型数据库的发展允许处理更多样化的数据，开启数据利用的新篇章。

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱，剩下95%的非结构化数据都无法被利用，只有接受不精确性，我们才能打开一扇从未涉足的世界的窗户。

允许不精确——数据量的大幅增加会造成结果的不准确，与此同时，一些错误的数据也会混进数据库。然而，重点是我们通过努力避免这些问题，学会接受它们。混杂性一方面来自错误的数据（测量的不准确），也来自格式的不一致（如不同的日期格式、同义词）。为了扩大规模，我们接受适量错误的存在，有时得到2加2约等于3.9的结果，也很不错。为了了解大致的发展趋势，我们愿意对精确性做出一些让步。

“大数据”通常用概率说话，而不是板着“确凿无疑”的面孔。当我们试着扩大数据规模的时候，要学会拥抱混乱。

大数据的简单算法比小数据的复杂算法更有效——简单算法+大数据

纷繁的数据越多越好，如今，我们已经生活在信息时代。我们掌握的数据库越来越全面，它不再只包括我们手头现象的一点点可怜的数据，而是包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益，而不是以高昂的代价消除所有的不确定性。

大数据不仅让我们不再期待精确性，也让我们无法实现精确性。错误并不是大数据固有的特性，而是一个亟需我们去处理的现实问题，并且有可能长期存在。

要想获得大规模数据带来的好处，混乱应该是标准途径，而不是竭力避免。

今年大转变是非关系数据库的出现，它不需要预先设定记录结构，允许处理超大量五花八门的数据。因为包容了结构多样性，这些数据库设计就要求更多的处理和存储资源。

据估计，只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱，剩下97%的非结构化数据都无法被利用，比如网页和视频资源。通过接受不精确性，我们打开了一个未涉足的世界的窗口。

社会将两个折中的想法不知不觉地渗入了我们的处事方法中，我们甚至不再把这当成一种折中，而是把它当成了事物的自然状态。第一个折中是，我们默认自己不能使用更多地数据，所以我们就不会去使用更多的数据。但是，数据量的限制正在逐渐消失，而且通过无限接近“样本=总体”的方