大数据强调更多的数据,不是随机样本,而是全体数据
让数据“发声”——IBM的资深“大数据”专家 Jeff Jonas提出要让数据“说话”。 注:数据如何才能说话呢?数据是客观的,我想数据的要表达的意思是它在的数学与统计上呈现的特征,以及根据这些特征所获得的洞察,如何能理解数据呢?数学和统计是它的语言。
目前我们可以处理的数据量已经大大增加,而且未来会越来越多。在某些方面,我们依然没有完全意识到自己拥有了能够收集和处理更大规模数据的能力。
小数据时代,由于收到数据收集和处理能力的限制,往往采用随机采样的办法,用最少的数据获得最多的信息。
统计学家证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大,一个简单的解释:当样本数量达到某个值之后,从新个体身上得到的信息会越来越少,如同经济学中的边际效应递减一样。注:什么叫边际效应递减?吃第一个包子很满足,吃第二个也不错,吃第十个包子时可能几乎没什么满足感了。
样本的随机性比样本的数量更重要。
随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。绝对的随机性实现非常困难,随机采样不适合考察子类别的情况,一旦细分,随机采样结果的错误率会大大增加。当人们想理解更深层次的细分领域时,随机采样的方法就不可取了。在宏观领域起作用的方法,在微观领域失去了作用。
全数据模式,样本=总体。使用所有数据并不代表这是一项艰巨的任务。大数据中的大“大”不是绝对意义上的大,虽然在大多数情况下是这个意思。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。大数据的“大”取的是相对意义而不是绝对意义。
大数据全样本分析
本文探讨了大数据时代下全样本分析相较于传统随机抽样分析的优势。介绍了全样本分析如何利用所有数据进行洞察,并讨论了其在微观层面应用的重要性。同时,文章也提到了随机抽样在特定情况下的局限性。
4677

被折叠的 条评论
为什么被折叠?



