数据科学与统计学:是同一回事吗?
在当今的科技领域,数据科学和数据科学家变得越来越引人注目,甚至可以说已经成为一种热潮。有人认为,这反映了统计学领域和统计学家角色的重大变化。那么,新出现的“数据科学”一词,究竟意味着统计学是一个更发达、更广泛领域的子集,还是仅仅是对当前统计学状态的一种炒作呢?数据科学家是超级统计学家,拥有比现有统计学家更广泛的技能,还是仅仅是一个华而不实、含义模糊的新称谓呢?
数据科学与统计学的定义演变
数据科学和统计学的概念有着悠久的历史。“Statistik”(德语中的“统计学”)一词在1749年由德国政治科学家戈特弗里德·阿亨瓦尔(Gottfried Achenwall)推广,甚至可能是他创造的。到1770年,“Statistik”有了“处理国家或社区状况数据的科学”的含义,这可以看作是统计学早期的定义。
从科学作为一个需要理论和方法的特定知识分支的角度来看,阿亨瓦尔所提出的概念实际上就是统计学的定义。基于他的表述,可以将数据科学/统计学定义为以下实践过程:
1. 数据收集
2. 在问题领域内进行数据分析
3. 用图形解释分析结果
4. 得出结论
然而,随着互联网的发展,数据的规模和类型发生了巨大变化。互联网带来了大数据,这些数据不仅包括数字,还包括文本、语音、图像等。大数据的出现使得计算机成为必要工具,也推动了高性能统计程序的诞生和发展。因此,现代的数据科学/统计学可以定义为一个四步过程:
1. 数据收集
超级会员免费看
订阅专栏 解锁全文
3094

被折叠的 条评论
为什么被折叠?



