大数据预测建模与分析中的统计和机器学习数据挖掘技术
1. 引言
1.1 个人计算机与统计学
个人计算机的发展对统计学产生了深远影响。它使得数据处理和分析变得更加便捷高效,让统计方法能够更广泛地应用于各个领域。
1.2 统计学与数据分析
统计学是数据分析的重要基础,它提供了一系列的方法和工具,用于收集、整理、分析和解释数据。数据分析则是运用统计学方法,从数据中提取有价值的信息和知识。
1.3 EDA(探索性数据分析)
EDA 是一种通过可视化和简单统计方法来探索数据特征和结构的方法。它可以帮助我们快速了解数据的分布、关系和异常值等信息。
1.4 EDA 范式
EDA 范式强调在进行正式的统计分析之前,先对数据进行探索性分析。通过绘制各种图表、计算统计量等方式,发现数据中的潜在模式和问题。
1.5 EDA 弱点
虽然 EDA 有很多优点,但也存在一些弱点。例如,它可能无法发现一些隐藏的复杂关系,对于大规模数据的处理效率可能较低。
1.6 小数据与大数据
1.6.1 数据规模特征
小数据通常具有数据量较小、结构相对简单的特点;而大数据则具有数据量大、多样性高、速度快和价值密度低等特征。
1.6.2 数据规模:个人观察
不同的人对数据规模的感受可能不同,一个人认为的数据规模大小可能受到其工作经验和处理数据的能力等因素的影响。
1.7 数据挖掘范式
数据挖掘范式是一种从大量数据中
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



