1、统计与机器学习数据挖掘:原理、方法与应用

统计与机器学习数据挖掘:原理、方法与应用

1. 数据分析领域的变革力量

在数据分析领域,个人计算机(PC)和约翰·W·图基(John W. Tukey)带来了巨大变革。PC 让统计计算变得轻松,消除了繁重的计算负担,只需提出正确问题,它就能给出精确结果。然而,这也使一些统计基础薄弱的人成为准统计学家,让他们产生了不切实际的自信。

图基在 1962 年预测了数据统计的变革,1977 年他出版的《探索性数据分析》(Exploratory Data Analysis)引领统计学进入了探索性数据分析(EDA)时代。EDA 本质上是一种持续的数值、计数和图形侦探工作,如今它也被称为数据挖掘或统计数据挖掘。

2. 基础数据挖掘方法

2.1 相关系数

相关系数是衡量两个变量之间线性关系强度的指标。其计算基于变量的协方差和标准差,公式为:
[ r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \sum_{i=1}^{n} (y_i - \bar{y})^2}} ]
其中,(x_i) 和 (y_i) 是变量 (X) 和 (Y) 的第 (i) 个观测值,(\bar{x}) 和 (\bar{y}) 分别是 (X) 和 (Y) 的均值,(n) 是观测值的数量。相关系数的取值范围在 -1 到 1 之间,-1 表示完全负相关,1 表示完全正相关,0 表示无线性相关。

2.2 散点图

散点图是展示两个变量之间关系的直观工具。通过将每个数据点的两个变量值作为坐标

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值