机器学习基础与数据处理全解析
在机器学习领域,有许多强大的工具和技术可以帮助我们处理数据、构建模型。本文将深入探讨一些关键的机器学习概念、工具和数据处理方法。
1. 常用机器学习库
Scikit - learn 是最受欢迎且广泛使用的机器学习库,它基于 SciPy 构建,拥有丰富的监督和无监督学习算法。Statsmodels 则是对 SciPy 包的补充,是运行回归模型的最佳包之一,能为模型的每个估计器提供丰富的统计结果。
2. 机器学习中的数据视角
数据是与业务背景相关的事实和数字,由两个方面组成:
- 对象 :如人、树、动物等。
- 属性 :为对象记录的属性,如年龄、大小、重量、成本等。
当测量对象的属性时,会得到因对象而异的值,这些属性也被称为变量。从取值类型来看,变量可分为两类:
- 连续定量变量 :可以在较大范围内取任意正或负数值,如零售销售额和保险索赔金额。
- 离散或定性变量 :只能取特定值,如零售店的位置区域、州和城市。
3. 测量尺度
变量通常可以用四种不同的尺度进行测量:
| 测量尺度 | 属性 | 数学运算 | 描述性统计 |
| — | — | — | — |
| 名义尺度 | 身份 | 计数 | 众数、比例 |
| 顺序尺度 | 身份、大小 | 排序 | 众数、中位数、范围统计 |
| 区间尺度 | 身份、大小、相等间隔 | 加法