来自🥬🐶程序员 Truraly | 田园 的博客,最新文章首发于:田园幻想乡 | 原文链接 | github (欢迎关注)
文章目录
数据类型:
- 名称型:区别性 比如:性别
- 顺序型:区别性,顺序性 比如:身高
- 间隔型:区别性,顺序性,可加减 比如:温度
- 比率型:区别性,顺序性,可加减,可乘除 比如:百分比
为什么要预处理数据:
- 数据不完整,比如缺失值
- 数据不一致,比如单位不一致
- 有噪声,比如错误数据
3.3.1 数据的中心趋势
平均数和加权平均数
首先这里有一组数据
1,,53,22,39,73,9,14
(算数)平均值:
x ‾ = 1 n ∑ i = 1 n x i \overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i} x=n1∑i=1nxi
加权平均值:
x ‾ = ∑ i = 1 n w i x i ∑ i = 1 n w i \overline{x}=\frac{\sum_{i=1}^{n}w_{i}x_{i}}{\sum_{i=1}^{n}w_{i}} x=∑i=1nwi∑i=1nwixi