描述统计
连续型变量和分类型变量
id 一般也是分类变量。可以说没有大小的说法
图表法:
相对频数分布: 频数/N N是全部的样本数据
百分数频数分布 : 相对频数分布 加个%
分类型数据:
第一反应 先想到频数!,条形图,饼形图
单变量数量型数据:
每个组 组限不能重叠
双变量
两个分类数据分析: 看一下交叉频率,看一下各自的频数
一个分类,一个数量: 可视化可以boxplot
两个连续性:先想到做散点图,看相关性。
数值方法:
中位数: 中间的那个数(排完序从小到大)
标准差系数:S/X平均 %
Z-分数
经验法则:如果该观测值超过了3个标准差的量度,那么就是异常值(异常检测)
一般来说:2个标准是75%,3个标准差是89%,4个标准差是94%
60-70=-10
80-70=10
标准差为5 则范围是2个标准差,那么至少
(1-1/2*2)=75% 在此范围内
上图中:IQR=Q3-Q1
值的范围[-1,+1] 可以说越接近于1,关系越强,越接近0,关系越弱。
时域信号和频率信号指标:
时域信号通过傅里叶变换转换到频域。频域指标反映振动信号的能量大小,是时域指标在频域上的延伸