想要继续的往前走,必须有深厚的内功,现在就是在修炼内功的时候,其实就是扎马步,略略略。
看到一个问题的求解,首先需要明确我们处理的是什么数据,不同的数据当然要不同的处理呀。数据的属性,也可以叫特征,变量,维度等,我们对属性进行研究,不同的属性给与不同的处理。
属性的划分:
- 标称属性(分类属性),也就是只具有类别信息,只是一个符号和事物的名称。对于标称属性,数学运算时真的没有一丢丢用啊,比如什么均值,中位数,方差。。但众数还是有用的,是一种中心趋势度量。
- 二元属性(布尔属性),是1中标称属性的特殊情况。
- 序数属性,只是表明数据的值之间存在某种有意义的顺序,但具体的差值是不知道的,比如小,中,大的情况。考虑计算均值方差也是没有什么意义的,但可以使用众数和中位数来表示。 123的属性都是定性属性。
- 数值属性,允许我们进行数值运算,以长度和温度为代表。温度可以加减,但长度还能做除法。
- 连续属性,上述的1,2,3,4为离散属性,一般情况下,连续属性还是用浮点变量来表示。
对数据的基本描述:
- 从中心趋势度量角度分析数据
- 从数据的散度角度来分析数据
- 从数据可视化角度来分析数据
首先先从中心趋势度量角度分析数据:包括均值,中位数,众数,加权算术平均,中列数(max+min/2)。
其次可以从数据的散布角度来度量,考虑数值数据散布或发散的度量,包括:极差,分位数,四分位数,四分位数极差,五数概括(盒图),方差和标准差。
最后,我们可以从数据的可视化表示的图形角度来考虑数据:分位数图,分位数-分位数图(q-q图),直方图(频率直方图),散点