在学习《数据挖掘导论》数据这一章时,对属性类型中的区间和比率这两个的区别理解不好,在博客上看到一篇解释得不错的文章,就转载当做记录。
原文如下:
现在正在学习《数据挖掘导论》数据这一章,下面是我对数据的属性类型-区间比率的一点理解。
书上的描述:
区间:对于区间属性,值之间的差是有意义的,即存在测量单位。如日历日期、摄氏或华氏温度
比率:对于比率属性,差和比率都是有意义的。如绝对温度、货币量、计数、年龄、电流等
对于日期来讲,不能说2014年是1007年的两倍所以日期是区间属性而不是比率属性,也就是说差是有意义,但是比值却没有意义
拿货币来说,我有200元,你有100元,可以说我比你多100元,也可以说我的钱是你的两倍,所以货币量就是比率属性。
这样理解起来貌似能区分一些区间属性和比率属性,但是总感觉不能明显的区分这两种类型。比如昨天10℃,今天20℃,我们可以说今
天比昨天气温高10℃,也可以说今天的温度是昨天的两倍,这么说摄氏度应该属于比率属性,但事实上摄氏度属于区间。后面这句话到底
有没有意义我们很难分辨。所以我们可以根据该属性是否具有固定零点来理解:
就拿摄氏度来说,为什么摄氏度不是比率而绝对温度是比率属性呢?因为摄氏度不存在固有零点,也就是说0℃并不是指现在没有温度,
或者该物质的粒子具有零动能。而绝对温度在0K时,物质粒子具有零动能,以0K为固有零点,我们可以说20K是10K的两倍,而20℃(=293.15K)
并不是10℃(=283.15K)的两倍。再比如年龄,0岁表示我们刚出生,可以以此为固有零点,20岁是10岁的两倍,所以年龄和绝对温度都是比率。
原文地址:http://blog.youkuaiyun.com/tomcmd/article/details/41311575