宽带离网用户分析之数据预处理和特征抽取
在讨论数据预处理的方式之前,我们还是需要把具体的数据项列出来以便观察。
电信后台多源数据项
这里“多源”的意思就是这些数据来自后台不同的部门,有负责硬件网络的,也有维护用户使用记录的部门。
预处理
由于预测任务注重的是Precision值,为了保证预测性能,很多数据不全的用户我们直接筛掉。
这里需要作出说明的是,端口速率和线路稳定的信息,虽然端口速率和线路稳定程度每天都有一条记录,但是这两个指标基本没有变化,因为他们和硬件线路的性能密切相关,硬件线路通常不会有很大的变迁。所以这两个指标我们直接取他们的值作为特征。终端机型号也不会变化,我们直接将N种型号作为离散值特征。
这里我们简要介绍一下离散值特征的处理,假设终端机型号有“华为”、“中兴”、“TP-link”三种类型,我们对于这种取3个值的离散特征怎么处理呢?是不是让这个特征取0、1、2三种离散值对应三种情况呢?一般来说我们不这样做,再举个栗子:假设有另外一个指标,叫“每天上线次数”,约定每个人每天的上线次数取值区间在0-2,那么也就是可能取0、1、2三个值。
这两种0、1、2完全不同,对于终端信号特征,0、1、2完全平等,只不过代表不同的型号而已,但是在数值特性上并不是这样,不难发现0-2的距离大于0-1的距离,也就是说“华为和tp-link”的距离大于“华为和中兴”的距离,这是不合理的。但是对于上线次数,我们发现0-2的取值是更加合理的,因为0次上线和1次上线的距离的确小于0次上线和2次上线的距离。
所以,对于这种情况,我们将终端类型作为3个特征,如果终端是华为feature1、feature2、feature3。
特征 | feature1 |
---|