在我们开始任务之前,我们还是来看看我们所拥有的数据。
数据项介绍
我们所拥有的是基站上采集的数据,并且是和话务量相关的指标。这里需要说明的是,虽然手机上网的数据都从基站走,但是我们并不对数据包的内同进行解析——如果恰恰有一条短信是,“我们明天一起来挑广场舞吧”,那肯定,明天这个小区的话务量可能会增加。我们是不对用户的上网数据进行解析的,我们仅仅是用和话务量相关是的指标来预测化话务量。
这样做的原因也很简单——文本内容的解析太过复杂,要考虑的因素太多。(比如淘宝预测用户即将购买的商品的时候,更多的是利用用户已经购买的商品的信息,而不会对用户的评价文本内容做深入解析(比如“我下周还要再买5套”这样的文本))。比如预测用户可能喜欢的电影,我们更多的是利用已有的打分,而不会花太大的气力去解析用户对电影的评价。而“话务指标”、“购买商品记录”、“用户打分记录”是同质的格式化的大量行为数据,这种数据内涵丰富并且可解释性非常好,做数据挖掘任务往往更加适宜。
基站上可以采集的和话务量相关的指标其实还是很多的,这里我们列出和技术人员讨论以后,确定的和基站的服务性能息息相关的几个关键指标。
这些指标有一个共同的特征——越大越不好,并且这里的关系是一种“木桶效应”——一个指标不行了,整个基站的服务性能就会下降。
数据量和数据粒度
这里我们取的是江苏某省会城市的一共近2000个基站(共计近6000个小区)的话务数据。这8个指标都是每个小时产生一条数据。
数据标识方面,BSC地区编号、BTS基站编号、Cell小区编号及其所对应的3至4个载频的编号,这四个字段构成了所有基站每个载频的唯一标识。
我们预测的对象是小区,所以,我们拿其中前3个字段的拼接作为ID,而对于每个小区,我们将各个载频的指标的均值作为其指标值,也把该值作为预测的标准。这样做的原因有两个——一方面基站有一种均衡负载机制,会让每个负责某个小区的几个载频均分话务的负担,另一方面,系统会根据实际情况对载频的数量进行调整,所以求载频话务量的均值是统一和有效的指标。