利用手机记录预测社会经济水平
1. 数据采集与预处理
- 手机轨迹与行为变量
- 从2010年2月到7月,收集了拉丁美洲某主要城市的匿名加密通话记录(CDR)轨迹。该城市有920个基站(BTS),因其社会经济水平的多样性而被选中。
- 仅考虑平均每天通话两次的用户,过滤后约有50万用户。为每个用户计算了279个基于CDR数据的特征,包括69个行为变量(如总通话次数、短信总数)、192个社交网络特征(如入度和出度)和18个移动性变量(如使用的不同BTS数量、总行程距离)。
- 应用住宅位置算法确定每个用户的住宅位置,以每个BTS为中心,计算该BTS覆盖范围内用户特征的平均值,得到该BTS的聚合特征集。
- 社会经济水平
- 城市的社会经济水平分布数据来自国家统计局。统计局通过全国住户调查收集数据,定义了三个社会经济水平(SEL):A、B和C,A为最高水平。
- SEL值由134个指标组合得出,如家庭成员的教育程度、房屋房间数量、手机、固话或电脑数量、家庭总收入、家庭成员职业等。
- 该城市由1200个地理区域(GR)组成,SEL分布为:A占12%,B占59%,C占29%。
- 匹配行为变量与社会经济水平
- 为创建社会经济预测模型,需要每个BTS的手机数据和社会经济水平。但GR与BTS覆盖区域不一定重叠,因此要将每个BTS覆盖区
超级会员免费看
订阅专栏 解锁全文
6829

被折叠的 条评论
为什么被折叠?



