一、项目基本信息
目的:给某互联网客服中心搭建自动可视化报表供运营层使用;
使用对象:运营总监、经理、主管; 此使用对象决定底层表最小粒度;
该项目使用工具:Hive sql、MySQL、Python、power BI、Windows自带任务计划程序;
方案:
- 使用hive SQL从公司内部大数据平台或生产系统获取最新底层数据,存入不同文件夹;
- 使用Python将各文件夹中最新文件导入mysql对应表;
- 使用Windows自带任务计划程序实现2的每日定时执行;
- 使用power BI连接本地MySQL获取底层数据,通过power BI设计可视化报表;
- 使用Python及任务计划程序每日按时推送可视化报表,无需人工操作;
二、数据的获取、清洗、处理
结合使用对象,用SQL获取你想要的原始数据,比如使用对象决定表的最小粒度是员工层,但是向上钻需要到小组、大组、部门、整个客服中心,所以前面提到的这几个字段都是需要的;另外如果想展示sku的top咨询情况,那么就需要到sku粒度;一般情况下如果只是量与量直接做计算,不涉及具体的咨询id或者订单号,推荐先将各字段group by后再进行full join,这时候会得到一张大宽表,在这个宽表上再进行加减乘除的指标运算;
在这里我有用到只有工作量的表,同时也会有明细,因为对于待跟进case员工是需要one by one的跟进的;如:
- 1是最小粒度为员工,且只有工作量及总时长,这种情况可以通过工作量进行想要指标的运算,例如average response time= sum(response_time)/sum(case_resolved_quantity)