在数据分析师的日常工作中,经常会接到某某业务线的指标上升、下降了需要排查原因的需求,这里的指标会因业务类型、产品的目标的不同而有所差异,可以是GMV、DAU,也可以是留存率、注册转化率等等指标。那么当我们面对海量的数据、复杂的业务场景时,如何抽丝剥茧,拨开云雾,快速的找到问题的根因,并且帮业务更好的改进优化呢,这考察的不但是分析师的业务经验、理解能力、问题拆解能力、数据洞察力、多维分析能力,同时也考察的是对潜在机会和问题的预见能力。此外,在面试中,异常归因这个命题应该是在招聘jb或者面试考核中出现最多的词条,由此可见,这项能力的重要性对于数据分析师或者数据运营人员来说可见一斑。
毋庸置疑,“数据异常分析”是数据分析的必修技,那么作为分析师的我们要如何这项能力修炼呢,本文将系统性的梳理下异常原因定位的思路、流程、方法,供大家参考,并且结合实际案例剖析下遇到具体的问题时我们是如何分析的,文章的末尾,将给出异常分析的常见问题总结及分析误区。
本文篇幅较长,6000字左右,预计阅读时间15分钟~
一、异常分析思路
分析思路主要是基于异常现象,从业务流程和数据指标两个角度进行拆解,定位异常环节,基于人货场模型,进行维度拆分,找到具体可改进的末端根因,最后给出解决方案。
二、分析步骤及要点
分析的步骤主要是:
(1)验证数据的准确性
(2)确认指标异常类型及范围
(3)掌握数据异常概况及业务情况
(4)异常原因排查及定位
(5)假设检验,找到具体原因
分析步骤是本文中的重点,那么接下来我们会对每一个环节进行逐步的细化讲解,
1.验证数据的准确性
这里需要强调的是数据准确性、真实性是数据异常原因定位的根基,也是大前提。实际上因为数据源出问题,导致的指标异常非常非常多,所以在开始着手分析前,必须首先确认数据的准确性,这一步一定是第一顺位的。
那么跟数据源有关的技术问题都有哪些呢?比如数据源异常、数据库异常、数据延迟、提数SQL错误、数据统计口径不一致等等,我们在分析之前一定要保证看到的数据从根源到展现整个流程都是无误的。
那么在具体实操时我们要怎么办呢?如果数据分析师可以获取到流程中的所有数据,那么可以自行验证,如果因为角色分工或者权限问题,可以找数据产品与研发确认数据来源的准确性。
2.确认指标异常类型及范围
为什么要区分指标异常类型和明确范围呢,因为异常的表现不同,要定位方向、方法就会不同,最后归因要素的构成往往也是不同的。
类型:从时间维度来看可分为偶发性、周期性、趋势性(持续性)、积累性;
范围:从波动的范围来看,可分为增幅/降幅在合理区间、激增、