可解释的无监督异常检测
在金融审计领域,异常检测是一项至关重要的任务。然而,由于缺乏标记数据以及数据的高度不平衡性,传统的异常检测方法面临诸多挑战。本文将介绍一种可解释的无监督异常检测方法,该方法通过集成多种算法和提供可解释性的解释,有效地解决了这些问题。
1. 特征定义
在进行异常检测之前,需要明确一些关键特征。对于账户(ACC)相关的数据,包含以下特征:
- 周转标准差(Turnover Standard Deviation) :计算每个账户营业额的标准差。
- 周转最大偏差(Turnover Maximum Deviation) :计算每个账户修改后的z分数的最大值,内部使用营业额的中位数绝对偏差。
- 周转平滑度(Turnover - Degree of Smoothness) :将平滑营业额值的比例作为异常检测(AD)的特征。
- 周转与本福德分布的符合程度(Turnover - Degree of Accordance with Benford Distribution) :本福德定律指出,在许多数字集合中,首位数字1出现的概率约为30%,而预期概率为11.1%。这是探测财务欺诈的常用分析工具。
- 周转与上一年同期的符合程度(Turnover - Accordance with Period of Previous Year) :该特征描述了当前营业额与上一年营业额的比较值。
- 税率(Tax Rate)