算法分析:分布分析与覆盖分析指南
在算法的实际应用中,许多使用者并非数据科学家,也可能从未有深入研究统计学的意愿。因此,我们需要一种简单易懂的方式来进行算法分析,以检测和理解算法可能存在的偏差。下面将介绍分布分析和覆盖分析的相关内容。
1. 分布分析
分布分析可以根据算法输出的类型分为不同的情况,以下是具体介绍:
- 多项式输出 :当算法输出为多个可能的分类或非数值值时,分布分析会测量每个类别或可能输出值的相对频率。如果类别过多无法在一个小表格中呈现,报告可以列出前五个类别,并按类别总结其他类别。例如在书籍推荐算法中,可区分小说与非小说类书籍。
- 连续输出 :
- 可以用单一指标(如平均值或中位数)进行总结,这对用户来说通常最容易理解。比如书商发现算法推荐书籍的平均价格呈下降趋势,可能会担心算法存在节俭偏向,影响业务。
- 有时定义值范围(如五个广泛的书籍价格范围)并跟踪案例在这些范围内的分布随时间的变化更有意义。同时,明确显示数据中的最小值和最大值也非常重要,因为异常值可能是偏差的原因和症状。
- 二进制输出 :通常计算百分比(即单一指标)。但要注意可能存在“不确定”的第三类情况,区分三类可能更有意义。例如贷款发放一年后,许多客户处于逾期60 - 89天的边缘,不能简单判定他们是“好”客户。
为了更好地进行分布分析和理解结果,还需要了解以下四个重要概念:
1. 流量和存量数字的区别 :以贷款组合为例,流量数字与新开立的贷款相关,存量数字与不同时间点发放的贷款总量相关。
超级会员免费看
订阅专栏 解锁全文
4万+

被折叠的 条评论
为什么被折叠?



