数据工程与模型组装:预防算法偏差的关键步骤
在数据科学领域,预防算法偏差是确保模型准确性和公正性的重要任务。下面将详细介绍数据工程和模型组装两个关键步骤中预防算法偏差的方法。
1. 数据工程
数据工程包含五个子步骤,每个步骤都可能引入算法偏差,以下是针对每个步骤的预防措施:
- 样本定义 :样本定义是极具挑战性的任务,因为其中存在诸多导致偏差的陷阱。需要特别关注以下三点:
1. 分层 :考虑成本和时间预算对样本大小的限制,确保特定特征的案例数量充足。
2. 时间周期 :确定要覆盖的时间范围。
3. 样本大小 :考虑子段数量和大小、稀有属性频率以及建模技术,确定实现稳健模型所需的总体样本大小。
为了降低成本,可能需要创造性地设计样本结构,例如为昂贵的数据源设置较小的样本,为其他数据源设置较大的样本。必要时,可能需要申请更大的预算来获取更多外部数据。
-
数据收集 :在数据收集过程中,要特别警惕查询或手动流程可能无意中排除或遗漏某些特征的情况,这可能由技术问题或概念问题导致。例如,银行可能会删除已注销的账户、在与客户协商重组贷款时移除违约标记,或者报告违约客户的重要贷款文件“缺失”。SQL 查询也可能存在微小概念缺陷,导致遗漏、错误分类、重复或混乱某些特征。
为了确保数据集的完整性,可以向一线人员(如高级会计师和催收部门的后台工作人员)询问贷款可能出现问题的各种方式,并获取有用的基准数据(如去年财务报表中该投资组合的总信
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



