10、算法偏差:树模型与社交媒体中的问题剖析

算法偏差:树模型与社交媒体中的问题剖析

树模型算法的问题

算法结构多样,各有优劣。线性模型能高效利用数据,对每个输入因子,会用整个样本数据估计参数,在处理罕见情况时表现较好。例如银行评估细菌衍生露营油卖家的贷款申请,记分卡综合行业风险指数、流动性比率和企业经营年限等输入因素,即便行业风险被低估,也会因企业流动性不足和经营历史短而给予相应评估。

然而,基于树的方法(如决策树和随机森林)在数据利用上较为浪费,但因其比特征的线性组合更灵活,在机器学习技术中愈发重要。树模型是一种分类方法,将总体不断细分,使每个细分群体尽可能同质,以开发样本中的平均结果为代表。

以信用评分为例,树模型首先考虑的因素可能是行业,将公司分为农业、制造业和“其他”(如服务业)三大类。对于制造业,第二步可能按流动性高低划分,第三步对低流动性企业按经营年限进一步细分。对于农业企业,划分逻辑可能不同,第二步可能按土地所有权划分,拥有土地的企业还会进一步分为作物生产、畜牧生产和“其他”业务。

但问题在于样本会被不断分割。假设样本中有10000家公司,农业部门有800家,其中500家拥有土地,包括细菌油制造商。这500家又会被分为230家作物生产者、240家畜牧生产者和仅30家符合“其他”标准的公司。如此小的群体难以计算有意义的违约率,也无法按其他标准(如流动性比率或企业年限)进一步细分。

具体而言,会出现以下情况:
- 公司与一小群可能不可比的异常公司归为一类。
- 由于群体公司数量少,树模型对数据需求大,无法根据预测风险的其他因素(如流动性和企业年限)进一步区分该群体。
- 公司被赋予所在群体的平均违约率,这可能并非该公司风险的合理估计。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值