机器学习在犯罪率预测与房价预测中的应用
1. 旧金山犯罪分类问题研究
在解决旧金山犯罪分类问题时,我们选用了多种方法,包括多元逻辑回归(MLR)以及三种先进的基于决策树的方法:随机森林(RF)、极端梯度提升(Xgboost)和轻量级梯度提升机(Lgbm)。
为了评估每个模型,我们使用多类对数损失,计算公式如下:
[
\text{log loss} = -\frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{M} y_{i,j} \log(p_{i,j})
]
其中,$\log$ 是自然对数,$N$ 是测试集中的样本数量,$M$ 是类别数量,$y_{i,j}$ 是一个二进制变量,如果观测值 $i$ 属于类别 $j$ 则为 1,否则为 0,$p_{i,j}$ 是观测值 $i$ 属于类别 $j$ 的预测概率。
本次研究使用的数据集来自 2016 年 Kaggle 上的一个公开竞赛,测试集中的每个事件都由 Kaggle 标记了一个真实类别。我们为每个事件提交一组预测概率(每个类别一个),然后使用对数损失分数进行评估。
下面是各算法的具体情况:
| 分类算法 | 对数损失 |
| ---- | ---- |
| MLR | 3.073 |
| RF | 2.359 |
| Xgboost | 2.951 |
| Lgbm | 2.276 |
从表格中可以看出,能够处理分类数据的两种算法(RF 和 Lgbm)表现更好,其中 Lgbm 方法的性能优于其他三种方法。
各算法的详细情况如下:
-
超级会员免费看
订阅专栏 解锁全文
1329

被折叠的 条评论
为什么被折叠?



