基于树算法的点击率预测
1. 决策树的实现
在深入理解分区评估指标后,我们可以在模拟数据集上手动实践CART树算法。
1.1 手动构建决策树
首先,我们通过尝试两个特征的所有可能值来确定第一个分割点(即根节点)。使用 weighted_impurity 函数计算每个可能组合的加权基尼杂质:
Gini(interest, Tech) = weighted_impurity([[1, 1, 0], [0, 0, 0, 1]]) = 0.405
Gini(interest, Fashion) = weighted_impurity([[0, 0], [1, 0, 1, 0, 1]]) = 0.343
Gini(interest, Sports) = weighted_impurity([[0, 1], [1, 0, 0, 1, 0]]) = 0.486
Gini(occupation, Professional) = weighted_impurity([[0, 0, 1, 0], [1, 0, 1]]) = 0.405
Gini(occupation, Student) = weighted_impurity([[0, 0, 1, 0], [1, 0, 1]]) = 0.405
Gini(occupation, Retired) = weighted_impurity([[1, 0, 0, 0, 1, 1], [1]]) = 0.429
根节点选择用户兴趣特征中的时尚值。我们可以构建树的第一层:
- 如果满足于一层深
超级会员免费看
订阅专栏 解锁全文
1596

被折叠的 条评论
为什么被折叠?



