在线广告点击率预测中的逻辑回归应用
1. 模型训练与测试
首先,我们进行模型的训练和测试,代码如下:
sgd_lr.fit(X_train_enc.toarray(), Y_train)
pred = sgd_lr.predict_proba(X_test_enc.toarray())[:, 1]
print(f'Training samples: {n_train}, AUC on testing set: {roc_auc_score(Y_test, pred):.3f}')
运行结果为:
Training samples: 100000, AUC on testing set: 0.734
这个过程简单快捷,展示了基本的模型训练和测试流程。
2. 带正则化的逻辑回归模型训练
2.1 正则化的基本概念
逻辑回归的 SGDClassifier 中的 penalty 参数与模型正则化相关。正则化有两种基本形式:L1(也称为Lasso)和L2(也称为岭回归)。正则化是在原始成本函数的基础上增加一个额外的项,公式如下:
[
J(w) = \frac{1}{m}\sum_{i = 1}^{m}-[y^{(i)}\log(\hat{y}(x^{(i)})) + (1 - y^{(i)})\log(1 - \hat{y}(x^{(i)}))] + \alpha||w|| q
超级会员免费看
订阅专栏 解锁全文
1214

被折叠的 条评论
为什么被折叠?



