一、特征映射:当逻辑回归问题较复杂,原始特征不足以支持构建模型时,可以通过组合原始特征成为多项式,创建更多特征,使得决策边界呈现高阶函数的形状,从而适应复杂的分类问题。
二、机器学习训练得到的模型可能存在一种现象是过拟合,在训练集上模型表现很好,但是在测试集上效果很差,即模型的泛化能力不行。此时解决方法有:
1、丢弃一些不能帮助正确预测的特征。可以手工选择保留哪些特征,或者使用一些模型选择的算法来帮忙(例如PCA)。
2、正则化:保留所有的特征,但是减小参数θj的值。
正则化的思想是减少高次项θ的值,使曲线平滑。在逻辑回归算法中代价函数正则化如下: J ( θ ) = − 1 m ∑ i = 1 m [ y ( i ) l o g ( h θ ( x ( i ) ) ) + ( 1 − y ( i ) ) l o g ( 1 − h θ ( x ( i ) ) ) ] + λ 2 m ∑ j = 1 n θ j 2 J\left ( \theta \right )=-\tfrac{1}{m}\sum_ {i=1}^{m}[y^{(i)}log\left ( h_{\theta }\left ( x ^{(i)}\right ) \right )+\left ( 1-y^{(i)} \right )log\left ( 1-h_{\theta }\left ( x^{(i)} \right )\right )]+\tfrac{\lambda }{2m}\sum_{j=1}^{n}\theta _{j}^{2} J(θ)=−m1i=1∑m[y(i)log(hθ