线性模型,使用最小二乘参数估计使模型预测结果与实际结果y之间的均方误差最小,得到参数w和b(其中b可以算作w的最后一列,对应属性值恒置为1)。
线性模型形式简单,易于建模,引入层级结构或高维映射后可得到更为抢到的非线性结构。为广义线性模型,有加权最小二乘法或极大似然法进行参数估计。
对于二元分类问题,y的取值为0或1,假设不同类别训练样本数目相同,当预测的y值大于0.5认证为正,反之为负,y实际表达了正例的可能性,即,则为正例。若假设不成立,即类别不平衡问题,有三种解决方法:
(1) 对数目少的一类欠采样,去除一部分后训练,时间开销小,但训练样本少
(2) 对数目多的一类过采样,增加一部分后训练,时间开销大,训练样本多,不可简单得重复采样,会过拟合,可采用插值产生额外样本。
(3) 用原始数据训练&