假定一个银行贷款系统 根据 工资 和年龄 这两个特征,预测核定应给客户多少额度的贷款(label为具体的值),银行所要预测的是个具体值,这就是所谓的回归问题。之前所说的决策树就是分类问题
样本 | 工资 x1 x 1 | 年龄 x2 x 2 | 可贷款额度 hθ(x) h θ ( x ) |
---|---|---|---|
1 | 3000 | 22 | 19000 |
2 | 8000 | 31 | 70000 |
3 | 5000 | 29 | 34000 |
4 | 7500 | 35 | 51000 |
5 | 12000 | 40 | 84000 |
- 其中 x1 x 1 与 x2 x 2 分别有多大影响,此时我们就需要定义一组权重参数 θ1 θ 1 , θ2 θ 2 ,依此俩个参数来判别 x1 x 1 与 x2 x 2 各自的影响有多大,此处将假定一个 特征 x0 x 0 = 1 ,对于每个实例来说都是1,此时 θ0x0=θ0 θ 0 x 0 = θ 0
hθ(x)=θ0+θ1x1+θ2x2 h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2
- 其中 hθ(x) h θ ( x ) 就是这个例子要预测的贷款额度,由此可将如上线性回归式子转化为如下式子
hθ(x)=∑i=0Nθixi=θTx h θ ( x ) = ∑ i = 0 N θ i x i = θ T x
- 将该回归方程化简为一个列向量 θ θ 的转置 乘以 一个列向量 x ,即一个行向量乘以一个列向量乘积,得到一个具体的值,由此得出 hθ(x) h θ ( x )
线性回归误差原理推到
没有什么是尽善尽美的,包括 hθ(x) h θ ( x ) ,只有此时此刻的你努力的将其误差降到最低
此时,根据计算出的预测值 θTx(i) θ T x ( i ) 与真实值 y(i) y ( i ) 值间的误差 ϵ(i) ϵ ( i )
y(i)=θT