用逻辑回归对数据进行分类
1. 测量汽车的“宝马特征”
在数据分类中,我们可以通过决策边界来区分不同类型的数据。对于汽车数据,我们以里程数(x)和价格(p)为例,决策边界可以表示为 $p(x) = 0.56 - 0.35 \cdot x$,这个决策边界适用于缩放后的数据集。
我们可以使用 test_classifier 函数在缩放后的数据集上测试分类器,只需确保传入的是缩放后的数据而非原始数据。经测试,这个决策边界对数据的分类准确率达到了 78.5%。
将决策边界函数 $p = ax + b$(这里 $a = -0.35$,$b = 0.56$)进行变形,得到 $p - ax - b = 0$。这个式子对于决策边界上的每个点 $(x, p)$ 都成立,并且它可以作为衡量点 $(x, p)$ 的“宝马特征”的指标。具体情况如下表所示:
| 点的位置 | 条件 | 可能性 |
| — | — | — |
| 决策边界上方 | $p - ax - b > 0$ | 可能是宝马 |
| 决策边界上 | $p - ax - b = 0$ | 可能是任意车型 |
| 决策边界下方 | $p - ax - b < 0$ | 可能是普锐斯 |
函数 $f(x, p) = p - ax - b$(当 $a = -0.35$,$b = 0.56$ 时,$f(x, p) = p - 0.35 \cdot x - 0.56$)几乎满足我们的需求,它输入里程数和价格,输出一个数值,数值越大越可能代表宝马,越小越可能代表普锐斯。但它的输出值没有限制在 0 到 1 之间,且分界值是 0 而非期望的
超级会员免费看
订阅专栏 解锁全文
822

被折叠的 条评论
为什么被折叠?



