分类算法的温和介绍
1. 分类任务的引入
在机器学习中,回归的输入/输出类型比分类更为通用,因此可以使用线性回归算法来处理分类任务。不过,在实现TensorFlow代码之前,评估分类器的性能非常重要。
1.1 性能衡量
在编写分类算法之前,需要能够检查结果的准确性。以下是一些衡量分类问题性能的关键技术:
- 数据预处理 :如果变量的值是名义值,可能需要进行预处理。一种方法是将每个名义值视为布尔变量。例如,对于“水果”变量,可以将香蕉、苹果和橙子分别作为新的变量,每个变量的值为0或1,同时移除原始的“水果”变量。
- 练习 :判断以下任务更适合作为回归还是分类任务:
- 预测股票价格 - 回归
- 决定应该买入、卖出还是持有哪些股票 - 分类
- 以1 - 10的尺度对计算机质量进行评级 - 两者皆可
1.2 具体性能指标
1.2.1 准确率(Accuracy)
分类问题类似于学校中的多项选择题考试。在机器学习中,给定一个陈述,需要将其分类为给定的多个“答案”之一。如果只有两个选择,就称为二元分类器。准确率的计算公式为:
[
\text{准确率} = \frac{\text{正确分类的数量}}{\text{总数量}}
]
准确率提供了一个粗略的性能总结,如果只关注算法的整体正确性,它可能就足够了。但它无法揭示每个标签的正确和错误结果的详细情况。为了弥补这一不足,可以使用混淆矩阵。
超级会员免费看
订阅专栏 解锁全文
1663

被折叠的 条评论
为什么被折叠?



