什么是分类?
我们使用训练数据集来获得更好的边界条件,可用于确定每个目标类别。一旦确定了边界条件,下一个任务就是预测目标类别。整个过程称为分类。
目标类示例:
- 分析客户数据以预测他是否会购买电脑配件(目标类别:是或否)
- 根据颜色、味道、大小、重量等特征对水果进行分类(目标类别:苹果、橙子、樱桃、香蕉)
- 根据头发长度进行性别分类(目标类别:男性或女性)
让我们理解使用头发长度进行性别分类的分类算法的概念(我绝不是试图按性别刻板印象,这只是一个例子)。为了使用头发长度作为特征参数对性别(目标类别)进行分类,我们可以使用任何分类算法训练一个模型,以得出一些边界条件集,这些边界条件可用于使用头发长度作为训练特征来区分男性和女性性别。在性别分类的情况下,边界条件可以是适当的头发长度值。假设微分边界头发长度值为15.0厘米,那么我们可以说,如果头发长度小于15.0厘米,那么性别可能是男性,也可能是女性。
分类算法与聚类算法
在聚类中,其思想并不是像分类中那样预测目标类别,而是更多地尝试通过考虑最满足的条件来对相似的事物进行分组,同一组中的所有项目应该相似,并且两个不同的组项目不应该不相似。
组项目示例:
- 将相似语言类型文档分组时(相同语言文档为一组。)
- 对新闻文章进行分类时(同一新闻类别(体育)文章为一组)
让我们通过基于头发长度示例的性别聚类来理解这个概念。为了确定性别,可以使用不同的相似性度量来对男性和女性进行分类。这可以通过查找两个头发长度之间的相似性来完成,如果相似性较小(头发长度的差异较小),则将它们保留在同一组中。可以继续相同的过程,直到所有头发长度正确地分为两类。
分类算法中的基本术语
- 分类器:将输入数据映射到特定类别的算法。
- 分类模型: 分类模型试图从训练时给出的输入值中得出一些结论。它将预测新数据的类标签/类别。
- 特征:特征是所观察到的现象的单个可测量的属性。
- 二元分类:具有两种可能结果的分类任务。例如:性别分类(男/女)
- 多类分类:具有两个以上类的分类。在多类分类中,每个样本被分配给一个且仅一个目标标签。例如:动物可以是猫或狗,但不能同时是两者。
- 多标签分类: 每个样本映射到一组目标标签(多个类)的分类任务。例如:一篇新闻文章可以同时涉及体育、人物和地点。
分类算法的应用
- 垃圾邮件分类
- 银行客户贷款支付意愿预测。
- 癌症肿瘤细胞鉴定。
- 情感分析
- 药品分类
- 面部关键点检测
- 汽车驾驶中的行人检测。
分类算法的类型
分类算法大致可分为以下几类:
- 线性分类器
- 逻辑回归
- 朴素贝叶斯分类器
- Fisher 线性判别式
- 支持向量机
- 最小二乘支持向量机
- 二次分类器
- 核估计
- k-最近邻
- 决策树
- 随机森林
- 神经网络
- 学习矢量量化
下面给出了一些流行的分类算法的示例。
逻辑回归
尽管名称可能令人困惑,但您可以放心。逻辑回归是一种分类而不是回归算法。它根据给定的一组自变量估计离散值 (二进制值,如 0/1、是/否、真/假) 。简而言之,它基本上通过将数据拟合到logit 函数来预测事件发生的概率。因此它也被称为 Logit 回归。获得的值始终位于 0 和 1 之间,因为它预测概率。
让我们尝试通过另一个例子来理解这一点。
假设你的数学考试有一个总和。它只能有 2 个结果,对吗?要么你解决它,要么你不解决(我们不要在这里假设方法的要点)。现在想象一下,你被给予了各种各样的数字,试图了解哪些章节是你理解得很好的。这项研究的结果是这样的——如果给你一个基于三角学的问题,你有 70% 的可能解决它。另一方面,如果是一道算术题,你得到答案的概率只有30%。这就是逻辑回归为您提供的。
10万+

被折叠的 条评论
为什么被折叠?



