机器学习中的分类模型与随机森林-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_30481539/article/details/147183447

机器学习中的分类模型与随机森林

想象一下，我们要打一个硬币翻转的赌。我们每个人有一百美元，有三个选择。我们可以翻一次硬币，赢得那次抛掷的人可以保留100美元。或者，我们可以翻十次硬币，每次下注十美元。第三个选择是翻硬币100次，并且每次投掷都赌一美元。这个游戏的每种版本的真实期望结果是相同的。但是如果你做了100次硬币翻转，你失去所有钱的可能性比只做一次硬币翻转要小。数据科学家称这种方法为自助法。它是机器学习者分散股票投资组合的等价物。我们希望有一个模型能给我们一个准确的预测。我们分割决策树的次数越多，我们的数据就越准确。但重要的是，各个树之间的相关性要低。森林中的树需要多样化。

随机森林

我们如何在随机森林中避免相关性？首先，每棵树都会从数据集中随机抽取样本，使得每棵树拥有与其他树略有不同的数据集。树会选择一个特征，以在节点之间创造最大程度的分离，就像单独的树一样，通过贪婪的过程。然而，在随机森林中，树只能从整体特征组中选择某些特征，因此每棵树通过不同的特征进行分离。

因此，树将不相关，因为它们使用不同的特征来做出分类决策。在随机森林中，至少使用100棵树可以得到数据的准确图景，这取决于你正在处理的数据集。一般来说，树越多，模型过拟合的可能性就越小。随机森林机器学习被称为“弱监督技术”，因为我们的结果是被选择的，我们可以看到排序方法，但是每个树都有责任通过特征来分类和分离变量。

分类模型

分类模型会告诉我们某样东西属于哪个类别。这些类别是在开始时由程序员定义的。一个分类模型的例子可以使用随机森林，就是一个模型，它决定了进入的电子邮件是应该进入你的“收件箱”还是“垃圾邮件”文件夹。

为了创建模型，我们定义了两个类别，我们的Y可以归入其中；垃圾邮件和非垃圾邮件。我们编写模型以便寻找可能表明垃圾邮件的关键字或特定的电子邮件地址。像“购买”或“提供”这样的词语的存在将帮助模型确定电子邮件消息是归入垃圾邮件类别还是非垃圾邮件类别。该算法接受数据，并随着时间的推移，通过将其预测与输出的实际值进行比较来学习。随着时间的推移，它对其模型进行微小的调整，以便算法随时间变得更加高效。

二元分类与多类分类

分类模型需要标记数据，并创建非连续预测。在分类问题中，图像是非线性的。一个分类问题中可能有两个类别，或者更多。分类模型可能是机器学习和数据科学中最广泛使用的部分。

第一种类型的分类是二元分类。在二元分类中，数据被分为两个类别，分别用1或0表示。我们称之为二元分类，因为只有两个可能的类别，我们所有的数据要么属于这个类别，要么属于那个类别。

但是，有些情况下我们有超过两个类别，为此，我们使用多类分类模型。同时，我们有线性决策边界，数据被分在一条线的两侧。并非所有数据都能被分类到决策边界的任一侧。

逻辑回归与K最近邻

逻辑回归/分类是一种用于分类依赖变量和分类变量的方法。逻辑回归根据自变量计算概率。它给变量赋予“是或否”的值以对它们进行排序。通常用于二元分类。

K最近邻是最直接且广泛使用的数据分类方法之一。它是一种监督学习的形式，用于分类和回归，并且也是最基本的聚类算法。简单来说，就是取一个数据点，并将其与散点图上最常见且最近的群体放在一起。

在KNN中，一个新数据点是通过其邻居K的平均中位数值来分类的。新数据点最近的邻居们“投票”决定它属于哪个分类。K是模型中投票的最近邻居的数量。设置k为一个数字——这是新数据点将分析的最近数据点的数量，以选择它适合哪一个。数据点的接近程度是使用欧几里得距离来衡量的。

支持向量与朴素贝叶斯

支持向量是一种分类器的另一种类型。它使用超平面进行分类。通常，我们会使用支持向量模型来处理较小的数据集，在这种情况下它表现得相当好。

朴素贝叶斯模型假定预测因子是独立的。这个模型易于使用，并且在大型数据集中很有帮助。它经常被用来帮助分类垃圾邮件。

无监督学习

无监督机器学习使用未标记的数据。数据科学家们还不知道输出结果。算法必须独立发现模式，在其他情况下这些模式将是未知的。在否则无法观察到结构的地方找到结构。算法自行找到数据段。模型在其他情况下未标记且无法识别的数据中寻找模式和结构。无监督学习允许我们在没有计算机科学家的情况下发现无法观察到的模式。有时大量的数据集合中有模式，如果试图通过人工来寻找趋势，那将是不可能的。

这有助于检查消费者的购买习惯，以便你可以根据他们的行为模式将客户分组到不同的类别中。模型可能会发现存在特定的群体，他们以类似的方式购买商品或服务。