机器学习分类器与集成学习全解析
1. 朴素贝叶斯分类器
朴素贝叶斯是一种参数化分类器,常用于需要快速得出结果的场景,即便结果并非最精确。它基于贝叶斯规则,先对数据做出假设,假设数据具有特定结构。这里的“朴素”指的是这些假设并非基于数据内容,只是简单假定数据有某种结构。若假设正确,就能得到好结果;反之,结果则较差。不过,这种假设常常是正确或接近正确的,所以值得一试,而且我们通常不会去验证假设是否合理,而是直接进行后续操作。
在常见的朴素贝叶斯形式中,假设样本的每个特征都遵循高斯分布,也就是著名的钟形曲线。当查看所有样本的特定特征时,会尝试用高斯曲线去拟合。
下面通过具体例子来看其工作情况:
- 符合先验假设的数据 :有一组二维数据,由两个高斯分布抽样得到,包含红色和蓝色两类。将其输入朴素贝叶斯分类器,分类器假设红色点的 x 和 y 坐标、蓝色点的 x 和 y 坐标都遵循高斯分布,然后尝试拟合出四个最佳高斯分布,形成两个二维“山丘”。从结果看,高斯分布与数据匹配度很高,因为数据本身就是按照分类器预期的分布生成的。将训练数据按 70% 和 30% 分为训练集和测试集,训练后对测试集进行分类,所有测试样本都被正确分类。
- 不符合先验假设的数据 :使用两个有噪声的月牙形数据,分类器仍假设红色和蓝色点的 x、y 值都来自高斯分布,并找出最佳高斯分布。但这些高斯分布与数据匹配度不佳,不过也并非完全不匹配。同样将数据分为训练集和测试集,训练后进行预测,虽然正确分类了很多点,但也存在一些误分类情况。不过整体来看,朴素贝叶斯在各类数据上通常表现不错,可能是因为很多现实世界的数据都能用高斯分布很好地描述。
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



