机器学习分类算法与集成学习详解
1. 朴素贝叶斯分类器
朴素贝叶斯是一种参数分类器,常用于需要快速得到结果的场景,即便结果不是最精确的。它基于贝叶斯规则,先对数据做出假设。贝叶斯规则从一个先验概率开始,即对结果可能情况的预设想法。通常使用贝叶斯规则时,会通过评估新证据来细化先验概率,得到后验概率并将其作为新的先验概率。而朴素贝叶斯分类器则直接采用先验概率并继续推导。
它被称为“朴素”,是因为先验假设并非基于数据内容,只是对数据结构进行了一种未充分了解的假定。若假设正确,就能得到好的结果;若数据与假设匹配度低,结果就会变差。不过,这种假设常常是正确或接近正确的,所以值得一试,而且我们通常不会去验证假设是否合理。
在常见的朴素贝叶斯形式中,假设样本的每个特征都服从高斯分布(即著名的钟形曲线)。当查看所有样本的某个特定特征时,会尽量用高斯曲线去拟合。
1.1 符合先验假设的数据示例
假设有一组二维数据,由从两个高斯分布中抽取的样本组成,包含红色和蓝色两类。将这些数据输入朴素贝叶斯分类器,它会假设红色点的 x 坐标和 y 坐标都服从高斯分布,蓝色点同理。然后尝试拟合出四个最佳的高斯分布,形成两个二维“山丘”。将高斯分布与数据点重叠观察,会发现它们匹配得非常好,因为数据生成方式正好符合分类器的预期。
为了测试分类器的实际效果,将训练数据随机分为训练集(70%的点)和测试集。用训练集训练分类器后,将测试集数据绘制在高斯分布上,结果显示所有测试样本都被正确分类。
1.2 不符合先验假设的数据示例
考虑一组有噪声的月牙形数据,它显然不满足所有样本特征都服从高斯分布的假设。当把这些样本输入朴
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



