K近邻、朴素贝叶斯以及分类模型评估

最新推荐文章于 2024-05-07 14:49:35 发布

qq_30011515

最新推荐文章于 2024-05-07 14:49:35 发布

阅读量875

点赞数

文章标签：自然语言处理数据挖掘机器学习

本文链接：https://blog.youkuaiyun.com/qq_30011515/article/details/108953056

版权

本文介绍了K近邻和朴素贝叶斯两种分类算法，包括算法定义、距离计算、sklearn库的API使用以及各自优缺点。同时讨论了分类模型的评估方法，如混淆矩阵、精确率和召回率，并提到了模型选择与调优中的交叉验证和网格搜索技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

K近邻算法

K-近邻定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别；
距离计算公式：欧式距离、曼哈顿距离等；
sklearn k-近邻算法API：sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)，其中n_neighbors是指查询使用的邻居数；algorithm：默认值auto,尝试根据传递给fit方法的值来决定最合适的算法;
在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别；
距离计算公式：欧式距离、曼哈顿距离等；
sklearn k-近邻算法API：sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)，其中n_neighbors是指查询使用的邻居数；algorithm：默认值auto,尝试根据传递给fit方法的值来决定最合适的算法;
k-近邻算法优缺点：优点包括简单，易于理解，易于实现，无需估计参数，无需训练；缺点是懒惰算法，对测试样本分类时的计算量大，内存开销大以及K值必须选择；
应用场景:小数据场景，几千～几万样本;