SciKit-Learn
文章平均质量分 69
SciKit-Learn 实战教程
南郭陈
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
人脸图像识别实战:使用 LFW 数据集对比四种机器学习模型(SVM、逻辑回归、随机森林、MLP)
LFW 是由马萨诸塞大学阿默斯特分校收集的真实场景下的人脸图像数据集,包含13,000+ 张人脸图像,涵盖5,749 个不同人物。图像来自网络新闻,背景复杂、光照不均、姿态多样;非实验室环境,更贴近真实应用场景;适合用于评估人脸识别算法的鲁棒性。仅保留至少有 70 张照片的人物(确保每类样本充足);图像缩放至 40%(原图 250x250 → 约 50x37);转换为灰度图(减少特征维度,加快训练)。最终数据集包含1288 张图像,7 个类别,特征维度为1850(50×37)。原创 2025-09-24 17:45:05 · 893 阅读 · 1 评论 -
SciKit-Learn 全面分析 20newsgroups 新闻组文本数据集(文本分类)
本研究基于20个新闻组文本数据集(18846条数据),采用TF-IDF特征提取方法,对比了朴素贝叶斯、逻辑回归、SVM和随机森林四种分类模型。实验结果显示,优化后的SVM模型表现最佳(准确率0.88),其次是逻辑回归(0.85)。通过混淆矩阵、ROC曲线和t-SNE可视化分析发现,模型在宗教类(soc.religion.christian)和运动类(rec.sport.hockey)分类效果较差。词云图直观展示了各主题的关键词分布特征。研究为多类别文本分类提供了有效的分析方法论。原创 2025-09-14 13:27:01 · 524 阅读 · 0 评论 -
Scikit-Learn 对糖尿病数据集(回归任务)进行全面分析
本文对糖尿病数据集(442个样本,10个特征)进行回归分析,比较了11种模型的预测效果。分析结果显示,Lasso回归表现最优(MSE=2817.09,R²=0.4782),其次是线性回归和SVR。特征重要性分析表明BMI和血压(bp)是影响糖尿病进展的关键因素。决策树和MLP模型表现较差,可能由于数据特性或参数设置问题。所有模型均经过标准化处理,并采用MSE和R²进行评估,为糖尿病病程预测提供了参考方法。原创 2025-09-13 14:45:26 · 835 阅读 · 0 评论 -
Scikit-learn 对加州房价数据集(回归任务)进行全面分析
摘要 本研究使用加州房价数据集(20640个样本,8个特征)比较了11种回归模型的预测性能。通过标准化的数据预处理和统一评估流程,结果显示随机森林模型表现最佳(MSE=0.2573,R²=0.8040),其次是梯度提升回归(MSE=0.2883)和支持向量机(MSE=0.3099)。特征重要性分析表明MedInc(收入中位数)是最关键预测因子。残差图和预测值分布可视化验证了模型的有效性,其中树集成方法(随机森林、梯度提升)整体优于传统线性模型(线性回归、Lasso回归)。该分析为房价预测提供了可靠的模型选择原创 2025-09-13 13:33:11 · 600 阅读 · 0 评论 -
SciKit-Learn 全面分析 iris 鸢尾花数据集
本文对经典的鸢尾花数据集(iris)进行了多分类方法比较分析。使用150个样本,仅选取花萼长度和宽度两个特征,通过7种分类模型(K近邻、决策树、SVM等)进行训练和测试。结果显示,K近邻模型准确率为75.56%,其中setosa类别识别效果最佳(precision=1.00)。实验还绘制了各模型的决策边界可视化图,直观展示了不同算法在特征空间中的分类效果。所有模型均采用相同的数据预处理和评估标准,便于横向比较性能差异。原创 2025-09-10 00:49:04 · 444 阅读 · 0 评论 -
SciKit-Learn 全面分析 digits 手写数据集
本文使用scikit-learn对digits手写数字数据集进行分析,包含8x8像素的1797个样本。通过7种分类方法(K近邻、决策树、SVM、逻辑回归、随机森林、朴素贝叶斯、MLP)进行比较,采用标准化预处理后,分别计算准确率和ROC曲线。结果显示各模型表现良好,其中SVM微平均AUC达0.99。分析过程包括数据加载、拆分训练/测试集、标准化、模型训练评估等步骤,并可视化多分类ROC曲线对比图,为手写数字识别任务提供了全面的性能评估。原创 2025-09-10 17:14:31 · 438 阅读 · 0 评论 -
SciKit-Learn 全面分析分类任务 breast_cancer 数据集
本文对乳腺癌数据集(569个样本,30个特征)进行多模型分类分析。采用7种机器学习方法(K近邻、决策树、SVM、逻辑回归、随机森林、朴素贝叶斯和MLP),通过标准化预处理后训练评估。结果显示,逻辑回归和多层感知机表现最佳(准确率98.25%),支持向量机次之(97.66%),朴素贝叶斯相对较差(93.57%)。ROC曲线分析验证了各模型性能,为乳腺癌诊断提供了有效的分类参考。实验完整呈现了从数据预处理到模型评估的全流程。原创 2025-09-10 21:52:17 · 438 阅读 · 0 评论 -
SciKit-Learn 全面分析分类任务 wine 葡萄酒数据集
本文对葡萄酒数据集(178个样本,13个特征,3个类别)进行了7种分类模型的比较分析。通过标准化预处理后,分别测试了K近邻、决策树、SVM、逻辑回归、随机森林、朴素贝叶斯和MLP模型。结果显示,随机森林和朴素贝叶斯表现最佳,准确率达100%;SVM、逻辑回归和MLP准确率为98.15%;K近邻和决策树为96.30%。ROC曲线分析表明各模型对三类葡萄酒均有良好区分能力,其中随机森林和朴素贝叶斯的AUC值达到1.0,展现出最优的分类性能。该研究为葡萄酒品种识别提供了有效的机器学习方法参考。原创 2025-09-11 14:51:37 · 658 阅读 · 0 评论
分享