熬夜协会会长
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
29、核主成分分析与聚类算法:原理、实现与应用
本文介绍了核主成分分析(Kernel PCA)与多种聚类算法(K-Means和DBSCAN)的原理、实现与应用。通过处理各国性别差距数据,展示了如何利用Kernel PCA进行非线性降维,并结合随机森林回归提升模型性能;使用K-Means聚类对数据进行分组,评估不同K值下的聚类效果;进一步引入DBSCAN聚类以识别任意形状的簇和噪声点。文章还比较了各算法的优缺点及适用场景,为实际数据分析提供了系统的方法论支持。原创 2025-09-23 02:07:41 · 30 阅读 · 0 评论 -
28、机器学习中的朴素贝叶斯分类与主成分分析
本文深入探讨了机器学习中的两种重要方法:朴素贝叶斯分类与主成分分析(PCA)。朴素贝叶斯基于词袋模型和条件概率,在文本分类任务中表现出高效性和良好性能,尤其适用于大规模数据。主成分分析通过线性变换实现降维,有效减少特征数量并提升模型效率,适用于高维且存在相关性的数据。文章还介绍了核主成分分析(KPCA),用于处理非线性结构的数据。结合实例代码与流程图,详细展示了从数据预处理、模型构建到评估的完整过程,并对比了各方法的优缺点及适用场景,为实际应用提供了指导。原创 2025-09-22 13:04:25 · 56 阅读 · 0 评论 -
27、支持向量机与朴素贝叶斯分类算法详解
本文详细介绍了支持向量机(SVM)和朴素贝叶斯两种经典分类算法的原理、实现步骤及应用场景。针对多分类问题,展示了SVM结合核函数与分类策略的建模流程,并通过随机搜索优化超参数;对朴素贝叶斯,重点阐述其基于贝叶斯定理与特征独立假设的分类机制,涵盖数值特征处理与文本分类中的词袋模型应用。文章还对比了两种算法在性能、适用场景上的优劣,并提供了Python实战代码示例,帮助读者理解如何根据数据特点选择合适的分类模型。原创 2025-09-21 11:24:30 · 44 阅读 · 0 评论 -
26、支持向量机分类:线性与非线性模型的实践探索
本文深入探讨了支持向量机(SVM)在线性与非线性分类任务中的实践应用,重点分析了线性SVC与非线性SVM在NBA比赛胜负预测中的表现。文章介绍了SVM的核心参数Gamma和C的作用、多类分类策略(一对一与一对其余)、模型构建流程、决策边界可视化方法,并通过scikit-learn实现了完整的建模流程。实验结果表明,对于该数据集,线性模型已具备良好分类性能,且可解释性强;而经过超参数调优的非线性SVC最佳模型仍为线性核函数,说明数据可能具有较好的线性可分性。原创 2025-09-20 11:13:17 · 33 阅读 · 0 评论 -
25、K近邻与支持向量机分类:原理、实践与对比
本文深入探讨了K近邻(KNN)与支持向量机(SVM)在多分类问题中的原理、实践应用及对比。通过机器故障类型预测和字母识别两个实例展示了KNN的实现过程,分析了其在处理类别不平衡和大规模数据时的优缺点。同时,详细介绍了SVM的核心概念,包括线性可分、软间隔、核技巧以及一对多、一对一等多分类策略,并提供了线性SVC与非线性SVM的代码示例。最后对两种算法进行了全面比较,帮助读者根据数据特点选择合适的分类模型。原创 2025-09-19 11:50:23 · 27 阅读 · 0 评论 -
24、分类模型:随机森林、梯度提升与K近邻算法
本文详细介绍了随机森林、梯度提升和K近邻三种分类算法在心脏病预测中的应用。通过代码实现、超参数调优与性能评估,对比了各模型的准确率、灵敏度、特异性和精度等指标。随机森林表现均衡,梯度提升准确率高但存在过拟合风险,K近邻在调优后灵敏度提升明显。文章还分析了特征重要性,并提供了根据数据特点选择合适算法的实际建议。原创 2025-09-18 11:57:58 · 36 阅读 · 0 评论 -
23、分类算法:逻辑回归、决策树与随机森林
本文深入探讨了逻辑回归、决策树、随机森林和梯度提升决策树四种常用分类算法的原理、优缺点及适用场景。通过心脏病数据的实际案例,详细展示了数据预处理、模型构建、超参数调优与性能评估的完整流程。结合表格、流程图和代码示例,帮助读者理解不同算法的特点,并提供选择合适分类模型的系统性方法。文章强调了数据探索、多算法比较和综合评估指标在构建高效分类模型中的重要性。原创 2025-09-17 10:17:44 · 72 阅读 · 0 评论 -
22、逻辑回归:从二元分类到多元分类的全面解析
本文全面解析了逻辑回归在二元与多元分类中的应用,涵盖模型评估指标(如准确性、灵敏度、特异性和精确率)、混淆矩阵分析、ROC与PR曲线绘制、最优阈值选择及正则化方法。通过心脏病预测和机器故障类型识别两个案例,深入探讨了阈值调整、类别不平衡处理和模型优化策略,并结合可视化手段提升模型理解。文章还总结了逻辑回归的注意事项、拓展应用场景及未来发展趋势,为实际建模提供了系统性指导。原创 2025-09-16 15:24:04 · 50 阅读 · 0 评论 -
21、机器学习分类算法:从逻辑回归到模型构建
本文深入探讨了机器学习中的分类算法,重点介绍逻辑回归的基本原理及其在二元和多分类问题中的应用。通过预测心脏病的实例,详细展示了数据预处理、模型构建、特征选择、模型评估与优化的完整流程。文章还对比了L1和L2正则化方法,介绍了多项逻辑回归和一对其余策略,并提供了模型性能评估的关键指标与优化思路,帮助读者全面掌握分类模型的构建与应用。原创 2025-09-15 12:09:20 · 62 阅读 · 0 评论 -
20、决策树、随机森林与梯度提升回归:原理、应用与实践
本文深入探讨了决策树、随机森林与梯度提升回归的原理、应用与实践。首先分析KNN回归的局限性,引出决策树和随机森林的优势,详细讲解其建模机制与实现步骤,并通过收入差距数据进行实证分析。随后介绍梯度提升回归的原理,比较scikit-learn与XGBoost在房价预测中的性能表现。文章涵盖数据预处理、模型构建、超参数调优及结果评估全流程,展示了不同回归方法的优劣与适用场景,为实际机器学习项目提供了系统性指导。原创 2025-09-14 14:48:45 · 35 阅读 · 0 评论 -
19、支持向量回归与K近邻回归:原理、实践与对比
本文深入探讨了支持向量回归(SVR)、K近邻回归(KNN)、决策树、随机森林和梯度提升回归等多种回归算法的原理、实践应用与性能对比。通过实际案例展示了线性与非线性SVR在温度预测中的表现,KNN在收入差距建模中的应用,并分析了各模型的优缺点及适用场景。文章还提供了完整的建模流程、超参数调优方法和模型评估策略,帮助读者根据数据特征和需求选择最优回归算法,提升预测准确性与模型可解释性。原创 2025-09-13 12:34:02 · 58 阅读 · 0 评论 -
18、线性回归与支持向量回归:算法原理与实践
本文深入探讨了线性回归与支持向量回归(SVR)的算法原理与实践应用。通过使用梯度下降法进行线性回归,并结合多项式变换和交叉验证提升模型性能,展示了其在大规模数据集上的高效性。同时,介绍了SVR的基本概念、目标函数及核技巧,比较了线性与非线性SVR的适用场景。文章还详细实现了两种模型的构建流程,包括数据预处理、超参数调优与模型评估,并对二者在性能指标、计算效率和模型复杂度方面进行了对比分析。最后探讨了未来在算法优化、应用拓展和自动化机器学习方向的发展趋势,为实际问题中的模型选择提供了决策依据。原创 2025-09-12 16:14:16 · 30 阅读 · 0 评论 -
17、线性回归模型优化与拓展
本文探讨了线性回归模型的优化与拓展方法,包括改进模型评估策略、引入套索回归进行特征选择与正则化、使用网格搜索进行超参数调优,以及应用多项式回归处理非线性关系。通过k折交叉验证提升数据利用率,对比不同模型在实际数据上的表现,并分析各类回归方法的适用场景。同时强调了异常值处理和超参数调优对模型性能的影响,为实际应用中选择合适回归模型提供了系统性指导。原创 2025-09-11 14:59:55 · 28 阅读 · 0 评论 -
16、线性回归模型的构建与评估
本文介绍了线性回归模型的构建与评估过程,涵盖普通最小二乘法(OLS)和梯度下降法等参数估计方法。通过实际案例预测国家隐含汽油税,详细展示了数据预处理、特征选择、模型训练与评估的完整流程。使用Pipeline进行数值和分类特征的不同处理,并采用RFE进行特征筛选。模型评估包括残差分析、MAE和R-squared指标,结合可视化手段检验模型性能,最后指出可能的改进方向。原创 2025-09-10 09:42:21 · 79 阅读 · 0 评论 -
15、机器学习中的模型评估与线性回归模型
本文深入探讨了机器学习中的模型评估方法,重点介绍了K折交叉验证的原理与实现,并通过实例比较了线性回归、随机森林和K近邻回归模型的性能。文章还详细讲解了如何使用scikit-learn管道进行数据预处理,包括异常值处理、缺失值填充和特征缩放等步骤。进一步地,系统梳理了线性回归的核心假设及其在现实数据中常见的违反情况,最后对比了经典线性回归、套索回归、非线性回归和基于梯度下降的回归方法,提供了不同类型线性模型的适用场景与选择策略。原创 2025-09-09 11:54:38 · 30 阅读 · 0 评论 -
14、机器学习模型评估:从二元分类到回归分析
本文系统介绍了机器学习中二元分类、多分类和回归模型的评估方法。针对二元分类,详细讲解了CAP曲线、ROC曲线和精确-灵敏度曲线的绘制与分析;对于多分类问题,展示了混淆矩阵和分类报告的应用;在回归模型部分,重点讨论了MSE、RMSE、MAE和R²等指标的计算与解读,并通过线性回归和KNN回归实例进行对比分析。结合代码示例与可视化图表,帮助读者全面掌握模型性能评估的核心技术与实践流程。原创 2025-09-08 15:17:37 · 46 阅读 · 0 评论 -
13、机器学习中的特征选择与模型评估
本文深入探讨了机器学习中的特征选择与模型评估方法。介绍了过滤法、包装法和嵌入法等特征选择技术,并阐述了主成分分析(PCA)在降维中的应用。文章详细讲解了分类模型的评估指标,包括准确率、灵敏度、特异度和精度,并通过混淆矩阵进行可视化解释。此外,还涵盖了CAP曲线、ROC曲线、精度-灵敏度曲线等可视化工具,以及多类分类和回归模型的评估方法。最后介绍了K折交叉验证和数据预处理管道的实现方式,帮助构建更高效、准确的机器学习模型。原创 2025-09-07 15:16:53 · 37 阅读 · 0 评论 -
12、特征选择方法全解析:从递归消除到主成分分析
本文全面解析了机器学习中的多种特征选择方法,包括递归特征消除(RFE)、Boruta、L1正则化、随机森林嵌入法以及主成分分析(PCA)。文章详细介绍了每种方法的原理、实现步骤和适用场景,并通过代码示例展示了在回归与分类任务中的应用。同时对比了不同方法在性能、计算成本和特征假设方面的差异,帮助读者根据数据特点和资源条件选择最合适的特征选择策略,从而提升模型效率与预测能力。原创 2025-09-06 16:37:43 · 24 阅读 · 0 评论 -
11、特征选择:从基础到高级方法
本文系统介绍了机器学习中的特征选择方法,涵盖过滤法(如互信息、ANOVA F值、F检验)、包装法(前向与后向选择)和穷举法的原理、实现步骤及优缺点。通过实际代码示例展示了不同方法在分类与回归任务中的应用,并对比了各类方法的适用场景。文章还提供了从数据预处理到模型评估的完整流程建议,帮助读者根据数据规模、计算资源和性能需求选择合适的特征选择策略,提升模型效果。原创 2025-09-05 09:20:09 · 23 阅读 · 0 评论 -
10、特征分箱与缩放:优化机器学习特征处理
本文深入探讨了机器学习中的特征处理技术,涵盖特征分箱与缩放的核心方法及其实际应用。详细介绍了等宽、等频和K-means分箱策略,比较了不同分箱方式对数据分布的影响;系统讲解了最小-最大缩放、标准缩放和鲁棒缩放在处理特征尺度差异中的作用;并全面梳理了针对分类与回归任务的多种特征选择方法,包括基于互信息、ANOVA、相关性分析、逐步选择、RFE、Lasso/Ridge正则化、Boruta及PCA等技术。文章结合代码示例与流程图,为读者提供了从数据预处理到模型优化的完整特征工程指南,帮助提升机器学习模型性能。原创 2025-09-04 10:31:42 · 59 阅读 · 0 评论 -
9、机器学习中类别特征编码与特征处理策略
本文详细介绍了机器学习中类别特征的编码方法与特征处理策略,涵盖独热编码、序数编码、特征哈希、前k类编码等针对不同基数类别特征的处理方式,并探讨了对数变换、Box-Cox变换和特征分箱等数值特征转换技术。文章结合代码示例与实际案例,系统分析了各类方法的适用场景、优缺点及选择依据,提供了从数据预处理到模型训练的完整流程图,帮助读者构建高效、稳定的机器学习模型。原创 2025-09-03 15:44:38 · 35 阅读 · 0 评论 -
8、数据预处理与特征工程:缺失值填充、数据集划分及特征筛选
本文详细介绍了数据预处理与特征工程的关键步骤,包括使用MissForest算法基于随机森林进行缺失值填充,避免数据泄露的前提下划分训练与测试集,移除常量、重复及高度相关的冗余特征,并进一步探讨了特征编码(如独热编码、标签编码)、特征转换(如对数变换、分箱)和特征缩放(如标准化、归一化)等核心技术。通过系统化的流程提升数据质量,为机器学习模型提供可靠输入,最终在mermaid流程图中总结了从数据加载到模型训练的完整路径。原创 2025-09-02 14:26:38 · 34 阅读 · 0 评论 -
7、数据缺失值处理:从基础方法到高级算法
本文系统介绍了数据分析中缺失值处理的多种方法,涵盖基础的删除与统计填充技术,以及高级的回归插补和K近邻(KNN)插补方法。通过NLS数据集的实际代码示例,详细展示了每种方法的操作步骤、优缺点及适用场景,并提供了完整的处理流程图与应用注意事项,帮助读者根据数据特点选择合适的缺失值处理策略,提升数据质量与模型可靠性。原创 2025-09-01 12:30:35 · 27 阅读 · 0 评论 -
6、特征关系分析、异常值检测与缺失值处理
本文深入探讨了数据分析和机器学习中的关键预处理步骤:特征与目标之间的关系分析、基于KNN和隔离森林的异常值检测方法,以及多种缺失值识别与处理策略。通过Python代码示例和真实数据应用,详细展示了数据标准化、异常分数计算、逻辑缺失值转换及均值、前向填充、回归、KNN和随机森林等多种插补技术,并提供了完整的处理流程图解,为构建高质量数据集提供系统性指导。原创 2025-08-31 13:15:15 · 23 阅读 · 0 评论 -
5、数据特征关系的可视化与分析
本文介绍了如何使用散点图、分组箱线图和线性回归来探索数据中特征之间的关系以及特征与目标变量之间的关联。通过绘制散点图分析连续变量间的二元关系,利用分组箱线图研究分类变量对连续变量分布的影响,并结合线性回归模型识别具有显著影响的数据点,特别是通过Cook's距离发现高影响力观测值。文章还梳理了各类方法的操作流程,强调了异常值处理、特征选择和模型假设检验等注意事项,适用于探索性数据分析、特征筛选、异常检测和预测建模等多种场景。原创 2025-08-30 16:41:59 · 47 阅读 · 0 评论 -
4、数据特征分布的可视化探索与双变量关系分析
本文介绍了在数据探索与建模过程中,如何利用直方图、箱线图和小提琴图进行单变量分布的可视化分析,并通过相关性分析、热力图、散点图和分组箱线图深入探索双变量关系。文章还展示了使用分箱交叉表识别异常模式的方法,并结合线性回归、K-近邻和孤立森林等机器学习算法系统地检测异常值。最后总结了各类方法的应用场景与建议,为数据预处理和特征工程提供了完整的流程指导。原创 2025-08-29 11:51:02 · 27 阅读 · 0 评论 -
3、特征和目标分布的分析与异常值识别
本文深入探讨了连续与离散特征的分布特性,通过COVID-19数据集展示了如何利用描述性统计、四分位距和Q-Q图进行单变量分析并识别极端值。文章还介绍了数据预处理的关键步骤,包括缺失值处理、数据变换(如对数和Box-Cox变换),以及多变量分析方法如相关性分析和主成分分析。最后讨论了模型选择与评估策略,并提供了完整的数据分析流程图,为后续建模奠定了坚实基础。原创 2025-08-28 13:03:20 · 24 阅读 · 0 评论 -
2、数据清洗与机器学习算法中的特征分析
本文深入探讨了数据清洗与机器学习中的特征分析过程,重点介绍了如何通过pandas、NumPy和Matplotlib进行数据子集选择、分类与连续特征的频率及分布分析。内容涵盖缺失值处理、异常值识别、可视化技术(如直方图、箱线图、小提琴图)以及特征工程中的数据转换、编码和缩放方法,帮助读者全面理解数据并为建模做好准备。原创 2025-08-27 12:19:06 · 21 阅读 · 0 评论 -
1、机器学习的数据清洗与探索:全流程指南
本文全面介绍了机器学习中数据清洗与探索的全流程,涵盖从数据准备、分布检查、缺失值处理到特征工程和模型评估的核心步骤。文章强调了数据预处理在建模中的重要性,并系统讲解了监督学习与无监督学习中的主流算法及其应用场景。通过实际代码示例和可视化流程图,帮助读者建立科学的数据分析工作流,提升模型预测性能。原创 2025-08-26 11:14:20 · 22 阅读 · 0 评论
分享