a1b2c3d
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
20、神经网络与自定义估计器的构建及应用
本文详细介绍了神经网络堆叠模型的构建与训练过程,包括多个基模型预测结果的融合、相关性分析及使用额外树回归器进行元学习。通过引入原始特征提升模型性能,并对比了不同配置下的效果。同时,文章讲解了如何在scikit-learn框架下创建自定义估计器,实现了基于岭回归和广义估计方程的分类器,并在多个数据集上验证其性能。最后总结了常用模型操作、评估指标、优化策略及完整建模流程,为机器学习实践提供了系统性指导。原创 2025-11-08 05:37:59 · 23 阅读 · 0 评论 -
19、机器学习中的文本、多类分类及神经网络应用
本文深入探讨了机器学习中的文本处理、多类分类及神经网络应用,涵盖了LabelSpreading与LabelPropagation在半监督学习中的使用,感知机作为神经网络基础的实现与优化,多层感知机在回归任务中的表现,并介绍了神经网络堆叠这一高级集成技术。通过具体代码示例和模型对比,展示了不同方法的优缺点及适用场景,最后提供了基于数据特征选择模型的决策流程,帮助读者系统掌握从基础到进阶的机器学习建模策略。原创 2025-11-07 14:01:51 · 21 阅读 · 0 评论 -
18、使用scikit - learn进行文本和多类分类
本文介绍了使用scikit-learn库进行文本和多类分类的多种方法,涵盖线性判别分析(LDA)、二次判别分析(QDA)、随机梯度下降(SGD)、朴素贝叶斯分类以及半监督学习中的标签传播。文章详细阐述了每种方法的操作步骤、工作原理及适用场景,并通过代码示例展示了实际应用过程。此外,还提供了方法对比、决策流程图、优化建议和代码改进方案,帮助读者根据数据特征选择合适的分类模型,提升分类性能。原创 2025-11-06 09:17:40 · 21 阅读 · 0 评论 -
17、树算法与集成学习实战
本文深入探讨了树算法与集成学习在实际项目中的应用,涵盖梯度提升回归器、分类器及AdaBoost的参数调优过程,并通过加利福尼亚住房数据集展示了模型性能对比。文章实现了堆叠聚合器以融合多种模型优势,进一步提升了预测精度。最后提出了编写健壮代码、特征工程、尝试不同算法和交叉验证等优化方向,为后续模型改进提供了清晰路径。原创 2025-11-05 13:19:10 · 32 阅读 · 0 评论 -
16、树算法与集成学习:从决策树到随机森林的深入探索
本文深入探讨了树算法与集成学习在机器学习中的应用,涵盖决策树的优化方法、回归任务中的决策树与随机森林实现,以及基于KNN的装袋回归技术。通过糖尿病数据集的实战代码示例,详细展示了模型构建、参数调优、性能评估与可视化过程,并对比了不同算法的误差表现。文章还提供了算法选择建议、流程图解与代码封装思路,帮助读者系统掌握从基础决策树到高级集成方法的核心技术与实际应用技巧。原创 2025-11-04 16:58:34 · 18 阅读 · 0 评论 -
15、支持向量机与决策树算法的深入解析与实践
本文深入解析了支持向量机(SVM)与决策树算法的原理及实践应用。内容涵盖SVM在分类与回归任务中的优化方法,包括数据缩放、网格搜索、RBF核函数的决策边界可视化,以及多类分类策略;同时详细介绍了决策树的基本构建、基尼指数与熵的选择、过拟合控制与参数调优,并扩展至集成学习方法如随机森林和梯度提升树。通过鸢尾花和糖尿病数据集的实际代码示例,展示了模型训练、评估与可视化的完整流程,为读者提供全面的算法理解和应用指导。原创 2025-11-03 09:46:33 · 17 阅读 · 0 评论 -
14、机器学习中的特征选择、模型持久化与支持向量机应用
本文深入探讨了机器学习中的关键环节:特征选择、模型持久化与支持向量机应用。首先介绍了单变量特征选择和基于L1范数的特征选择方法,帮助减少冗余特征并提升模型性能;接着讲解了使用joblib和pickle进行模型保存与加载的技术,实现模型的持久化;随后详细阐述了支持向量机(SVM)在线性分类、多分类及回归任务中的应用,并展示了决策边界可视化与参数调优策略。通过实际案例分析,展示了特征选择对模型优化的重要作用,为机器学习实践提供了全面的技术参考。原创 2025-11-02 10:20:58 · 20 阅读 · 0 评论 -
13、交叉验证与模型后工作流程
本文深入探讨了机器学习中的交叉验证与模型后工作流程,涵盖网格搜索与随机搜索的原理及应用,比较其在不同场景下的优劣。详细介绍了分类、回归和聚类任务中的多种评估指标,并展示了如何使用虚拟估计器建立性能基准。结合实际案例与代码示例,提供了从数据准备到模型优化的完整流程建议,辅以流程图与表格总结,帮助读者高效选择方法并提升模型性能。最后探讨了常见问题解决方案及AutoML、可解释性等未来发展趋势。原创 2025-11-01 14:56:37 · 15 阅读 · 0 评论 -
12、机器学习中的距离度量建模与交叉验证
本文深入探讨了机器学习中的距离度量建模与交叉验证技术。通过鸢尾花数据集示例,比较了线性回归与KNN回归在预测性能上的差异,并展示了KNN在局部回归中的优势。文章详细介绍了多种交叉验证方法,包括K折、分层、ShuffleSplit和时间序列交叉验证,强调其在模型选择与参数优化中的关键作用。此外,还涵盖了网格搜索、指标评估、虚拟估计器、特征选择和模型持久化等实用技术,构建了一个完整的机器学习流程。这些方法共同提升了模型的泛化能力与预测准确性,为实际应用提供了系统性的指导。原创 2025-10-31 15:07:03 · 37 阅读 · 0 评论 -
11、基于距离度量构建模型
本文介绍了基于距离度量的多种聚类方法及其应用,涵盖k-means、MiniBatch k-means和高斯混合模型等算法。详细讲解了惯性指标在聚类中的作用,MiniBatch k-means如何提升大规模数据处理效率,k-means在图像量化与异常值检测中的实践操作,并对比了不同方法的优缺点与适用场景。同时探讨了这些方法在实际问题中的选择策略及未来优化方向,为聚类分析提供了系统性的技术参考。原创 2025-10-30 10:27:17 · 26 阅读 · 0 评论 -
10、线性模型、聚类模型的原理与应用
本文深入探讨了机器学习中的逻辑回归与聚类模型,重点介绍了逻辑回归在分类任务中的灵敏度、ROC曲线和AUC等评估指标,并结合UCI乳腺癌数据集进行了实例分析。同时,详细讲解了k-means聚类算法的原理、聚类中心数量的优化方法及聚类效果评估。进一步拓展了聚类模型在MiniBatch k-means、图像量化、最近邻搜索、异常值检测、高斯混合模型和KNN回归等多个场景的应用,最后总结了当前技术的优势并展望了未来发展方向。原创 2025-10-29 12:52:49 · 23 阅读 · 0 评论 -
9、基于Scikit-learn的线性模型与逻辑回归分析
本文详细介绍了基于Scikit-learn的线性模型与逻辑回归在高维数据和分类任务中的应用。通过LARS回归处理高维回归问题,展示了其在防止过拟合方面的优势;利用逻辑回归对Pima印第安人糖尿病数据集进行分类分析,并结合混淆矩阵、负预测值(NPV)及ROC曲线全面评估模型性能。此外,还通过UCI乳腺癌数据集进行了综合实践,涵盖了数据加载、探索、建模、评估与优化的完整流程。文章强调了在医疗等关键领域中调整分类阈值的重要性,并展望了模型调优、特征工程与集成学习的未来方向。原创 2025-10-28 10:04:54 · 16 阅读 · 0 评论 -
8、基于scikit-learn的线性模型实战指南
本文详细介绍了基于scikit-learn的多种线性模型,包括线性回归、岭回归、贝叶斯岭回归和LASSO回归的原理、实现方法与优化技巧。通过代码示例展示了模型训练、评估、系数分析及参数调优过程,并提供了模型选择的决策流程图。文章还涵盖了共线性处理、特征选择、置信区间估计等关键问题,帮助读者根据数据特点选择合适的线性模型并提升预测性能。原创 2025-10-27 12:58:31 · 15 阅读 · 0 评论 -
7、数据降维与线性模型的应用
本文详细介绍了数据降维技术与线性模型在机器学习中的应用。涵盖了截断奇异值分解、主成分分析、字典学习和t-SNE等降维方法的原理与实现,并结合鸢尾花数据集进行可视化展示。在线性模型部分,系统讲解了线性回归、岭回归、Lasso和LARS等模型的原理、操作步骤及适用场景,探讨了过拟合与多重共线性问题的解决方案。通过管道与网格搜索实现模型参数优化,帮助读者根据数据特征选择合适的降维与建模策略,提升模型性能。原创 2025-10-26 13:51:08 · 21 阅读 · 0 评论 -
6、机器学习中的模型前工作流、预处理与降维技术
本文深入探讨了机器学习中的模型前工作流、数据预处理与多种降维技术。内容涵盖模型选择、不确定性估计、随机梯度下降(SGD)回归的实现与原理,以及主成分分析(PCA)、因子分析、核PCA、截断奇异值分解(Truncated SVD)、字典学习、t-SNE等降维方法的原理与应用。同时介绍了如何使用Pipeline结合GridSearchCV对不同降维方法与分类器进行系统性测试,以优化模型性能。适合希望提升数据处理效率与模型效果的机器学习从业者参考。原创 2025-10-25 14:37:31 · 16 阅读 · 0 评论 -
5、机器学习数据预处理与模型构建实用指南
本文介绍了机器学习中数据预处理与模型构建的实用方法,涵盖多输出性能评估、分类变量创建、缺失值与异常值处理、管道使用技巧以及高斯过程回归的应用。通过详细的代码示例和结果分析,帮助读者掌握提升模型性能的关键技术,并提供流程图与整合代码便于实际项目应用。原创 2025-10-24 11:40:35 · 20 阅读 · 0 评论 -
4、高性能机器学习与数据预处理实战
本文深入探讨了高性能机器学习中的关键环节,重点介绍了算法选择与可解释性、编程中的管道概念以及数据预处理的多种实用技术。内容涵盖从创建样本数据、处理缺失值和离群点,到数据标准化、二值化特征构建及分类变量编码等全过程。通过代码示例展示了如何使用scikit-learn进行高效的数据处理,并强调了管道在统一管理预处理流程中的重要作用,帮助提升模型性能与稳定性。原创 2025-10-23 12:16:37 · 16 阅读 · 0 评论 -
3、高性能机器学习之NumPy实战:分类、回归与模型选择
本文深入探讨了使用scikit-learn和NumPy进行高性能机器学习的实战方法,涵盖分类与回归任务中的模型训练、评估与选择。内容包括交叉验证、分层数据划分、K近邻算法、线性与非线性模型对比,以及超参数优化技术如网格搜索。通过鸢尾花数据集等示例,展示了从数据预处理到模型部署的完整流程,帮助读者系统掌握机器学习建模的核心技能。原创 2025-10-22 12:36:38 · 14 阅读 · 0 评论 -
2、高性能机器学习之NumPy实战
本文介绍了基于NumPy和scikit-learn的高性能机器学习实战,涵盖NumPy基础操作、数组形状与广播机制、数据索引与运算,并以鸢尾花数据集为例演示了完整的机器学习流程。内容包括数据加载、可视化、模型选择、训练、预测及性能评估,重点讲解了支持向量机分类器的应用与交叉验证技术。同时对比了分类与回归问题的区别及转换方法,帮助读者构建系统的机器学习认知框架。原创 2025-10-21 13:06:20 · 15 阅读 · 0 评论 -
1、高性能机器学习:NumPy与scikit - learn入门
本文介绍了Python中高性能机器学习的基础工具NumPy与scikit-learn,涵盖NumPy数组操作、鸢尾花数据集加载与可视化、SVM分类、交叉验证、数据预处理流程、降维技术(如PCA、t-SNE)、线性与逻辑回归模型以及基于距离的聚类方法。通过实例演示了从数据加载、特征工程到模型训练与评估的完整流程,适合初学者快速掌握机器学习核心概念与实践技能。原创 2025-10-20 11:53:13 · 17 阅读 · 0 评论
分享