机器学习模型
文章平均质量分 91
机器学习模型专栏旨在系统介绍各种机器学习模型的原理、应用场景和实战案例。专栏将以通俗易懂的方式解析每种模型的核心算法,并结合实际案例,讲解模型的训练、调参及性能评估方法,帮助
向云端UP
统计硕士,从事数据分析、数据挖掘工作
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Scikit-Learn快速入门
Scikit-learn 是一个强大的 Python 库,广泛用于数据挖掘和机器学习任务。它提供了丰富的算法和工具,支持分类、回归、聚类、降维等常见机器学习任务。通过简洁的一致性 API,用户可以轻松实现数据预处理、模型训练、评估和优化等流程。Scikit-learn 还支持多种模型评估方法、数据集生成工具,并可与其他科学计算库(如 NumPy 和 pandas)无缝结合,是机器学习入门和快速原型开发的理想选择。原创 2025-01-12 14:26:00 · 5270 阅读 · 0 评论 -
机器学习算法(一)---决策树
决策树算法是一种常用的监督学习方法,广泛应用于分类和回归问题。通过递归地分裂数据集,决策树构建出一个树状结构,其中每个节点表示一个特征的测试,每个分支代表测试结果的不同选择,叶子节点则表示最终的预测值。常见的分裂准则包括信息增益、基尼指数等。决策树算法易于理解和实现,但容易出现过拟合,特别是在树深度较大时。通过剪枝等方法可以有效减少过拟合,提升模型的泛化能力。原创 2019-04-28 18:49:23 · 1132 阅读 · 0 评论 -
机器学习算法(二)---支持向量机SVM
支持向量机是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题求解。非线性问题:SVM的处理方法是选择一个核函数,通过将数据映射到高维空间,来解决在原始空间中线性不可分的问题。...原创 2023-08-06 18:50:56 · 4091 阅读 · 0 评论 -
机器学习算法(三)---K近邻
K近邻算法(K-Nearest Neighbors,KNN)是一种基于实例的监督学习算法,用于分类和回归问题。其基本思想是根据样本之间的距离度量(如欧几里得距离),将待分类样本归类为其邻近K个样本中出现频率最高的类别。KNN不需要显式的训练过程,而是将所有训练数据存储在内存中,预测时根据距离计算进行分类或回归。该算法简单易懂,但在大规模数据集上计算开销较大,且对噪声敏感。原创 2023-08-09 21:53:06 · 569 阅读 · 0 评论 -
机器学习算法(四)---集成算法(随机森林、AdaBoost、GBDT)
机器学习集成算法通过结合多个基学习器的预测结果,提升模型的整体性能。常见的集成方法包括Bagging、Boosting和Stacking等。Bagging通过并行训练多个模型,减少方差,适用于高方差模型,如决策树。Boosting则通过加权组合多个弱学习器,逐步减少偏差,常见的算法有AdaBoost和XGBoost。Stacking则通过多层模型的组合,进一步提高预测准确度。集成方法通常能有效提高模型的鲁棒性和泛化能力,尤其在面对复杂数据和高维特征时表现优越。原创 2023-08-12 21:33:10 · 1115 阅读 · 0 评论 -
基于XGBoost的集成学习算法
本文探讨了基于XGBoost算法的集成学习方法,详细介绍了其原理、优势及实现过程。文章还结合实际案例,展示了XGBoost在时间序列、回归任务中的应用,为数据科学领域提供了高效的预测工具和优化策略。原创 2025-01-03 18:14:23 · 1315 阅读 · 3 评论 -
基于LightGBM的集成学习算法
LightGBM(Light Gradient Boosting Machine)是一种高效的梯度提升树算法,旨在解决大规模数据集的训练问题。与传统的梯度提升算法不同,LightGBM采用基于直方图的决策树学习和叶子生长策略,在提高训练速度的同时降低内存消耗。它支持类别特征的直接处理,避免了高维稀疏特征的问题,且能够在分布式计算环境中高效运行。由于其优化的计算方式,LightGBM在大数据处理和实时训练中表现优越,广泛应用于机器学习和数据挖掘领域。原创 2025-01-05 21:08:25 · 1242 阅读 · 0 评论 -
机器学习算法(五)---聚类
机器学习聚类算法是一种无监督学习方法,用于将数据集中的样本自动分组,使得同一组内的样本相似度较高,而不同组之间的样本差异较大。常见的聚类算法包括K-means、层次聚类(Hierarchical Clustering)、DBSCAN等。K-means通过最小化样本到质心的平方误差进行分组,适用于数据规模较大且形态规则的情况;层次聚类则根据数据之间的相似度构建树状结构;DBSCAN则通过密度定义聚类,适用于形状不规则的数据。聚类算法广泛应用于市场细分、图像分割等领域。原创 2019-05-03 21:40:19 · 1106 阅读 · 0 评论 -
机器学习算法(六)---逻辑回归
逻辑斯蒂回归(Logistic Regression)是一种经典的分类算法,用于解决二分类或多分类问题。它通过逻辑函数(如Sigmoid函数)将线性回归的输出映射到0到1之间,表示预测属于某一类别的概率。逻辑斯蒂回归通过最大化似然函数估计模型参数,具有简单高效、易于解释的优点,广泛应用于金融、医疗等领域。尽管适用于线性可分的数据,其性能可能在非线性问题中受限,此时可结合特征扩展或核方法提升效果。原创 2024-12-01 00:07:51 · 2012 阅读 · 0 评论 -
机器学习算法(七)---Apriori 关联分析
本文针对关联分析技术进行研究,探讨了其在数据挖掘中的应用及重要性。通过详细阐述关联规则算法,分析了算法原理及其在实际场景中的优化策略。研究结果表明,关联分析能有效挖掘数据间的潜在关系,为决策提供有力支持,具有较高的实用价值和广泛的应用前景。原创 2019-05-04 18:24:31 · 1071 阅读 · 0 评论 -
机器学习算法(八)---朴素贝叶斯
朴素贝叶斯算法是一种基于贝叶斯定理的监督学习方法,广泛用于分类问题。该算法假设特征之间条件独立,通过计算每个类别的后验概率,选择具有最高概率的类别作为预测结果。朴素贝叶斯算法简单高效,特别适用于文本分类、垃圾邮件过滤等任务。其优势在于计算速度快、对小样本数据表现良好,但由于特征独立性假设过于简单,可能无法很好地处理特征之间存在强依赖关系的复杂问题。尽管如此,朴素贝叶斯在许多实际应用中仍具有较高的准确性。原创 2024-12-05 10:25:17 · 1020 阅读 · 0 评论 -
机器学习模型评估指标
机器学习指标评估是衡量模型性能的关键方法,常见的评估指标包括准确率、精确率、召回率、F1值、AUC等。准确率衡量整体预测正确的比例,而精确率和召回率分别关注正类预测的准确性和覆盖性。F1值综合考虑了精确率和召回率的平衡,适用于数据不平衡问题。AUC(曲线下面积)则用于评估分类器在不同阈值下的表现。选择适当的评估指标有助于准确衡量模型效果,为优化和选择最优模型提供指导。原创 2023-08-05 23:17:17 · 841 阅读 · 0 评论 -
k折交叉验证
k折交叉验证原创 2023-08-07 17:19:37 · 366 阅读 · 0 评论 -
超参数搜索之网格搜索、并行搜索、随机搜索、对半网格搜索
网格搜索原创 2023-08-04 10:03:49 · 2328 阅读 · 0 评论 -
模型L1及L2正则化,欠拟合及过拟合讲解
欠拟合和过拟合、L1正则化、L2正则化原创 2023-08-05 20:43:14 · 712 阅读 · 0 评论 -
模型优化----模型融合
模型优化之模型融合原创 2023-07-09 13:35:41 · 537 阅读 · 0 评论 -
综合评价---熵值法
熵值法是一种基于信息论的多指标综合评价方法,通过衡量各指标信息的不确定性来确定其权重。该方法通过计算每个指标的熵值,反映指标的信息量,熵值越小,信息量越大,对决策结果的影响越大。熵值法的优点是能够客观地确定各指标的权重,避免了主观性干扰。它广泛应用于多属性决策分析、经济评价等领域,但需要保证数据的完整性和准确性,避免因数据问题导致的偏差。原创 2023-07-21 23:49:49 · 5811 阅读 · 0 评论 -
异常点检测
异常点检测算法用于识别数据集中与大多数数据显著不同的异常数据点。常见的方法包括基于统计的Z-score、基于距离的K近邻(KNN)和基于密度的DBSCAN等。Z-score通过计算每个数据点与均值的差异来检测异常,KNN通过度量样本间的距离来识别离群点,而DBSCAN基于数据点的密度进行聚类,从而发现稀疏区域的异常点。异常点检测在欺诈检测、故障诊断、网络安全等领域有广泛应用,能够帮助发现潜在风险和异常行为。原创 2024-12-01 15:40:43 · 1026 阅读 · 0 评论 -
【Kaggle】电信用户流失预测分析
本研究针对电信用户流失问题,构建逻辑回归和决策树模型进行预测分析。通过数据清洗与特征工程提取关键变量,逻辑回归模型用于量化各特征对流失的影响,决策树模型则直观呈现流失规律。结果表明,模型能够较准确地识别潜在流失用户,为电信企业提供精细化管理和个性化服务支持。原创 2025-01-15 17:52:44 · 1918 阅读 · 0 评论 -
DEA数据包络分析--python实现
数据包络分析、DEA、效率分析原创 2023-12-23 22:52:00 · 11861 阅读 · 2 评论 -
基于零和收益的DEA模型研究python实现
零和收益DEA模型(ZSG-DEA)原创 2023-12-28 17:05:23 · 1378 阅读 · 3 评论
分享