
监督学习
文章平均质量分 96
监督学习介绍及几大常规监督学习算法的应用实例
万事可爱^
练习两年半的算法实习生,请各位多多指教
展开
-
特征选择方法
在机器学习领域,原始数据往往包含大量冗余、噪声或无关特征,直接使用全量特征会导致计算成本增加、模型过拟合以及解释性下降。特征选择的核心目标是从高维数据中筛选出最具预测能力的特征子集,从而提升模型性能、降低复杂度并增强可解释性。通过合理的特征工程,不仅能提升模型性能,还能为业务决策提供更清晰的洞见。特征选择作为机器学习中非常重要的一环,一直极大程度的决定这模型的效果,下面就让我们一起进入特征选择的世界,为了方便大家总结归纳,在开头家里一个思维导图,大家可以根据内容对照查看。嵌入法 Embedded。原创 2025-03-26 17:00:59 · 861 阅读 · 35 评论 -
朴素贝叶斯:理论、实践与最优性探秘
朴素贝叶斯是一种基于贝叶斯定理的监督学习算法,其"朴素"源于对特征间条件独立性的假设。尽管这个假设在现实中很少成立,但该算法在文本分类、垃圾邮件过滤等场景表现优异,尤其在数据量较少时仍能保持高效稳定。图1展示了其核心思想:所有特征在给定类别下独立。根据Harry Zhang教授的理论研究,朴素贝叶斯的成功源于依赖分布均衡性局部依赖抵消:不同特征的依赖方向在各类别中相互抵消原创 2025-03-25 11:07:42 · 823 阅读 · 8 评论 -
集成学习(下):Stacking集成方法
Stacking(堆叠法)是一种集成学习技术,通过组合多个基学习器(base learner)的预测结果,并利用一个元模型(meta-model)进行二次训练,以提升整体模型的泛化性能。如果说 Bagging 是民主投票,Boosting 是学霸纠错,那么 Stacking 就是组建专家智囊团。如同医院的多学科会诊(MDT),Stacking通过分层建模将不同领域的专家意见进行综合,突破单一模型的天花板。原创 2025-03-21 15:10:27 · 1055 阅读 · 42 评论 -
集成学习(中):Boosting集成方法
如果说Bagging是民主投票,那么Boosting就是学霸纠错。就像学生在错题本上反复练习薄弱知识点,Boosting通过迭代修正的方式让模型在错误中持续进化。Kaggle竞赛的启示:在2023年之前Kaggle机器学习结构化数据竞赛中,85%的Top方案使用XGBoost或LightGBM。其中,Boosting类算法在时间序列预测任务中的准确率比传统方法平均提升23%。原创 2025-03-20 09:14:00 · 764 阅读 · 10 评论 -
集成学习(上):Bagging集成方法
在机器学习的世界里,没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象",单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来,就能像拼图一样还原出完整的真相,接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术,它通过组合多个模型(通常称为“弱学习器”或“基础模型”)的预测结果,构建出更强、更准确的学习算法。这种方法的主要思想是利用群体智慧的概念——即整体性能优于单个个体。原创 2025-03-17 15:59:56 · 1232 阅读 · 44 评论 -
一文搞懂决策树(内附实战源码)
决策树是一种分类与回归的模型,它通过一系列的决策规则(如“如果A > B,那么选择C”)将数据集划分为多个子集,直到满足某个停止条件为止。树的每个节点代表一个特征(或者属性),每个边代表特征值的划分,而叶子节点则表示最终的分类标签或回归值。我们使用 Iris 数据集 来训练和评估决策树模型。我们查看了模型的准确率、分类报告以及混淆矩阵。最后,我们通过可视化决策树的结构,帮助我们理解模型的决策过程。原创 2024-12-29 09:00:00 · 1248 阅读 · 0 评论 -
有“边界感”的支持向量机(SVM) (内附Kaggle实战源码与数据集)
机器学习中,支持向量机(SVM)是一种经典的分类算法,它的优势在于高效的性能与良好的泛化能力。简而言之,SVM就像一个能精准“分割”不同类别的高手,它通过找到一个最佳分割线(在高维空间中是超平面),来区分数据点。原创 2024-12-31 17:18:00 · 1356 阅读 · 0 评论 -
一文搞懂逻辑回归(内附Kaggle实战源码与数据集)
逻辑回归,听起来像回归分析的“亲戚”,但实际上它是一种分类算法。嗯,确实很让人困惑!线性回归是用来预测一个连续变量的数值,而逻辑回归虽然名字里有“回归”,但实际上它是用来做二分类(或者多分类)问题的算法,比如判断某个邮件是否为垃圾邮件,某个图片里是不是猫,等等。我们将使用Kaggle上的“泰坦尼克号:机器学习生死预测”数据集。该数据集包含了泰坦尼克号上乘客的基本信息(如年龄、性别、票价等),我们需要预测每个乘客是否生还(Survived)。原创 2024-12-28 09:00:00 · 1627 阅读 · 0 评论 -
最“直”的算法线性回归竟如此 “不正经”(附带 Kaggle 实战源码及数据集,速来围观)
波士顿房价数据集包含了506个房屋信息,每条记录描述了一个区域的各类统计特征,包括犯罪率、房间数量、房屋年龄等,目标变量是房价的中位数(MEDV)。CRIM:该地区的犯罪率(每万人的犯罪数量)ZN:住宅用地的比例(大于25,000平方英尺的住宅用地比例)INDUS:非零售商业用地的比例CHAS:是否位于查尔斯河旁边(1=是,0=否)NOX:氮氧化物浓度(ppm)RM:每个住宅的平均房间数AGE:1940年之前建成的房屋的比例DIS:到波士顿五个就业中心的加权距离。原创 2024-12-27 08:30:00 · 1068 阅读 · 0 评论