- 博客(4)
- 收藏
- 关注
原创 集成学习(Ensemble Learning)详细解读
集成学习是一种通过组合多个学习器(弱学习器)来提升预测性能的机器学习方法。它主要包括Boosting、Bagging和Stacking三种类型,其中Boosting通过迭代调整样本权重逐步改进模型(如AdaBoost),Bagging通过有放回采样构建多个独立模型并投票或平均结果(如随机森林),而Stacking则使用元学习器整合多个基学习器的输出。集成学习的优势在于减少方差和偏差,提高泛化能力,但需满足基学习器"好而不同"的条件。
2025-09-30 16:08:51
2159
原创 决策树(Decision Tree)——随机森林(Random Forest)详细解读
决策树是一种基于树形结构的监督学习算法,用于分类和回归任务。核心算法包括ID3、C4.5和CART,分别使用信息增益、信息增益率和基尼指数作为特征选择标准。构建过程包括特征选择、树生成和剪枝,通过递归划分数据集形成决策规则。C4.5和CART算法改进了ID3的不足,能处理连续属性和缺失值。决策树易于理解和实现,但需注意过拟合问题,可通过预剪枝和后剪枝优化。实际应用中,算法对MNIST数据集的分类效果良好,准确率较高。
2025-09-26 15:19:13
2004
原创 K-means和K近邻算法详解
本文介绍了K-means和KNN两种机器学习算法。K-means是一种无监督聚类算法,通过迭代更新簇中心将数据划分为K个簇,并介绍了K值选择的肘部法、轮廓系数等方法。KNN是一种监督学习算法,通过计算样本距离进行分类预测,并讨论了K值选择对模型的影响。文章还提供了两种算法的Python实现代码,包括数据集处理、模型训练和评估指标计算。最后通过可视化展示了聚类结果。
2025-09-24 17:02:26
1510
原创 支持向量机详细解读
支持向量机(SVM)是一种强大的机器学习算法,可用于分类和回归问题。在分类中,SVM通过寻找最优超平面来最大化不同类别数据点之间的间隔;在回归中,则寻求预测误差最小的函数。超平面是n维空间中将空间分为两部分的n-1维子空间。SVM的优化目标是最大化间隔,通过构造拉格朗日函数和对偶问题求解。对于非线性可分数据,SVM使用核函数将数据映射到高维空间实现线性可分。文中还详细介绍了SMO算法实现过程,并提供了Python代码示例,包括核函数选择、误差计算和参数更新等关键步骤。
2025-09-23 16:28:21
757
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅