自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 基于贷款审批数据的 ID3 决策树实现与剪枝优化

本文基于ID3决策树算法实现贷款审批预测模型,通过人工整理的16条训练数据和7条测试数据,完整演示了从数据预处理、决策树构建到剪枝优化的全过程。实验结果表明:未剪枝模型准确率85.7%,预剪枝和后剪枝模型分别通过限制深度和裁剪冗余分支,在保持或提升准确率的同时显著简化模型结构。其中后剪枝模型准确率达100%,验证了剪枝对提升泛化能力的效果。项目代码模块化程度高,可直接应用于其他分类场景,并为金融风控领域的算法落地提供实践参考。

2025-11-27 18:56:05 816

原创 基于贷款审批数据的决策树构建与应用实践

• 特征属性:年龄段(0 = 青年、1 = 中年、2 = 老年)、有工作(0 = 否、1 = 是)、有自己的房子(0 = 否、1 = 是)、信贷情况(0 = 一般、1 = 好、2 = 非常好)以训练集为例,目标属性 “是否贷款” 中,“是”(1)的样本数为 10,“否”(0)的样本数为 6,总样本数 16。(二)计算各特征的信息增益 信息增益表示选择某一特征划分数据集后,信息熵的减少量,信息增益越大,说明该特征的分类效果越好。(一)计算数据集的信息熵 信息熵用于衡量数据集的纯度,熵值越小,数据集纯度越高。

2025-11-13 18:24:22 608

原创 一文读懂决策树:原理、实战与应用场景

决策树是一种直观且强大的机器学习算法,适用于分类和回归任务。其核心优势在于可解释性,通过树形结构清晰呈现决策逻辑。文章系统讲解了决策树的核心概念(根节点、内部节点、叶节点)、三种节点分裂准则(信息增益、信息增益比、基尼系数)以及剪枝技术(预剪枝和后剪枝)。通过Python实战演示了鸢尾花分类案例,并分析了决策树的优缺点及适用场景。最后指出可通过集成学习(随机森林、XGBoost)进一步提升性能,为读者提供了从入门到应用的完整知识路径。

2025-11-13 15:32:34 666

原创 KNN算法实战:从原理到ROC/PR曲线评估

本文以海伦约会推荐为场景,介绍了K近邻算法的原理、实现及评估方法。KNN通过特征归一化和K值选择完成分类任务,重点分析了ROC曲线(AUC指标)和PR曲线(AP指标)在不同数据分布下的评估效果。文中提供了完整的Python代码实现,包括数据预处理、模型训练和性能评估,展示了KNN在约会数据集上90.33%的准确率,并通过AUC 0.94和AP 0.89验证了模型的推荐能力。文章还对比了ROC和PR曲线的适用场景,指出样本不均衡时应优先参考PR曲线,为分类任务提供了实用指导。

2025-10-30 18:16:35 587

原创 手把手教你安装Anaconda

Anaconda是一个开源的Python发行版,专为科学计算设计,内置conda包管理工具,预装1500多个科学计算包。本文详细介绍了Anaconda的下载和安装方法:包括访问官网或清华镜像站获取安装包,Windows/macOS/Linux三大系统的具体安装步骤,以及安装后的验证方法。还提供了配置国内镜像源、常用conda命令、常见问题解决等实用技巧。通过Anaconda可以轻松管理Python环境和依赖包,特别适合数据科学和机器学习领域的开发工作。

2025-10-16 20:25:29 840

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除