- 博客(7)
- 收藏
- 关注
原创 基于随机森林的心脏疾病预测:从模型构建到 SHAP 可解释性分析
心血管疾病是全球主要死亡原因之一,早期预测和干预至关重要。我们使用的heart.csv数据集包含 303 条记录,13 个特征变量和 1 个目标变量(是否患有心脏病)。特征包括年龄、性别、血压、胆固醇水平等临床指标,目标变量target为二分类(0 表示健康,1 表示患病)。随机森林是一种集成学习方法,通过构建多个决策树并结合它们的预测来提高准确率和稳定性。采用 Bagging 抽样方法构建不同的训练集每个决策树在分裂时随机选择特征子集最终通过投票机制确定分类结果。
2025-05-28 23:35:04
1385
原创 基于随机森林的真假人脸识别实战
另外,提取随机森林模型的特征重要性得分,找出最重要的前 20 个特征,绘制水平条形图进行可视化,展示各特征的重要性程度,同样保存为图片。通过计算训练集的均值和标准差,对训练集特征进行缩放,使特征具有零均值和单位方差,再用同样的均值和标准差对测试集特征进行转换,以保证数据在同一尺度上,有助于提升模型的训练效果和收敛速度。表示在测试集中,真实假脸样本有 192 个,模型正确预测为假脸的有 101 个,误判为真脸的有 91 个;我们准备了两个文件夹的图像数据,一个存放真实人脸图像,另一个存放伪造人脸图像。
2025-05-21 21:44:18
903
1
原创 用 Python 实现加州房价预测:从数据处理到模型优化
本文通过对加州房价数据集的处理和建模,展示了机器学习回归模型的完整流程。从数据探索发现关键特征,到数据预处理提升数据质量,再到多种模型的构建、评估与优化,每一步都至关重要。不同的回归模型各有优劣,多元线性回归和岭回归在本次实验中表现出色,而 LASSO 回归经过超参数调优后也能达到较好的效果。希望本文能帮助你在机器学习的实践道路上迈出坚实的一步,探索更多有趣的应用。
2025-05-15 01:00:00
462
原创 真假新闻分类实战:朴素贝叶斯 vs 轻量级大模型(Sentence-BERT)
本文实现了真假新闻分类的两个方案并进行了对比;使用 Sentence-BERT 模型可以无需 GPU 微调,即可取得媲美全 BERT 的效果;这类“轻量大模型”方案,适用于中小项目、快速开发、资源有限的场景。用于企业资讯审核、内容推荐过滤、新闻平台初筛等场景可作为 BERT 微调前的 baseline 或工程应用替代方案。
2025-05-14 20:30:51
720
原创 保险购买预测:多算法对比实战
在实际应用中,我们可以根据具体需求和数据特点选择合适的算法,并进一步优化模型,如处理数据不平衡问题、调整模型超参数等,以提高预测的准确性和可靠性。本文将使用 ID3、CART、高斯朴素贝叶斯和逻辑回归四种经典算法,对保险购买数据进行分类预测,并详细展示整个实现过程。在实际应用中,数据预处理是非常关键的一步,它能确保数据符合模型的输入要求。由于机器学习模型通常要求输入为数值型数据,所以对于数据集中的类别型特征,我们使用。通过这段代码,我们将类别型特征转换为数值型,使后续的模型能够正确处理这些数据。
2025-05-06 00:30:00
477
原创 超市优惠券核销预测:基于多分类算法的数据分析实践
通过本次数据分析项目,我们从数据获取、处理、分析到模型构建和评估,完整地完成了一个超市优惠券核销预测的任务。在这个过程中,我们运用了多种数据分析和机器学习技术,深入了解了数据的特征和模型的性能。同时,我们也认识到数据质量和特征工程对模型性能的重要影响,以及如何综合运用多种评估指标来选择最优模型。希望本文的内容能够为从事数据分析和营销工作的人员提供一些有价值的参考和启示。
2025-05-05 17:04:10
801
原创 基于协同过滤的电影推荐系统实现(Python)
本次实验通过 Python 实现了基于用户的协同过滤推荐系统,涵盖数据加载、预处理、相似度计算和推荐生成全流程。代码支持交互式推荐,可根据用户 ID 动态生成个性化电影列表。推荐系统在实际应用中需进一步解决稀疏性、冷启动等问题,结合业务场景优化算法和评估指标(如覆盖率、多样性)。
2025-04-15 14:09:20
921
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅