- 博客(9)
- 收藏
- 关注
原创 为什么这些数据库成了 ML+SHAP 研究 “香饽饽”?
近年来 “机器学习 + SHAP 解释” 的研究中,GBD、CDC 等数据库高频出镜 —— 核心原因在于其样本量大、维度丰富、标注规范,完美适配疾病预测、风险因素识别等任务。SHAP 值可量化特征贡献度,而这些数据库提供的 “多维度健康指标 + 长期追踪数据”,正是构建可解释模型的核心燃料。
2025-09-29 10:13:48
2020
原创 机器学习分类模型评估指标详解:从AUC到F-score再到置信区间
本文基于 Python 自带的乳腺癌数据集,以随机森林模型为例,系统讲解了 9 个核心分类评价指标的理论与代码实现,并通过固定随机种子确保了 95% 置信区间的可复现性。
2025-09-28 14:34:02
1579
原创 相关性矩阵图:用Python可视化变量关系的利器
相关性矩阵图是一种数据可视化工具,用于展示多个变量之间的相关程度。它通过颜色深浅和数值大小直观呈现变量间的线性关系,是数据探索性分析中的重要手段。
2025-09-26 09:28:51
352
原创 数据清洗核心操作:一键删除全空值行列,提升数据质量
删除全空列:df.dropna(axis=1, how=‘all’)删除全空行:df.dropna(axis=0, how=‘all’)(axis=0可省略)进阶过滤:用thresh参数处理 “近全空” 行列,按非空值数量筛选安全原则:尽量避免inplace=True,保留原始数据便于追溯数据清洗的核心是 “保留有效信息,剔除无效噪声”,删除全空值行列是最基础的一步。后续还可结合空值填充、异常值处理、重复值删除等操作,进一步提升数据质量。
2025-09-23 10:15:07
1287
原创 Python 处理 XLSX 文件方法大全(含实战代码)
在数据分析、自动化办公等场景中,XLSX 文件处理是 Python 开发者的必备技能。本文整理 4 大核心库的使用方法,从基础读写到高级样式、图表生成,覆盖 90%+ 实用场景,新手可直接复制代码上手。
2025-09-20 22:35:16
364
原创 Python 绘图全局参数设置详解:让你的图表更专业
创建个人或团队专属的图表风格模板。避免重复设置相同参数,提高代码复用率。确保报告、论文中的图表风格统一。快速解决中文显示、负号异常等常见问题。建议将常用的参数配置封装成函数,在每个项目中只需调用一次即可应用所有设置。对于不同场景(如论文、演示、网页),可以创建多个配置模板,根据需求灵活切换。掌握全局参数设置,让你的数据可视化作品既专业又高效!
2025-09-15 10:22:02
690
原创 如何设置随机种子确保Python实验的可重复性
设置随机种子是确保Python实验可重复性的关键步骤。通过在不同库中正确设置随机种子,我们可以确保每次运行代码时得到相同的结果,这对于调试、验证和学术研究至关重要。建议在项目的开始处设置全局随机种子,并在所有使用随机数的函数中传递相应的参数。记住,虽然随机种子提供了可重复性,但在生产环境中,我们通常不需要设置固定的随机种子,以便从随机性中获益。
2025-09-12 10:26:45
638
原创 机器学习python之numpy库
NumPy(Numerical Python)是 Python 生态中科学计算的核心库,尤其在机器学习领域必不可少。它提供了高性能的多维数组对象 ndarray 和数学工具,是几乎所有机器学习框架(如 Scikit-learn、TensorFlow、PyTorch)的底层依赖。
2025-08-16 21:24:51
147
原创 如何使用 vLLM 部署 Baichuan-M2-32B-GPTQ-Int4 模型并提供 API 接口
提示:模型页面:https://hf-mirror.com/baichuan-inc/Baichuan-M2-32B-GPTQ-Int4。
2025-08-14 09:54:21
805
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅