
数据挖掘DM
文章平均质量分 94
数据挖掘
小胡说技书
这个作者很懒,什么都没留下…
展开
-
9.时间序列分析与预测的理论与实践——Python数据挖掘代码实践
全面方法论时间序列分析是一项系统工程,涉及数据平滑、分解、模型构建及评估。交叉验证、验证曲线和学习曲线在监督学习中同样适用于时序模型调优。自动化与持续监控建议构建自动化的模型调优管道,将时间序列预测模型与数据治理平台结合,实时监控数据变化和模型表现。随着业务数据和市场环境的不断变化,模型需要持续更新和再训练。技术前沿未来,深度学习方法(如 LSTM、Transformer)在时间序列预测中的应用将进一步提升预测准确性,特别是在处理复杂非线性和多变量时序数据上。原创 2025-03-30 16:18:50 · 1097 阅读 · 0 评论 -
8.非监督学习与关系挖掘:聚类分析、客户细分、关联规则与协同过滤的全面解析——Python数据挖掘代码实践
聚类分析(Clustering)是非监督学习中的一种重要方法,其目标是将数据集中的对象根据相似性分为若干个簇。非层次聚类:如 K 均值算法(K-Means),通过迭代优化簇中心的方式实现数据分群。层次聚类:包括凝聚层次聚类(Agglomerative Clustering)和分裂层次聚类(Divisive Clustering),可利用不同的链接方式(单链接、完全链接、Ward法)构建树状结构,从而对数据进行分层次的划分。聚类分析在客户细分、市场分割、图像分割以及异常检测等领域有广泛应用。原创 2025-03-25 21:02:01 · 1038 阅读 · 0 评论 -
7.模型选择与评估:构建科学的参数调优与性能评估体系——Python数据挖掘代码实践
在构建监督学习模型时,如何选择合适的模型、确定最佳超参数以及科学地评估模型性能一直是数据科学家与机器学习专家关注的核心问题。本文旨在为您提供一套从数据预处理到模型评估的完整流程,结合理论、代码实践以及深度思考,构建一个全面、系统且具有实际指导意义的模型选择与评估体系。原创 2025-03-25 20:29:12 · 1212 阅读 · 0 评论 -
6.监督学习:模型总览表格——Python数据挖掘代码实践
下面的表格详细列出了深度学习中常见的模型类型,从基础前馈网络到的 Transformer 模型,涵盖各模型的基本描述、主要优缺点、适用场景及在 Python 中常用的工具。这份表格旨在帮助您全面理解深度学习模型的分类及其应用,为项目选型和研究提供参考。下面的表格详细列出常见的监督学习模型,从经典的线性模型、判别分析,到支持向量机、树模型、朴素贝叶斯、最近邻、神经网络及其他较为前沿的方法,涵盖其主要用途、优势、缺点、适用场景以及在 Python 中常用的工具。(神经网络表格单独说)原创 2025-03-24 17:52:50 · 985 阅读 · 0 评论 -
5.特征工程与维度降维实践指南——Python数据挖掘代码实践
本博客旨在分享如何利用 Python 工具,从数据聚合、透视、正则化、树模型到非数值数据处理,实现特征构造与变量选择,进而为后续建模奠定坚实基础。原创 2025-03-21 15:32:06 · 1046 阅读 · 0 评论 -
4.玩转热图(续:矩阵式网络关系热图、Pivot Table 热图、三维/交互式热图)——Python数据挖掘代码实践
4.玩转热图(续:矩阵式网络关系热图、Pivot Table 热图、三维/交互式热图)原创 2025-03-20 20:49:23 · 1005 阅读 · 0 评论 -
4.玩转热图(续:地图热图)——Python数据挖掘代码实践
在数据可视化中,地理热图(Choropleth)是一种直观的方式来展示地理区域数据的分布。本文将使用 Python 的GeoPandas库,通过 Natural Earth 提供的Shapefile数据,绘制一张全球地理热图。原创 2025-03-20 19:53:29 · 319 阅读 · 0 评论 -
4.玩转热图(相关矩阵、缺失值、多维相关、聚类热图、时间序列)——Python数据挖掘代码实践
玩转热图(相关矩阵、缺失值、多维相关、聚类热图、时间序列)原创 2025-03-18 22:27:20 · 1646 阅读 · 0 评论 -
3.数据探索与可视化基本图形(直方图、箱线图、散点图)——Python数据挖掘代码实践
本部分旨在帮助初学者从理论上认识数据可视化的基本概念,并理解常见图形的内涵及其适用场景。通过掌握这些基本概念,您将能更好地利用数据分布、相关性和多维数据展示等工具来探索和分析数据。原创 2025-03-18 15:28:57 · 1503 阅读 · 0 评论 -
2.数据平衡——Python数据挖掘代码实践(SMOTE(合成少数类过采样技术)、ADASYN 及其他过采样方法、随机欠采样、聚类欠采样)
类别不平衡问题是数据挖掘和机器学习中的关键挑战,对模型的预测准确率和鲁棒性有深远影响。本文回顾了过采样(SMOTE、ADASYN)与欠采样(随机、聚类欠采样)的核心原理及优缺点,并提供了实践建议和前沿展望。通过合理地整合技术工具与业务知识,我们不仅能够提升模型在少数类上的识别能力,还能为企业决策提供更可靠的数据支持。希望本文的总结与思考能为您在实际项目中选择合适的数据平衡策略提供指导和启发。原创 2025-03-13 08:21:51 · 1193 阅读 · 0 评论 -
1.数据清洗与预处理——Python数据挖掘(数据抽样、数据分割、异常值处理、缺失值处理)
本文将以实践为导向,介绍数据抽样、数据分割、异常值处理以及缺失值处理的原理、策略和实现代码,帮助您构建一个完善的数据预处理流程。原创 2025-03-12 17:01:23 · 1257 阅读 · 0 评论 -
读书推荐:《Data Mining for Business Analytics: Concepts, Techniques and Applications》数据挖掘:商业数据分析技术与实践
这套知识体系不仅涵盖了传统统计方法和现代机器学习算法,还融入了大数据背景下的前沿技术(如深度学习、社交网络与文本挖掘)以及实际业务案例,形成了一种结构化、应用驱动的学习路径。通过系统地学习这些内容,开发者和数据科学家将能够设计和部署具备高度预测准确性、业务洞察力和可扩展性的分析解决方案,为企业构建竞争优势,助力数字化转型。原创 2025-03-12 15:50:59 · 1056 阅读 · 0 评论