数据挖掘之建模过程

本文详细介绍了数据挖掘中的建模过程,从定义挖掘目标、数据取样、数据探索(包括异常值处理、缺失值处理、数据集成和数据转换)、属性规约和数据规约,到挖掘建模和模型评价,提供了数据挖掘建模的完整流程和关键步骤。

研一的时候跟着实验室师兄做各种论文实验,如有特征选择及稳定性分析、迁移学习、标签推荐等,那时候只知道我在做一个叫“数据挖掘”这一个大类的东西,但因为做的东西太零碎,无法对数据挖掘有一个整体的认识。随着“阅历”的增长,渐渐的对数据挖掘有了一个轮廓性的认识,现对数据挖掘建模总结如下,如有误,还望各位大犇批评指正。

1.定义挖掘目标

定义挖掘目标即是指要在开始挖掘前,明确挖掘的目的,要达到什么效果?比如对于用户网上看视频,我们想做的可能是对视频进行关联分析或协同过滤,向用户推荐下一部视频;对于商品或新闻下的评论,我们可能想做的是对评论进行情感分析,来判断新闻或商品的正负情感/好坏;对于旅游公司,我们可能想做的是查找黏度较大的用户,然后为其针对性的制定相关服务。

只有把挖掘目标定下来了,才能够针对性的进行数据取样、数据预处理、建立挖掘模型及给出评价标准

2.数据取样

圈内有句奉为真理的传言“数据的质量决定其挖掘的高度”。因此在取样阶段,需从业务系统中抽取和此次目标相关的数据子集并保证数据完整无缺需要注意的是:

数据取样无需动用企业的全部数据,要去粗取精,找出具有相关性、时效性、可靠性的数据。否则对于高维度的数据,容易造成维度冗灾,消耗了大量的处理时间和空间,得到的结果也未必尽如人意。

3.数据探索

经过数据取样拿到的数据还不能直接使用,原因是数据还比较粗糙,得经过一个预处理的阶段才能使用。

异常值处理

首先要做的是找出数据集中的异常值,即不合理的数据,也称为离群点。比如一个人的年龄的数值为-1,笔记本电脑的重量为1吨,都被视为异常值。 ps.异常值的判断和处理方法将在之后博客中书写

### 数据挖掘建模的基本步骤和流程 数据挖掘建模是一个系统化的过程,涉及多个阶段,这些阶段共同构成了完整的数据分析和建模生命周期。以下是详细的步骤和阶段: #### 1. **业务理解** 此阶段的核心在于明确业务需求并将其转化为可操作的数据挖掘目标。具体工作包括需求调研、了解商业背景以及设定清晰的成功标准[^1]。通过这一环节,能够确保后续的技术实现与实际业务需求保持一致。 #### 2. **数据理解** 该阶段旨在深入了解可用数据及其特性。主要活动包括确定用于建模的具体数据集、描述数据结构、执行初步的数据探索分析 (EDA) 和评估数据质量等问题[^1]。此外,在这个过程中可能会发现异常值或缺失值等情况,从而为进一步处理提供依据。 #### 3. **数据准备** 一旦明确了所需数据之后,则进入数据预处理阶段。这一步骤可能涉及到清洗脏乱数据、转换变量形式使其更适合算法输入要求等方面的工作。例如标准化数值范围或者编码分类属性等操作都是常见手段之一[^4]。 #### 4. **建立模型** 选择合适的算法来构建预测/分类等功能型模型成为本部分重点所在。根据之前确立的目标导向选取相应方法论,并利用训练样本完成参数估计等工作内容。值得注意的是,此时还需要考虑诸如过拟合预防措施等因素的影响[^2]。 #### 5. **模型评估** 当候选方案开发完成后即转入验证其性能表现优劣程度的关键时期——测试阶段。采用交叉验证等方式衡量不同条件下各版本间相对优势劣势之处;同时也要关注泛化能力指标如AUC值之类反映总体效果好坏的标准[^5]。 #### 6. **部署实施** 最后但同样重要的一环便是将经过充分优化后的最终成果应用于生产环境当中去解决实际问题。这意味着不仅需要保证技术层面无缝衔接而且还要考虑到维护成本效益平衡等诸多方面因素[^3]。 ```python # 示例代码展示简单的线性回归模型创建过程 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression # 假设已加载好数据df X = df[['feature1', 'feature2']] y = df['target'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) model = LinearRegression() model.fit(X_train, y_train) predictions = model.predict(X_test) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值