【学习】数据分析-SEMMA步骤解析

本文详细介绍了数据分析中的SEMMA方法,包括Sample(搜集数据)、Explore(数据探索)、Modify(数据修正)、Model(数据建模)和Assess(模型评估)。通过案例探讨了如何处理数据、建立预测模型以及评估模型效果,强调了数据分析过程的迭代性和优化策略。同时,提到了数据搜集、清洗、建模和结果呈现所需掌握的技能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

S:Sample(搜集数据)

基于需求,有针对性的搜集可以解决问题的数据。常用的搜集手段有:
• 问卷调查
• 数据库查询
• 实验室试验
• 仪器设备的记录
例如:影响收入的因素有哪些?如何预测他的收入范围呢?

E:Explore(数据探索)

通过数据探索,以求对数据的进一步了解。常用的探索方向有:
• 离散变量的分布比例
• 连续变量的分布形态
• 数据的异常和缺失
• 特征选择
例如:各变量的缺失状态?统计描述?数据分布形态?

M:Modify(数据修正)

数据修正,便于下一步的分析和建模。常用的修正方法有:
• 数据类型的转换
• 数据的一致性处理
• 异常值和缺失值的处理
• 数据形态的转换
例如:各变量中的缺失数据该如何处理?离散变量如何数值化?

M:Model(数据建模)

数据建模,侧重于未知事件的预测。常用的模型有:
• 有监督的预测性模型(如回归、决策树、KNN等)
• 有监督的判别性模型(如Logistic、贝叶斯、集成算法等)
• 无监督模型(如Kmeans聚类、层次聚类、密度聚类等)
• 半监督模型(如关联规则等)
例如:如何基于调查数据,预测用户的收入水平?

A:Assess&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值