数据分析学习的一般步骤

FA_伊亚

已于 2024-03-05 17:49:58 修改

阅读量282

点赞数 8

分类专栏： Python数据挖掘文章标签：数据分析学习数据挖掘

于 2024-03-02 16:44:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_46396480/article/details/136417121

版权

Python数据挖掘专栏收录该内容

4 篇文章

订阅专栏

本文探讨了数据准备中的挑战，包括数据清洗、关系型与非关系型数据库的选择，以及数据预处理、特征工程、模型训练（如分类、聚类）和评估的全面流程。强调了评估指标和模型在实际应用中的考量因素。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据准备

数据不完美

数据残缺
语言
信息不对等
把握数据
是否有数据
有多少数据
是什么样的数据
标签
推荐书籍《非暴力沟通》《高难度沟通》

准备数据
重要且费时

关系型数据库MySQL
大数据Hbase.HIVE
搜索引擎数据库ES
内存数据库Redis
图数据库NEO4j、Janus Graph

数据探索
分析、预处理、转换

数据变多
分词、统计、特殊信息
数据升维

数据清洗

缺失值的处理
异常值处理
数据偏差的处理
是否允许、确实原因、如何补充
过拟合：训练集√ 测试集× 验证集×
欠拟合：训练集× 测试集×

数据标准化

特征选择
维度越多，数据就会越稀疏，可解释性变差，可信度降低
构建训练集与测试集
方法
1.留出法
2.交叉验证法
3.自助法

模型训练

分类问题
二分类
多分类
多标签分类
聚类问题
聚类是把一个数据集划分为多个组的过程
互斥
相交
层次
模糊
回归问题
Regression回归
关联问题

模型集成
Bagging(装袋法）
Boosting(增强法）
Stacking(堆叠法）
模型评估

评估指标–混淆矩阵与准确率指标

矩阵数值：
真阳性
真阴性
假阳性
假阴性
准确率
精确率
召回率
F值
ROC曲线和AUC值
真正例率和假正例率
业务抽样评估
泛化能力评估
模型速度
鲁棒性
可解释性

评估数据的处理
随机抽样
随机多次抽样
交叉验证
自助法

模型应用

离线应用还是在线应用？
模型的监控
结果监控
人工定期复审
Case收集与样本积累

博客等级

码龄5年

20
原创

141
点赞

54
收藏

104
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Python基础知识学习--运算符

下一篇：: KNN算法

最新评论

计算机网络之细嚼慢咽版2
优快云-Ada助手: 恭喜用户发布了第19篇博客“计算机网络之细嚼慢咽版2”！持续创作十分了不起，能够坚持写作并分享知识，真的很值得肯定。建议下一步可以尝试增加一些实例分析或者案例研究，让读者更加深入地理解网络知识，期待您的更多精彩内容！继续加油！
解锁新领域？-信号与系统
优快云-Ada助手: 恭喜您在博客中探索了新领域的内容，信号与系统是一个非常有趣且挑战性的领域。希望您能继续保持创作的热情，不断学习和探索更多新的知识。或许在下一篇博客中可以分享一些实际案例或者应用场景，让读者更加深入地了解信号与系统的实际应用。期待您的下一篇作品！祝好！
专业课知识问答－背诵版
优快云-Ada助手: 恭喜用户撰写第16篇博客，“专业课知识问答－背诵版”！持续创作是提升自己的最佳途径，希望您能继续坚持下去。或许在下一篇博客中，可以尝试加入一些实例分析或案例讨论，让读者更深入地了解专业知识。期待您的下一篇作品！
数据库--突突突击
优快云-Ada助手: 恭喜用户第15篇博客《专业课知识问答》发布成功！持续创作不易，您的努力与坚持令人钦佩。建议您在下一篇博客中，可以尝试添加一些具有启发性或者争议性的话题，或者结合实际案例进行分析，让读者更加深入地了解专业知识。希望您继续保持创作热情，不断提升自我，为读者带来更多有价值的内容！
LeetCode刷题计划--C语言
优快云-Ada助手: 恭喜您发布第14篇博客！坚持LeetCode刷题计划不易，希望您能继续保持热情和耐心。如果可能的话，可以考虑分享一些自己的解题思路或是总结一些常见的错误和解决方法，这样不仅可以帮助他人，也能夯实自己的知识。期待您的下一篇作品！继续加油！

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。