实际业务中的数据分析流程和痛点

最新推荐文章于 2025-02-22 01:00:00 发布

稀饭居然不在家

最新推荐文章于 2025-02-22 01:00:00 发布

阅读量3.9k

点赞数

文章标签：数据分析数据挖掘 python 人工智能大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/A_1245/article/details/123576884

版权

本文探讨了实际业务数据分析与学校项目的不同，强调了数据获取和准确性的重要性。业务中，数据分析通常涉及数据集的设计、ETL过程、提数与SQL编写、数据预处理等多个环节，每个阶段都有其独特的痛点，如中间层数据的设计规则、提数时的字段匹配、数据量级和时间相关性等。在完成分析和挖掘后，还需进行结论验证确保数据的可用性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

平常我们在学校里完成一个数据分析，或者数据挖掘的项目，很多时候的流程是：

在这种分析场景中，我们会更关注如何选择合适的方法来达到我们分析的目的。比如我们现在面对的是一个信用卡欺诈的识别问题，我们已经有了一份完整加上了标签的训练数据集，通过建立一些判别模型（如Logistic回归、决策树等），就可以完成模型的训练，然后在测试集上验证模型的效果，当评价指标尚可的时候，就拿来作为新数据集的识别模型。

我们能较快地使用一些分析工具，如Python、R来实现上面的分析过程，有一个重要的前提，就是数据集相对好得到，同时我们假定得到的数据集是准确的，只要我们通过一些分析方法或者建模手段，就能从中提取出有用的信息，从而实现我们的分析目的。

但在实际的业务中，这样的情况不多，“数据集相对好得到” + “我们得到的数据集是准确的”这两个条件未必能满足，从而会有更复杂一些的处理流程：

从上面的流程图中我们可以看到，实际业务的数据分析流程中，会增加对“数据集相对好得到” + “我们得到的数据集是准确的”的处理。这是因为相比于在学校中做数据分析和挖掘的项目，实际业务中能用于分析的数据并不是容易

最低0.47元/天解锁文章

稀饭居然不在家

博客等级

码龄17年

20
原创

11
点赞

115
收藏

4
粉丝

关注

私信

热门文章

最新评论

SQL中的日活与登陆问题
qq_41205704: 求日活，group两个字段，count（*）计数，算的是同一天，不同user_id出现重复的次数吗？group不是只合并不去重吗？
SQL中的日活与登陆问题
qq_41205704: 按照user_id和log_cum分组后，count（*）是同一个user_id，返回了多行log_cum，再按照同一个user_id，log_cum不同值聚合在一块，最后同一个user_id，count（log_cum=1—5某个值）来计数的吗？
热门算法总结 —— AP聚类
LB124051: 大佬，最后的算例的呢，能不能学习一下。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

稀饭居然不在家 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。