实际业务中的数据分析流程和痛点

本文探讨了实际业务数据分析与学校项目的不同,强调了数据获取和准确性的重要性。业务中,数据分析通常涉及数据集的设计、ETL过程、提数与SQL编写、数据预处理等多个环节,每个阶段都有其独特的痛点,如中间层数据的设计规则、提数时的字段匹配、数据量级和时间相关性等。在完成分析和挖掘后,还需进行结论验证确保数据的可用性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

平常我们在学校里完成一个数据分析,或者数据挖掘的项目,很多时候的流程是:

在这种分析场景中,我们会更关注如何选择合适的方法来达到我们分析的目的。比如我们现在面对的是一个信用卡欺诈的识别问题,我们已经有了一份完整加上了标签的训练数据集,通过建立一些判别模型(如Logistic回归、决策树等),就可以完成模型的训练,然后在测试集上验证模型的效果,当评价指标尚可的时候,就拿来作为新数据集的识别模型。

我们能较快地使用一些分析工具,如Python、R来实现上面的分析过程,有一个重要的前提,就是数据集相对好得到,同时我们假定得到的数据集是准确的,只要我们通过一些分析方法或者建模手段,就能从中提取出有用的信息,从而实现我们的分析目的。

但在实际的业务中,这样的情况不多,“数据集相对好得到” + “我们得到的数据集是准确的”这两个条件未必能满足,从而会有更复杂一些的处理流程:

从上面的流程图中我们可以看到,实际业务的数据分析流程中,会增加对“数据集相对好得到” + “我们得到的数据集是准确的”的处理。这是因为相比于在学校中做数据分析和挖掘的项目,实际业务中能用于分析的数据并不是容易

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

稀饭居然不在家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值