平常我们在学校里完成一个数据分析,或者数据挖掘的项目,很多时候的流程是:
在这种分析场景中,我们会更关注如何选择合适的方法来达到我们分析的目的。比如我们现在面对的是一个信用卡欺诈的识别问题,我们已经有了一份完整加上了标签的训练数据集,通过建立一些判别模型(如Logistic回归、决策树等),就可以完成模型的训练,然后在测试集上验证模型的效果,当评价指标尚可的时候,就拿来作为新数据集的识别模型。
我们能较快地使用一些分析工具,如Python、R来实现上面的分析过程,有一个重要的前提,就是数据集相对好得到,同时我们假定得到的数据集是准确的,只要我们通过一些分析方法或者建模手段,就能从中提取出有用的信息,从而实现我们的分析目的。
但在实际的业务中,这样的情况不多,“数据集相对好得到” + “我们得到的数据集是准确的”这两个条件未必能满足,从而会有更复杂一些的处理流程:
从上面的流程图中我们可以看到,实际业务的数据分析流程中,会增加对“数据集相对好得到” + “我们得到的数据集是准确的”的处理。这是因为相比于在学校中做数据分析和挖掘的项目,实际业务中能用于分析的数据并不是容易