开始
这是本人第一次写优快云,难免会出现很多“搞笑的”错误,请大家一笑置之,不喜勿喷。
前言
一般来说,数据分析项目服务于日常生活中的各种决策,通过分析数据,摆出事实,讲道理的方式,告诉决策者某个潜在的事件会“大概率”发生,或者有“大概率”朝着某个方向走的趋势。所以说,如何直观的,生动的让读者清晰地了解到该数据分析项目的构思以及结果就显得十分的重要了。
下面,我准备用四个步骤来完成一个简单的数据分析项目(自己目前也就这点水平,憋笑orz)。
一、数据介绍
简单介绍本项目所使用的数据信息,包括时间,来源,对象范围,名词解释,基本注释等。
我们知道,数据的来源,性质,统计的范围等基本信息,可以直接决定分析的目标和结果。所以,让读者清晰的了解到数据的相关基本信息,这是十分有必要的,这样才能方便他们在理解后续的过程和结果。
二、分析概述
解释分析的目的和实际意义,简述一下项目所使用的分析方法,具体框架,最后总结所得的分析结论。
这一部分是总结性的告诉读者:本项目为什么要这样分析?目的和目标是什么?主要运用了哪些方法来达成项目的分析目标?以及本项目的最终得到结论是什么?
三、数据预处理
主要是对数据集的清晰和初步的处理过程,并解释这样操作的目的,以及可能达到的效果。
四、分析过程
具体的分析过程和结论
想要构造出阅读性较强的分析过程,一般需要优秀的结构化过程来叙述思路,包括子标题,路线图,个人喜欢用“树状图回溯法”(实际上我也不知道具体叫啥,哈哈)。
参考参考别人的法子:
1. 分析子目标/维度
2. 提出的假设
3. 提出假设的验证结果
4. 针对每个假设的分析方法
个人的法子(尴尬,不会画图 orz)
假设对于一个目标函数 Loss = l o s s 1 + l o s s 2 + . . . + l o s s n loss_1 + loss_2 + ... + loss_n loss1+loss2+...+lossn,其中 n ∈ N n \in \mathbb N n∈N。这样,我们想把一个大的目标分成了很多个小目标,然后对任意一个小目标 l o s s k , 1 ≤ k ≤ n loss_k, 1 \leq k \leq n lossk,1≤k≤n,有 l o s s k = ∑ j = 1 n f k , j loss_k = \sum\limits_{j=1}^{n} f_{k,j} lossk=j=1∑nfk,j。感觉有点像深度学习里面的构建多层线性关系来函数逼近非线性的方程(手动滑稽,有点扯远了),然后我们通过解决这些线性的方程,即更小的小目标被解决了,那上一层的大一点的目标被解决,依次向上,最后解决最终目标,GG。
本来其实是想画个树状图的(后来感觉也差不多,手动你懂的),很尴尬,第一次写,不会画图,后面继续加油吧。
总结
本文主要是看了一些(自认为)蛮好的数据分析项目后,做了一个简单的描述,也希望大佬们多多指教,(部分参考的链接忘记了,十分抱歉,后面弄好了再补上)。
本文提供了一套数据分析项目的构建思路,从数据介绍到分析过程,详细介绍了如何进行数据分析项目的准备工作及实施步骤。
4230

被折叠的 条评论
为什么被折叠?



