岗位名称
数据工程师,数据科学家。
定义
数据分析,是指用适当的统计学方法对大量数据进行分析,为提取有用信息和形成结论,而对数据加以详细研究和概括总结的过程。
定义中的几个名词:统计学、大量数据、详细研究。
- 统计学
就是统计学科,我们以前学的求平均数、方差、中位数等等,跟数学联系比较紧密,统计学学得好是做数据分析的基础。 - 大量数据
分析目标规模要大,小规模数据体现不出群体的特征,代表不了群体、一般特征,数据分析的目的是找出群体的规律,为己所用,代表不了群体的规律,就算找出来了也意义不大。 - 详细研究
指的是使用各种方法对数据进行分析,一般都是用统计学上现有的模型,比如回归分析、傅立叶变换、支持向量机。
选定一个模型,设置参数,使用已有数据训练模型,再拿另一部分已有的数据套入模型,运算得到一个结果,看这个结果准确度如何,如果准确度很好,就拿到现有产品中使用,如果准确度不高,调整参数,重新训练、验证。如果调整了很多次参数之后,准确度还不高,换一种模型,再试,直到找出一个合适的模型、合理的参数。得到模型以后,拿到生产环境使用,验证效果,后续再不断调优。
数据分析的过程
收集数据,处理数据,统计和分析,得出结论。以我们组数据分析师的一个任务为例:
- 需求:预测某一个家庭下个月用电量
现在我们已经从合作伙伴那里拿到2w个电表过去3年的每天的抄表数据,在业务层面上,每个电表可以看作一个家庭,预测某一个家庭就是预测某一个电表。相当于我们现在要预测某一个电表下次读数是多少。 - 数据整理和清洗
有一些抄表数据为负数、空、0,这些是不对的,每个电表都会有一个读数。现在好多还是人工抄表,所以数据质量比较差。一种方案是找出那些数据删掉,查询发现这样的数据占10%,这个比例比较大,如果删掉,损失数据太多了,因此我们进行了修正。对于异常的数据,使用前后各7天抄表数的中位数替换,经过这样的处理,异常值大幅下降,变为0.1%,这些数据可以删掉或忽略掉。 - 查阅资料选择预测模型
这里选取了几种模型:q相结合的Holt-Winters预测模型、基于月度数据电量的(SE-GM)模型、多元线性回归模型、依据上年用电量数据进行同比预测。 - 具体预测过程,完善模型。
本文介绍了数据科学中的核心岗位——数据工程师和数据科学家的工作内容,并详细解释了数据分析的定义及其涉及的关键步骤,包括数据收集、整理、清洗及分析等。通过一个具体的案例说明了如何进行数据预测。
1267

被折叠的 条评论
为什么被折叠?



