数据分析

数据的分析的定义:从海量数据中识别出有效的、心仪的、潜在有用的、最终可理解的模式的过程。(简单点说就是从海量数据中找到有用的知识)

数据分析的步骤:

1、数据获取

2、数据预处理

3、数据分析与知识发现

4、数据可视化

下面分开说明每个步骤。

1、数据获取:可以通过各种方式获取的需要分析的数据(包括传感器获得的数据,爬虫爬取的数据)

2、数据预处理:完成从数据到信息的转换过程。(数据分析中信息的含义是有用的数据)首先对数据进行初步的统计分析,其次分析数据的质量,从数据的一致性(是不是同源数据)、完整性(包不包含缺失项)、准确性(包不包含噪声)和及时性(时效性,完成现在的任务,拿去年的数据肯定不行)4个方面分析;再次根据发现的数据质量问题对数据进行数据清洗、包括缺失项的处理、噪声处理等;最后对其进行特征选择(过滤法、包装法、集成法)、特征构建和特征提取。

3、数据分析与知识发现:将数据预处理的数据进行进一步的分析,完成从信息到认知的转化。主要用到机器学习的方法。

4、数据后处理:提供数据给决策支持系统、数据可视化等。

最后如果用python进行数据分析:主要了解以下第三方库:

1、scrapy(数据获取)

2、pandas(对数据进行预处理)

3、scikit-learn(数据分析与知识发现)

4、matplotlib(数据可视化)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Turing Yang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值