数据的分析的定义:从海量数据中识别出有效的、心仪的、潜在有用的、最终可理解的模式的过程。(简单点说就是从海量数据中找到有用的知识)
数据分析的步骤:
1、数据获取
2、数据预处理
3、数据分析与知识发现
4、数据可视化
下面分开说明每个步骤。
1、数据获取:可以通过各种方式获取的需要分析的数据(包括传感器获得的数据,爬虫爬取的数据)
2、数据预处理:完成从数据到信息的转换过程。(数据分析中信息的含义是有用的数据)首先对数据进行初步的统计分析,其次分析数据的质量,从数据的一致性(是不是同源数据)、完整性(包不包含缺失项)、准确性(包不包含噪声)和及时性(时效性,完成现在的任务,拿去年的数据肯定不行)4个方面分析;再次根据发现的数据质量问题对数据进行数据清洗、包括缺失项的处理、噪声处理等;最后对其进行特征选择(过滤法、包装法、集成法)、特征构建和特征提取。
3、数据分析与知识发现:将数据预处理的数据进行进一步的分析,完成从信息到认知的转化。主要用到机器学习的方法。
4、数据后处理:提供数据给决策支持系统、数据可视化等。
最后如果用python进行数据分析:主要了解以下第三方库:
1、scrapy(数据获取)
2、pandas(对数据进行预处理)
3、scikit-learn(数据分析与知识发现)
4、matplotlib(数据可视化)