什么是数据分析:
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
说白了,数据分析就是分类和比较。
为什么要做数据分析:
数据分析的目的是把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。
相当与在大量的数据中,有目的性的找规律或方法,从而使接下来的行动更高效和准确。
数据分析的基本类型:
- 探索性数据分析:是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。
- 定性数据分析:这种数据分析方法又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。
- 离线数据分析:离线数据分析用于较复杂和耗时的数据分析和处理,一般通常构建在云计算平台之上,如开源的HDFS文件系统和MapReduce运算框架。
- 在线数据分析:在线数据分析也称为联机分析处理,用来处理用户的在线请求,它对响应时间的要求比较高(通常不超过若干秒)
数据分析的前要工作:
1、数据采集:
从网络、数据库等地方大量收集分析所需要的数据,这是数据分析的基础。
目前大数据采集的基本方法有:系统日志采集(企业用海量数据采集的工具如Facebook的Scribe等)、网络数据采集(用爬虫或网站公开API等方式从网站上获取数据信息)和其他特定系统接口采集方式。
2、数据清洗:
数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。
数据清洗的内容一般为:缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗和关联性验证。
常用工具:
1、hadoop
Hadoop 是一个能够对大量数据进分布式处理的软件框架。优点是可靠、高效、可伸缩、成本低。
2、SQL
这是数据方向所有岗位的必备技能吗,入门比较容易,概括起来就是增删改查。
3、Smartbi
Smartbi满足最终用户在企业级报表、数据可视化分析、自助探索分析、数据挖掘建模、AI智能分析等大数据分析需求。产品广泛应用于领导驾驶舱、KPI监控看板、财务分析、销售分析、市场分析、生产分析、供应链分析、风险分析、质量分析、客户细分、精准营销等管理领域。官网的产品培训文档也比较齐全,而且是公开的,学习操作易上手。
4、Storm
Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。
————————————————
https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/6577123?fr=aladdin
https://blog.youkuaiyun.com/Oliverfly1/article/details/108816045?spm=1001.2014.3001.5502