大数据导论

Spark是大数据体系的明星产品,是一款高性能的分布式内存迭代计算框架,可以处理海量规模的数据。下面就带大家一起来开始学Spark!

目录

一、企业数据分析方向

1.1 数据是什么

1.2 数据如何产生?

1.3 企业数据分析方向

二、数据分析基本步骤

概述:

Step1:明确分析目的和思路

Step2:数据收集

Step3:数据处理

Step4:数据分析

Step5:数据展现

三、大数据时代

背景:

大数据定义

大数据5V特征

四、分布式与集群

概念

混淆点

 应用


一、企业数据分析方向

1.1 数据是什么

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,  它是可识别的、抽象的符号。

它不仅指狭义上的数字,  还可以是具有一定意义的文字、字母、数字符号的组合、  图形、  图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,    “0、  1、2…”、“阴、雨、下降”、“学生的档案记录、货物的运输情况”等都是数据。

1.2 数据如何产生?

对客观事物的计量和记录产生数据

1.3 企业数据分析方向

把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。    

数据分析在企业日常经营分析中主要有三大方向:

  • 现状分析  (分析当下的数据):  现阶段的整体情况,  各个部分的构成占比、发展、变动;
  • 原因分析  (分析过去的数据):  某一现状为什么发生,确定原因,  做出调整优化;
  • 预测分析  (结合数据预测未来)  :结合已有数据预测未来发展趋势。

 原因分析

离线分析  (Batch Processing)

面向过去,面向历史,分析已有的数据; 

在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),  所以也叫做批处理。

 

现状分析

实时分析  (Real Time Processing |Streaming)

面向当下,分析实时产生的数据;

所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级。

预测分析

机器学习  (Machine Learning)

基于历史数据和当下产生的实时数据预测未来发生的事情;

侧重于数学算法的运用,  如分类、聚类、关联、预测。 

二、数据分析基本步骤

概述:

数据分析步骤  (流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑;

张文霖在《数据分析六步曲》说,典型的数据分析应该包含以下几个步骤

Step1:明确分析目的和思路

目的是整个分析流程的起点,  为数据的收集、处理及分析提供清晰的指引方向;

思路是使分析框架体系化,比如先分析什么,  后分析什么,  使各分析点之间具有逻辑联系,  保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;

数据分析方法论是一些营销管理类相关理论,  比如用户行为理论、  PEST分析法、  5W2H分析法等。 

Step2:数据收集

数据从无到有的过程:比如传感器收集气象数据、埋点收集用户行为数据

数据传输搬运的过程:  比如采集数据库数据到数据分析平台

Step3:数据处理

准确来说,应该称之为数据预处理。

数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,  主要包括数据清洗、数据转化、数据提取、数据计算;

数据预处理可以保证数据的一致性和有效性,  让数据变成干净规整的结构化数据。

Step4:数据分析

用适当的分析方法及分析工具,  对处理过的数据进行分析,  提取有价值的信息,  形成有效结论的过程;     需要掌握各种数据分析方法,还要熟悉数据分析软件的操作;

Step5:数据展现

数据展现又称之为数据可视化,  指的是分析结果图表展示,  因为人类是视觉动物;

数据可视化(Data Visualization)属于数据应用的一种;

注意,  数据分析的结果不是只有可视化展示,  还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等。

三、大数据时代

背景:

最早提出  “大数据”时代到来的是全球知名咨询公司麦肯锡,其称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,  预示着新一波生产率增长和消费者盈余浪潮的到 来。  ”

2019年,  央视推出了国内首部大数据产业题材纪录片《大数据时代》,  节目细致而生动地讲述了大数据技术在政
府治理、  民生服务、数据安全、工业转型、未来生活等方面给我们带来的改变和影响。

大数据定义

大数据(bigdata)  是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;

是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据5V特征

5个V开头的单词,从5个方面准确、生动、形象的介绍了大数据特征。

应用场景:

  • 电商领域

精准广告位、个性化推荐、大数据杀熟

  • 传媒领域

精准营销、猜你喜欢、交互推荐 

  •  金融方面

理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品、推荐响应的投资理财产品。

  • 交通领域

拥堵预测、智能红绿灯、导航最优规划

  • 电信领域

基站选址优化、  舆情监控、客户用户画像

  • 安防领域

犯罪预防、天网监控

  • 医疗领域

智慧医疗、疾病预防、病源追踪

四、分布式与集群

概念

分布式、集群是两个不同的概念,但口语中经常混淆二者。

混淆点

分布式、集群的共同点是:  都是多台机器(服务器)  组成的;

因此口语中混淆两者概念的时候都是:  相对于单机来说的。

 

 应用

数据大爆炸,海量数据处理场景面临问题

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值