大数据基础知识
什么是数据?
数据是可以获取和存储的信息,直观而言,表达某种客观数值是最容易被人们识别的数据(例如一个球的直径有多长或者一个教室里面有多少人等等)。但实际上,人类的一切语言文字、图新图画、音频记录、所有能被感官感觉的事物(例如听觉、嗅觉、味觉等等),这些可以被记录下来并且能被查询的都是数据(data)。
大数据的大指的是什么
随着互联网的快速发展以及各种便携式的只能设备的出现,我们生活上的各种信息都变成了可被记录和分析的数据(例如:行为,位置,身体的各种数据和爱好等等)。这些新技术的推动着大数据时代的来临,各行各业每天都产生数量巨大的数据碎片,数据计量单位也变得越来越大,从一开始的Byte、KB、MB、GB、TB发展到现在的PB、EB、ZB、YB甚至BB来衡量。
常见的数据存储单位
1Byte=8bit
1k=1024Byte
1MB=1024K
1G=1024M
1T=1024G
1P=1024T
1E=1024P
1Z=1024E
1Y=1024Z
1B=1024Y
1N=1024B
1D=1024N
…等等…
大数据
大数据(BigData),是指无法在一定时间范围内常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
数据分析的前提是有数据,数据存储的目的是支持数据分析,究竟整么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题。传统的数据存储模式存储容量是有大小限制或者空间限制的,怎么去设计出一个可以支撑大量数据的存储方案是开展数据分析的首要前提。
当前解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头疼,因为企业不仅仅追求可以计算,还要求计算的速度和效率。
以互联网行业产生的数据量级别,要处理这些数据,就需要一个更好、更便捷的分析计算方式。传统的显然有些力不从心了,而且效率也会非常低下。这正是传统数据分析领域面临的另一个挑战,如何让去分析、计算。这个时候就需要有新的技术去解决这些问题,这个技术就是大数据。
大数据主要解决的问题:海量数据的存储和计算
大数据的特点
大数据的特点可以使用5个字来概括:大、多、值、快、信
大(Volume)
数据的采集、计算和存储量都非常庞大。是数据体量非常巨大的。截止目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB。当前个人计算机硬盘的容量大多还是为TB级别,而一些大企业的数据量已经接近EB量级了。
多(Variety)
数据的种类和来源多样化。种类有:结构化、半结构化和非结构化数据等等==(讲人话:整齐,一部分整齐,完全杂乱)==,常见的来源有:网络日志、音频、图片等等。
值(Value)
大数据价值密度现对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,存在大量不相关信息。因此需要对未来趋势与模式做可预测分析,利用机器学习时间、人工智能等进行
快(Velocity)
数据增长速度快,处理速度也快(分为非实时处理的离线数据和实时处理的在线数据),获取数据的速度也要快。这是大数据区分传统数据挖掘的最显著的特征。在海量的数据面前,处理数据的效率就是企业的生命。
信(Veracity)
数据的准确性和可信赖度,即数据的质量要高。
大数据应用场景
电商方面
精准广告定位,通过对用户的浏览行为和点击行为进行大数据采集、分析、挖掘用户的更深层次的喜好,精确的推送商品从而增加销售量。
传媒方面
给用户推荐用户可能需要的个性化信息(例如淘宝的商品推荐和今日头条的新闻推荐),通过有相同操作用户的机型进行大数据分析,结合对应算法,对受众喜欢的进行交互推荐。
金融领域
理财投资,通过对个人的信用评估、风险承担能力评估评估、集合众多理财产品、推荐响应的投资理财产品。
例如下图我从网上随便复制下来的一个流程
交通领域
目前来说,交通的大数据应用主要在两个方面:
- 通过对车流量等海量数据的收集、估算、预测该路段一段时间内的车的流量情况,给用户提供便利,进行道路的合理规划。(也就是我们常用的地图导航中如果有塞车路段的话会提前给我们提示)
- 可以利用大数据实现即时型号灯(红绿灯)调度,提高已有的线路通行能力。(在一个十字路口,给车多的地方更多时间的绿灯,车少的地方更多的红灯)
电信方面
移动联通电信三家营业厅通过用户当前的行为习惯、偏好、节假日的相应数据变化,调节自身业务结构,做到按需分配。(流量套餐和电视宽带推销这些)
安防方面
人脸识别,通过人脸识别,一一匹配和存储用户数据,结合人工智能,分析及甄别用户行为(例如违章拍照)。
医疗方面
智慧医疗,通过对海量病例大数据的存储,通过匹配、检索、结合用户饮食、欣慰等习惯搭建智慧医疗体系。
大数据业务分析基本步骤
- 明确分析目的和思路
- 数据收集
- 数据处理
- 数据分析
- 数据展现
- 报告编写存储