大数据学习之大数据概述

目录

一、大数据的产生

二、大数据的概念

三、大数据的特点

1.Volume(大量)

 2.Velocity(高速)

3.Variety(多样)

4.Value(低价值密度)

四、大数据的应用场景

五、大数据的发展前景

六、大数据部门间业务流程分析

 七、大数据部门内组织结构

一、大数据的产生

大数据是物联网和元计算发展到一定阶段的必然产物。

大数据的产生是一个逐步发展的过程,现在的大数据是一个庞大的概念,大数据不仅代表数据量大,更代表了一系列数据价值化技术的总称。

目前基于大数据的场景化分析是大数据的主要应用之一,未来大数据将应用到更多的智能体系当中,为智能体提供决策支撑服务。目前人工智能的研究也逐渐以大数据为基础进行展开,未来大数据的应用领域将得到扩展。大数据本身也正在成为推动科技发展的主要驱动力,可以说未来谁掌握了数据,也就掌握了主动权。

二、大数据的概念

大数据:指无法再一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据主要解决,海量数据的采集、存储和分析计算的问题。

按顺序给出数据存储单位:TB  PB  EB 

三、大数据的特点

1.Volume(大量)

截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业大数据量已经接近EB量级。

 

 2.Velocity(高速)

这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2025年,全球数据使用量将达到163ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

3.Variety(多样)

这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为住的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高的要求。

4.Value(低价值密度)

价值密度的高低与数据总量的大小成反比。

如何对有价值数据“提纯”成为当前大数据背景下待解决的难题。

四、大数据的应用场景

1.抖音:推荐的都是你喜欢的视频

2.电商内的广告推荐:给用户推荐可能喜欢的商品

3.零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。

4.物流仓库:京东物流,上午下单下午送达、下午下单次日上午送达

5.保险:海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力

6.金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。

7.房产:大数据全面助力房地产行业,打造精准投资与营销,选出更适合的地,建造更适合的楼,卖给更合适的人。

8.人工智能+5G+物联网+虚拟与现实

······

五、大数据的发展前景

1.党的十九大提出“推动物联网、大数据、人工智能和实体经济深度融合”。

2.2020年初,中央推出34万亿“新基建”投资计划

"新基建"投资规模拆分

项目

2020年投资规模(亿元)

5G

3000

特高压

600

轨道交通

5000

充电桩

100

数据中心

1000

人工智能

350

工业互联网

100

合计

10150

3.大数据下个风口

2020年时5G建设的元年,国家在大力铺设5G设备,2021年就是5G手机应用的开始,也是大数据要爆发的一年。5G带来的是每秒钟10G的数据,会给每家公司都带来海量的数据。那么传统的Java工具根本解决不了海量数据的存储。就更不用说海量数据的计算了。如果你对5G的感触不够深,可以回忆一下3G和4G的区别。

4.人才紧缺

根据十四五规划,大数据产业测算规模突破3万亿,规模逐渐上升,预计到2025年,大数据核心人才缺口将达到230万人。大数据人才往往趋向于互联网和金融行业,而在传统制造业上面人才匮乏,这严重制约着制造行业产业升级和发展。

六、大数据部门间业务流程分析

 

 七、大数据部门内组织结构

第一部分 Spark学习 6 第1章 Spark介绍 7 1.1 Spark简介与发展 7 1.2 Spark特点 7 1.3 Spark与Hadoop集成 7 1.4 Spark组件 8 第2章 Spark弹性分布数据集 9 2.1 弹性分布式数据集 9 2.2 MapReduce数据分享效率低 9 2.3 MapReduce进行迭代操作 9 2.4 MapReduce进行交互操作 10 2.5 Spark RDD数据分享 10 2.6 Spark RDD 迭代操作 10 2.7 Spark RDD交互操作 10 第3章 Spark安装 11 第4章 Spark CORE编程 13 4.1 Spark Shell 13 4.2 RDD Transformations 13 4.3 Actions 16 4.4 用RDD编程 17 4.5 UN-Persist存储 18 第5章 Spark调度与高级编程 20 5.1 Spark应用程序例子 20 5.2 Spark-submit语法 22 5.3 Spark变量 23 5.4 数字类型 RDD操作 23 第二部分 ZOOKEEPER学习 24 第6章 zookeeper介绍 25 6.1 zookeeper简介 25 6.2 分布式应用程序 25 6.3 Apache Zookeeper意味着什么? 26 第7章 zookeeper基本组成与工作流程 27 第8章 zookeeper的leader节点选择 31 第9章 zookeeper安装 33 第10章 zookeeper 命令行接口 35 第11章 zookeeper应用程序接口 39 第12章 zookeeper应用 40 第三部分 KAFKA学习 48 第12章 KAFKA介绍 49 12.1 KAFKA简介 49 12.2信息系统 49 12.3 KAFKA是什么? 50 第13章 KAFKA基本组成与集群架构 51 13.1 KAFKA的基本组成 51 13.2 KAFKA集群架构 52 第14章 KAFKA工作流程 53 14.1 PUB-SUB信息工作流 53 14.2 队列信息工作流/消费者组 53 14.3 Zookeeper在KAFKA中扮演的角色 54 第15章 KAFKA安装 55 第16章 KAFKA基本操作 56 16.1 启动zookeeper服务 56 16.2 单个单节点中间件配置 56 16.3 Topics列表 56 16.4 启动生产者发送信息 57 16.5 启动消费者接收信息 57 16.6 单个多节点中间件配置 57 16.7 创建一个topic 58 16.8 启动生产者发送信息 59 16.9 启动消费者接收信息 59 16.10 基本Topic操作 59 16.11 删除Topic 59 第17章 KAFKA 生产者与消费者群实例 60 17.1 生产者实例 60 17.2 简单消费者实例 63 17.3 消费者群例子 65 第18章 KAFKA与SPARK集成 67 18.1 Kafka与spark集成 67 18.2 SparkConf API 67 18.3 StreamingContext API 67 18.4 KafkaUtils API 67 18.5 建立脚本 69 18.6 编译/打包 69 18.7 提交到Spark 69 第四部分HIVE学习 70 第19章 HIVE介绍 71 19.1 HIVE是什么? 71 19.2 HIVE特点 71 19.3 HIVE架构 71 19.5 HIVE工作流 72 第20章 HIVE 安装 74 20.1 Hadoop安装 74 20.2 HIVE安装 77 20.3 Derby安装与设置 78 第21章 HIVE 数据类型 80 21.1列类型(Column Type) 80 21.2文本类型(Literals) 81 21.3 Null 值 81 21.4 复杂类型 81 第22章 数据库操作 82 22.1 创建数据库 82 22.2 删除数据库 82 第23章 数据表操作 83 23.1 创建数据表 83 23.2 load数据(插入数据) 85 23.3 修改数据表(Alter table) 86 23.4 删除表(Drop table) 90 第24章 分区 92 24.1 添加分区(Adding a Partition) 93 24.2 重命名分区(Renaming a Partition) 93 24.3 删除分区(Droping a Partition) 93 第25章 内置运算符 94 25.1 关系运算符 94 25.2 算术运算符 96 25.3 逻辑运算符 97 25.4 复杂运算符(Complex Operators) 97 第26章 内置函数 98 26.1 内置函数 98 26.2 聚合函数(Aggregate Functions) 99 第27章 视图与索引 100 27.1 创建视图(Creating a View) 100 27.2 删除视图(Dropping a View) 100 27.3 创建索引(Creating an Index) 101 27.4 删除索引(Dropping an Index) 101 第28章 HIVEQL 102 28.1 查询语句(SELECT ...WHERE) 102 28.1.1 查询语句实例 102 28.1.2 JDBC查询语句实例 102 28.2 查询语句(SELECT...ORDER BY) 103 28.2.1 ORDER BY查询语句实例 103 28.2.2 JDBC ORDER BY 查询语句实例 104 28.3 查询语句(GROUP BY) 104 28.3.1 GROUP BY查询语句实例 104 28.3.2 JDBC GROUP BY查询语句实例 105 28.4 查询语句(JOIN) 106 28.4.1 JOIN查询语句实例 106
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数泛西舟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值