
大数据开发复习整理
文章平均质量分 95
.
落幕7
山山而川
展开
-
大数据开发复习Spark篇
11、spark11.1、spark介绍Apache Spark是用于大规模数据处理的统一分析计算引擎Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。11.2、spark与Hadoop的区别 尽管Spark相对于Hadoop而言具有较大优势,但Spark并不能完全替代Hadoop,Spark主要用于替代Hadoop中的MapReduce计算模型。存储依然可以使用HDFS,但是中间结果可以存放在内存中;原创 2021-11-19 07:00:00 · 1974 阅读 · 0 评论 -
大数据开发复习scala篇
10、scala10.1、scala介绍 scala是运行在JVM上的多范式编程语言,同时支持面向对象和面向函数式编程。10.2、scala解释器要启动scala解释器,只需要以下几步:按住windows键 + r输入scala即可在scala命令提示窗口中执行:quit,即可退出解释器10.3、scala的基本语法10.3.1、声明变量在scala中,可以使用val或者var来定义变量,语法格式如下:val/var 变量标识:变量类型 = 初始值其中val定义的是原创 2021-11-18 22:20:56 · 871 阅读 · 0 评论 -
大数据开发复习第八篇(Redis篇)
文章目录Redis7.1、Redis的介绍7.2、Redis的数据类型7.2.1、String字符串7.2.2、hash列表7.2.3、list7.2.4、set集合7.3、Redis的持久化7.3.1、rdb(保存快照)7.3.2、AOF(预写日志)7.4、缓存雪崩7.4.1、我们为什么要用缓存(Redis)7.4.2、如果缓存挂了呢7.4.3、雪崩场景7.4.4、如何解决缓存雪崩7.5、缓存穿透7.5.1、什么是缓存穿透7.5.2、如何解决缓存穿透7.6、思考你的项目中Redis的使用Redis7.原创 2021-11-17 16:52:18 · 1325 阅读 · 0 评论 -
大数据开发复习第七篇(HBase篇)
文章目录HBASE6.1、HBASE介绍6.2HBASE和Hdfs的区别1、HDFS2、HBase6.3、Redis,传统数据库,HBase,Hive6.4、HBASE的架构1、HMaster2、RegionServer6.5、常用HBASE shell1、进入HBase客户端命令操作界面2、查看帮助命令3、查看当前数据库中有哪些表4、创建一张表5、添加数据操作6、查询数据操作1、通过rowkey进行查询2、查看rowkey下面的某个列族的信息3、查看rowkey指定列族指定字段的值4、查询所有数据5、列族原创 2021-11-15 22:53:40 · 1256 阅读 · 0 评论 -
大数据开发复习Hive篇
文章目录Hive4.1、hive的介绍4.2、hive的架构4.3、Hive 数据模型4.4、常用操作4.4.1、数据库相关4.4.2、内部表外部表4.4.3、创建分区表4.4.4、增删分区4.4.5、hive中的join4.4.6、json解析4.5、常用函数4.5.1、数值函数4.5.2、日期函数4.5.3、条件函数4.5.4、字符串函数4.5.5、类型转换4.6、hive常用的优化4.6.1、 Fetch抓取(Hive可以避免进行MapReduce)4.6.2、本地模式4.6.3、分区表分桶表4.6.原创 2021-11-13 22:58:00 · 264 阅读 · 0 评论 -
大数据开发复习第五篇(Yarn篇)
3、yarn3.1、介绍yarn 通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。可以把yarn理解为相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序,Yarn为这些程序提供运算所需的资源(内存、cpu)。3.2、yarn的基本架构 YARN是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM)。 Resource原创 2021-11-10 19:20:01 · 1137 阅读 · 0 评论 -
大数据开发复习第四篇(MapReduce篇)
文章目录2、MapReduce2.1、介绍MapReduce2.2、会写Wordcount2.3、Combiner2.4、partitioner2.5、MapReduce的执行流程2.6、MapReduce的shuffle阶段2.7、MapReduce优化2.7.1、资源相关参数2.7.2、容错相关参数2.7.3、效率跟稳定性参数2.8、mapreduce程序在yarn上的执行流程2.9、执行MapReduce常见的问题2、MapReduce2.1、介绍MapReduce MapReduce的思想核原创 2021-11-07 19:10:24 · 506 阅读 · 0 评论 -
大数据开发复习第三篇(Hadoop篇)
文章目录1、Hadoop1.1、介绍Hadoop1.2、Hadoop特性优点1.3、hadoop集群中hadoop都需要启动哪些进程,他们的作用分别是什么?1.4、Hadoop主要的配置文件1.5、Hadoop集群重要命令1.6、HDFS的垃圾桶机制1.7、HDFS写数据流程1.8、Hadoop读数据流程1.9、SecondaryNameNode的作用1.10、HDFS的扩容、缩容(面试)1.动态扩容1.1. 基础准备1.2. 添加datanode1.3.datanode负载均衡服务1.4.添加nodema原创 2021-11-07 19:06:37 · 445 阅读 · 0 评论 -
大数据开发复习第二篇(Linux篇)
Linux文章目录3.4、Linux1、常用操作2、用户管理3、压缩包管理4、查看属性思考1、常用操作查看当前目录下的所有文件及目录ls/ll进入目录cd查看当前目录pwd结束当前进程ctrl+c/ctrl+z新建目录mkdir dir1[ dir2 dir3 dir4] 新建四个dir删除目录rm -rf dir 删除目录下及目录下的所有文件递归创建目录mkdir -p /dir1/dir2/dir3/dir4 递归创建目录原创 2021-11-06 18:59:18 · 236 阅读 · 0 评论 -
大数据开发复习第一篇(MySQL篇)
文章目录3.3、MySQL3.3.1、什么是数据库3.3.2、数据库的分类3.3.3、基本操作3.3.3.1、登录MySQL3.3.3.2、退出MySQL3.3.3.3、输入查询3.3.3.4、创建和使用数据库3.3.3.5、创建表及使用3.3.3.6、表中导入数据3.3.7、数据检索部分3.3.7.1、检索全部数据3.3.7.2、删除表中全部数据3.3.7.3、更新表中特定记录的数据3.3.7.4、查询特定的行3.3.7.4.1、查找生日在1998年以后的特定查询3.3.7.4.2、多条件查询(and |原创 2021-11-06 18:57:01 · 1814 阅读 · 0 评论 -
大数据开发复习第一篇(Java篇)
大数据开发复习第一篇(java篇)文章目录大数据开发复习第一篇(java篇)3、基础复习3.1、idea3.11、idea常用快捷键3.12、idea常见问题3.2、Java3.2.1、Java中的基本数据类型3.2.1.1、整形3.2.1.2、浮点型3.2.1.3、字符型3.2.1.4、布尔型3.2.2、String、Stringbulider、StringBuffer3.2.3、ArrayList、LinkedList、Vector3.2.4、数组和链表3.2.5、时间复杂度与空间复杂度**时间复杂度原创 2021-11-04 19:00:31 · 550 阅读 · 0 评论