
【大数据】
文章平均质量分 92
hadoop、hive、spark、数仓项目
温欣2030
v:kkiss_heart
展开
-
【Hive_05】企业调优1(资源配置、explain、join优化)
Explain呈现的执行计划,由一系列Stage组成,这一系列Stage具有依赖关系,每个Stage对应一个MapReduce Job,或者一个文件系统操作等。stage可以对应mr,也可以对应文件系统操作。因为不是所有的sql语句的底层都是mr。比如说load语句,底层就不是mr而是文件系统操作。有些sql复杂,需要多个mr才能计算,这个时候对应的也就有多个stage,多个stage之间也是有依赖关系的。依赖关系也就表明了哪个mr先执行,哪个后面执行。原创 2023-12-26 17:38:58 · 1662 阅读 · 1 评论 -
【Hive_04】分区分桶表以及文件格式
压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否。原创 2023-12-23 16:50:26 · 1867 阅读 · 0 评论 -
【数仓_01】用户行为采集平台
启动记录,记录的是用户在使用应用过程中的报错行为,该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息、以及可能与报错相关的页面信息、动作信息、曝光信息和动作信息。启动记录,记录的是用户启动应用的行为,该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息、启动类型及开屏广告信息等。动作记录,记录的是用户的业务操作行为,该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息 及动作目标对象信息等。原创 2023-12-22 11:33:28 · 1616 阅读 · 0 评论 -
【Hive_03】单行函数、聚合函数、窗口函数、自定义函数、炸裂函数
Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数。好处:避免用户反复写逻辑,可以直接拿来使用。重点:用户需要知道函数叫什么,能做什么。Hive提供了大量的内置函数,按照其特点可大致分为如下几类:单行函数、聚合函数、炸裂函数、窗口函数。以下命令可用于查询所有内置函数的相关信息。1)查看系统内置函数2)查看内置函数用法--查看upper函数的用法3)查看内置函数详细信息。原创 2023-12-17 11:43:52 · 1760 阅读 · 0 评论 -
【Hive_02】查询语法
本例中会首先启动一个MapReduce job对表e和表d进行连接操作,然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l进行连接操作。union和union all都是上下拼接sql的结果,这点是和join有区别的,join是左右关联,union和union all是上下拼接。【因为where过滤的是表里面的一行一行的数据,而group by之后返回的是一组一组的数据。注意:按照部门编号分区,不一定就是固定死的数值,可以是20号和30号部门分到一个分区里面去。原创 2023-12-14 15:54:29 · 1205 阅读 · 0 评论 -
【Hadoop_06】MapReduce的概述与wc案例
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。原创 2023-12-13 13:44:23 · 1286 阅读 · 0 评论 -
【Hive_01】hive关于数据库和表的语法
CREATE DATABASE:表示创建一个数据库的操作。[IF NOT EXISTS]:表示如果数据库不存在则创建,如果数据库已经存在则忽略。database_name:表示要创建的数据库的名称。[COMMENT database_comment]:可选项,表示对数据库的注释或描述。[LOCATION hdfs_path]:可选项,表示数据库在HDFS上的存储路径。原创 2023-12-12 17:11:23 · 1581 阅读 · 0 评论 -
【Hadoop_05】NN、2NN以及DataNode的工作机制
如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息。(2)如果计算后的CheckSum,与Block创建时值不一样,说明Block已经损坏。原创 2023-12-12 09:50:51 · 1194 阅读 · 0 评论 -
【Hadoop_04】HDFS的API操作与读写流程
此策略减少了机架间的写入流量,从而总体上提高了写入性能。机架故障的几率远小于节点故障的几率;该策略不影响数据可靠性和可用性保证。但是,它确实减少了读取数据时使用的聚合网络带宽,因为一个数据块只放在两个不同的机架中,而不是三个。使用此策略,文件的副本不会均匀分布在机架上。三分之一的副本位于一个节点上,三分之二的副本位于一个机架上,另外三分之一的副本均匀分布在其余机架上。该策略提高了写入性能,而不影响数据可靠性或读取性能。原创 2023-12-12 08:42:01 · 1942 阅读 · 0 评论 -
【Hadoop_03】HDFS概述与Shell操作
1)各个模块分开启动/停止(配置ssh是前提)常用(1)整体启动/停止HDFS(2)整体启动/停止YARN2)各个服务组件逐一启动/停止(1)分别启动/停止HDFS组件(2)启动/停止YARN一般都是按照集群来启动,不然如果有100+台服务器的话,就无法启动了1)HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。原创 2023-12-11 10:53:30 · 1621 阅读 · 0 评论 -
【Hive】启动beeline连接hive报错解决
总结就是我将配置文件core-site.xml用户名从wenxin修改成root之后就能正常运行了。在hive-site.xml文件中添加如下配置信息。刚开始一直报错:启动不起来。原创 2023-12-10 13:49:49 · 2535 阅读 · 0 评论 -
【Hadoop_02】Hadoop运行模式
(1)如果集群是第一次启动,需要在hadoop102节点格式化NameNode(注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。上面这个命令的目的是运行一个 WordCount MapReduce 作业,从指定的输入路径 /input 读取数据,对其中的单词进行计数,并将结果输出到指定的输出路径 /output。在 Hadoop 中,HDFS 是用于存储数据的分布式文件系统,hadoop fs -mkdir 命令用于创建目录。原创 2023-12-09 09:48:12 · 1630 阅读 · 0 评论 -
【Hadoop_01】Hadoop介绍与安装
Hadoop解决两件事情:海量数据的存储(使用HDFS)和海量数据的计算(使用MapReduce)。简介:1)Hadoop是一个由Apachc基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。优势:1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。原创 2023-12-06 19:29:28 · 1400 阅读 · 0 评论