- 博客(30)
- 收藏
- 关注
原创 Hive优化以及相关参数设置
如取模结果为0的数据记录存放到一个文件,取模为1的数据存放到一个文件,取模为2的数据存放到一个文件。如果某个不平衡的job中有几个 reduce task 执行的时间要比其他的 reduce task 消耗的时间要多得多的话,那么保留的插槽就会一直空闲却无法被其他的 job 使用,直到所有的 task 都结束了才会释放。默认情况下,在进行分组聚合的时候,相同的键的数据会进入到同一个reduce中进行处理,如果分组的时候某一个值有大量的重复的数据,则会导致某一个reduce任务量会很大,从而导致数据倾斜。
2024-05-01 22:20:02
3024
3
原创 ETL (extract transformation load)
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽(extract)、转换(transform)、加载(load)至目的端的过程,是数据仓库的生命线。它是一种数据处理过程,用于从不同的数据源中提取数据、对数据进行转换和清洗,并将处理后的数据加载到目标系统或数据仓库中。 ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。
2024-05-01 19:50:18
1767
原创 ORACLE 性能优化 高水位调节
>索引优化->分区优化->优化器hints优化2.就是select,select后面避免使用*,查什么字段就写什么字段,因为使用*是走全表扫描的,不走索引3.最有效率的表名顺序,oracale的解析器按照从右到左的顺序处理FROM子句中的表名,所以把数据记录最少的放在最后面,如果有三张表以上的表,那就把交叉表放在最后面;4.,join 之前先去重或者过滤一下,这样join时连接表的数据量更少,连接过程就优化了。
2024-04-30 15:29:16
1295
1
原创 Oracle 执行计划
ALL_ROWS是针对整个目标SQL的Hint,它的含义是让优化器启用CBO,而且在得到目标SQL的执行计划时会选择那些 吞吐量 最佳的执行路径。FIRST_ROWS(n)是针对整个目标SQL的Hint,它的含义是让优化器启用CBO模式,而且在得到目标SQL的执行计划时会选择那些得以最快响应并返回头n条记录的执行路径.如果在。执行计划描述了SQL引擎为执行SQL语句进行的操作;,并不是一个个数据库扫的,然后我们经常说全表扫描慢是针对数据量很多的情况,数据量少的话,全表扫描并不慢的,不过随着数据量越多,
2024-04-29 17:45:58
2285
原创 Oracle 表分区
分区表就是将表在物理存储层面分成多个小的片段,这些片段即称为分区,每个分区保存表的一部分数据,表的分区对上层应用是完全透明的,从应用的角度来看,表在逻辑上依然是一个整体。目的:提高大表的查询效率概念:将一个表划分为多个分区表,"分而治之"优缺点'改善查询性能': 分区对象的查询仅搜索自己关系的分区'增强可用性': 如果某个分区出现故障,其它分区的数据仍然可用'维护方便': 如果某个分区出现故障,仅修复该分区即可。
2024-04-29 10:50:19
1786
原创 Oracle索引详解
索引是建立在表的一列或多个列上的辅助对象,目的是加快访问表中的数据;Oracle存储索引的也是如此,只不过是;索引由根节点、分支节点和叶子节点组成,包含和确定行实际位置的。
2024-04-28 21:36:21
2579
1
原创 Linux命令大全 以及搭建hadoop
这个网卡就代表本机,自身。ip address、ip a、ip addr、ip ad、ifconfig(需要先安装net-tools)查看到的比ip a系列的要详细些,能够查看到接收的包和传输的包。sed:Stream EDitor,流编辑器,可以按照特定规则按行编辑数据(sed是不处理原数据的,编辑完的行默认是打印到屏幕,所以sed运行完原文件内容是不变的)-ok 和-exec的作用相同,只不过以一种更为安全的模式来执行该参数所给出的命令,在执行每一个命令之前,都会给出提示,让用户来确定是否执行。
2024-04-28 14:18:49
1156
2
原创 Hive主要介绍
hive是基于 Hadoop平台操作 HDFS 文件的插件工具可以将结构化的数据文件映射为一张数据库表可以将 HQL 语句转换为 MapReduce 程序1.hive 是由驱动器组成,驱动器主要由4个组件组成(解析器、编译器、优化器、执行器)2.hive本身不存储数据,数据是存储在hdfs上3.hive的元数据默认是存储在detby数据库中,但是它支持一个客户端进行连接,为了支持多客户端连接,可将元数据存储在关系型数据库中(如mysql)
2024-04-25 22:17:42
2286
3
原创 Hive 数据倾斜
数据倾斜:数据分布不均匀,造成数据大量的集中到一点,造成数据热点。主要表现为任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce 子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大,通常达到好几倍之多,最长时间远大 于平均时长。根本原因就是大量相同的key被分配到一个reduce里,造成一个reduce任务累死了,但是其他的reduce任务闲死4.1重新分区(Repartitioning)
2024-04-24 09:19:47
1362
1
原创 Hive 中常用的函数以及数据类型
1.一进一出函数 UDF普通函数2.多进一出函数 UDAF聚合函数 Aggregation3.UDTF 表生成函数 explode一进多出。
2024-04-21 15:56:57
1116
原创 MapReduce 机理
1.hadoop 平台进程管理者文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件有两个,分别是Namespace 镜像文件(Namespace image)和操作日志文件(edit log),这些信息被Cache在RAM中,当然,这两个文件也会被持久化存储在本地硬盘。
2024-04-16 22:44:34
2401
原创 Oracle 正则,开窗,行列转换
如果是range就会在第三行显示1000+1500+2500+2500=7500,第四行显示1000+1500+2500+2500=7500,因为第三行和第四行中的salary是一样的,同时又是按照range进行计算的,所以从第一行开始r无法判断并列行中的当前行是哪一行,所以直接将并列的数相加。在正则表达式中,使用量词(如。后向引用: 指把匹配出来的组引用到表达式本身其它地方,比如,在匹配HTML的标记时,我们匹配出一个<a>,我们要把匹配出来的a引用出来,用来找到</a>,这个时候就要用到反向引用。
2024-04-12 13:53:57
1093
1
原创 Oracle 面试三
------char 效率比 varchar2效率高。>>>>>>delete 属于 DML 语言,需要经过 回滚或提交,truncate 属于 DDL 语言,不能回滚。>>>>>>delete 会全盘扫描,然后按照行进行删除,truncate 直接清空表中的数据。--------varchar2不能存空字符串,可以存null。------char 存储数据的长度是固定的。varchar2 存储数据的长度是可变的。create,可以用来创建,定义表,视图,序列,索引等等,这里拿建表举例。
2024-03-31 14:56:41
588
1
原创 Oracle 面试二
如果部门编号是 10、20、30 分别打印 10 返回工资的 1.5 倍 20 返回工资的 2 倍 30 返回工资的 3 倍。如果部门编号是 10、20、30 分别打印 10 返回工资的 1.5 倍 20 返回工资的 2 倍 30 返回工资的 3 倍。Oracle 中可以用 + 做链接 -- 左外链接, + 在右边 ,-- 右外链接, + 在左边 -- + 放到相反的方向。any 使用 < any :小于最大值 > any :大于最小值 = any :等价于 in。子查询的结果要在主查询中使用。
2024-03-31 12:59:21
853
1
原创 Oracle 笔记--面试专用
round 四舍五入默认保存到整数位,可以通过第二个参数进行设置month 月year 年-- 超过一半就入(15号),不超过就舍round(day)将一周分为 周一到周三,周四到周日,返回最近的一个周日本周四到下周三 返回本周日上周四到本周三 返回上周日。
2024-03-30 21:02:03
746
1
原创 SQL 正则 表达式:
模式 描述^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^ 也匹配 '\n' 或 '\r' 之后的位置。$ 匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性,$ 也匹配 '\n' 或 '\r' 之前的位置。. 匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符,请使用像 '[.\n]' 的模式。[...] 字符集合。
2024-03-20 21:27:15
720
1
原创 sql 高级查询
外连接:两张表相互连接,把满足条件的数据返回,返回主表不满足条件的数据, 这种链接形式叫做外连接。等值链接本质就是把多余的数据过滤掉,找到一条或者多条相互匹配的数据进行显示。不是所有表中的列都是等值链接的,有的时候就需要用到非等值链接(不等值链接)ANALYST加500,加完薪后,因公司盈利,每个部门,之前没有奖金的人,A 表中有 3条数据,B表中有2条数据,笛卡尔积 6 条数。加2000的奖金,有奖金的人,奖金翻倍,然后统计总收入。内连接只显示相互关联的数据,如果是不关联的数据不显示。
2024-03-20 21:15:55
1034
1
原创 class object type 之间的关系
print(type(object))#object基类也是由type所创建。#type是可以判断一个对象的类型,并且type也可以用于创建类。object是由type所创建的,type继承了object。type创建了所有的对象,也包含类对象(object)type在创建object基类,也继承了object。#type创建所有类对象,object也是对象。Pyhton中的数据类型是有类型类创建出来的。python中的类型是有type所创建出来的。python所有对象是由type创建的。
2023-07-07 23:12:52
52
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人