- 博客(5)
- 收藏
- 关注
原创 Hive内置运算符
关系运算符是二元运算符,执行的是两个操作数的比较运算。* 每个关系运算符都返回boolean类型的结果(ture 或 false)。1. 等值比较:= ,==2. 不等值比较: <> ,!3.小于比较:<4. 小字等于比较:<=5. 大于比较:>6. 大于等于比较:>=7. 空置判断: is null8. 非空判断: is not null9.like比较:like10.java的like操作:rlike11.regexp操作:regexp。
2023-08-09 19:49:13
301
1
原创 Spark SQL
Hive:类似于sql的HiveQL语言, sql==> mapreduce特点:mapreduce改进:hive on tez,hive on spark,hive on mapreduce特点:基于spark,基于内存的列式存储,与hive能够兼容缺点:HiveQL的解析,逻辑执行计划生成,执行计划的优化是依赖于hive的,仅仅只是把物理执行计划从mapreduce作业替换成了spark作业。
2023-08-08 21:50:06
102
原创 大数据开发:hive sql 中的4个by排序方法
与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下必须指定 limit 否则执行会报错(在order by 状态下所有数据会到一台服务器进行reduce操作也即只有一个reduce,如果在数据量大的情况下会出现无法输出结果的情况,如果进行 limit n ,那只有 n * map number 条记录而已。但是排序只能是升序排序,不能像distribute by一样去指定排序的规则为ASC或者DESC,否则报错。(default value / 默认值)
2023-05-08 11:34:55
975
1
原创 数据库-Oracle性能优化
4.优化器hints的优化,写hints的目的是人为的去改变sql语句的执行计划,思路有并行数,表连接的顺序、表连接的方法、访问路径 等,通过查看执行计划了解执行顺序,扫描方式,关联机制,耗费来进行调整,比如说数据库性能足够的时候考虑会用到并行数,在select后用paralle加上并行数,可以达到优化的目的。相反,那些很少查询的列,数据值很少的列,经常进行数据修改的列等等就不适合建索引,如果增加索引会增加空间需求和降低系统的维护速度,一般来说一张表里最多不会建超过5个的索引。
2023-05-06 22:35:36
555
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人