- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 Mac Spark 安装
spark包下载地址:https://spark.apache.org/downloads.html选择适合的spark 版本进行下载再安装spark之前要保证你的电脑上已经安装了JDK,Hadoop , Scala ,Python将下载好的安装包尽心解压,得到如下的文件夹配置conf文件及环境变量conf:复制conf目录下的spark-env.sh.template ,并将复制的文件重命名为 spark-env.sh修改spark-env.sh 的内容为:export SCALA_
2021-05-24 18:52:17
1350
原创 hive中select count(distinct xx) from table 查询慢原因及优化
一.问题描述在hive中,如果数据量很大,select count(distinct xx) from table 有时会查询非常慢举例说明:表名:loan_trans数据量:551353635存储空间:52.93GBselect count(distinct id)from loan_transwhere etl_tx_dt =20200202number of mapper...
2020-02-03 22:59:09
5302
原创 hive中Common Join 和Map Join的机制(例子详解)
笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。一 .Hive Common Join如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join.整个过程包含Map、S...
2019-12-25 16:45:33
2381
原创 hive 内部表与外部表的区别
hive 内部表与外部表的区别内部表:建表时会在 hdfs 创建一个表的存储目录,增加分区的时候,会将数据复制到此location下,删除数据的时候,将表的数据和元数据一起删除。内部表数据由Hive自身管理外部表:一般会建立分区,增加分区的时候不会将数据移到此表的 location下,删除数据的时候,只删除了表的元数据信息,表的数据不会删除。外部表数据由HDFS管理举例:1.创建一个内部表...
2019-12-11 19:20:24
573
原创 left semi join 与join 的区别
LEFT SEMI JOIN:左半开连接会返回左边表的记录,前提是其记录对于右边表满足ON语句中的判定条件。对于常见的内连接(INNER JOIN),这是一个特殊的,优化了的情况。大多数的SQL方言会通过in.......exists结构来处理这种情况。准备表:create table dcx1107(id bigint);insert into dcx1107 values(-1)...
2018-11-07 17:56:10
13173
1
原创 hive窗口函数必备宝典
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。我们先在一一列举,希望能够加深印象,希望大家积极讨论,如有不足,请大家多多指教。。。。1.Row_Number,Rank,Dense_Rank 这三个窗口函数的使用场景非常多 row_number():从1开始,按照顺序,生成分组内记录的序列,row_number()的值不会存在重复,当排序的值相同时,按照表中记录的顺序进行...
2018-11-06 17:24:40
29078
4
原创 hive的简单操作语句
**1.create table**1.1创建分区表create [external] table [if not exists] dcx1234( cookieid string, create_tiem STRING, pv int) comment 'dcx1234表'partition by (dt string comment '日期分区字段(YYYYMM...
2018-10-17 14:13:10
919
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人