小二货007-优快云博客

原创 Mac Spark 安装

spark包下载地址：https://spark.apache.org/downloads.html选择适合的spark 版本进行下载再安装spark之前要保证你的电脑上已经安装了JDK，Hadoop , Scala ，Python将下载好的安装包尽心解压，得到如下的文件夹配置conf文件及环境变量conf：复制conf目录下的spark-env.sh.template ,并将复制的文件重命名为 spark-env.sh修改spark-env.sh 的内容为：export SCALA_

2021-05-24 18:52:17 1350

原创 hive中select count(distinct xx) from table 查询慢原因及优化

一.问题描述在hive中，如果数据量很大，select count(distinct xx) from table 有时会查询非常慢举例说明：表名：loan_trans数据量：551353635存储空间：52.93GBselect count(distinct id)from loan_transwhere etl_tx_dt =20200202number of mapper...

2020-02-03 22:59:09 5302

原创 hive中Common Join 和Map Join的机制（例子详解）

笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简单介绍一下两种join的原理和机制。一 .Hive Common Join如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join,即：在Reduce阶段完成join.整个过程包含Map、S...

2019-12-25 16:45:33 2381

原创 hive 内部表与外部表的区别

hive 内部表与外部表的区别内部表：建表时会在 hdfs 创建一个表的存储目录，增加分区的时候，会将数据复制到此location下，删除数据的时候，将表的数据和元数据一起删除。内部表数据由Hive自身管理外部表：一般会建立分区，增加分区的时候不会将数据移到此表的 location下，删除数据的时候，只删除了表的元数据信息，表的数据不会删除。外部表数据由HDFS管理举例：1.创建一个内部表...

2019-12-11 19:20:24 573

原创 left semi join 与join 的区别

LEFT SEMI JOIN:左半开连接会返回左边表的记录，前提是其记录对于右边表满足ON语句中的判定条件。对于常见的内连接（INNER JOIN），这是一个特殊的，优化了的情况。大多数的SQL方言会通过in.......exists结构来处理这种情况。准备表：create table dcx1107(id bigint);insert into dcx1107 values(-1)...

2018-11-07 17:56:10 13173 1

原创 hive窗口函数必备宝典

Hive中提供了越来越多的分析函数，用于完成负责的统计分析。我们先在一一列举，希望能够加深印象，希望大家积极讨论，如有不足，请大家多多指教。。。。1.Row_Number,Rank，Dense_Rank 这三个窗口函数的使用场景非常多 row_number():从1开始，按照顺序，生成分组内记录的序列,row_number()的值不会存在重复,当排序的值相同时,按照表中记录的顺序进行...

2018-11-06 17:24:40 29078 4

原创 hive的简单操作语句

**1.create table**1.1创建分区表create [external] table [if not exists] dcx1234( cookieid string, create_tiem STRING, pv int) comment 'dcx1234表'partition by (dt string comment '日期分区字段(YYYYMM...

2018-10-17 14:13:10 919

OLAP引擎原理

OLAP引擎的底层运行原理，大数据OLAP引擎对比，相关大数据组件的简介及原理

2018-11-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人