
数据仓库
hive sqoop python 脚本调用实现
利剑 -~
追求卓越成功就会出其不意找上门
展开
-
select for update和select for update wait和select for update nowait的区别
oracle for update转载 2023-04-15 00:30:02 · 529 阅读 · 0 评论 -
数据思维整理
数据思维分享整理原创 2022-08-27 10:42:47 · 192 阅读 · 0 评论 -
oracle 数据库工作总结思维导图
oralce工作中使用总结原创 2022-01-09 18:55:06 · 382 阅读 · 0 评论 -
数据仓设计
数据仓设计数据仓库,这里采用层级的设计方式,设计的粒度,依据业务的复杂度而定;这里只是介绍 数据仓库的设计,后续补充一下,具体的实现细节和使用工具;原创 2021-04-16 19:49:10 · 308 阅读 · 1 评论 -
hive工作中分享总结
hive分享总结1. 数据家谱:1.1.Hive 是什么?1.2.数据仓库1.3.Hive与传统数据库的区别1.4.Hive的优缺点1.5.Hive使用场景1.6.Hdfs 运行机制1.7.Mapreduce 运行机制1.8.SQL转化成MapReduce过程1.9.Hive 架构:2.Hive交互方式2.1.Hive交互shell2.2.JDBC交互2.3.第三种交互方式:3.Hive 基础功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列原创 2021-04-06 23:51:58 · 879 阅读 · 0 评论 -
sqoop操作之Oracle导入到HDFS
导入表的所有字段sqoop import --connect jdbc:oracle:thin:@192.168.1.100:1521:ORCL \--username SCOTT --password tiger \--table EMP -m 1; 查看执行结果:hadoop fs -cat /user/hadoop/EMP/part-m-000007369,S转载 2018-01-31 00:50:17 · 965 阅读 · 0 评论 -
hive 思维导图
1.整理了word文档,但是感觉没有思维导图清晰 ,持续更新中原创 2021-01-30 16:23:05 · 395 阅读 · 0 评论 -
数据仓库和数据集市 专业术语解释
数据仓库:数据标准化的数据集(标准化数据库设计会使数据拆分成最低的粒度) 实数仓库:常使用关系模型 (关系模型和关系数据库设计的权威著作参考:Ted Codd 和ChristDate的书籍)数据集市:是一种数据结构,是数据仓库的子集合,是依据一个部门(比如财务,运营部门)需求建议的多维模型; 数据集市:常用 多维模型 :星型模型,雪花模型 星型模型:由事实表和维度表组成(事实表利用外键关联维度表) 事实表:...原创 2021-01-16 02:52:42 · 511 阅读 · 0 评论 -
Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
GROUPING SETS该关键字可以实现同一数据集的多重group by操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达,它仅仅使用一个stage完成这些操作。GROUPING SETS的子句中如果包含()数据集,则表示整体聚合。 Aggregate Query with GROUPING SETS Equiva...转载 2018-08-03 15:55:01 · 914 阅读 · 0 评论 -
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。 这里跟传统的sql还有一点...转载 2018-08-02 18:05:02 · 214 阅读 · 0 评论 -
sql(join on 和where的执行顺序)
sql(join on 和where的执行顺序)left join :左连接,返回左表中所有的记录以及右表中连接字段相等的记录。right join :右连接,返回右表中所有的记录以及左表中连接字段相等的记录。inner join: 内连接,又叫等值连接,只返回两个表中连接字段相等的行。full join:外连接,返回两个表中的行:left join + right join。转载 2017-09-30 12:43:47 · 503 阅读 · 0 评论 -
hive关于left join 和join时候on条件总结
hive中使用join时候on条件1、如果select * from aleft join bon(a.字段=b.字段)工作正常2、如果select * from aleft join bon(a.字段=b.字段,b.字段=某值,b.……)工作正常3、如果select * from aleft转载 2017-10-11 17:55:37 · 5962 阅读 · 0 评论 -
hive 的条件判断(if、coalesce、case)
原文地址:http://www.folkstalk.com/2011/11/conditional-functions-in-hive.htmlCONDITIONAL FUNCTIONS IN HIVEHive supports three types of conditional functions. These functions are lis转载 2017-10-24 20:39:45 · 738 阅读 · 0 评论 -
Hive压缩说明
为什么要压缩在Hive中对中间数据或最终数据做压缩,是提高数据吞吐量和性能的一种手段。对数据做压缩,可以大量减少磁盘的存储空间,比如基于文本的数据文件,可以将文件压缩40%或更多。同时压缩后的文件在磁盘间传输和I/O也会大大减少;当然压缩和解压缩也会带来额外的CPU开销,但是却可以节省更多的I/O和使用更少的内存开销。压缩模式说明1. 压缩模式评价可使用以下三种标准转载 2018-01-31 00:58:30 · 370 阅读 · 0 评论 -
hive 多用户访问模注意问题
首先是安装mysql 安装mysql数据库及客户端yum install mysql-serveryum install mysqlservicemysqld start 步骤一: yum -y install mysql-server 步骤二:service mysqld start 步骤三:mysql -u root -p Enter password: (默认是空密码,按enter) ...原创 2018-07-10 18:38:20 · 487 阅读 · 0 评论 -
hive的row_number()、rank()和dense_rank()的区别以及具体使用
参考:https://blog.youkuaiyun.com/qq_20641565/article/details/52841345?locationNum=5&fps=12016年10月17日 20:05:21阅读数:4931row_number()、rank()和dense_rank()这三个是hive内置的分析函数,下面我们来看看他们的区别和具体的使用案例。首先创建一个文...转载 2018-07-24 22:21:34 · 619 阅读 · 0 评论 -
Hive分析窗口函数 NTILE,ROW_NUMBER,RANK,DENSE_RANK
本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。Hive版本为 apache-hive-0.13.1数据准备: cookie1,2015-04-10,1 cookie1,2015-04-11,5 cookie1,2015-04-12,7 cookie1,2015-04-13,3 co...转载 2018-08-03 18:06:25 · 195 阅读 · 0 评论 -
Hive中COUNT的高级用法(条件过滤等)
在HIVE中,除了COUNT(*)外,COUNT还可以有很多高级用法。SELECT type , count(*) , count(DISTINCT u) , count(CASE WHEN plat=1 THEN u ELSE NULL END) , count(DISTINCT CASE WHEN plat=1 THEN u ELSE NULL END)...转载 2018-08-03 22:30:11 · 13006 阅读 · 2 评论 -
Hive分区和桶的概念
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join,其实底层都...转载 2018-07-30 21:38:39 · 391 阅读 · 0 评论 -
Hive笔记之JOIN的左外链接和右外链接
一 为什么要用左外表或者右外表hive中对多个表联合操作时,总是按照从左到右顺序执行,.因为hive在对每行记录进行 操作时,它会尝试将较小的表缓存起来,然后扫描最大的那张表.因此需要保证在连续查询中的表的大小从左往右依次增加,否则当数据的量很大时,会大大降低hive的执行的性能.幸运的是用户并非总是将最大的表放置在查询语句的最后面,只需用左外表或者右外表加以说明即可,转载 2017-09-30 11:40:12 · 927 阅读 · 0 评论