- 博客(111)
- 资源 (23)
- 收藏
- 关注
原创 Hive SQL中,使用WITH子句和创建临时表性能对比
新版本(如Hive 3.0+)对CTE优化更好,可能自动物化多次引用的CTE,减少性能差异。Hive优化器可能将CTE内联到主查询中,生成更优的执行计划(如合并操作、减少中间步骤)。对中间结果进行多次转换或需要手动优化执行顺序时,临时表提供更灵活的控制。若同一中间结果被多次使用(如多表JOIN或复杂子查询),临时表可。CTE是逻辑临时结果集,仅在查询生命周期内存在,命令分析两种方式的执行计划,观察是否有冗余操作。的中间结果,避免临时表创建和清理的开销。被多次使用,显式临时表可能更优。-- 显式创建临时表。
2025-02-24 18:26:36
806
原创 sql实战解析-sum()over(partition by xx order by xx)
3、sum( )over( partition by xx order by xx) 在 sum( )over( order by xx) 基础之上,增加一个分组动作,所有的计算都在分组内生效,即在每个分区内,进行sum( )over( order by xx) 的操作。sum( c )over( partition by a order by b) 按照一定规则汇总c的值,具体规则为以a分组,每组内按照b进行排序,汇总第一行至当前行的c的加和值。1、sum( )over( ) 对所有行进行求和。
2024-10-14 09:46:46
2173
2
转载 数据湖方案对比 -delta、iceberg和hudi
我们把三个产品(其中delta分为databricks的开源版和商业版)总结成如下图:如果用一个比喻来说明delta、iceberg、hudi、hive-acid四者差异的话,可以把四个项目比做建房子。由于开源的delta是databricks闭源delta的一个简化版本,它主要为用户提供一个table format的技术标准,闭源版本的delta基于这个标准实现了诸多优化,这里我们主要用闭源的delta来做对比。
2024-10-10 13:14:19
619
原创 3分钟带你了解:数据仓库能为你做点啥
数据仓库的建设目标,是融合多领域数据,建设企业级标准化、统一、可共享的全、准、快、省、通的全部数据体系,給下游提供稳定数据服务。,指经过一系列的业务逻辑、技术逻辑加工后的,产生的口径统一的公共数据,具备高质量、高时效、一致口径等特性,常用于运营报表、经营分析、财务结算、风控策略等场景;灵活的查询,可以解决用户敏捷、灵活的数据加工需求,大多数的部门用户都可以通过数据查询平台,通过自助查询的方式,解决临时性的数据提取和探查的数据需求。数据一旦确认写入后是不会被取代或删除的,即使数据是错误的亦同。
2023-12-18 17:22:56
1116
转载 git快速入门
一、 版本控制工具1.1. 什么是版本控制系统?版本控制系统(Version Control System):是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统。版本控制系统不仅可以应用于软件源代码的文本文件,而且可以对任何类型的文件进行版本控制。常见的版本控制系统有:cvs、svn、git1.2. 为什么要有版本控制系统?在开发过程中,经常需要对一个文件进行修改甚至删除,但是我们又希望能够保存这个文件的历史记录,如果通过备份,那么管理起来会非常的复杂。
2023-08-28 14:25:45
338
原创 hive concat_ws,collect_set的使用
(然而会忽略所有的 null)可以通过变量 group_concat_max_len 设置一个最大的长度。在运行时执行的句法如下: SET [SESSION | GLOBAL] group_concat_max_len = unsigned_integer;如果分组的字符过长,可以对系统参数进行设置:SET @@global.group_concat_max_len=40000;concat_ws(SEPARATOR ,collect_set(column))与group_concat()函数作用相似。
2023-05-15 21:08:35
1059
原创 hdfs文件复制方法
hdfs文件复制,并拷贝修复数据-- 1、复制表结构create table t1 like t2;-- 2、复制文件数据hadoop distcp -update -skipcrccheck -m 300 hdfs://ns1/warehouse/ods.db/t2 hdfs://ns1/warehouse/bkdata.db/t1-- 3、修复表元数据msck repair table t1hdfs 加载数据-- 1、创建新表use db1;create table db1.te
2022-03-15 09:49:53
4624
原创 hive 运行任务报错 Error: Java heap space 解决办法
Error: Java heap space 解决办法使用MR引擎时:set mapreduce.map.memory.mb=12000;set mapreduce.reduce.memory.mb=12000;set mapred.map.child.java.opts=-server -Xmx10000m -Djava.net.preferIPv4Stack=true;set io.sort.mb=100;set mapred.reduce.child.java.opts=-server -
2022-03-15 09:39:53
4136
1
转载 spark 缓存表的使用
spark 几种缓存数据的方法1- 缓存表2-缓存结果查看3-缓存参数设置1- 缓存表1、cache table//缓存全表sqlContext.sql("CACHE TABLE activity")//缓存过滤结果sqlContext.sql("CACHE TABLE activity_cached as select * from activity where ...")CACHE TABLE是即时生效(eager)的,如果你想等到一个action操作再缓存数据可以使用CACHE LA
2021-11-30 09:48:13
3891
原创 spark-sql 和 pyspark的配置
1、1、**执行spark-sql 报错 :sparksql启动报错The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH**解决方案:spark无法使用mysql的驱动,访问hive的元数据(mysql数据库),所以需要想办法让spark能引用已存在的访问mysql的驱动。针对已经配置完毕的hive,一般的访问mysql的驱动放在hive的lib库之下,比如:/opt/hive/hi
2021-07-22 18:52:57
411
1
原创 maven的安装与配置
1、maven是什么Maven项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的项目管理工具软件。 来自百度百科2、maven安装步骤提前安装jdk, 对应环境 Linux ubuntu 下载软件,对应官网https://maven.apache.org/download.cgi 1、解压 tar xvzf apache-maven-3.6.3-bin.tar.gz2、创建保存的目录 sudo mkdir /opt/maven...
2021-02-02 10:05:58
175
原创 Hive数据类型转换-decimal 变成了string ,科学计数法怎么转换成正确的decimal
1、double , float ,decimal 千万不能转换成string,常常会自动使用科学计数法保存,这种转换Hive基本不支持可逆操作,只能扔人工代码转换。PS:不理解Hive为什么不内置这类函数呢。2、上人工代码:select case--处理非科学计数法表示的字符串when length(regexp_extract('2.0E7','([0-9]+\\.)([0-9]+)(E-*[0-9]+)',2)) = 0then '2.0E7'--处理整数when length(
2020-10-12 09:21:15
7285
1
转载 mysql like escape 通配符语法小记录
MySql的like语句中的通配符:百分号、下划线和escape% :表示任意个或多个字符。可匹配任意类型和长度的字符。Sql代码select * from user where username like '%huxiao'; select * from user where username like 'huxiao%'; select * from use...
2019-11-11 15:45:58
526
原创 mysql 连接报错:Authentication plugin 'caching_sha2_password'cannot be loaded
错误原因:即从mysql5.7版本之后,默认采用了caching_sha2_password验证方式。解决办法:在linux服务器中,开启mysql,并进入连接的数据库执行如下语句,表示采用原来的身份验证机制。mysql>ALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY 'root账...
2019-06-19 18:41:26
534
转载 SQL :group by all | group by ··· with cube |group by with rollup 的用法
原文出处 :https://blog.youkuaiyun.com/lhy55040817/article/details/80156281. group by allSQL Server联机丛书中是这样描述group by all的:“只有在 SELECT 语句还包括 WHERE 子句时,ALL 关键字才有意义。”也就是,group by all必须和where子句一起使用。我们使用SQ...
2019-05-16 14:18:56
1593
原创 SQL : hive sql 一些小语句记录[删除连续分区 drop partition]
想要除个别字段外的剩余所有字段这是HIVE中查询语句的一个小技巧,一个表有很多字段,我们想要除个别字段外的剩余所有字段,全部列出来不方便且不美观,实际上hive语句可以解决这个问题。选择tableName表中除了name、id、pwd之外的所有字段:set hive.support.quoted.identifiers=None;select `(name|id|pwd)?+.+` ...
2019-04-09 14:33:28
3508
原创 SQL : mysql8.0客户端连接报错:authentication plugin caching_sha2_pa
原因说明:mysql 8.0 默认使用 caching_sha2_password 身份验证机制 —— 从原来的 mysql_native_password 更改为 caching_sha2_password。从 5.7 升级 8.0 版本的不会改变现有用户的身份验证方法,但新用户会默认使用新的 caching_sha2_password 。解决方法:使用cmd命令,通过mysql...
2019-01-15 10:24:17
1016
原创 python操作excel笔记
#coding=utf-8########################################################filename: .py#author:#date:2019-01-08#function:#######################################################import openpyxlimpo...
2019-01-10 16:27:37
283
原创 python 正则学习笔记
#coding=utf-8########################################################filename: .py#author:#date:2019-01-08#function:#######################################################import re##正则表达式的...
2019-01-10 16:26:59
268
原创 excel中vb 宏脚本的简单使用
1.编辑快捷键去工作,如下:Sub 颜色()'' 颜色 宏'' 快捷键: Ctrl+b' With Selection.Interior .Pattern = xlSolid .PatternColorIndex = xlAutomatic .Color = 5287936 .TintAndShade = 0...
2018-10-27 12:48:01
11216
原创 mysql没有partition by 怎么实现分组取第一行呢
直接上代码:有时间在研究吧SELECT TABLE_NAME,SUBSTRING_INDEX(GROUP_CONCAT(id ORDER BY id DESC ),',',1)FROM mgr_tableWHERE upper(TABLE_NAME) in ('')group by table_name
2018-09-30 16:17:25
6599
转载 数据仓库一般增量数据处理策略
转载出处:https://www.cnblogs.com/biwork/archive/2013/11/27/3446236.html开篇介绍通常在数据量较少的情况下,我们从一个数据源将全部数据加载到目标数据库的时候可以采取的策略可以是:先将目标数据库的数据全部清空掉,然后全部重新从数据源加载进来。这是一个最简单并且最直观的并且不容易出错的一种解决方案,但是在很多时候会带来性能上的问题。...
2018-08-29 09:37:34
5225
1
转载 Teradata 函数说明(partition 等……)
重点是为了记录 TD的灵巧的用法:qualify row_number() over(partition by col1,col2 order by col3 desc,col4 asc)=1;以下内容都是随手摘抄网上的——————————————————————————————————————————————————————————————————这是一个分界线—————————...
2018-08-15 17:19:25
5205
原创 ORACLE数据库尝试DBLINK连接
oracle在进行跨库访问时,可以通过创建dblink实现,今天就简单的介绍下如果创建dblink,以及通过dblink完成插入、修改、删除等操作环境:本地机器安装一个oracle数据库,虚拟机安装一个oracle数据库;目标:本地oracle数据库创建dblink访问虚拟机的oracle数据库;本地的tnsnames.ora如下(虚拟机没有安装plsql客户端):LOCAL=...
2018-08-08 14:18:02
1085
原创 anaconda(64位)安装cx_oracle实现python访问oracle
1. python 访问oracle确实不像jdbc那样成熟,问题颇多2. 用anaconda安装cx_Oracle模块比较简单,在Environments中搜索到cx_Oracle模块,下载安装即可。复杂的遇到安装问题如何解决。3. 验证cx_oracle模块是否成功的方法,进入python命令行,>>> import cx_Oracle>>&g...
2018-07-25 16:08:47
7519
1
转载 oracle存储过程(将表导出成csv)
1. 建存储过程(转载)CREATE OR REPLACE PROCEDURE SQL_TO_CSV( P_QUERY IN VARCHAR2, -- PLSQL文 P_DIR IN VARCHAR2, -- 导出的文件放置目录 P_FILENAME IN VARCHAR2 -- CSV名 ) IS L_OUTPUT UTL_FILE.FILE_TYPE; L_THECURSO...
2018-07-05 14:19:38
4629
原创 excel简单vba读写TXT的交互
1.读取excel写TXT(VBA)Sub 导出Erwin参数文件()'' 导出Erwin参数文件 宏''Filename = Application.GetSaveAsFilename(fileFilter:="Text Files (*.txt), *.txt")Filename = "logical_physical_FIELD.txt"Open Application.A...
2018-07-05 11:04:33
20703
转载 Erwin 根据映射文件自动命名英文
转载出处:https://blog.youkuaiyun.com/huaxin520/article/details/7799046ERwin中分为逻辑模型和物理模型两种。在创建逻辑模型时,我们都是通过中文设计,这样就更直观的显示模型的作用;物理模型,是直接对数据库进行关联,对数据库进行操作,因此在给物理模型命名时,需要使用英文(不嫌麻烦、不嫌累,用中文也可以)。问题随之而来,如何将逻辑层的中文名,通过映射文...
2018-07-02 10:57:21
1286
原创 oracle 存储过程基本过程一
1.看一个范例:create or replace procedure firstPro( param1 in varchar,param2 in integer)is--定义变量 var1 int ; var2 varchar(20) ; sqllog varchar(20); vs_msg varchar(4000); ...
2018-06-29 14:38:39
372
2
转载 jupyter notebook的tree路径(设置默认的工作路径)
#声明: 网络上修改方法很多,截取有效的方法再次记录。方法一:以上方法一般是好用的,如果不起作用,继续操作如下:方法一后续:右键该快捷方式,选择属性进行快捷方式的设置,修改快捷方式的“起始位置”为自己想要的目录(如:E:\jupyter),如下图:如果上面的“目标” 有参数%USERPROFILE%,将这个参数删除,或者 将参数%USERPROFILE%替换成起始位置的路径。...
2018-06-08 10:07:23
2167
原创 Erwin通过excel导入实体
补充内容。具体步骤可以参考 https://wenku.baidu.com/view/8029b1a9f12d2af90342e67a.html需要指出的是,由于Erwin版本各有不同,最好的方法是用当前版本,新建实体,导出,用导出模板导入。 以上。2018.1.2 话说新年第一天上班。
2018-01-02 10:56:32
4893
转载 ssh免密码登录
尊重原创,转载地址:http://chenlb.iteye.com/blog/211809ssh 无密码登录要使用公钥与私钥。linux下可以用用ssh-keygen生成公钥/私钥对,下面我以CentOS为例。有机器A(192.168.1.155),B(192.168.1.181)。现想A通过ssh免密码登录到B。1.在A机下生成公钥/私钥对。[chen
2017-12-22 14:10:50
238
转载 matlab 注册码到期处理办法
mark一下,今天是2017-11-13,星期一,打开matlab一下,出现以下界面:怎么突然提示需要激活呢?然后使用之前安装的matlab license文件,提示激活已完成,如下图所示:但是,点击“完成”按钮后,matlab即退出了。重新打开matlab程序,依然提示要激活,好晕啊~~~~~~上网一搜,好多遇到这个情况的,在htt
2017-11-16 16:45:41
8336
转载 手机添加office365账号方法
1.在“添加Exchange帐户”界面中输入邮件地址和密码,点击“下一步”2.在“账户设置”中选择“Exchange” 3.在检索到帐户信息后,如果出现“接受设置”界面,则按提示输入邮件帐户信息,勾选“采用安全连接(SSL)”和”接受所有SSL证书“后,点击“下一步” 域名\用户名 :您完整的用户名 密码 :您对应的exchange onli
2017-10-16 09:54:46
17494
1
转载 电视盒子adb命令
PC机连接某个电视盒子设备adb connect 192.168.1.19(连接某个设备,192.168.1.19是设备的IP地址,手机测试一般用不到,盒子或者电视设备会用到)安装PC上的某个APK文件adb install C:/蜂巢tv2.0.apk 安装指定PC路径上的某个apk 卸载的安装的APK文件adb uninstall
2017-08-13 14:25:35
21642
转载 perl 文件内容替换
命令:perl 命令可以批量替换文件中的一些内容,操作起来非常高效。下面举几个例子:perl -pi -e "s/aaa/bbb/gi" test.txt上面的命令把test.txt文件中的字符aaa替换成bbbperl -pi.bak -e "s/aaa/bbb/gi" test.txt上面的命令把test.txt文件中的字符aaa替换成bbb,并生成一个te
2017-07-28 09:30:27
22840
2
转载 java poi Excel单元格保护
XSSFCellStyle style2 = workbook.createCellStyle(); //设置此style2为锁定 style2.setFillPattern(CellStyle.DIAMONDS); style2.setFillBackgroundColor(HSSFColor.GREY_40_P
2017-07-05 17:32:09
3580
1
转载 Java-Excel报表开发POI(含POI保护工作表功能)
本篇面向对象为Java的初学者,从下载必备软件到创建一个空白的POI工程,已经熟练掌握环境搭建的请跳过此文。开发环境为windowsXP-SP2,Eclipse3.2,JDK1.5.07,其实差不多都行,不会有太大的差异。本文从POI下载开始讲解,前提是开发环境包括系统变量等等已经正确设置完毕。1.POI的下载截至本文发表,POI最新版本是3.0.1,距离上一个Final版
2017-07-05 14:52:07
3496
1
转载 Spring MVC 框架不拦截静态资源的配置
"mvc:annotation-driven" 的前缀 "mvc"未绑定办法:这是我在spring-servlet.xml文件里使用开头的标签时,忘记引入了命名空间。在xml的beans里面加入如下代码即可xmlns:mvc="http://www.springframework.org/schema/mvc" http://www.springframework.org/schem
2017-06-24 11:48:46
736
SVN_windows版本
2013-08-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人