- 博客(23)
- 收藏
- 关注
原创 crontab 每月第二个周日
注: weekday 和 day 这两栏很容易造成混淆, 假如两栏同时都被指定时, 只需满足其中一栏就算符合,即会在每月1日和15日运行,每个星期五也会运行。如:每月第二个周六 指定周六,判断日期为日历中周六。3.指定星期,运行语句结合cal日历和awk获取指定位置日期判断。man 5 crontab # 找到下述解释。1.指定日期,运行语句加上星期判断。2.指定星期,运行语句加上日期判断。
2023-01-17 12:12:01
1068
原创 hive parquet 修改字段名 查询为空
1.在Hive的当前会话设置parquet.column.index.access=true属性(临时)Parquet格式的表,在重命名表的列名后,查询重名的列数据时显示当前列所有值为NULL。hive默认的读取parquet文件是按照名称读取的(orc默认是按序列号读取的),这个参数的功能是使hive读取parquet文件时使用序列号读取。...
2022-08-11 17:57:11
1362
原创 sparksql regexp_replace()匹配隐藏字符 匹配反斜杠
sparksql regexp_replace()匹配隐藏字符 匹配反斜杠
2022-06-17 11:07:02
1526
原创 Cloudera Manager(简称CM)管理大数据平台CDH,CM提供web可视化界面和RESTful API
API列表可以访问:http://localhost:7180/static/apidocs/rest.htmlhttps://github.com/cloudera/cm_api使用方式参考:1、访问集群概要信息# curl -u admin:your_password 'http://localhost:7180/api/v19/clusters/'2、获取集群内服务状态信息# curl -u admin:your_password 'http://localhost:7
2021-12-27 10:06:54
1385
原创 当月最后一天转换
hive-- HIVEselect last_day( from_unixtime( unix_timestamp('${bizdate}', 'yyyyMMdd') ) ), 'yyyy-MM-dd');-- PostgreSQLselect (date_trunc('month', '${bizdate}'::date) + interval '1 month' - interval '1 day')::d.
2021-11-08 17:46:49
1387
原创 获得元数据信息
oraclepostgresql/gppostgresql比较特殊一点,因为postgresql使用了namespace的概念,可能同一个库中不同的namesespace有两个表明一样的表:参考:postgresql文档:PostgreSQL: Documentation: 10: PostgreSQL 10.19 Documentation...
2021-07-28 11:37:17
442
原创 decimal(m,n)
Hive的decimal类型类似Oracle,decimal(m,n)表示数字总长度为m位,小数位为n位,那么整数位就只有m-n位。MySql的decimal类型,decimal(m,n)表示整数位为m位,小数位为n位。如果你在Hive中使用的时候发现字段长度不够,Hive在处理数值字段的时候会直接置该字段值为NULL,不会将它截去。...
2021-07-13 10:31:01
1732
原创 sparksql java.lang.OutOfMemoryError: GC overhead limit exceeded
问题分析:查看yarn 任务详情Tracking URL:ApplicationMaster 界面,观察数据分配,发现tasks 的 suffer size分布不均匀。判断为 大表 left jion 小表 left join 大表的关联方式 ,产生了数据倾斜,造成内存溢出。解决方案:方案1:设置Spark-SQL adaptive 自适应框架参数需要在插入语句末尾添加分布键语句,distribute by 。SET spark.sql.adaptive.enabled=tr...
2021-05-26 10:42:05
1157
原创 sql 正则替换
保留数字regexp_replace(mobiles,"[^0-9-]","")去除换行符regexp_replace(name, '\n|\t|\r', '')
2021-04-25 16:46:40
2275
原创 python2 读取csv 中文乱码
解决方法:使用codecs,指定读取编码文件内容:原代码:# -*- coding: utf-8 -*-import datetimeimport csvimport sysimport osreload(sys) sys.setdefaultencoding('utf8') # 设置编码# 读取配置文件def get_task_config(path): task_config = [] # 配置列表 每一个元素为一行配置 f = open(pat
2021-04-21 15:08:16
407
1
原创 hive 日期格式转换
方法1: from_unixtime+ unix_timestamp--20210303转成2021-03-03from_unixtime(unix_timestamp('20210303','yyyymmdd'),'yyyy-mm-dd')--2021-03-03转成20210303from_unixtime(unix_timestamp('2021-03-03','yyyy-mm-dd'),'yyyymmdd')--UTC时间from_unixtime( ( unix_times.
2021-03-04 15:51:51
2122
1
原创 sparksql压缩小文件
SET spark.sql.shuffle.partitions=2;SET spark.sql.adaptive.enabled=true;SET spark.sql.adaptive.shuffle.targetPostShuffleInputSize=268435456;insert overwrite table table_name partition(stat_dt) select * from source_table_name where stat_dt='20160701' dis.
2021-03-03 09:51:11
939
原创 Hive动态分区参数配置
Caused by: org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Error 20004]: Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions and hiv.
2021-01-04 16:11:07
437
原创 HDFS空间维护操作
删除临时目录:kinit -kt /etc/security/keytabs/xxx.keytab xxx #改为自己的用户hdfs dfs -du -h /user/hive/warehouse/icl_prd.db/ | grep '_temp_'hdfs dfs -rm -r $path_name压缩datax采集的数据:进入代理机:20.0.40.222hdfs dfs -ls -R /user/hive/warehouse/icl_prd.db/ | grep ..
2020-12-23 11:09:56
147
原创 1.4.2 IO流
第十七章 IO流17.1 IO流的概念 IO就是Input和Output的简写,也就是输入和输出的含义。 IO流就是指读写数据时像流水一样从一端流到另外一端,因此得名为“流"。17.2 基本分类 按照读写数据的基本单位不同,分为字节流和字符流。 其中字节流主要指以字节为单位进行数据读写的流,可以读写任意类型的文件。 其中字符流主要指以字符(2个字节)为单位进行数据读写的流,只能读写文本文件。 按照读写数据的方向不同,分为输入流和输出流(站在程序...
2020-12-07 23:56:25
152
原创 1.4.1 异常机制和File类
目录第十六章 异常机制和File类 16.1 异常机制(重点)16.1.1 基本概念16.1.2 异常的分类代码: 异常的分类, 测试16.1.3 异常的避免代码: 异常的避免 if 语句16.1.4 异常的捕获代码: 异常的捕获16.1.5 异常的抛出代码: 异常的抛出, 重写规则,16.1.6 自定义异常代码: 自定义异常16.2 File类(重点)16.2.1 基本概念16.2.2 常用的方法代码: File 类...
2020-12-06 18:08:01
133
原创 zoj2812
C++/*******************wrong answer***********************************/#include#includeusing namespace std;int main(){ string s; int sum; int i; while (getline(cin,s,'#')){ su
2015-06-03 21:41:03
463
原创 zoj1001
//C++#includeusing namespace std;int main(){ int a, b; while (cin >> a >> b) { cout //endl刷新流的缓冲区(stream's buffer)。 } return 0;}/*****************************************
2015-06-03 11:23:21
645
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人