- 博客(43)
- 收藏
- 关注
原创 shell批量去除后缀
path="/home/work/yxf/wbj/datas"for i in `ls /home/work/yxf/wbj/datas`do newName=${i%.*} #echo $newName mv $path/$i $path/$newNamedonefor i in `ls | grep .xlsx`; do mv $i `echo "$i" | awk -F '.xlsx' '{print $1}'`;done
2020-11-02 10:06:16
645
转载 在left join语句中,左表过滤必须放where条件中,右表过滤必须放on条件中,这样结果才能不多不少,刚刚好。
转载自:https://blog.youkuaiyun.com/cainiao1923/article/details/103594153通过上面的问题现象和分析,可以得出了结论:在left join语句中,左表过滤必须放where条件中,右表过滤必须放on条件中,这样结果才能不多不少,刚刚好。SQL 看似简单,其实也有很多细节原理在里面,一个小小的混淆就会造成结果与预期不符,所以平时要注意这些细节原理,避免关键时候出错。...
2020-10-22 17:40:38
910
原创 python根据excel生成Hive ddl sql 和 MySQL 表语句
Excel:中文表名称 企业基本信息 英文表名称 enterprise_base_info 备注说明 接口单元文件命名 接口数据文件名 校验文件名 字段序号 逻辑名称 物理名称 1 企业名称 enterprise_name 2 营业执照类型 license_type 3...
2020-04-15 16:23:51
1111
原创 Hive导出数据到本地
hive -S -e "select * from default.ts_plc_tot_w_kpi_people_prefertreatment_d where pday='20191218' " >> /home/work/yxf/a.txt
2019-12-19 17:15:29
242
转载 Hive创建表时添加中文注释后乱码问题
https://blog.youkuaiyun.com/leen0304/article/details/80534385
2019-12-10 11:40:05
184
原创 正则表达式去除中文以及括号
需求:需要在类似编号(编号),名称 这样的字段加上 comment 、引号和逗号测试工具 : Notepad++查找目标 :([^\x00-\xff(|)]+\([^\x00-\xff(|)]+\)|[^\x00-\xff(|)]+)替换目标:comment '$1',...
2019-11-21 11:00:25
1270
原创 Hive月份计算
select concat(split(months_between('2019-03-31','2018-02-01')/12,"\\.")[0],"年零",round(months_between('2019-03-31','2018-02-15')%12,1),"个月");-- 1年零1.5个月select concat(split(months_between('2019-03-3...
2019-11-13 10:42:23
2292
原创 java生成范围内随机数
int max = 10; int min = 8; Random random = new Random(); int i = random.nextInt(max-min+1)+min;
2019-11-11 15:59:57
179
转载 windows下安装ElasticSearch的Head插件
https://www.cnblogs.com/hts-technology/p/8477258.html
2019-11-07 14:56:24
124
转载 hive批量建表
https://blog.youkuaiyun.com/weixin_42496757/article/details/88744077
2019-10-26 00:17:36
1583
原创 shell批量删除hive表
hive -e "use default;show tables; " > tables.txtcat tables.txt|while read eachlinedo echo "drop table if exists default.$eachline;" >> Droptables.hqldonehive -f Droptables.hql...
2019-10-25 23:27:48
322
原创 Java Python调用天地地理编码api返回经纬度
import requestsimport jsonr = requests.get(url='http://api.tianditu.gov.cn/geocoder?ds=' '{"keyWord":"重庆市"}&tk=这里是自己申请的tk')print(r.json())print(r.json()["location"]["...
2019-10-23 17:34:22
570
转载 Python正则表达式做文本预处理,去掉特殊符号
#!/usr/bin/python# encoding: UTF-8import re # make English text cleandef clean_en_text(text): # keep English, digital and space comp = re.compile('[^A-Z^a-z^0-9^ ]') return comp.sub(...
2019-10-20 14:52:10
1112
原创 HIVE实现分页写法
select t.* from (select * ,(row_number() over(order by id)) rn from tc_plc_gbt_tq_org ) t where t.rn between 2 and 3;
2019-10-17 11:24:21
5790
原创 正则占位符使用
#需要将num0m,num10m,这种替换为num0f,num10f#测试用的notepad++#查找目标:num(\d+)m#替换为:num$1f
2019-10-15 09:46:04
1219
原创 mysql not exists查找A表某列的数据不存在B表
people表的某些id在org表里面找不到,需要找出来是people表的哪些org_id1、not exists写法SELECT * FROM people t1 WHERE NOT EXISTS (SELECT 1 FROM org t2 WHERE t1.org_id = t2.org_id)2、not in写法SELECT * FROM tq_data0904.tb_pp...
2019-10-14 10:27:49
647
转载 如何利用正则表达式中的查找替换在前面添加字符
如何将 001章修改为 第001章,并批量执行。利用notepad++ 打开一个文本文件。里面的章节是这样的前面没有 第字。现在开始查找这种格式的文字查找格式:(\d{1,})章//加小括号的含义是以后引用要用到,\d匹配一个数字,{0,}是指重复1次以上。替换格式:第$1章// $1 的含义是引用第一个小括号,如何有第二个小括号就是$...
2019-10-09 16:44:23
2688
原创 Hive正则匹配省市区
StringPatten="[^省]+省[^市]+市+[^区]+区"select regexp_extract('重庆市合川区隆兴镇峨眉村X组XX号','[^市]+市[^区]+区',0)
2019-09-09 10:37:22
2562
转载 正则表达式匹配空行
转载自:https://www.cnblogs.com/iLoveMyD/p/3508276.html测试所用的编辑器:notepad++^(\s*)\r\n根据文档格式(windows, mac, linux行尾符)不同 将其中的\r\n替换成不同行尾符windows: ^(\s*)\r\nlinux: ^(\s*)\nmac: ^(\s*)\n (mac 也是一种类l...
2019-09-06 16:19:07
3041
转载 【hive 日期函数】Hive常用日期函数整理
转载自:https://blog.youkuaiyun.com/u013421629/article/details/80450047
2019-08-13 11:45:42
259
原创 python拿pgsql timestamp 值解析出来变pylong类型
参考地址:https://blog.youkuaiyun.com/zhanglu1236789/article/details/69525030pgsql企业基础信息 开业日期存的是2016-04-05 08:00:00 timestamp without time zone 类型由于需要做计算,处理如下kyrq_long = item.get("kyrq", "")timeArray = t...
2019-08-09 09:40:35
745
原创 scala获取去年、前年
/* 获取去年 */def beforeYear():(String)= { val cals: Calendar = Calendar.getInstance(); cals.add(Calendar.YEAR, -1); var yearstrs: String = ""; yearstrs = cals.get(Calendar.YEAR) + ""; ...
2019-08-05 16:57:31
633
原创 国标行业分类sql
搜到了行业分类代码 2017 最新版 创建sql语句https://blog.youkuaiyun.com/hr541659660/article/details/78322050/copy ( select t.fid,t.firstType ,concat('{"',t.secondType,'":') ,concat('["',code_array,'"]},') fr...
2019-08-05 16:53:24
4683
2
转载 linux Ubuntu 16.04安装 postgresql
转载自 https://www.cnblogs.com/SpadeA/p/10070879.html安装步骤: 1,运行sudo apt-get update --这个用来查找数据源 2 ,运行 apt install postgresql --开始安装数据库 遇到Do you want to continue? [Y/n] --...
2019-07-19 09:41:46
524
原创 一键安装mysql shell脚本
#!/bin/bash#输入mysql压缩文件地址fileName=$1;-f是判断文件是否存在if [ -f ${fileName} ]then #解压mysql tar -zxvf ${fileName}; echo 'mysql解压完成,正在删除/usr/local/mysql文件夹'; rm -rf /usr/local/mysql; ...
2019-07-17 16:16:12
499
原创 spark overwrite分区覆盖导致全表覆盖问题
比如我们目前有两个分区 2019-03-22 和 2019-03-23 两个分区,现在我们使用 saveAsTable 想覆盖其中一天的分区,结果却是将整个所有分区遮盖了。重建了整个目录,这明显不是我们想要的到的结果。试过下图还是不行set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=no...
2019-06-26 14:20:49
7248
2
原创 spark首次写入Hive orc表报错
The format of the existing table project_bsc_dhr.bloc_views isHiveFileFormat. It doesn't match the specified formatOrcFileFormat.;new_df.write.mode(SaveMode.Append).format("orc").partitionBy("nd"...
2019-06-24 11:23:06
1870
原创 spark scala dataframe 保留2位小数
df = df.selectExpr("round(money,2) as money" ,"created_ts","updated_ts");df = df.selectExpr("cast(money as decimal(20,2)) as money" ,"created_ts","updated_ts");
2019-06-24 11:04:24
7713
转载 spark实现获取上个月1号及最后一天
转载自:https://blog.youkuaiyun.com/java_zzzz/article/details/82987661最近在分析的时候要分析周及月的数据那么月的话 一开始我是直接获取当月的1号及最后一天但是后来发现数据不太对因为这个样子跑的话 会存在最后一天数据丢失(和本身的数据有关)所以这里就要写 获取上个月的1号及最后一天有不对的请指正:import java....
2019-06-13 17:18:48
2248
原创 scala获取上个月最后一天日期
val now: Date = new Date(); val dateFormat: SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd"); val dateNow = dateFormat.format(now); val day =dateNow.substring(0,4)+dateNow.substring(...
2019-06-11 15:09:21
2107
原创 Linux根据某列字段去重
-t : 指定分隔符-k: 指定从第几列开始去重sort -t $',' -k3,3 -u file1.txt >> file_new.txt
2019-06-11 14:04:45
4462
原创 Java日期转换
package ImoocWeb;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.Locale;/** * 日期转换 * 10/Nov/2016:00:01:02 +0800 ==> 2016-11-10 0...
2019-05-13 23:14:12
192
原创 Scala日期转换SimpleDateFormat
将 dd/MMM/yyyy:HH:mm:ss Z格式转换为yyyy-MM-dd HH:mm:sse.g. 10/Nov/2016:00:01:02 +8000 ==>2016-11-10 00:01:02package ImoocWebimport java.util.Dateimport java.text.SimpleDateFormatimport ja...
2019-05-13 23:05:41
3119
原创 Spark性能优化-------troubleshooting之解决算子函数返回NULL导致的问题
大家可以看到,在有些算子函数里面,是需要我们有一个返回值的。但是,有时候,我们可能对某些值,就是不想有什么返回值。我们如果直接返回NULL的话,那么可以不幸的告诉大家,是不行的,会报错的。Scala.Math(NULL),异常如果碰到你的确是对于某些值,不想要有返回值的话,有一个解决的办法:1、在返回的时候,返回一些特殊的值,不要返回null,比如“-999”2、在通过算子获取到了一个RDD之后,...
2018-03-05 15:36:13
194
原创 Spark性能优化----troubleshooting之解决各种序列化导致的报错
你会看到什么样的序列化导致的报错?用client模式去提交spark作业,观察本地打印出来的log。如果出现了类似于Serializable、Serialize等等字眼,报错的log,那么恭喜大家,就碰到了序列化问题导致的报错。虽然是报错,但是序列化报错,应该是属于比较简单的了,很好处理。序列化报错要注意的三个点:1、你的算子函数里面,如果使用到了外部的自定义类型的变量,那么此时,就要求你的自定义...
2018-03-05 14:54:29
198
原创 Spark性能优化------troubleshooting之解决JVM GC导致的shuffle文件拉取失败
有时会出现的一种情况,非常普遍,在spark的作业中;shuffle file not found。(spark作业中,非常非常常见的)而且,有的时候,它是偶尔才会出现的一种情况。有的时候,出现这种情况以后,会重新去提交stage、task。重新执行一遍,发现就好了。没有这种错误了。log怎么看?用client模式去提交你的spark作业。比如standalone client;yarn clie...
2018-03-05 13:37:22
280
原创 Spark性能调优----troubleshooting之控制shuffle reduce端缓冲大小以避免OOM
map端的task是不断的输出数据的,数据量可能是很大的。但是,其实reduce端的task,并不是等到map端task将属于自己的那份数据全部写入磁盘文件之后,再去拉取的。map端写一点数据,reduce端task就会拉取一小部分数据,立即进行后面的聚合、算子函数的应用。每次reduece能够拉取多少数据,就由buffer来决定。因为拉取过来的数据,都是先放在buffer中的。然后才用后面的ex...
2018-03-05 13:16:46
242
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人