- 博客(23)
- 收藏
- 关注
原创 hive sql常用命令(二) 持续更新
一、从第一行到当前行(时间排序)最后一个非空置、从当前行到最后一行(时间排序)第一个非空置last_value(user_id, true) over(order by create_time rows between UNBOUNDED PRECEDING and CURRENT ROW)first_value(user_id, true) over(order by create_time rows between CURRENT ROW and UNBOUNDED FOLLOWING)
2025-03-05 10:20:51
198
原创 git工作用到的命令
由于提交到master分支后由创建了新分支shumin_01,由重新提交到新分支,报错无法提交,进行下面的操作。如果是其它分支,则git push origin HEAD:refs/for/分支名。第三部 git push origin HEAD:refs/for/master。git commit -m “您的commit提交说明”在修改之前记得先 git pull 更行到最新状态。第二步 git commit -m “备注”一般提交时只用到简单三个命令。之后添加同学进行cr。
2024-08-05 19:19:06
220
1
原创 git常见问题
提交评审:git push origin HEAD:refs/for/master撤回add:git reset HEAD .撤回commit:git reset --soft HEAD^查看变更文件名:git diff --name-only再次提交到同一commit:除了第二步git commit --amend其他不变指定分支拉代码: git clone -b dev http://10.1.1.11/service/tmall-service.git。
2024-08-05 19:17:36
549
原创 代码冲突解决办法
git commit -m “合并分支,注释随意,现在应该写icafe卡片id”Step2. 依据提示分别打开冲突的文件, 逐一修改冲突代码。git merge --no-ff origin/分支。Step3. 所有冲突都修改完毕后, 提交修改的代码。Step1. 在本地仓库中, 更新并合并代码。2、分支merge到主干时冲突。Step4. 更新patch。1、代码提交时有冲突。
2024-08-05 19:16:45
576
原创 palo(doris)表分区的正确使用
2、使用date(date(create_time) = ‘2024-05-05’)或者date_format转化,读取所有分区(因为只存了31天数据,所以读取了31个分区)一、对于日期分区,分区字段不可使用date_format等进行格式转化,否则分区字段失去分区意义而进行全表扫描。二、对于分区字段如果要用枚举值,要使用in,不能使用not in,否则分区字段失去分区意义,而进行整体扫描。3、限制souce分区,使用 in,限制几个分区就读几个分区,本示例读取5个分区。
2024-08-05 17:19:02
368
原创 google的protobuf安装
亲测1、https://github.com/protocolbuffers/protobuf/releases/tag/v2.4.1 下载protobuf-2.4.1.tar.gz2、 tar xvf protobuf-2.1.1.tar.gzcd protobuf-2.5.0./configuresudo makesudo make install注意:make时可能会报错 3 errors generated. make[2]: *** [message.lo] Er
2021-05-25 10:43:15
727
1
原创 hive乱码修改mysql元数据字符集
alter database hive character set latin1;#修改表字段注解和表注解alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;#修改分区字段注解alter table PARTITION_KEYS m
2021-04-09 17:38:31
195
原创 解决hive表被锁的参数设置
set hive.support.concurrency=false;set hive.txn.manager = org.apache.hadoop.hive.ql.lockmgr.DummyTxnManager;
2021-04-08 18:10:40
605
原创 hive将某一列拼接成json数组
刚才是用的collect_list(concat(’{’,concat(’“id_penyelenggara”:’,’“810114”’,’,’), concat('"id_pengguna":','"',a.id_pengguna,'",'), concat('"no_identitas_perwakilan":','"',no_identitas_perwakilan),'"}')) as values但是得到的结果这
2021-02-03 17:34:40
2373
原创 mysql中decimal、double和float的进位
mysql数据库的舍入模式,decimal是四舍五入,float是四舍六入五成双四舍,小于等于四舍去,六入,大于等于六则加一五成双,是五的话看前一位是双数还是单数,单则加一,双的则看5后面的大于0则进位,等于0则舍去create table testRound(num1 decimal(10,2),num2 float(10,2),num3 double(10,2));1.小数点后第二位是偶数,第三位小于5sql: INSERT INTO testRound (decimal, floa
2021-01-23 17:21:46
1216
原创 hive隐式转化的问题
hive在表关联时尽量避免隐式转化,可以使用cast强转,下面例子中tableA表的order_no是bigint类型,tableB的order_no是string类型selecta.order_no,c.order_no as c_order_no,a.order_no=c.order_nofrom tableA aleft join tableB bon a.order_no=b.order_noleft join(selectt1.order_nofrom tableA t1j
2021-01-06 18:21:33
445
转载 几个flinksql例子
一、二、在这里插入代import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.api.common.typeinfo.TypeInformation;import org.apache.flink.api.common.typeinfo.Types;impor
2021-01-04 16:43:52
920
转载 Flink 最锋利的武器:Flink SQL 入门和实战
https://blog.youkuaiyun.com/u013411339/article/details/93267838一、Flink SQL 背景Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。自 2015 年开始,阿里巴巴开始调研开源流计算引擎,最终决定基于 Flink 打造新一代计算引擎,针对 Flink 存在的不足进行优化和改进,并且在 2019 年初将最终代码开源,也就是我们熟知的 Blink。Blink 在原来的
2021-01-04 16:33:43
796
转载 hive连续登陆问题
问题描述在数据仓库中存在这样一张表,记录了2019年所有用户在哪天登录了我司的网站或者app。数据如下:表名:test2字段:id string,pday string需求:统计用户在本年中连续登录天数最大是几天?如:用户A在7月1、2、3、4日连续登录了4天;6、7、8日连续3天;11、12连续2天。用户A的当年最大连续登录天数是4天用户B在6月29日,6月30日,7月1日连续登录3天。用户B的当年最大连续登录天数是3天需要的到的结果是这样的:题目刨析此题需要将连续的天数打上相同的标
2020-12-24 22:31:07
651
原创 加载udf函数
create function array_us AS ‘udf.HiveUnserializable’ USING JAR ‘hdfs://indiaAWS/user/hive/udf/udf.jar’;
2020-12-23 14:25:21
346
转载 大表join小表之mapjoin详解
在Hive调优里面,经常会问到一个很小的表和一个大表进行join,如何优化。 Shuffle 阶段代价非常昂贵,因为它需要排序和合并。减少 Shuffle 和 Reduce 阶段的代价可以提高任务性能。 MapJoin通常用于一个很小的表和一个大表进行join的场景,具体小表有多小,由参数hive.mapjoin.smalltable.filesize来决定,该参数表示小表的总大小,默认值为25000000字节,即25M。 Hive0.7之前,需要使用hint提示 /*+ mapjoin(
2020-12-23 09:45:50
2636
原创 hive sql优化
–一、json优化–1.使用json_tuple–优化前selectcreate_time as model_time,to_date(create_time) as model_dt,uid as user_id,is_old_user,app_name,model as model_name,get_json_object(get_json_object(regexp_replace(result, ‘NaN’, ‘""’), ‘.savevariables′),′.save_var
2020-12-11 17:40:51
163
原创 hive参数设置
–动态分区set mapreduce.job.queuename=root.risk;set hive.exec.dynamici.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions.pernode=100000;set hive.exec.max.dynamic.partitions =100000;set hive.exec.max.create
2020-12-11 17:38:09
965
1
原创 Tableau开始日期结束日期以及日期维度的设置
这里写自定义目录标题Tableau开始日期结束日期以及日期维度的设置tableau官网我的案例Tableau开始日期结束日期以及日期维度的设置tableau官网问题如何根据指定的日期级别动态更改视图。例如,按年、月或日显示销售数据。环境Tableau Desktop答案以上步骤可以在附加的工作簿 dynamically change date level.twbx 中查看。单击以展开步骤步骤 1:创建自定义日期字段创建自定义日期字段,以便您可以在现有的日期字段中隔离特定的日期级别。在
2020-12-07 19:04:06
6700
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人