一方诸侯-优快云博客

原创 spark word count两种方式(sparksql(SparkSession)和sparkcore(SparkContext))

【代码】spark word count两种方式(sparksql(SparkSession)和sparkcore(SparkContext))

2025-07-15 17:13:04 143

原创 Spark UDF几种写法

使用： val validJsonData = pbData.filter(isValidJson(col(“value”)))objectMapper.registerModule(DefaultScalaModule) // 注册Scala模块。objectMapper.readTree(text) // 尝试解析JSON。// 创建 ObjectMapper 以解析 JSON。// 自定义UDF，检查字符串是否是有效的JSON。) // 返回布尔值，表示解析是否成功。

2025-07-01 16:49:33 378

原创 hive sql常用命令（二）持续更新

一、从第一行到当前行（时间排序）最后一个非空置、从当前行到最后一行（时间排序）第一个非空置last_value(user_id, true) over(order by create_time rows between UNBOUNDED PRECEDING and CURRENT ROW)first_value(user_id, true) over(order by create_time rows between CURRENT ROW and UNBOUNDED FOLLOWING)

2025-03-05 10:20:51 338

原创 git工作用到的命令

由于提交到master分支后由创建了新分支shumin_01，由重新提交到新分支，报错无法提交，进行下面的操作。如果是其它分支，则git push origin HEAD:refs/for/分支名。第三部 git push origin HEAD:refs/for/master。git commit -m “您的commit提交说明”在修改之前记得先 git pull 更行到最新状态。第二步 git commit -m “备注”一般提交时只用到简单三个命令。之后添加同学进行cr。

2024-08-05 19:19:06 257 1

原创 git常见问题

提交评审：git push origin HEAD:refs/for/master撤回add：git reset HEAD .撤回commit：git reset --soft HEAD^查看变更文件名：git diff --name-only再次提交到同一commit：除了第二步git commit --amend其他不变指定分支拉代码： git clone -b dev http://10.1.1.11/service/tmall-service.git。

2024-08-05 19:17:36 731

原创代码冲突解决办法

git commit -m “合并分支，注释随意，现在应该写icafe卡片id”Step2. 依据提示分别打开冲突的文件, 逐一修改冲突代码。git merge --no-ff origin/分支。Step3. 所有冲突都修改完毕后, 提交修改的代码。Step1. 在本地仓库中, 更新并合并代码。2、分支merge到主干时冲突。Step4. 更新patch。1、代码提交时有冲突。

2024-08-05 19:16:45 672

原创 doris的explode的使用

where split_part(type1,‘:’,1) = ‘角色扮演’

2024-08-05 17:19:48 483

原创 palo（doris）表分区的正确使用

2、使用date（date(create_time) = ‘2024-05-05’）或者date_format转化，读取所有分区（因为只存了31天数据，所以读取了31个分区）一、对于日期分区，分区字段不可使用date_format等进行格式转化，否则分区字段失去分区意义而进行全表扫描。二、对于分区字段如果要用枚举值，要使用in，不能使用not in，否则分区字段失去分区意义，而进行整体扫描。3、限制souce分区，使用 in，限制几个分区就读几个分区，本示例读取5个分区。

2024-08-05 17:19:02 541

原创 hive常用的命令（一）

hive sql的一些常用命令

2024-08-05 17:12:52 587

原创 google的protobuf安装

亲测1、https://github.com/protocolbuffers/protobuf/releases/tag/v2.4.1 下载protobuf-2.4.1.tar.gz2、 tar xvf protobuf-2.1.1.tar.gzcd protobuf-2.5.0./configuresudo makesudo make install注意：make时可能会报错 3 errors generated. make[2]: *** [message.lo] Er

2021-05-25 10:43:15 796 1

原创 hive乱码修改mysql元数据字符集

alter database hive character set latin1;#修改表字段注解和表注解alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;#修改分区字段注解alter table PARTITION_KEYS m

2021-04-09 17:38:31 226

原创解决hive表被锁的参数设置

set hive.support.concurrency=false;set hive.txn.manager = org.apache.hadoop.hive.ql.lockmgr.DummyTxnManager;

2021-04-08 18:10:40 641

原创 hive将某一列拼接成json数组

刚才是用的collect_list(concat(’{’,concat(’“id_penyelenggara”:’,’“810114”’,’,’), concat('"id_pengguna":','"',a.id_pengguna,'",'), concat('"no_identitas_perwakilan":','"',no_identitas_perwakilan),'"}')) as values但是得到的结果这

2021-02-03 17:34:40 2473

原创 mysql中decimal、double和float的进位

mysql数据库的舍入模式，decimal是四舍五入，float是四舍六入五成双四舍，小于等于四舍去，六入，大于等于六则加一五成双，是五的话看前一位是双数还是单数，单则加一，双的则看5后面的大于0则进位，等于0则舍去create table testRound(num1 decimal(10,2),num2 float(10,2),num3 double(10,2));1.小数点后第二位是偶数，第三位小于5sql： INSERT INTO testRound (decimal, floa

2021-01-23 17:21:46 1316

原创 flinksql +I -U +U -D解释

是前，+是后，I是插入，U是更新，D是删除如 -U是更新前的数据，+U是更新后的数据

2021-01-19 09:49:19 3114

原创 hive隐式转化的问题

hive在表关联时尽量避免隐式转化，可以使用cast强转，下面例子中tableA表的order_no是bigint类型，tableB的order_no是string类型selecta.order_no,c.order_no as c_order_no,a.order_no=c.order_nofrom tableA aleft join tableB bon a.order_no=b.order_noleft join(selectt1.order_nofrom tableA t1j

2021-01-06 18:21:33 473

原创 hadoop的几个命令

删除(跳过)回收站hadoop fs -rm -r -skipTrash /user/risk/.Trash/*

2021-01-05 09:51:58 134

转载几个flinksql例子

一、二、在这里插入代import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.api.common.typeinfo.TypeInformation;import org.apache.flink.api.common.typeinfo.Types;impor

2021-01-04 16:43:52 977

转载 Flink 最锋利的武器：Flink SQL 入门和实战

https://blog.youkuaiyun.com/u013411339/article/details/93267838一、Flink SQL 背景Flink SQL 是 Flink 实时计算为简化计算模型，降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。自 2015 年开始，阿里巴巴开始调研开源流计算引擎，最终决定基于 Flink 打造新一代计算引擎，针对 Flink 存在的不足进行优化和改进，并且在 2019 年初将最终代码开源，也就是我们熟知的 Blink。Blink 在原来的

2021-01-04 16:33:43 868

weixin_42303014的博客