KANGBboy-优快云博客

原创大数据组件关系

这些技术都属于大数据生态系统，彼此存在协同关系，核心围绕数据的存储、处理、分析等环节展开。（5）Impala 与 HDFS。（2）Flink 与 HDFS。（3）Hudi 与 HDFS。（4）Kudu 与 HDFS。

2025-10-27 20:58:18 534

将此脚本保存（比如 ~/restart_openresty_with_retry.sh ）并赋予执行权限（ chmod +x ~/restart_openresty_with_retry.sh ），然后在 crontab 中配置定时任务（ 0 2 * * * /root/restart_openresty_with_retry.sh ），即可实现每天 2 点定时循环尝试重启 Nginx。nginx定时重启及失败重试。

2025-09-23 20:48:15 278

原创 openresty + lua实现数据解析

2025-09-14 21:48:25 375

原创 hive udf 执行一次调用多次问题

尤其当 UDF 里有固定参数拼接（像你 SQL 里构造固定请求体），Hive 校验阶段可能会提前执行 UDF 逻辑，导致额外调用。执行计划里仅显示 Stage-0 （属于客户端本地阶段，无分布式计算），且扫描的是 dummy_table （Hive 虚拟表，仅用于返回固定值，无需 MapReduce 处理）。原理：Hive 校验阶段仅检查表字段引用，不会实际执行 AppMktApi ，仅实际执行阶段（扫描表时）触发 1 次调用。这样 Hive 校验阶段无实际参数，不会触发接口调用。

2025-09-02 21:22:38 258

原创 hadoop 前端yarn 8088端口查看任务执行情况

但聚合资源分配的内存时间积分（ 2612397662 MB-seconds ）远大于被抢占的资源积分（ 24922718 MB-seconds ），说明容器内存申请过高，实际使用不足，需降低容器内存请求。设置 tez.am.container.reuse.enabled=true ，允许AM容器复用，减少YARN调度 overhead，尤其适合短任务场景。一、核心参数调整：减少资源抢占，匹配实际需求。

2025-08-13 21:30:02 926

原创 oracle mysql相关内容

oracle mysql

2025-08-04 11:28:00 982

原创 hive udf 调用接口并且获取调用的内容及返回的结果调用的ip要进行判断以降低调用风险，同时避免重复请求相同的 API

例如想在hive调用这个。

2025-07-29 21:31:49 235

原创 hive udf 调用接口并且获取调用的内容及返回的结果调用的ip要进行判断以降低调用风险

注意使用临时表 tmp或者with as 先调用再单独落表，否则作为子查询会调用多次，出现重复调用。例如想在hive调用这个。

2025-07-29 21:26:06 192

原创 hive udf 调用接口并且获取调用的内容及返回的结果

注意使用临时表 tmp或者with as 先调用再单独落表，否则作为子查询会调用多次，出现重复调用。例如想在hive调用这个。

2025-07-29 21:17:23 349

原创 linux操作

是一个在类 Unix 系统（如 Linux）中常用的命令组合，用于统计当前系统中所有 TCP 网络连接的总数，包括监听状态（LISTEN）和非监听状态（如 ESTABLISHED、TIME_WAIT 等）的连接。2 当前系统中处于非监听状态的TCP网络连接数。1 查看文件大小用MB显示。

2025-07-01 13:55:51 87

原创 kafka使用

【代码】kafka使用。

2025-06-18 11:03:26 375

原创 mysq相关内容

mysql创建用户授权等

2025-05-13 09:44:14 155

原创 hivesql执行顺序详细

where --> join --> group by --> having --> 开窗 --> order by --> limit --> select。连接、分组、过滤、窗口函数计算、排序和限制行数等。

2025-05-09 11:02:21 559

原创 python 试题

题目：给定一个由若干整数组成的数组nums,可以在数组内的任意位置进行分割，将该数组分割成两个非空子数组(即左数组和右数组)，分别对子数组求和得到两个值，计算这两个值的差值，请输出所有分割方案中，差值最大的值。输入： “第一行输入数组中元素个数n，1＜n＜=100000，第二行输入数字序列，以空格进行分隔，数字取值为4字节整数”1、分割数组的最大差值。输出：差值的最大取值。

2025-03-29 18:15:19 275

原创游乐园门票的类

计算2个成人+1个小孩平日票价。平日票价100元,周末票价为平日的120%,儿童半票。

2024-11-17 17:00:23 299

原创 ES查询索引别名

es curl使用

2024-11-08 12:08:47 1505

原创 Hive Metastore 查分区大小批量建表语句

hive metastore使用

2024-10-23 22:43:26 1022

原创 hive 正则表达式

2024年6月1日公告: 1、“三力转债”到期日和兑付登记日:2024年6月7日(星期五) 2、“三力转债”到期兑付价格:106元/张(含最后一期利息,含税) 3、“三力转债”到期兑付资金发放日:2024年6月11日(星期二) 4、“三力转债”摘牌日:2024年6月11日(星期二) 5、“三力转债”最后交易日:2024年6月4日(星期二) 6、“三力转债”最后转股日:2024年6月7日(星期五)‘, ‘交易日:+(\d+年\d+月\d+日)’), ‘yyyy年MM月dd日’), ‘yyyyMMdd’)

2024-08-08 21:45:08 1536

原创 python修改文件夹名称及文件夹下文件内容替换不改变word格式

【代码】python修改文件夹名称及文件夹下文件内容替换不改变word格式。

2024-07-27 14:26:51 257

原创 row_number排序

对指定数据排序后row_number。

2024-07-18 17:07:56 618

原创 python修改文件夹名称及文件夹下文件内容替换

【代码】python修改文件夹名称及文件夹下文件内容替换。

2024-07-18 17:03:36 228

原创 kerberos认证

##hdfs用户下，认证hive和hdfs，后面同上。###打印一下，方便排错。####执行认证操作。

2024-05-06 14:20:54 1079

原创 hive 生产问题汇总

1、全转decimal相加，不然会被强制转decail，如result2：两个declimal计算不会造成精度丢失， double和decimal计算可能造成精度缺失，hive中double和decimal两个类型计算会返回double，有可能造成精度缺失。而在向量化查询执行中，每次处理包含多行记录的一批数据，每一批数据中的每一列都会被存储为一个向量（一个原始数据类型的数组），这就极大地减少了执行过程中的方法调用、反序列化和不必要的if-else操作，大大减少CPU的使用时间。

2023-12-27 09:32:16 1868 1

原创 hive 报错问题

向量化查询执行是 Hive 的一项功能，可大大减少典型查询操作(如扫描，过滤器，聚合和联接)的 CPU 使用率。向量化查询执行通过一次处理一个 1024 行的块来简化操作。通过有效地使用处理器管道和高速缓存，这些循环以精简的方式进行编译，该方式使用相对较少的指令，并平均在较少的时钟周期内完成每条指令。向量化查询(Vectorized query) 每次处理数据时会将1024行数据组成一个batch进行处理，而不是一行一行进行处理，这样能够显著提高执行速度。– 默认情况下，矢量化执行是关闭的；

2023-11-21 13:55:20 1315

原创 hive 临时表、regexp_replace、get_json_object、explode、spli、regexp_extract、substring_index混用

hive 临时表、regexp_replace、get_json_object、explode、spli混用

2023-03-07 22:08:12 338

原创 shell脚本删除视图、mysql 判断是否删除完成

删除视图表function deleteViewTable() {# 声明要删除的表tableList=“keepa_view.v4_country_weekend keepa_view.v4_country_class keepa_view.v4_country_class30 keepa_view.v4_analysis_of_attribute_namekeepa_view.v4_analysis_of_attribute_name_detail keepa_view.v4_analysis_

2023-02-18 14:38:50 277

原创 hive创建临时表并插入csv

hive创建临时表并插入csv

2023-02-01 08:39:24 890

原创 python 1234 = 1+2+3+4 =10

实现一个整数的数字相加，如123 = 1+2+3 = 6

2022-06-14 12:08:41 1309

原创 hive面试题

用SQL判断字段串中连续出现两个以上的数字，并返回对应的数字with a as (select explode(split(regexp_replace(‘sdfsd1232sdf324’,’[0-9]+’,’,’),’,’)) col) select * from a where LENGTH(col)>1结果为sdfsdsdf

2022-04-12 17:23:48 1775 1

原创 clickhouse

SELECT Account,toInt64（arrayStringConcat(extractAll(Account, ‘[0-9]’),’’)） from finance_new_result.profit_resultclickhouse正则表达式提取字符串数字select Account, alphaTokens(Account),splitByChar(’-’,Account),arrayElement(splitByChar(’-’,Account),1) a,arrayElement(al

2022-03-23 13:34:39 4209

原创使用spark将MySQL数据导入hive

import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object spark_from_mysql_to_hive {def main(args: Array[String]): Unit = {val spark: SparkSession = SparkSession.builder().master(“local[*]”).enableHiveSupport().config(“spark.debug.maxToStri

2022-03-10 18:14:05 2849

原创 spark执行结果不打印日志,pom.xml配置

spark打印日志设置

2022-01-16 15:19:58 1301

原创 hive大小文件合并

hive -e “set tez.queue.name=usershell; 启用哪个队列set hive.execution.engine=tez; 启用引擎set hive.merge.tezfiles=true; 开启合并set hive.merge.smallfiles.avgsize=16000000; 文件合并标准（低于16000000kb进行合并）set hive.merge.size.per.task=128000000;文件合并大小（最终文件大于128000000后，停止合并，合

2021-09-28 19:37:23 4555

原创 hive 行列转化

select explode(split(regexp_replace(‘sdfsd1232sdf324’,’[0-9]+’,’,’),’,’))union allselect explode(split(regexp_replace(‘sdfsd1232sdf324’,’[a-z]+’,’,’),’,’))select regexp_extract(‘honeymoon’, ‘hon(.*?)(moon)’,2);select explode(array(‘A’,‘B’,‘C’))select

2021-09-28 16:17:40 308

原创 shell传参实时计算脚本

#!/bin/bashstar=date +'%Y-%m-%d %H:%M:%S'echo $(date “+%Y-%m-%d %H:%M:%S”);echo currency:$1;currency=1;echo"1;echo "1;echo"currency";echo Platform:$2;Platform=2;echo"2;echo "2;echo"Platform";echo Country:$3;Country=3;echo"3;echo "3;echo"Country"

2021-09-16 10:50:22 218

翻译 sqoop

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-09-01 09:05:52 487

openresty + lua实现数据解析

空空如也