- 博客(40)
- 收藏
- 关注
原创 大数据组件关系
这些技术都属于大数据生态系统,彼此存在协同关系,核心围绕数据的存储、处理、分析等环节展开。(5)Impala 与 HDFS。(2)Flink 与 HDFS。(3)Hudi 与 HDFS。(4)Kudu 与 HDFS。
2025-10-27 20:58:18
534
原创 nginx定时重启及失败重试
将此脚本保存(比如 ~/restart_openresty_with_retry.sh )并赋予执行权限( chmod +x ~/restart_openresty_with_retry.sh ),然后在 crontab 中配置定时任务( 0 2 * * * /root/restart_openresty_with_retry.sh ),即可实现每天 2 点定时循环尝试重启 Nginx。nginx定时重启及失败重试。
2025-09-23 20:48:15
278
原创 openresty + lua实现数据解析
cat /proc/cpuinfo |grep “processor”|wc -l 逻辑cpu的个数 物理cpu个数*核数=逻辑cpu个数(不支持超线程技术的情况下)cat /proc/cpuinfo |grep “physical id”|sort|uniq|wc -l 查看物理cpu个数。cat /proc/cpuinfo |grep “cpu cores”|wc -l 查看每个物理cpu中的core个数。./nginx 或者 ./nginx -d。cat ~/.ssh/id_rsa 查看私钥。
2025-09-14 21:48:25
375
原创 hive udf 执行一次调用多次问题
尤其当 UDF 里有固定参数拼接(像你 SQL 里构造固定请求体),Hive 校验阶段可能会提前执行 UDF 逻辑,导致额外调用。执行计划里仅显示 Stage-0 (属于客户端本地阶段,无分布式计算),且扫描的是 dummy_table (Hive 虚拟表,仅用于返回固定值,无需 MapReduce 处理 )。原理:Hive 校验阶段仅检查表字段引用,不会实际执行 AppMktApi ,仅实际执行阶段(扫描表时)触发 1 次调用。这样 Hive 校验阶段无实际参数,不会触发接口调用。
2025-09-02 21:22:38
258
原创 hadoop 前端yarn 8088端口查看任务执行情况
但聚合资源分配的内存时间积分( 2612397662 MB-seconds )远大于被抢占的资源积分( 24922718 MB-seconds ),说明容器内存申请过高,实际使用不足,需降低容器内存请求。设置 tez.am.container.reuse.enabled=true ,允许AM容器复用,减少YARN调度 overhead,尤其适合短任务场景。一、核心参数调整:减少资源抢占,匹配实际需求。
2025-08-13 21:30:02
926
原创 hive udf 调用接口并且获取调用的内容及返回的结果 调用的ip要进行判断以降低调用风险,同时避免重复请求相同的 API
例如想在hive调用这个。
2025-07-29 21:31:49
235
原创 hive udf 调用接口并且获取调用的内容及返回的结果 调用的ip要进行判断以降低调用风险
注意使用临时表 tmp或者with as 先调用再单独落表,否则作为子查询会调用多次,出现重复调用。例如想在hive调用这个。
2025-07-29 21:26:06
192
原创 hive udf 调用接口并且获取调用的内容及返回的结果
注意使用临时表 tmp或者with as 先调用再单独落表,否则作为子查询会调用多次,出现重复调用。例如想在hive调用这个。
2025-07-29 21:17:23
349
原创 linux操作
是一个在类 Unix 系统(如 Linux)中常用的命令组合,用于统计当前系统中所有 TCP 网络连接的总数,包括监听状态(LISTEN)和非监听状态(如 ESTABLISHED、TIME_WAIT 等)的连接。2 当前系统中处于非监听状态的TCP网络连接数。1 查看文件大小 用MB显示。
2025-07-01 13:55:51
87
原创 hivesql执行顺序详细
where --> join --> group by --> having --> 开窗 --> order by --> limit --> select。连接、分组、过滤、窗口函数计算、排序和限制行数等。
2025-05-09 11:02:21
559
原创 python 试题
题目:给定一个由若干整数组成的数组nums,可以在数组内的任意位置进行分割,将该数组分割成两个非空子数组(即左数组和右数组),分别对子数组求和得到两个值,计算这两个值的差值,请输出所有分割方案中,差值最大的值。输入: “第一行输入数组中元素个数n,1<n<=100000,第二行输入数字序列,以空格进行分隔,数字取值为4字节整数”1、分割数组的最大差值。输出: 差值的最大取值。
2025-03-29 18:15:19
275
原创 hive 正则表达式
2024年6月1日公告: 1、“三力转债”到期日和兑付登记日:2024年6月7日(星期五) 2、“三力转债”到期兑付价格:106元/张(含最后一期利息,含税) 3、“三力转债”到期兑付资金发放日:2024年6月11日(星期二) 4、“三力转债”摘牌日:2024年6月11日(星期二) 5、“三力转债”最后交易日:2024年6月4日(星期二) 6、“三力转债”最后转股日:2024年6月7日(星期五)‘, ‘交易日:+(\d+年\d+月\d+日)’), ‘yyyy年MM月dd日’), ‘yyyyMMdd’)
2024-08-08 21:45:08
1536
原创 hive 生产问题汇总
1、全转decimal相加,不然会被强制转decail,如result2:两个declimal计算不会造成精度丢失, double和decimal计算可能造成精度缺失,hive中double和decimal两个类型计算会返回double,有可能造成精度缺失。而在向量化查询执行中,每次处理包含多行记录的一批数据,每一批数据中的每一列都会被存储为一个向量(一个原始数据类型的数组),这就极大地减少了执行过程中的方法调用、反序列化和不必要的if-else操作,大大减少CPU的使用时间。
2023-12-27 09:32:16
1868
1
原创 hive 报错问题
向量化查询执行是 Hive 的一项功能,可大大减少典型查询操作(如扫描,过滤器,聚合和联接)的 CPU 使用率。向量化查询执行通过一次处理一个 1024 行的块来简化操作。通过有效地使用处理器管道和高速缓存,这些循环以精简的方式进行编译,该方式使用相对较少的指令,并平均在较少的时钟周期内完成每条指令。向量化查询(Vectorized query) 每次处理数据时会将1024行数据组成一个batch进行处理,而不是一行一行进行处理,这样能够显著提高执行速度。– 默认情况下,矢量化执行是关闭的;
2023-11-21 13:55:20
1315
原创 hive 临时表、regexp_replace、get_json_object、explode、spli、regexp_extract、substring_index混用
hive 临时表、regexp_replace、get_json_object、explode、spli混用
2023-03-07 22:08:12
338
原创 shell脚本删除视图、mysql 判断是否删除完成
删除视图表function deleteViewTable() {# 声明要删除的表tableList=“keepa_view.v4_country_weekend keepa_view.v4_country_class keepa_view.v4_country_class30 keepa_view.v4_analysis_of_attribute_namekeepa_view.v4_analysis_of_attribute_name_detail keepa_view.v4_analysis_
2023-02-18 14:38:50
277
原创 hive面试题
用SQL判断字段串中连续出现两个以上的数字,并返回对应的数字with a as (select explode(split(regexp_replace(‘sdfsd1232sdf324’,’[0-9]+’,’,’),’,’)) col) select * from a where LENGTH(col)>1结果为sdfsdsdf
2022-04-12 17:23:48
1775
1
原创 clickhouse
SELECT Account,toInt64(arrayStringConcat(extractAll(Account, ‘[0-9]’),’’)) from finance_new_result.profit_resultclickhouse正则表达式提取字符串数字select Account, alphaTokens(Account),splitByChar(’-’,Account),arrayElement(splitByChar(’-’,Account),1) a,arrayElement(al
2022-03-23 13:34:39
4209
原创 使用spark将MySQL数据导入hive
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object spark_from_mysql_to_hive {def main(args: Array[String]): Unit = {val spark: SparkSession = SparkSession.builder().master(“local[*]”).enableHiveSupport().config(“spark.debug.maxToStri
2022-03-10 18:14:05
2849
原创 hive大小文件合并
hive -e “set tez.queue.name=usershell; 启用哪个队列set hive.execution.engine=tez; 启用引擎set hive.merge.tezfiles=true; 开启合并set hive.merge.smallfiles.avgsize=16000000; 文件合并标准(低于16000000kb进行合并)set hive.merge.size.per.task=128000000;文件合并大小(最终文件大于128000000后,停止合并,合
2021-09-28 19:37:23
4555
原创 hive 行列转化
select explode(split(regexp_replace(‘sdfsd1232sdf324’,’[0-9]+’,’,’),’,’))union allselect explode(split(regexp_replace(‘sdfsd1232sdf324’,’[a-z]+’,’,’),’,’))select regexp_extract(‘honeymoon’, ‘hon(.*?)(moon)’,2);select explode(array(‘A’,‘B’,‘C’))select
2021-09-28 16:17:40
308
原创 shell传参实时计算脚本
#!/bin/bashstar=date +'%Y-%m-%d %H:%M:%S'echo $(date “+%Y-%m-%d %H:%M:%S”);echo currency:$1;currency=1;echo"1;echo "1;echo"currency";echo Platform:$2;Platform=2;echo"2;echo "2;echo"Platform";echo Country:$3;Country=3;echo"3;echo "3;echo"Country"
2021-09-16 10:50:22
218
翻译 sqoop
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
2021-09-01 09:05:52
487
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅