自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(243)
  • 资源 (2)
  • 收藏
  • 关注

原创 Workload Group和Resource Group两种资源管理方案协同

设置user1这个用户执行的查询,只使用新资源组中的节点,同样会受到其所在BE节点上Workload Group策略的管控。1-将新数据分布在特定资源组,建表时通过replication_allocation属性指定。– 添加新的后端节点,并划入名为“new_servers”的资源组。2.1数据分布:通过修改表的属性,为其在新资源组中分配副本。原有的Workload Group资源划分不会受到影响。2.2查询路由:将特定用户或任务的查询绑定到新的资源组。2-为现有表在新资源组增加一个副本。

2025-11-24 11:32:38 77

原创 flink/spark/hive 使用paimon

Spark on Hive(kyuubi)使用paimon。Spark Jar使用paimon。Flink使用paimon。

2025-11-22 11:11:19 302

原创 paimon原理学习

2025-11-22 10:51:38 61

原创 flink-paimon建表建议

小文件合并策略,当存在10个level 0级文件则触发minor合并。string comment ‘月分区’,– 设置分桶 单个分桶文件建议大小200M -1G,根据数据量调整。– 依照时间字段去重(新数据更新老数据) 根据业务调整。– 快照最多保留个数 根据业务调整。– 快照保留1天 根据业务调整。– Hive HMS分区同步。

2025-11-18 14:12:01 310

原创 CTE到临时表更新

改造前:with dwd_test_detail as (select …tmp(开头)+表名+批次号(结尾)

2025-11-10 10:46:20 305

原创 AI写的killyarnjob代码!

#!/bin/bash#set -xsource /etc/profilekinit -kt /etc/security/keytabs/smokeuser.headless.keytab ocdp-goertekvn@GOERTEK.VNPRIMARY_NODE=“vn-ns-bpit-dp-nn-17-6”SECONDARY_NODE=“vn-ns-bpit-dp-nn-17-7”PORT=“8088”check_node_availability() {local node=1ifcurl−−

2025-10-30 08:22:02 226

原创 rule规则双向识别

RULE:s/./ocdp/RULE:s/@.//RULE:s/./ocdp/RULE:s/@.//RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/

2025-09-27 13:56:29 430

原创 CDH 增加动态队列

d.提交访问控制:配置用户权限,配置哪些用户有权限提交任务,注意用逗号分隔(可默认不配);(1)default:默认池,没有划分资源池的用户会提交到default资源池。users池配置跟default基本一样,唯一区别是权限控制所对应用户有所调整。e.管理访问控制:配置用户对资源池的管理权限,注意用逗号分开(可默认不配);a.这里权重为10%,default:users 资源成1:9;2、CDH动态资源队列配置,根据用户的资源队列管理。(2)users池:特定用户提交任务到该池。

2025-08-01 08:37:43 194

原创 浏览器访问kerberos集群webUI详细配置

将其值设置为Kerberos客户端的gssapi32.dll(32位)或gssapi64.dll(64位)的完整路径: C:\Program Files\MIT\Kerberos\bin\gssapi64.dll。按下Win + R,输入cmd,然后按回车,查看type C:\ProgramData\MIT\Kerberos5\krb5.ini。按下Win + R,输入cmd,然后按回车,查看type C:\Windows\System32\drivers\etc\hosts。

2025-07-29 16:49:20 621

原创 配置yarn进行用户只能看到自己的job

配置yarn进行用户只能看到自己的job:在yarn-site.xml 中增加yarn.webapp.filter-entity-list-by-user=true。

2025-07-29 11:28:26 159

原创 nifi 访问Kerberos的kafka集群

data12/nifi/nifi-1.28.1/bin/nifi.sh restart # 重启(需滚动执行)/data12/nifi/nifi-1.28.1/bin/nifi.sh status # 查看状态。首先添加ExecuteSql处理器,用来从MySQL中读取数据。接着右键configuration进行配置:configure。1、添加读取MySQL数据的处理器-ExecuteSql。添加一个数据源:dbcpconnectionpool。2、添加数据转换处理器-ConvertRecord。

2025-07-28 20:03:24 263

原创 kafka开启Kerberos使用方式

开启debug: export KAFKA_OPTS=“-Dlog4j.debug=true -Dkafka.logs.dir=/path/to/logs”

2025-07-28 19:20:57 467

原创 CDH yarn 重启后RM两个备

若输出只有[ActiveBreadCrumb](正常应有[ActiveBreadCrumb, ActiveStandbyElectorLock])setAcl /rmstore/ZKRMStateRoot/RMAppRoot world:anyone:rwcda # 开放权限。deleteall /rmstore/ZKRMStateRoot/RMAppRoot # 再次删除。getAcl /rmstore/ZKRMStateRoot/RMAppRoot # 查看ACL。

2025-07-24 21:47:13 258

原创 ranger-hive-表-权限

ranger 赋权hive表,HDFS中必须要 /apps/hive/warehouse的写权限。

2025-07-17 18:31:21 175

原创 cron监控进程逻辑

【代码】cron监控进程逻辑。

2025-07-14 19:09:22 452

原创 IT技术趋势调研

https://www.caict.ac.cn/kxyj/qwfb/bps/ 信通院。三大研究咨询机构:forrester Gartner IDC。

2025-07-11 14:22:25 100

原创 nifi1.28.1集群部署详细记录

NiFi 1.28.1 必须使用JDK 1.8或更高版本,低于此版本将无法运行。验证命令:java -version配置一定用主机名!!!

2025-06-30 08:09:42 982

原创 cloudera manager 页面启动nodemanager失败,后端没有启动 8040

2、nm重启会去cache里面 recovering任务,但是这些任务已经过时导致一直起不来,解决办法就是删除这些cache!nodemanager异常失败后,cloudera manager页面启动nodemanager失败,后端没有启动8040。问题分析:查看日志hadoop-cmf-yarn-NODEMANAGER-IT-CDH-Node36.log.out 发现。进程OOM,8042端口注册不上!1、由于这台机器上跑大任务,导致内存不足,报警写到/tmp目录下,产生很多大文件,进而导致磁盘不足!

2025-06-18 13:34:25 359

原创 crontab 定时任务不执行问题排查

export PATH=/usr/local/spark/bin:$PATH # 手动添加路径。*/5 * * * * sh /data03/jq/sparkjob.sh 定时任务不执行!Cron 环境变量与用户Shell不同,可能导致脚本中命令找不到。source /etc/profile # 加载系统环境变量。Cron默认丢弃输出,错误信息无法查看。

2025-05-16 13:58:05 355

原创 yarn任务筛选spark任务,判断内存/CPU使用超过限制任务

yarn任务筛选spark任务,判断内存/CPU使用超过限制任务。

2025-05-15 15:58:58 421

原创 jq安装与使用

jq使用:https://www.cnblogs.com/liugp/p/17613011.html。1、https://jqlang.org/ 下载jq-linux-amd64。3、上传jq-linux-amd64至/usr/local/jq目录下。2、新建目录/usr/local/jq。

2025-05-15 15:57:26 385

原创 kafka topic 的leader为none问题处理

Kafka zookeeper.session.timeout.ms 30000 Kafka 与 ZooKeeper 会话超时时间。Kafka controlled.shutdown.enable true 确保 Broker 关闭前迁移 Controller。修改zookeeper.session.timeout.ms 为60s,重启broker后恢复。ZooKeeper maxSessionTimeout 60000 最大会话超时时间(毫秒)

2025-04-17 17:29:35 253

原创 hugegraph搭建及使用

查找子树,查找从一个节点出发,到叶子节点结束的所有路径,这些路径的集合为一颗子树(子图)#查询顶点,一般作为图查询的第1步,后面可以续接的语句种类繁多。#查询所有关联的边及相邻顶点(路径模式)查找从节点出发的所有路径(到叶子节点)#根据属性查顶点,需要建立索引。#查询所有顶点的id。

2025-04-15 15:44:10 497

原创 yarn任务临时目录暴增问题处理

tmp/hive/hive/97bed9ea-95f7-4ddd-aeed-6dda3e611684(UUID标识符,这是Hive会话或查询的唯一标识符,可用于关联日志。由于日志暴增,会导致hdfs占用暴增,可能导致集群崩溃!yarn任务临时目录暴增问题。

2025-04-15 11:17:45 191

原创 doris-streamloader 导数验证

curl --location-trusted -u admin:XXX -H “Expect:100-continue” -H “column_separator:,” -H “columns:id,domain,project_name,pn_code,wo_code,line_code,line_name,process_code,process_name,section_code,section_name,station_code,station_name,user_code,assess_r

2025-04-07 16:40:37 472

原创 hive/doris查询表的创建和更新时间

doris查询表的创建和更新时间。

2025-04-07 16:07:51 464

原创 dataX运行原理学习

求出 TaskGroup 的数量之后,就会执行公平分配策略,将 Task 平均分配个每个 TaskGroup,最后执行调度,完成整个同步作业。Task:根据不同数据源的切分策略,一个Job会切分为多个Task,Task是DataX作业的最小单元,每个Task负责一部分数据的同步工作。Framework:用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。假设 A 库有表 0、1、2,B 库上有表 3、4,C 库上有表 5、6、7,如果此时有 4 个。

2025-04-07 11:49:21 601

原创 hive通过元数据库删除分区操作步骤

删除分区参数(PARTITION_PARAMS,如果有)– 删除分区键值(PARTITION_KEY_VALS)– 可选:删除统计信息(PART_COL_STATS)2、 查询分区的PART_ID和SD_ID。– 删除存储描述(SDS,确保无其他引用)– 删除分区记录(PARTITIONS)1、查询分区的DB_ID、TBL_ID。– 根据分区键值查找PART_ID。– 获取数据库ID-26110。–第二个分区键month的值。–第一个分区键year的值。–第三个分区键type的值。

2025-04-07 11:15:01 587

原创 iptables只允许指定网段的ip访问某端口配置

yum install -y iptables-services #安装systemctl restart iptables.service #重启防火墙使配置生效systemctl enable iptables.service #设置防火墙开机启动systemctl disable iptables.service #禁止防火墙开机启动iptables -F 清除所有链的规则。

2025-04-02 15:47:57 1334

原创 doris 用户连接数限制问题

通过 SHOW PROPERTY FOR ‘Billie’ LIKE ‘%max_user_connections%’;通过 SET PROPERTY FOR ‘Billie’ ‘max_user_connections’ = ‘200’;用户同一时间点可使用的 instance 个数, 默认是-1,小于等于0将会使用配置 default_max_query_instances.

2025-04-02 11:49:28 1757 1

原创 hive-doris时区不一致排查

依赖系统时间: date +“%Z %z”

2025-03-19 08:35:19 382

原创 Spark任务AM复用导致任务混乱

yarn.resourcemanager.am.liveness-monitor.interval-ms =1000 --RM检查AM存活状态的时间间隔(单位为毫秒,默认1s)。yarn.am.liveness-monitor.expiry-interval-ms = 1000 --AM在无响应后判定为失效的时间阈值(单位为毫秒,m默认10分钟)。spark-submit 增加参数。

2025-03-12 11:35:56 313

原创 linux快捷使用

【代码】linux快捷使用。

2025-03-11 15:58:08 165

原创 initial executor number 10 must between min executor number 1 and max executor number 8 问题处理

1、静态 Executor 数量分配(禁用动态分配)2、动态资源分配(启用动态分配)

2025-03-10 16:30:37 146

原创 进程延迟告警脚本

DATE"’&alert_host=调度任务延迟告警&alert_level=Error&alert_info=调度 {} 延迟&obj_id=assembly’

2025-03-06 20:27:50 294

原创 jvm线程状态样例

在 “Entry Set”中等待的线程状态是 “Waiting for monitor entry”,而在 “Wait Set”中等待的线程状态是 “in Object.wait()”。含义:可能是一个全局锁阻塞住了大量线程,如果短时间内多次打印的 thread dump 文件反映,随着时间流逝,waiting for monitor entry 的线程越来越多,没有减少的趋势,可能意味着某些线程在临界区里呆的时间太长了,以至于越来越多新线程迟迟无法进入临界区。那么当前谁持有这个锁呢?

2025-02-28 09:39:04 812

原创 JVM线程分析详解

【代码】JVM线程分析详解。

2025-02-27 16:41:44 503

原创 .hive-staging_hive临时文件处理

通过spark-sql、hive-sql、hue等提交select或者insert overwrite等sql到hive时,会产生该目录,用于临时存放执行结果,比如insert overwrite会将结果暂存到该目录下,待任务结束,将结果复制到hive表中。hql任务执行失败时,这些临时文件和目录不会被自动删除掉,直到有相关的hql执行成功时,才会自动删掉。

2025-02-27 15:21:47 448

原创 Deepseek 组合使用场景学习

内容生成:用自然语言向 DeepSeek 描述需求(如「生成新能源汽车行业分析 PPT 大纲」),输出结构化内容框架。动态优化:输入指令调整排版(如「将数据图表替换为动态可视化」),AI 自动优化布局。迭代优化:基于反馈意见(如「增加金属质感」),DeepSeek 自动优化生成指令。事件识别:AI 分析摄像头/传感器数据,自动分类事件(如「交通拥堵/管道泄漏」)。计划生成:定制训练方案(如「增肌阶段:每周 4 次力量训练+蛋白质摄入建议」)。

2025-02-24 18:06:48 1756

原创 hive 编译慢问题处理

修改CDH配置,打开并行编译!

2025-02-18 16:43:25 761

java连接数据库万能代码

很好用的额、、、、经过多次实践证明,连接没有问题啊

2012-10-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除