- 博客(249)
- 资源 (2)
- 收藏
- 关注
原创 hadoop平台问题总结
控制 Hive 是否将 CTE(WITH 子句)的结果物化(materialize)到临时表中,以避免重复计算。不创建HDFS目录:/user/hive/warehouse/target_table/dt=20251214/true:使用 Spark 内置的 Parquet 数据源(更快、功能更全)1、解决spark有数据,tez读不到数据问题。2、解决tez有数据,spark读不到的问题。– 问题SQL:没有数据也会创建分区元数据。4、解决无数据创建分区的问题。递归子目录作为输入,得开启。
2026-01-06 12:41:16
295
原创 doris资源管理
query_be_memory_bytes:一个SQL在单个BE进程内使用的内存用量,如果这个SQL在BE上是多并发执行,那么就是多个并发的累加值,单位是字节。be_scan_bytes:一个SQL在单个BE进程内scan的字节数,如果这个SQL在BE上是多并发执行,那么就是多个并发的累加值,单位是字节。be_scan_rows:一个SQL在单个BE进程内scan的行数,如果这个SQL在BE上是多并发执行,那么就是多个并发的累加值。“tablet_num” = “200”, #扫描超过指定分桶数。
2026-01-06 12:39:04
342
原创 AI认知学习
大模型(认知) --> Agent框架/平台(记忆+工具+规划)行成“目标-拆解-执行-反馈”的自主闭环 --> AI工具/应用(具体场景:写代码、画UI、做客服、跑流程)ReAct 框架:思考 (Reason) -> 行动 (Act) -> 观察 (Observation) 的闭环推理。长期记忆 (Long-term):通过向量数据库(Vector DB)存储用户偏好、历史任务,实现跨会话记忆。Plan-and-Execute:先规划 (Plan) 再执行 (Execute),适用于复杂任务。
2026-01-06 12:37:06
410
原创 hive小文件合并textfile&parquet
export PARQUET_TOOLS_PATH=/opt/cloudera/parcels/CDH/lib/parquet-tools/parquet-tools-1.9.0.jarjava -jar merge.jar hdfs://namenode:8020 /tmp/999testall/ /tmp/999testall/ text 20241220000001java -jar merge.jar hdfs://namenode:8020 /tmp /tmp/all.parquet parque
2026-01-05 15:48:23
151
原创 doris运维命令
当该属性为 -1,含义是不生效,此时在BE上的实际取值为BE配置中的doris_scanner_thread_pool_thread_num。cpu_hard_limit:CPU硬限制模式下生效,WG最大可用CPU百分比,WG的最大CPU用量都不能超过cpu_hard_limit,所有WG的cpu_hard_limit累加值不能超过100%。默认值为0,含义是不排队。remote_read_bytes_per_second:含义为读Doris外表时的最大IO吞吐,默认值为 -1,不限制IO带宽。
2025-12-15 16:36:00
265
原创 Workload Group和Resource Group两种资源管理方案协同
设置user1这个用户执行的查询,只使用新资源组中的节点,同样会受到其所在BE节点上Workload Group策略的管控。1-将新数据分布在特定资源组,建表时通过replication_allocation属性指定。– 添加新的后端节点,并划入名为“new_servers”的资源组。2.1数据分布:通过修改表的属性,为其在新资源组中分配副本。原有的Workload Group资源划分不会受到影响。2.2查询路由:将特定用户或任务的查询绑定到新的资源组。2-为现有表在新资源组增加一个副本。
2025-11-24 11:32:38
169
原创 flink/spark/hive 使用paimon
Spark on Hive(kyuubi)使用paimon。Spark Jar使用paimon。Flink使用paimon。
2025-11-22 11:11:19
469
原创 flink-paimon建表建议
小文件合并策略,当存在10个level 0级文件则触发minor合并。string comment ‘月分区’,– 设置分桶 单个分桶文件建议大小200M -1G,根据数据量调整。– 依照时间字段去重(新数据更新老数据) 根据业务调整。– 快照最多保留个数 根据业务调整。– 快照保留1天 根据业务调整。– Hive HMS分区同步。
2025-11-18 14:12:01
334
原创 AI写的killyarnjob代码!
#!/bin/bash#set -xsource /etc/profilekinit -kt /etc/security/keytabs/smokeuser.headless.keytab ocdp-goertekvn@GOERTEK.VNPRIMARY_NODE=“vn-ns-bpit-dp-nn-17-6”SECONDARY_NODE=“vn-ns-bpit-dp-nn-17-7”PORT=“8088”check_node_availability() {local node=1ifcurl−−
2025-10-30 08:22:02
231
原创 rule规则双向识别
RULE:s/./ocdp/RULE:s/@.//RULE:s/./ocdp/RULE:s/@.//RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/RULE:s/./ocdp/
2025-09-27 13:56:29
439
原创 CDH 增加动态队列
d.提交访问控制:配置用户权限,配置哪些用户有权限提交任务,注意用逗号分隔(可默认不配);(1)default:默认池,没有划分资源池的用户会提交到default资源池。users池配置跟default基本一样,唯一区别是权限控制所对应用户有所调整。e.管理访问控制:配置用户对资源池的管理权限,注意用逗号分开(可默认不配);a.这里权重为10%,default:users 资源成1:9;2、CDH动态资源队列配置,根据用户的资源队列管理。(2)users池:特定用户提交任务到该池。
2025-08-01 08:37:43
219
原创 浏览器访问kerberos集群webUI详细配置
将其值设置为Kerberos客户端的gssapi32.dll(32位)或gssapi64.dll(64位)的完整路径: C:\Program Files\MIT\Kerberos\bin\gssapi64.dll。按下Win + R,输入cmd,然后按回车,查看type C:\ProgramData\MIT\Kerberos5\krb5.ini。按下Win + R,输入cmd,然后按回车,查看type C:\Windows\System32\drivers\etc\hosts。
2025-07-29 16:49:20
671
原创 配置yarn进行用户只能看到自己的job
配置yarn进行用户只能看到自己的job:在yarn-site.xml 中增加yarn.webapp.filter-entity-list-by-user=true。
2025-07-29 11:28:26
166
原创 nifi 访问Kerberos的kafka集群
data12/nifi/nifi-1.28.1/bin/nifi.sh restart # 重启(需滚动执行)/data12/nifi/nifi-1.28.1/bin/nifi.sh status # 查看状态。首先添加ExecuteSql处理器,用来从MySQL中读取数据。接着右键configuration进行配置:configure。1、添加读取MySQL数据的处理器-ExecuteSql。添加一个数据源:dbcpconnectionpool。2、添加数据转换处理器-ConvertRecord。
2025-07-28 20:03:24
269
原创 kafka开启Kerberos使用方式
开启debug: export KAFKA_OPTS=“-Dlog4j.debug=true -Dkafka.logs.dir=/path/to/logs”
2025-07-28 19:20:57
495
原创 CDH yarn 重启后RM两个备
若输出只有[ActiveBreadCrumb](正常应有[ActiveBreadCrumb, ActiveStandbyElectorLock])setAcl /rmstore/ZKRMStateRoot/RMAppRoot world:anyone:rwcda # 开放权限。deleteall /rmstore/ZKRMStateRoot/RMAppRoot # 再次删除。getAcl /rmstore/ZKRMStateRoot/RMAppRoot # 查看ACL。
2025-07-24 21:47:13
263
原创 IT技术趋势调研
https://www.caict.ac.cn/kxyj/qwfb/bps/ 信通院。三大研究咨询机构:forrester Gartner IDC。
2025-07-11 14:22:25
104
原创 nifi1.28.1集群部署详细记录
NiFi 1.28.1 必须使用JDK 1.8或更高版本,低于此版本将无法运行。验证命令:java -version配置一定用主机名!!!
2025-06-30 08:09:42
1015
原创 cloudera manager 页面启动nodemanager失败,后端没有启动 8040
2、nm重启会去cache里面 recovering任务,但是这些任务已经过时导致一直起不来,解决办法就是删除这些cache!nodemanager异常失败后,cloudera manager页面启动nodemanager失败,后端没有启动8040。问题分析:查看日志hadoop-cmf-yarn-NODEMANAGER-IT-CDH-Node36.log.out 发现。进程OOM,8042端口注册不上!1、由于这台机器上跑大任务,导致内存不足,报警写到/tmp目录下,产生很多大文件,进而导致磁盘不足!
2025-06-18 13:34:25
370
原创 crontab 定时任务不执行问题排查
export PATH=/usr/local/spark/bin:$PATH # 手动添加路径。*/5 * * * * sh /data03/jq/sparkjob.sh 定时任务不执行!Cron 环境变量与用户Shell不同,可能导致脚本中命令找不到。source /etc/profile # 加载系统环境变量。Cron默认丢弃输出,错误信息无法查看。
2025-05-16 13:58:05
368
原创 jq安装与使用
jq使用:https://www.cnblogs.com/liugp/p/17613011.html。1、https://jqlang.org/ 下载jq-linux-amd64。3、上传jq-linux-amd64至/usr/local/jq目录下。2、新建目录/usr/local/jq。
2025-05-15 15:57:26
406
原创 kafka topic 的leader为none问题处理
Kafka zookeeper.session.timeout.ms 30000 Kafka 与 ZooKeeper 会话超时时间。Kafka controlled.shutdown.enable true 确保 Broker 关闭前迁移 Controller。修改zookeeper.session.timeout.ms 为60s,重启broker后恢复。ZooKeeper maxSessionTimeout 60000 最大会话超时时间(毫秒)
2025-04-17 17:29:35
296
原创 hugegraph搭建及使用
查找子树,查找从一个节点出发,到叶子节点结束的所有路径,这些路径的集合为一颗子树(子图)#查询顶点,一般作为图查询的第1步,后面可以续接的语句种类繁多。#查询所有关联的边及相邻顶点(路径模式)查找从节点出发的所有路径(到叶子节点)#根据属性查顶点,需要建立索引。#查询所有顶点的id。
2025-04-15 15:44:10
512
原创 yarn任务临时目录暴增问题处理
tmp/hive/hive/97bed9ea-95f7-4ddd-aeed-6dda3e611684(UUID标识符,这是Hive会话或查询的唯一标识符,可用于关联日志。由于日志暴增,会导致hdfs占用暴增,可能导致集群崩溃!yarn任务临时目录暴增问题。
2025-04-15 11:17:45
199
原创 doris-streamloader 导数验证
curl --location-trusted -u admin:XXX -H “Expect:100-continue” -H “column_separator:,” -H “columns:id,domain,project_name,pn_code,wo_code,line_code,line_name,process_code,process_name,section_code,section_name,station_code,station_name,user_code,assess_r
2025-04-07 16:40:37
486
原创 dataX运行原理学习
求出 TaskGroup 的数量之后,就会执行公平分配策略,将 Task 平均分配个每个 TaskGroup,最后执行调度,完成整个同步作业。Task:根据不同数据源的切分策略,一个Job会切分为多个Task,Task是DataX作业的最小单元,每个Task负责一部分数据的同步工作。Framework:用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。假设 A 库有表 0、1、2,B 库上有表 3、4,C 库上有表 5、6、7,如果此时有 4 个。
2025-04-07 11:49:21
636
原创 hive通过元数据库删除分区操作步骤
删除分区参数(PARTITION_PARAMS,如果有)– 删除分区键值(PARTITION_KEY_VALS)– 可选:删除统计信息(PART_COL_STATS)2、 查询分区的PART_ID和SD_ID。– 删除存储描述(SDS,确保无其他引用)– 删除分区记录(PARTITIONS)1、查询分区的DB_ID、TBL_ID。– 根据分区键值查找PART_ID。– 获取数据库ID-26110。–第二个分区键month的值。–第一个分区键year的值。–第三个分区键type的值。
2025-04-07 11:15:01
612
原创 iptables只允许指定网段的ip访问某端口配置
yum install -y iptables-services #安装systemctl restart iptables.service #重启防火墙使配置生效systemctl enable iptables.service #设置防火墙开机启动systemctl disable iptables.service #禁止防火墙开机启动iptables -F 清除所有链的规则。
2025-04-02 15:47:57
1429
原创 doris 用户连接数限制问题
通过 SHOW PROPERTY FOR ‘Billie’ LIKE ‘%max_user_connections%’;通过 SET PROPERTY FOR ‘Billie’ ‘max_user_connections’ = ‘200’;用户同一时间点可使用的 instance 个数, 默认是-1,小于等于0将会使用配置 default_max_query_instances.
2025-04-02 11:49:28
1986
1
原创 Spark任务AM复用导致任务混乱
yarn.resourcemanager.am.liveness-monitor.interval-ms =1000 --RM检查AM存活状态的时间间隔(单位为毫秒,默认1s)。yarn.am.liveness-monitor.expiry-interval-ms = 1000 --AM在无响应后判定为失效的时间阈值(单位为毫秒,m默认10分钟)。spark-submit 增加参数。
2025-03-12 11:35:56
336
原创 initial executor number 10 must between min executor number 1 and max executor number 8 问题处理
1、静态 Executor 数量分配(禁用动态分配)2、动态资源分配(启用动态分配)
2025-03-10 16:30:37
154
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅